Doğal dil işlemenin ticari inişini keşfedin: temel platformdan veri algoritmasına CCF-GAIR 2018

Leifeng.comun AI teknolojisi inceleme notu: 2018 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR) Shenzhen'de düzenlendi. Zirveye Çin Bilgisayar Topluluğu (CCF) ev sahipliği yaptı ve Leifeng.com ile Hong Kong Çin Üniversitesi (Shenzhen) ev sahipliğinde Baoan Bölge Hükümeti sponsor oldu. Güçlü rehberlik, yerli yapay zeka alanındaki en güçlü sınır ötesi değişim ve işbirliği platformunu oluşturmayı amaçlayan, yerli yapay zeka ve robotik, endüstri ve yatırımın üç ana alanında en iyi değişim etkinliğidir.

CCF-GAIR 2018, 1 ana mekan ve 11 özel oturum (biyonik robotlar, robotik endüstrisi uygulamaları, bilgisayarla görme, akıllı güvenlik, finansal teknoloji, akıllı sürüş, NLP, AI +, AI çipleri, IoT) sağlayarak önceki iki oturumun en üst sırasını sürdürüyor. Yatırımcılar için zengin platform), üç sektörden katılımcılara üretim, eğitim ve araştırmanın çeşitli boyutlarından daha ileriye dönük ve pratik bir konferans içeriği ve yerinde deneyim kombinasyonu sunmayı amaçlamaktadır.

Üçüncü gün sabah saatlerinde yapılan doğal dil işleme oturumunda, harika konferans raporu ve açılış konuşmasının ardından iş dünyasından dört konuk, uygulamadaki teknik kazanımlarını dinleyicilerle paylaştı ve yuvarlak masa tartışmasında doğal dili konuştu. İnişin zorlukları ve uygulamanın geleceği ile başa çıkın. Aşağıda yuvarlak masa oturumunun tam metni yer almaktadır: Leifeng.com, asıl amacını değiştirmeden düzenledi ve organize etti.

Yi Xin: Günaydın izleyiciler ve misafirler. Ben Leifeng.com'un AI Technology Review'in baş editörü Yi Xin. NLP özel yuvarlak masa toplantısına ev sahipliği yapmaktan onur duyuyorum. Çok sayıda konferans raporu ve açılış konuşması dinledik ve ayrıca NLP'nin akademik cephesini de anladık Yeterli ve derin bir algıyla, doğal dil işlemenin ticari uygulamasını daha derinlemesine bir perspektiften anlayacağız, bu aynı zamanda bu yuvarlak masa forumunun da temasıdır.

Dört yuvarlak masa konuğu: Yunfu Technology'nin kurucusu ve CEO'su Zhang Wenbin; Bamboo Smart CTO'su Weng Jiaqi; China Taiyue Big Data'nın Başkan Yardımcısı Zhang Ruifei ve Bo Yan RSVP.ai'nin kurucu ortağı Xiong Kun.

Öncelikle, her konuğu beş dakika içinde bir teknolojiyi paylaşmaya davet edin. Öncelikle, lütfen alkışlayın: Yunfu Technology'nin kurucusu ve CEO'su Bay Zhang Wenbin; Yunfu Technology, dünyanın önde gelen Çinli semantik teknoloji hizmet sağlayıcısı olmaya kendini adamıştır. Temel araçlar NLP araçlarını içerir. Paket, bilgi grafiği, metin madenciliği ve diyalog vb.

Zhang Wenbin: Herkese merhaba! Ben Yunfu Technology CEO'su Wenbin Zhang. Davet için Lei Feng.com'a ve Öğretmen Liu'ya minnettarım.Yunfu Technology'nin NLP ticarileştirme anlayışını ve bazı keşif çalışmalarını burada tartışabilirim.

Yunfu Technology, Ağustos 2017'de kurulan ve işletmeler için doğal dil işleme teknolojisi çözümleri sağlamaya odaklanan bir başlangıç şirketidir.Girişimci ekip, BAT'ın NLP ekibinden gelir ve Harbin Teknoloji Enstitüsü Sosyal Hesaplama ve Bilgi Erişim Merkezi'nin teknolojisi bize yatırım yaptı. Harbin Teknoloji Enstitüsü Yapay Zeka Araştırma Enstitüsü dekan yardımcısı Profesör Liu Ting, baş bilim adamı olarak görev yapıyor. Şu anda, iFlytek, Baidu ve Tencent gibi ortaklar da biriktirmiştir.

Öncelikle NLP'nin özelliklerinden bahsedeyim NLP'nin en önemli özelliklerinden biri de birçok gereksinim olmasıdır NLP'nin özü dili ve metni işler ve gereksinimler çok geniştir. Bu, hayatın her kesiminden müşterilerin ortaya koyduğu gerçek taleptir ve NLP'nin ilk özelliği olan birçok görev vardır. İkinci önemli özellik, NLP'nin çok zor olmasıdır. Bu, her dakika NLP uygulayıcılarını öldüren topladığımız vaka. Örneğin, "müdür kıyafetlerin üzerinde okul rozetinden başka bir şey olmadığını söyledi." Bilgisayarı anlamak çok zor olacak. Bir başka örnek de bu limericks şiiridir, kelimelerin hepsi aynıdır.Sırayı değiştirirseniz anlamı tamamen farklıdır. Uygulayıcılara büyük zorluklar çıkaran Çin dili geniş ve derindir.

Şimdi ticarileştirmeye bakalım, ticarileştirmenin özü önce karlılık, ikincisi ise büyük ölçekte karlı olmalıdır.Bu aynı zamanda startup şirketlerinin yapmak istediği en temel şeydir. Yapay zeka alanındaki start-up'ların kar elde etmeleri için iki ana yön vardır: doğrudan tüketicilerle yüzleşmek için toC ve işletmelerle yüzleşmek için B Yunfu Technology toB'yi seçti, döngü nispeten kontrol edilebilir ve gelir elde etmek daha kolay. Büyük ölçekli karlılık için iki yön vardır: Başlangıç şirketleri, belirli endüstrilerde büyük ölçekli kullanıcılar olabilmeleri ve büyük siparişler verebilmeleri için sektörün derinliklerine inmek ve dikey endüstri uygulamaları yapmak için en iyisini seçerler. Bu, yatırımcıların tanıdığı tek yön ve yöndür. . Ayrıca, farklı sektörlerdeki müşterilere ürün sağlamak için yeterince temel olduğu için temel bir teknoloji platformu oluşturmak olan başka bir yön görüyoruz.Siparişler nispeten küçük, ancak müşteri sayısı daha geniş. Bu yön aynı zamanda büyük ölçekli karlar da sağlayabilir. etki.

Sektöre ilişkin yargılarımız da dahil olmak üzere ekibimizin özelliklerini birleştirdiğimizde, NLP'nin teknik olarak çok zor olduğu bir nokta daha var: Daha önceki öğretmenler akademik dünyadan etki yarattı çünkü birçok görev var ve birçok gösterge% 70 veya% 80 aşamasındadır. Genel temel teknoloji platformunun birçok görevi istenen etkiyi vermedi, bu nedenle Yunfu Technology temel teknoloji platformunda iyi bir iş çıkarmayı seçti. Başlangıç şirketinin özü yeni modeller ve algoritmalar önermektir. Akademi'deki en iyi modelleri ve algoritmaları birleştiriyoruz. Mühendislik ve veri perspektiflerinden, etki istenen seviyeye kadar optimize edilir.

Sonunda, stratejimiz şu şekilde özetlenir: "Önce yatay, sonra dikey, aşağıdan yukarıya" - ilk yatay, düşük seviyeli teknoloji platformu ve daha sonra birçok yapay zekadan farklı olarak dikey, üst seviye endüstri uygulamaları Başlangıç şirketi oyunu.

Bu bizim mevcut teknik ürün mimarimizdir.Alt katman Yunfu doğal dil işleme platformudur, orta katman metin madenciliği platformudur ve üst katman, işletmelere çeşitli akıllı bilgi işleme çözümleri sağlayan kurumsal akıllı bilgi işleme platformudur.

NLP, büyük zorlukları ve büyük değeri olan çok ilginç bir alandır.Yunfu Teknolojisi keşfetmek için acele ediyor ve NLP alanındaki sonsuz olasılıkları keşfetmek için bize katılmaya istekli arkadaşlar. hepinize teşekkür ederim!

Yi Xin: Harika konuşması için çok teşekkür ederim Bay Zhang. Daha sonra, Takema Intelligence CTO'su Bay Weng Jiaqi'yi davet edeceğim Bay Weng Jiaqi, Takema Intelligence'ın yapay zeka alanındaki ürün geliştirme ve teknik planlamasından sorumludur. Diyalog robotları, bilgisayar görüşü, finansal teknoloji ve diğer alanları kapsar.

Weng Jiaqi: Herkese merhaba, benim adım Weng Jiaqi. Şirketimiz ağırlıklı olarak duygusal hesaplama ve metin analizi, doğal anlamsal anlama ve duygusal hesaplama alanlarında faaliyet gösteriyor. Diğerlerinden farkı, sadece metin duyguları değil, aynı zamanda konuşma duyguları ve ifadeleri de yapmamızdır. Örneğin, üniversiteye giriş sınavından hemen sonra, "Üniversiteye giriş sınavında 500 puan aldım" yazısını görürseniz, şu anda beni tebrik etmeli veya teselli etmeli misiniz? Aslında bilmiyorsunuz, konuşmamın tonuna bağlı.

Şirketimizin kurucusu Kenny, daha önce Microsoft Mühendislik Akademisi'nin Bing, Xiaobing ve Xiaona'dan sorumlu dekan yardımcısıydı. Eskiden bir arama motoruydum. Şirketteki meslektaşlarımın çoğu da arama motorlarından geliyordu. Yapay zeka yapan birçok insan bulacaksınız. Hepsi arama motoru şirketlerinden geliyor.

22 çeşit gerçek duygu var, 22 çeşit biraz fazla, en azından olumsuz duygular, tiksinti, öfke, üzüntü ve korku ayrılmalıdır.Korkuyorum, üzgünüm ve kızgınım.Hepsi olumsuz duygular olsa da insan-bilgisayar etkileşimi geri bildirimleri farklı olmalı. 9 yüz ifadesi ve 4 sesli duygu yaptık ve bunları birleştirdik.

Bir örneğe bakalım. Bu, iki yıl önceki en ünlü video. Sol üst köşe yüz ifadesi, sol orta ses duygu ve sol alt köşe metin duygusu. Fu Yuanhui, "Avustralya'da eğitim çok zor. Ben zaten hızlıyım. O öldü, yaşamak ölmekten daha iyidir. "Metne kızgın olabilir. "Hayalet neler yaşadığımı biliyor, çok yorgunum." Metin zor, ama yüz ifadeleri ve ses duyguları değil, bu yüzden özetle mutluyum. Bu videoyu kaç kez izlerseniz izleyin çok mutlu olacaksınız.

Şu anda ağırlıklı olarak finans, e-ticaret, IoT ve operatörler alanlarında faaliyet göstermekteyiz. Şirket yaklaşık üç yıldır kurulmuştur. Teknik cilalamanın ilk yılı dışında, müşterinin iniş projelerini daha sonra yapıyoruz. Paylaşmak istediğim şey mevcut iş gücü Zeka, tek bir alandan tek bir alana bölünmelidir.Önce külliyat toplamak için o alana gidin ve hangi problemleri çözmeliyim? Bu tür problemler için neleri çözebilirim? Örneğin, bir otel rezervasyonu yaparsam, bugün bir otel rezervasyonu yaptırmak istiyorum. "Marriott Hotel'in yanında ekspres otel rezervasyonu yapmak istiyorum" diyebilirim. Anahtar bir kelime seçersem, sanırım bir Marriott oteli ayırtmak istiyorum. Başka bir örnek olarak, yemek sipariş ederken, yedi veya sekiz yetişkin artı iki çocuğum var, yedi veya sekiz yetişkin yetmiş sekiz veya sekiz mi? Başka bir örnek "ne zaman" dır? Saat altı ya da yedi, hayır, hayır, hayır, sadece sekize değiştir. Peki saat kaç?

Bilişimize göre, gelecekte herkesin kendi robotuna sahip olacağını umuyoruz. Robotunuz sizi anlayabilir ve hatırlayabilir. Bileziğe veya robota "Bir paket yemek sipariş etmeme yardım edin, açım" dedim. Hatırlayabilir Ne yemeyi sevdiğimi, neleri sevmediğimi ve dün ne yediğimi ve bir önceki gün ne yediğimi biliyor, bu yüzden kopya sipariş etmeyin. Her şirketin akıllı müşteri hizmetlerine cevap verebilecek bir yemek robotu olmalıdır. Gelecekte robotlarla da iletişim kurabiliriz. Örneğin, bileziğe "Big Mac sipariş etmeme yardım et" dediğimde bunun bir McDonald's ürünü olduğunu biliyor. Bir McDonald's robotu bulacak ve iki robot benimle konuşup işimi yapmama yardım edecek.

Yi Xin: Bay Weng Jiaqi konuşması için çok teşekkür ederim. Ardından, Çin'in Taiyue kentindeki Büyük Veri Başkan Yardımcısı Bay Zhang Ruifei'yi davet ediyorum Bay Zhang Ruifei'nin büyük veri ve yapay zeka konusunda on yıldan fazla deneyimi var Bize ne tür bir teknoloji paylaşımı getirecek? Bay Zhang Ruifei, lütfen.

Zhang Ruifei: Bugün size Shenzhou Taiyue'nun doğal dil işleme ticari uygulamasının düşüncesini bildireceğim. Ticari iniş söz konusu olduğunda bir sorundan bahsedebilirsiniz, yani birkaç çelişkiyi çözmemiz gerekiyor.Bu konferanstaki bu iki yıllık piyasa eğitimi ve eğitiminden sonra, herkes yapay zekanın, özellikle bilişsel bilim alanında, artık emekleme döneminde olduğunu biliyor. . İlk aşamada inmek istiyorsanız, bu, müşterileri para toplamak için yönetmeniz gerektiği anlamına geliyor, bence bu ilk çelişki. İkinci çelişki ise, maliyet ile fiili sonuçlar arasındaki dengeyi çözmemiz gerektiğidir.Teoride, yeterince maliyet yatırdığınız sürece, yapay zekanın etkisi daha iyi olacaktır, ancak en iyi değere sahiptir. En iyi değerin nerede olduğunu bulun. Üçüncüsü, algoritma mühendisliği ile temel algoritmalar arasındaki seçimi çözmemiz gerektiğidir.Algoritma mühendisliğinde çözmek istediğimiz problemler, temel algoritmalarda yaptığımız optimizasyon araştırmaları ile birleştirilir.

Kamu güvenliği alanındaki örneğimizi size söyleyelim. Sanırım buradaki herkes aynı fikirde. Algoritma, veri ve hesaplama gücünün üç verisini çözdüğünüzde, önce Tencent'ten Bay Zhong Li de dahil olmak üzere verileri almalısınız. Misafirlerin az önce söylediği gibi, içeriği oluşturmadan önce içeriği önceden işlememiz gerekiyor.Alarm olayıyla başlayın ve pano boyunca 4 milyon örnek işaretleyin.Bu temelde, önceden çıkarılabilen ve hesaplanabilen, alana özgü kelime vektörleri yapacağız. , Kamu güvenliği metin kapsama oranının% 99 genelleme kabiliyetine ulaşabiliriz Bu ilk adımdır.

İkinci adımda bu içerik yeterli değildir.Bu içerik sadece mühendisliğin temelidir, algoritmanın bu alana uygulanabilmesi için tüm algoritmaların temeli ve köşe taşıdır, ancak adres problemi gibi yeterli olmaktan uzaktır. Adres çıkarma, adres üzerinde daha fazla ikincil işleme, 110 boyutta yaklaşık 1,9 milyon adres topladık ve sıraladık, adres atama, adres tahsisi, kamu güvenliği ile entegrasyon vb. Bu mühendisliktir. İkinci adım, maliyet etkinliği arasında nasıl seçim yapılacağıdır. Adrese ek olarak, tamamı ikincil işlem gerektiren suçun işlenme yolları, şüpheli, şirket adı, kişinin adı vb.

Üçüncüsü, transfer öğrenmenin içeriğini göz önünde bulundurmalıyız.Geçmişte, aynı polis içeriğini farklı bölgelerde eğitirken, her vaka 5000 örnek sağlamak zorundaydı. Transfer öğrenme yinelemesi yoluyla, örnek sayısı sürekli olarak 5000'den 100'e düşürülebilir. Örnek model mühendisliği için genelleştirilmiş ve sonunda bu sayının onlar veya tek haneye indirileceğine inanıyorum.

Bu yeterli değil, iki yönlü LSTM tüpleri oluşturmak için derin öğrenme ağlarını kullanabilir ve eleman çıkarımı veya anlamsal yapı çıkarma eğitimi için CRF ile işbirliği yapabiliriz. Ama yine de yeterli değil. Zorluk, bazı algoritmaları nasıl optimize ettiğimiz ve geliştirdiğimizde yatıyor. Dikkate alınabilecek yönlerden biri, mevcut insan bilgi yapısını ve dil yapısını derinlemesine öğrenmeyle entegre etmektir. Entegrasyon yoluyla,% 5-15 olabilir. % Doğruluk iyileştirme, bu adım çok önemlidir, bu adım, algoritmanızın uygulandığında kullanılabilir olup olmadığını belirler.

İşte bir örnek, ancak bu örnekle sınırlı olmaktan uzaktır.Füzyon hakkında konuştuğumuzda genellikle iki yöntem vardır.Bir yöntem, algoritma mühendisliğinde füzyondur.İşte algoritma mühendisliğinde bir füzyon örneği. Kavram birimini koyduk, Sonlu ve sonsuz arasındaki felsefi ilişkiyi gerçekleştirmek için Mark 3192 cümle kategorileri, bağlam birimleri ve bellek Kavram sonsuzdur, ancak kavramsal birim sonludur.Cümle sonsuzdur, ancak cümle kategorisi sonludur. Sonsuzdur, ancak bağlam birimi sonludur. Mevcut yapılandırılmış bilgiyi veya grafiğin bilgi yapısını yani insan beyni tarafından analiz edilebilen bilgi yapısını doğrudan sinir ağına entegre ediyoruz, algoritma uygulandığında doğru olması için algoritmaya uyarlıyor ve koordine ediyoruz. Kullanabileceğiniz çok yüksek etki, para kazanmanın temelidir.

Bu yeterli değil.Büyük veri teknolojisini, grafik teknolojisini ve süreç teknolojisini birleştirmemiz gerekiyor ama herkese hatırlatmak istediğim şey büyük veriyi bir mühendislik ekibiyle entegre edip edemeyeceğimizdir.Büyük veri hakkında düşünmemiz ve manuel iş yapmamız gerekiyor. Akıllı nedir ve ne uygulanır? Birleştirin.

Çin Bilgi Toplumu ile işbirliği yaptık ve Pekin Normal Üniversitesi ile açık kaynaklı bir dizi kelime ön vektör seti sağladık. 50G toplam metin hacmi ile şu anda dünyadaki en kapsamlı metin ön vektör setidir. Ayrıca Çin Bilgi Derneği ile bir ekolojik işbirliği ittifakı kurduk.İşbirliği sürecinde işbirliği yapmalı ve birlikte büyümeliyiz.Ayrıca Çince derinlemesine bir anlamsal platform yayınladık.Herkesin birleşip NLP uygulamasını gerçek sanayileşme ve pratikliğe getireceğini umuyoruz. sahne. Hepinize teşekkür ederim!

Yi Xin: Bay Zhang Ruifei'ye konuşması için teşekkürler. Ardından, RSVP.ai'nin kurucu ortağı Bo Yan'ı davet ediyorum, CTO Xiong Kun. Bay Xiong Kun, Tsinghua Üniversitesi Bilgisayar Bilimleri Bölümü'nden mezun olduktan sonra University of Waterloo'da okudu. On yıldan fazla bir süredir derinlemesine anlambilimsel analiz ve insan-bilgisayar diyaloğu araştırmalarına odaklandı.

Xiong Kun: Şirketimizin adı Bo Yan ve İngilizce'nin adı RSVP.ai. RSVP, Fransızca bir kısaltmadır.İfadenin anlamı cevabınızı almaktır.Şirketimizin asıl amacı, makinenin dili anlamasına izin vermek ve otomatik olarak insanların dil hakkında bir şeyler yapmasına yardımcı olmaktır.

Makine öğrenimi teknolojisini geliştiren ve B tarafı ve ortak şirketleri hızlandırmak için doğal dilde derinlemesine analiz hizmetleri sunan bir şirketiz. Şirket 2013 yılında Kanada'da kurulmuştur. Bir diğer kurucu ortak, Kanada, Waterloo profesörü ve Kraliyet Bilimler Akademisi üyesidir. 2012'de Kanada'nın en yüksek bilim ödülü KillamPrize'i kazandı. Bu ödül herkese tanıdık gelmeyebilir. Ancak tanınmış Geffory Hinton ödülü 2014'te ve Bay Li Ming 2012'de kazandı. Bo Yan RSVP, Tsinghua Üniversitesi Bilgisayar Bilimi ve Teknolojisi Bölümü'nün desteğini aldı. Profesör Zhu Xiaoyan ve Bölüm Dekanı Profesör Sun Maosong'a teşekkürler. İlk günlerdeki yetenek havuzumuz da Tsinghua ve Waterloo arasındaki değişim programıydı.

İlk günlerde İngilizce araştırmaları yapıyoruz ve son yıllarda Çin pazarına taşındık. Ekip şu anda ağırlıklı olarak Kanada ve Çin'de. Bay Li, Cornell Üniversitesi'nden mezun oldu. Diğer ekip üyeleri çoğunlukla Tsinghua Üniversitesi, Waterloo Üniversitesi, Peking Üniversitesi, Huazhong Bilim ve Teknoloji Üniversitesi ve Google'dan.

Şu anda ne yaptığımızı kısaca tanıtın. Biri görev tabanlı NLU ve şu anda sunduğumuz hizmetler de bu tür hizmetler. Bu, akıllı bir ev ortamında bir film sorgu analizidir. Sağdaki resim, bunu Xiaomi akıllı TV'de yapmanın bir örneğidir.

PPT'nin bu sayfası aslında daha fazlasını anlatmak için tasarlanmıştı. Şirketimizin araştırmacıları temel derin öğrenme araştırmalarına, özellikle de uçtan uca daha fazla bilginin nasıl tanıtılacağına çok fazla enerji harcayacaklar. Analiz ederken, derin öğrenme ağının yalnızca Olasılık dağılımı, ayrıca gramer ifade problemini çözebilecek grafik benzeri bir yapı vermeyi umuyoruz.Herkes bağlamdan bağımsız dilbilgisinin bilgisayar hesaplamalarında teorik olarak hesaplanması zor birçok problemi olduğunu bilir, bu yüzden derleme algoritması üzerinde çok çalışmamız gerekir. Bazı ilerlemeler kaydedildi ve araştırmalar halen devam ediyor. Dikey alanda daha iyi sonuçlar elde etmemize yardımcı olmak için genel modeli daha büyük külliyat haline getirmek için çok çalıştık Görev tabanlı doğal dil analizi temelde bunu yapar.

Diyaloğu anlamak aslında daha zor bir sorundur çünkü insanlar genellikle herkesin bildiği bazı bilgileri veya daha önce söylenen bilgileri atlarlar. Bunu yapmak için artık derinlemesine öğrenme ağlarını uçtan uca kullanıyoruz. Çoğu durumda, çok zor olabilir. Bazı geleneksel NLU sistemlerine bağlanmak kolaydır.Bu NLU birimlerinin bağlama çok fazla dikkat etmesine gerek yoktur.Örneğin, bu örnekte konu Jiuzhaigou ve çok fazla insan yok.Tek cümleleri tamamlayabiliriz. Bu uçtan uca ağ, makine okuma anlayışına benzer bir yapıyla tasarlanmıştır ve makale henüz gönderilmiştir.

Bo Yan, eski şiirler yapmak için de kullanılabilir.Makinemiz, Teacher Sun gibi edebi bir bakış açısıyla başlamaz. Esas olarak, GAN, RNN ve VAE gibi Çince'deki çeşitli nesil ağlarının üretim etkisini ele alır. Makale, IJCAI 2018'de yayınlandı, Bu ağ, bazı temaları oluşturmak için daha az parametre ve bilgi kullanabilir ve ayrıca Tibet kafaları, yedi karakterli ritim şiirleri ve beş karakterli ritim şiirleri yapabilir. "Nuan Nuan" adlı "Dokuz Şarkı" ya benzer bir sistemimiz var, Şiirin etkilerini deneyimlemek için Bo Yan Doudou'yu WeChat'te de takip edebilirsiniz.

Şu anki misyonumuz manuel etiketlemeyi büyük ölçüde azaltmaktır.Sadece etkileşimli arayüzler dahil model algoritmaları değil, mevcut doğal dil platformu kullanıcıların NLU'yu tanımlamasına olanak tanır.Gelecekte, şirket enerjisinin yarısından fazlasını temel makine anlayışı ve doğal Dil çerçevesi açısından, gelecekteki hedef, çerçeve modeline ilişkin çok katmanlı bir anlayış oluşturmaktır.

Herkese teşekkürler ve bir sonraki tartışmayı dört gözle bekleyin.

Yi Xin: Bugün, doğal dil işlemenin ticari uygulamasında herkes çeşitli konular hakkında konuşacak.Son yıllarda, iki taraf arasındaki iletişim köprüsünü köprüleme umuduyla, endüstri ve akademinin entegrasyonu giderek daha sık hale geldi.

2018, doğal dil işleme teknolojisi için büyük bir sıçrama yılıdır.Örneğin, Ali, Microsoft, Harbin Institute of Technology ve Xunfei Ortak Laboratuvarı insan düzeyini art arda kırdı. NLP teknolojisinin gelişimi yeni bir kilometre taşına ulaştı ve insanların bunun için yeni beklentileri var. Ve güven. Akademisyen Zhang Bo'nun ana konferansın ilk günündeki raporunda, Akademisyen Zhang Bo konuşmasında bir tablo gösterdi.Yatay eksen tek alandan, çok alandan açık alana kadar alanın genişliğini temsil ederken, dikey eksen kesinliği ve Doğal dil işlemenin en zor konumda olduğu belirli alanlardan belirsiz alanlara, eksiksizden eksik bilgiye kadar tamlık. Daha sonra, dört yuvarlak masa konuğunu bizimle doğal dil işlemenin teknik zorlukları ve uygulama zorlukları hakkında sohbet etmeye davet ediyorum.Lütfen sahneye gelin.

İlk soru, konuşma tanıma ve yüz tanıma araştırma alanının nispeten hızlı olmasıdır NLP teknolojisi hala mükemmel değil Konuklara sormak isterim, teknolojide kapatılması gereken boşluklar nelerdir?

Zhang Wenbin: NLP teknolojisi şu anda nispeten olgunlaşmamış bir aşamadadır, çünkü görevleri çok sayıda ve karmaşıktır. Kelime segmentasyonu nispeten olgunlaşmıştır ve test külliyatındaki doğruluk oranı% 97'den fazla olabilir. Böyle olgun bir kelime segmentasyonu teknolojisi belirli bir sektöre düşse bile, etki bazı yeni kelimeler için hala yeterince tatmin edici değildir ve belirli bir hedefi hedeflemek için çok fazla enerji gerekir. Optimize edilecek alan. Kelime segmentasyonundan en üste, birçok temel NLP görevinin optimizasyon için çok yeri vardır, bu nedenle Yunfu Teknolojisinin şu anda üzerinde çalıştığı yön budur.İlk olarak, NLP temel teknoloji platformu sağlamlaştırılacak ve ardından üst düzey uygulama üzerine inşa edilecektir.

Weng Jiaqi: Şu anda NLP 15 kelimelik kısa metinler ve kısa cümleler içinde. Niyetleri ve anlamları anlamada herhangi bir sorun olmayabilir. Uzun metinler şu anda iyi değil. Örneğin karşılaştık "Dün bir ruj aldım. Annem bu rengi çok sevdi. Henüz gönderilmediği için bir tane daha alabilir miyim? " Dört cümle, bu cümlenin amacı nedir? Ortada, bırakın makineler, insanlar tarafından bile anlaşılmayabilecek soru işaretleri ve virgül var. Bu cümle aslında "düzeni değiştirmek istiyorum" anlamına geliyor. Bu alanın fethi çok uzun vadeli bir hedef.

Zhang Ruifei: Doğal dil işleme, bilişsel zeka kategorisine aittir, bu nedenle doğal dil işlemenin nihai amacı insan düşüncelerini ve fikirlerini anlamaktır. Bu süreçte ölçeği kavramamız gerekir. Bu ölçek, kullanmak yerine makine zekası ve insan zekasını bütünleştirir. Makine zekası, insan zekasının yerini alıyor.

Alan analizinde, artık DCN teknolojisi gibi vizyonda elde edilen teknolojilerin metne nasıl uygulanacağıyla ilgileniyoruz. Size sezgisel bir örnek vereyim. Günümüzde pornografik, uyuşturucuyla ilgili ve terörizmle ilgili bilgiler gibi İnternet üzerindeki kamuoyu kontrolü insan gözüyle hemen görülebilir, ancak makine tanımanın nihai bir çözümü yoktur. Her zaman bazı anormallikler bulabilir. Bu bağlamda Sorunu çözebilecek bazı fikirler ve algoritma iyileştirmeleri var.

Yi Xin: Görme ve doğal dil işlemenin birleşimi de artık sıcak bir konu.

Xiong Kun: Ticarileştirmede hala görece başlangıç aşamasındayız ve bu konuyu daha çok araştırma perspektifinden ele alıyoruz, çünkü zaten ticarileştirmeye başladık ki bu daha zor. Bir yandan bu daha genel bir sorundur. Mevcut doğal dil işleme sorunu nasıl yapılacağıdır. Algoritmayı çok derinleştirdim ve çoğu zaman evrensel problemler oluyor. Bir platform oluşturursam, onu derinleştirmekte sık sık zorluk çekiyorum, bu ilk nokta. İkinci nokta, semantik benzerliğin kısa metnini alarak, önce diyalog alanında veya soru-cevap alanında daha iyi sonuçlar elde etmek gibi karşılaştığımız ticarileştirme sorunları ve ardından e-ticaret alanında veya hukuk alanında veri setleri ortaya çıkacak ve eğitimleri Konuşma hacmi çok fazla değil, ancak kendi alanlarında kendi bilgi ve özelliklerine sahipler.Genel veri seti şu anda nasıl daha iyi sonuçlara ulaşabilir? Üstesinden gelmek istediğimiz zorluk bu. Üçüncü nokta, ticarileştirmede, doğal dil işleme ile CV alanı arasında başka bir fark vardır.İnsanlar, dikkat gerçekten ihtiyacınız olan şey olsa bile, çoğu kez LSTM, Model vb. Kullanırlar, ama aslında bu hala bir zamanlama modelidir. Çevrimiçi bir sisteme koyarsam, gecikme sorunludur ve maliyeti çok yüksektir.Google e-postalara yanıt verse bile, LSTM'nin daha pahalı olduğunu düşünüyorlar, bu nedenle doğal dil işlemenin ticarileştirilmesi de maliyet konusunu dikkate almalıdır. .

Yi Xin: Öğretmen Xiongun cevabı ikinci soruya götürür: Şirketinizin fiili işi ışığında, şu anda çözülmesi gereken temel sorunlar nelerdir?

Xiong Kun: Şimdi daha çok ilgilendiğimiz sorun, nispeten basit bir problem, yani kısa metinlerin anlamsal benzerliğidir. Az önce Tencent'ten (Zhong Li) bir araştırmacı da bundan bahsetti. Öncelikle akademik alanda çok araştırma yapacağım. Q ve Q'nun benzerliği ile ilgili olarak, Ayrıca, birçok durumda aslında yaygın olan Q ve A arasında benzerlikler de vardır. Cep telefonları ve bilgisayarlar gibi diğer müşteri hizmetleri alanlarında karşılaşılan veriler, bir Huawei cep telefonu aldım ve ekranın parlak olmadığını gördüm.Müşteri hizmetleri personeli tarafından sıklıkla verilen doğru cevap "yeniden başlatıyorsun". Aslında bu iki cümle anlamsal olarak konuşuluyor. Kelimeler tam olarak eşit değil. Buna ek olarak, yöntemlerde boyutsal bir farkımız var. Birçok hizmet artık arama teknolojisine dayanıyor.Şimdi sektörde bazı yeni değerlendirme yöntemleri var, yani paralel metinde değerlendirme. Her iki değerlendirme de iyi sonuçlar veriyor, ancak Geçiş yaparken her zaman kayıplar olacaktır, bu sorun bizim için daha zor.

Zhang Ruifei: Mevcut özümüz, işaretlenen verileri ve verilerin geri bildirimlerini kullanıcının kullanımı sırasında çözmektir, çünkü yapay zeka iş anlayışından ayrılamaz.Örneğin, kamu güvenliği sektöründe, iş geri bildirimi olmadan sadece bilgi sahibi olamazsınız.Bu süreçte, Yapay zeka sahada etkili ve üstün uygulamalara ulaşmak istiyorsa öncelikle bu sorunun çözülmesi gerekir, bu bizim temel sorunumuzdur. Daha iyi bir arama motoru nasıl yapılır, daha hızlı bir grafik nasıl yapılır, on milyarlarca hesaplamanın milisaniye seviyesine nasıl sıkıştırılacağı gibi diğer sistemlerle bağlantı gibi birçok başka sorun vardır, bunların gereksinimleri vardır, ancak birincisi Çözülmesi gereken bir şey veri problemidir.

Yi Xin: Bay Weng Jiaqi de konuşmasında robotların içeriğinden bahsetti, bunu bizimle paylaşır mısınız?

Weng Jiaqi: İyi bir diyalog kontrolünün nasıl yapılacağı ve kullanıcıların konuşma şeklinin nasıl kısıtlanacağı gerçekten bir beceridir, çünkü kullanıcının saçmalıklarını anlayamazsınız. Mesela az önce kanundan bahsettik, biz hükümet robotları olarak çalıştık, aralarında boşanma sahnesi var Boşanmak mı istiyorsunuz? Herhangi bir ortak özellik var mı? Bu cümle yüzeyde EVETveyaHAYIR gibi görünüyor ama kullanıcı bu şekilde cevap vermiyor Kullanıcı on yıl önce birlikte bir ev satın aldığımızı söyleyecektir, aslen bir kişi adına ve sonra iki kişinin adına devredildi. Bu gibi sorular için müşteriler fark gözetmeden cevap verdi ve robot hiç ilerlemedi Diyaloğu nasıl kontrol edeceğiniz şu anda uygulanabilecek bir yön.

Zhang Wenbin: Şu anda bilgi çıkarma ve bilgi grafiği ile ilgili şeyler de dahil olmak üzere biraz daha düşük seviyeye daha fazla dikkat ediyoruz. Çok sayıda yapılandırılmamış metnimiz var. Bundan istedikleri yapılandırılmış bilgileri nasıl çıkarabiliriz ve sonra çıkarma işleminden sonra sektörü nasıl inşa edebiliriz? Bilgi grafiği. Bunu yapma sürecinde, hayatın her kesiminden talepler vardır.Geleneksel makine öğrenimi veya yapay zeka yöntemlerini kullanıyorsanız, büyük miktarda açıklamalı külliyat gerekir ve bu maliyet genellikle çok yüksektir.Ek açıklamalı külliyat veya az sayıda açıklamalı külliyat yoksa nasıl olur? Bu koşullar altında yapılabilir mi? Ayrıca bir miktar deneyim de biriktirdik.Genel olarak, ilk önce bir ön sonucu çalıştırmak, daha ciddi kötü durumlardan bazılarını seçmek ve külliyatları manuel olarak etiketlemek için önce sistemin bir versiyonunu yapmak için mevcut genel sistemi kural tabanlı yöntemle birleştirebiliriz. Modeli yeniden eğitin ve yinelemeli olarak tekrarlayın. Sonunda, sistem nispeten küçük bir insan gücü etiketleme maliyeti ile diğer alanlara taşınabilir. Tabii ki, yukarıda bahsedilen süreç hala ideal. Etki alanını hızlı bir şekilde taşımak için olabildiğince az ek açıklama külliyatı nasıl kullanılır? Bu, gerçek çalışmamızda karşılaşılan çok pratik bir sorundur.

Yi Xin: Birkaç öğretmenden paylaştığınız için çok teşekkür ederim. Bugün endüstri-üniversite entegrasyonu toplantısı olduğu için tüm öğretmenlere de sormak istiyorum. Şu anda, derin öğrenmenin NLP üzerindeki etkisi hala oldukça büyük. Leifeng.com ACL gibi akademik konferanslara katıldığında bunu hissedebiliyorum. Her makalenin derin öğrenmeye maruz kalması. Akademideki en son araştırmalar, işletmelerin sanayileşmesi için hangi dersleri ve düşünceleri alabilir?

Weng Jiaqi: Şu anki deneysel sonucumuz, sorunu çözebilecek tek bir algoritma olmadığıdır.Hangi tür algoritma, hangi kural, vektör veya şablon kullanılırsa kullanılsın, bunu yapmanın yolu çeşitli derin öğrenme türlerini kullanmaktır. Her türlü yeni şey, şu anda Paper'da bahsedilen neredeyse tüm algoritmaları denedik, 40 veya 50 makale okumamız gerekebilir ve bunlardan bir yöntem entegre edilmiştir, bu nedenle her algoritma ve her kağıdın faydaları vardır. Örneğin, algoritmalardan dördü bana malları iade etmek istediğini söylüyor ve bir algoritma bana malları değiştirmek istediğini söylüyor.Sorunu çözmek için daha iyi bir şansa sahip olmak için oylama yöntemini kullanacağım. Algoritmanın zayıf yönleri olduğu için bunu yapmak için birden fazla algoritma kullanıyorum. Birbirlerinin kusurlarını telafi edebilir.

Zhang Ruifei: Öncelikle hangi algoritmanın iyi ya da kötü olduğunu değerlendiremiyoruz çünkü algoritma uygulanabilir alana bağlı ve uygulama senaryonuza uygun yöntem en iyi yöntem. Mevcut derin öğrenme algoritması, insan beynine haraç ödeme sürecidir. Tipik bir örnek CNN'dir. Bu süreçte, bu algoritmayı uygun şekilde optimize edebiliriz. Optimizasyon yönü, insanlar tarafından elde edilen bilgi yapısını algoritmaya organik olarak entegre etmektir. Odaklanmayı umduğumuz şey budur. Aşağı inilecek yön.

Zhang Wenbin: Bu alanda zengin deneyime sahibiz Şirket, Harbin Teknoloji Enstitüsü Sosyal Hesaplama ve Bilgi Erişim Merkezi ile çok yakın bir ortaklığa sahiptir. Asıl işimiz, akademinin NLP araştırma sonuçlarını gerçekten sanayileştirmektir. Bu süreçte deneyimlerimiz şu şekildedir, akademinin talepleri hala endüstrinin taleplerinden farklıdır.Akademi teorik ve model yeniliğin peşindedir.Eğer tekrar varsa yeni bir model tasarlamamız gerekir. Startup'lar keşfettikleri modelleri alıp deniyorlar, bizim özümüz etki odaklılık. Bu fikre dayanarak, dahili olarak birleşik bir kıyaslama platformu da oluşturduk. Önce algoritma ve veriler için birleşik bir arayüz tanımlayın ve ardından bunu algoritma veya modelle ve efekt testi için verilerle kolayca değiştirebilirsiniz, böylece hızlı bir şekilde yapabilirsiniz Belirli bir görevde ne kadar etkili olduğunu bulmak için yeni bir algoritma modeli deneyin ve tamamen etkiye dayalı olarak görev için nihai olarak uygun olan genel model çözümünü seçin. İkincisi, tahmin yapmak için bu algoritmaları gerçekten kullandığımızda performansını dikkate almalıyız.İhtiyaç duyduğu donanım koşullarının iş gereksinimlerini karşılayıp karşılamadığı da dahil olmak üzere resmi durumlarda bu, yere indiğimizde göz önünde bulundurmamız gereken bir faktördür. Bazı algoritmalar çok uzundur. 0,1 veya 0,2 puan daha yüksek olabilir, ancak hızı çok daha yavaş ve donanım gereksinimleri özellikle yüksek, bazı değiş tokuşlarımız olacak ve daha pratik algoritmalar benimseyeceğiz.

Xiong Kun: Wen Binin ilk noktasına çok katılıyorum. Şimdi birçok makale çok sayıda derin öğrenme makalesi ile dolu, ancak bunların tümü sınırlı varsayımlara dayanıyor, çünkü esas olarak konferans bazı altın veri setleri yayınlayacak, ancak bu veri setleri genellikle sorunlarımızla ilgilidir. Bu aynı değildir, bu nedenle şirketin kendi test seti ve standartlarına sahip olması ve yeni yöntemleri hızla adapte edip deneyebilmesi çok önemlidir. Şimdi "test etmek" çok önemli. Başlangıçta araştırmacılardan bir makale yazmalarını ve bir hafta içinde test etmelerini istedik, şimdi 2-3 güne kadar kısaltılabilir. Benim fikrim illa ki en iyi algoritma değil, en uygun olanıdır.Benim için, birçok durumda çok katmanlı bir çözümdür ve hatta doğal dil algoritmalarıyla birleştirilmiş geleneksel anahtar kelime yöntemini düşünün. Etkisi daha iyi olabilir. . Şirket dahili olarak da ayrılacak. Az önce bahsedilen kısım esas olarak sonuç odaklı. Öte yandan, araştırma ekibimiz ayrıca bazı yeni ağları ve öğrenme yöntemlerini araştırıyor, makine muhakemesi hakkında düşünüyor veya insan beyni faaliyetlerine benzer diğer makine öğrenimi yöntemlerini düşünüyor.

Yi Xin: Paylaştığınız için çok teşekkür ederim Bay Xiong Kun. Sıradaki soru son soru: Bo Yan, Takema, Shenzhou Taiyue, Yunfu Technology gibi misafirlerin şirketlerinin isimlerinin çok ilginç olduğunu görüyorum, hepsi kurucunun doğal dil işleme konusundaki iyi beklentilerini içermelidir. Son olarak, lütfen şirketinizin adına bağlı olarak doğal dil işleme teknolojisinin geleceğini dört gözle bekleyin.

Zhang Ruifei: Çince'de doğal dil işlemede benzersiz olacağımızı ve ülke için şan ve doğal dil işleme alanı kazanan şeyler yapmak için kendi tarafımız olacağımızı umuyoruz. Shenzhou Taiyue, Çin topraklarında bir girişimdir ve biz de bu işi "Shenzhou Taiyue" isminin güzel sözleriyle iyi bir şekilde yapmayı umuyoruz.

Yi Xin: Ayrıca Shenzhou Taiyue'nin daha iyi ve daha iyi iş yapacağını ve Çin'de lider bir NLP şirketi olacağını umuyorum. Daha sonra Yunfu Technology'den Bay Wenbin Zhang'ı paylaşmaya davet ediyorum.

Zhang Wenbin: Bu, kurucunun doğal dil işleme yeteneğini test eden bir sorudur. "Yunfu Teknolojisi" kendim tarafından oluşturulmuştur. Bulut şu anda popüler bir kavramdır. Asıl amacımız, özellikle birçok küçük ve orta ölçekli işletme için doğal dil işleme becerisinin eşiğinin çok yüksek olmasıdır. İşletmeler veya geleneksel kuruluşlar için iyi bir NLP Ar-Ge ekibine sahip değiller. En iyi NLP teknik yeteneklerimizi özetlemeyi ve nihayetinde ihtiyacı olan tüm kuruluşlara bulut biçiminde fayda sağlamayı umuyoruz. "Fu" güvenilirlik anlamına gelir. Bir şeyleri yaparken güvenilir olmalı ve inanılır olmalıyız. Yaptığımız ürünler güvenilir olmalı ve müşterilere gerçek değer katmalıdır, bu nedenle Yunfu Teknolojisi olarak adlandırılır.

Yi Xin: Yıldızlara bakan ve yeryüzüne inen bir isim Daha sonra, Bay Xiong'dan onu dört gözle beklemesini istiyorum.

Xiong Kun: Az önce İngilizce konuştum. Biraz daha Çince konuşabiliyorum. Bo Yan adı oldukça özensiz. Ekibin birkaç üyesi Çince bir isme sahip olmanın gerekli olduğunu düşünüyor çünkü RSVP'yi okumak çok zor. "Bo Yan", "Şarkılar Kitabı" ndan geliyor. Fenyi, "Boyan" ın bu cümlede özel bir anlamı yoktur, modal bir parçacıktır. İfade etmek istediğimiz anlam dille mütevazı bir şekilde uğraşmaktır. Doğal dil alanının hala kış olduğuna inanıyoruz. , Ne teknoloji inişi ne de ticarileştirme gereksinimleri gerçekten ortaya çıktı, bu yüzden mütevazı ve sorumlu bir tavırla bilimsel araştırma yapmalıyız.Özellikle Kanada'nın bu acı soğuk yerinde daha uzun zaman harcamalı ve daha çok çalışmalıyız. Soğuk kış aylarında, makinelerin dilimizi daha iyi anlamasını sağlamak için gelecekte daha güçlü teknolojiler biriktirilebilir.

Yi Xin: Son olarak, Takema Smart'tan Bay Weng Jiaqi'yi davet ediyorum.

Weng Jiaqi: Şirketimizin İngilizce adı "Emotibot" olduğu için şirket kurulur kurulmaz duygusal makineye geçti, bu nedenle sadece metin değil, ses ve imajı da birlikte yapıyoruz, çok fazla insan gücü harcadı. Tüm veriler kendimiz tarafından etiketlendi. Yüzde 2 milyondan fazla fotoğraf var. Her fotoğraf üç kişilik bir simge. Üç kişi mutlu ya da mutlu olduklarını söylüyor ve üç kişi de üzgün ya da üzgün olduğunu söylüyor.Aksi takdirde son kararı vermek için bir psikoloğa ihtiyaçları var. Metinden bahsetmiyorum bile. Bu verileri işlemek ne kadar zaman aldı bilmiyorum. Duygusal hesaplamanın gelecekte bir trend olacağına inanıyoruz. Herkesin doğal dili yavaşça ilerletmek için birlikte çalışacağını umuyoruz, çünkü bu parça şu anda konuşma ve resimler gibi değil.

NLP

ana bilgisayar:

hepinize teşekkür ederim!

Ürüne geri dönün, sorunlu noktaların derinliklerine inin CES2019 beyaz güç envanterinde üç ana trend
önceki
15.98-24.18 milyon satan yerli Jeep yepyeni kılavuzlar listeleniyor
Sonraki
Snapdragon 710, Snapdragon 600 serisini bitiriyor mu? Yeni nesil Snapdragon 670 işlemci resmi olarak piyasaya çıktı!
Meizu ve Nokia aşkı ateşliyor: Haziran'da piyasaya çıkan yeni ürünler
Yerel akıllı hoparlör pazarı bir kızıl deniz oldu. Apple'ın HomePod'un yüksek fiyatlı stratejisi işe yarıyor mu?
Yerli rehberler 15.98-24.18 milyon için piyasada, ne düşünüyorsunuz?
Tencent Zhiwen ekibinin başkanı Zhong Li: 0'dan 1'e, yeni nesil akıllı diyalog motorunu yaratmak için CCF-GAIR 2018
Lei Jun biraz panikledi! Xiaomi MIX2S ve Xiaomi Mi 8, Meizu 16 ile yüzleşmek için art arda güçlerini başlattı!
Ronnie Fieg x DSM x New Balance açığa çıkan gerçek casus fotoğraflar
Samsung şovu ikinci nesil MciroLED panel TV, 219 inçlik dev izleyiciyi şok etti
Yasuo nasıl çok güçlü olabilir? Kurbağa size Thresh ile çatlamayı öğretiyor! QE anahtar!
"Walk with God 3" Du Junxiu erkek başrol oldu, aynı zamanda üçüncü ve dördüncü filme
Aylık 5000 maaşlı bir arabaya paranız yetmiyor mu? Önce bu modellere bir göz atmak daha iyidir
Hong Kong Çin ekibi, He Yuming gibi grupların normalleşmesinin ötesinde, kendi kendine adaptasyon normalleştirmesinde bir atılım önerdi.
To Top