Tencent Zhiwen ekibinin başkanı Zhong Li: 0'dan 1'e, yeni nesil akıllı diyalog motorunu yaratmak için CCF-GAIR 2018

Leifeng.com'un notu: 2018 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR) Shenzhen'de düzenlendi.Zirve, Çin Bilgisayar Topluluğu (CCF) ev sahipliğinde, Leifeng.com ve Hong Kong Çin Üniversitesi (Shenzhen) ev sahipliğinde, Shenzhen Baoan Bölge Hükümeti sponsorluğunda gerçekleştirildi. Güçlü rehberlik, yerli yapay zeka alanında en güçlü sınır ötesi değişim ve işbirliği platformunu oluşturmayı amaçlayan, yerli yapay zeka ve robotik, endüstri ve yatırımın üç ana alanında en iyi değişim etkinliğidir.

1 Temmuz sabahı yapılan NLP oturumunda, Tencent Zhiwen Algorithm'in başkanı Zhong Li, "0'dan 1'e Yeni Nesil Akıllı Diyalog Motorunu Oluşturmak" başlıklı bir açılış konuşması yaptı.

Tencent'in Zhiwen algoritmasının başkanı olan Zhong Li, akıllı diyalog sistemi üzerine araştırma deneyimlerini paylaştı.

Endüstride genel bir akıllı soru cevap platformu oluşturmak için genellikle üç tür soru ve cevap olduğunu söyledi: biri göreve dayalı, diğeri bilgi edinme ve üçüncüsü genel küçük sohbet.

İkinci türe, yani soru cevap sisteminin kullanıcının bilgi edinme problemini çözmesine nasıl izin verileceğine odaklandı. Bu tür etrafında, akıllı soru cevaplama sisteminin temel yapısını ve burada denetimsiz öğrenmenin ve denetimli öğrenmenin rolünü açıkladı.

Bundan sonra, endüstrideki en yaygın hızlı geri çağırma şemalarını detaylandırdı: ilk yöntem kelime saymaya dayanır (Sözcüksel terim sayma); ikinci yöntem dil modeline dayanır; üçüncü yöntem vektörleştirmeye dayanır.

Konuşmanın sonunda, Zhiwen ekibinin sektörün soru-cevap sistemini kurmadaki bilgi ve deneyiminden bahsetti.

  • Öncelikle Baseline'a önem vermeliyiz.

  • İkinci olarak, tüm boru hattını olabildiğince erken kurun.

  • Üçüncüsü, bedava öğle yemeği teoremi yoktur ve evrensel bir algoritma yoktur.

  • Dördüncüsü, alanla ilgili veri hazırlama ve veri temizleme çok önemlidir.

Aşağıdakiler, orijinal amacı değiştirmeden Leifeng.com tarafından düzenlenen Zhong Li'nin konuşmasının içeriğidir.

Herkese merhaba, ben Zhong Li, Tencent Zhiwen'in sorumlu kişisiyim ve bugün burada durmaktan, ekibimizin geçen yıl akıllı soru-cevap oluşturma konusundaki deneyimlerinden bazılarını sizlerle paylaşmaktan onur duyuyorum. Önceki öğretmenler, akademik bir bakış açısıyla doğal dil işleme teknolojisinin en son gelişiminden bahsetti ve sektörde kullanılabilecek akıllı bir soru-cevap platformunun nasıl oluşturulacağı hakkında daha fazla konuşacağım.

Öncelikle ekibimize kısa bir giriş yapacağım Ekibimiz uzun süredir kurulmuyor ve bir yıldan az bir süredir üyelerimiz dünyanın her yerinden geliyor. Araştırmamızın odak noktası, doğal dilin akıllı etkileşimidir.Bu araştırma odağının çağrışımı ve uzantısı etrafında, soru-cevap, diyalog ve arama alanlarında bazı keşifler ve girişimler yaptık.Ayrıca AAAI, IJCAI, SIGIR, EMNLP ve diğer akademik konularda da yer alıyoruz. Konferansta birçok bildiri yayınlandı. Finans sektörü için akıllı müşteri hizmetleri çözümleri oluşturmak için Tencent Financial Cloud'daki meslektaşlarımızla, Tencent Video Cloud'daki meslektaşlarımızla da genel sektörler için küçük ve mikro akıllı müşteri hizmetleri çözümleri geliştirdik, ayrıca Tencent Cloud içerik anlayış ürünleri geliştirdik ve destekledik.

Aşağıdaki resim Microsoft'tan Bay Zhou Ming'in bir resmi ve aynı zamanda benim de çok katılıyorum bir sınıflandırmadır. Sektörde genel bir akıllı soru cevaplama platformu oluşturduğumuzda, aşağıdaki soru ve cevap türlerini çözmemiz gerekiyor:

İlk tür göreve dayalıdır. Bu tür genellikle kullanıcının hava durumunu kontrol etme, döviz kurunu kontrol etme vb. Gibi bazı görevleri tamamlamak istemesidir.

İkinci tür, kullanıcı bilgisi edinme sorununu çözer. Bu tür aynı zamanda bu sefer paylaşımımızın odak noktası ve biz esas olarak bu noktayı genişleteceğiz. Bu aynı zamanda sektörde en çok kullanılan soru-cevap sistemidir.

Üçüncü tür, genel küçük sohbet türü. Örneğin, Microsoft'un Xiaobing'i ve Apple'ın Siri'si genel sohbeti destekler. Genel sohbetin eklenmesi, diyalog sistemini daha insancıl hale getirecektir. Ayrıca, profesörler tarafından bahsedilen duygusal bilgiler de dahil olmak üzere kişiselleştirilmiş bilgiler ve kullanıcı profili bilgileri de ekleyebilirsiniz.

Bugün, ikinci tür soru ve cevabı paylaşmaya, yani soru cevap sisteminin kullanıcının bilgi edinme problemini çözmesine nasıl izin verileceğine odaklanacağım. Bu bir soru cevap olarak kabul edilebilir Soru cevap alanında veriler üç türe ayrılabilir:

İlki, SSS ve KG gibi standart, yapılandırılmış bilgilere dayanmaktadır. SSS sık sorulan sorulardır ve KG, her ikisi de göreceli olarak yapılandırılmış veri türleri olan organize bir bilgi grafiğidir.

İkincisi, verilerin, tablolar ve belgeler gibi yapılandırılmamış formlarda bulunmasıdır.

Üçüncü tür, VQA gibi çok modlu, çapraz medya soru ve cevabıdır veya video ve sesli soru ve cevap külliyatı olabilir.

Ardından, yapılandırılmış SSS'de nasıl akıllı bir soru ve cevap sistemi oluşturduğumuzdan bahsedelim.

Aşağıdaki şeklin sağ tarafında gösterilen çok genel bir çerçevedir, bu çerçeve temel olarak aşağıdaki modülleri içeren arama motorlarının çerçevesine çok benzer:

Birincisi problem işleme modülüdür Bu modülün çalışmaları sorgu, sorgu yeniden yazma, yanlış kelime düzeltme ve eşanlamlı değiştirmeyi içerir. İkinci adım, SSS'deki belgeleri geri çağırmaktır. Asıl amaç, yüksek bir geri çağırma oranı, düşük bir doğruluk ve daha az ilgili bilgileri geri çağırma becerisiyle hızlı bir şekilde geri çağırmaktır. Ondan sonra bir maç yapacağız.

Bunun aramadan farkı nedir? Arama, arama sonuçlarının bir listesini alacaktır.Listeye dayalı değerlendirme gibi birçok değerlendirme yöntemi vardır ve daha sonra arama sonuçlarının kalitesini değerlendirmek için bazı göstergeler kullanılır. Sorular ve cevaplar daha zahmetlidir.Bazen liste gösterimi yoktur, sadece bir cümle veya sadece bir cevap vardır. İlk 1'in doğruluğunu takip etmemiz gerekir ve eşleştirme gereksinimleri daha yüksek olacaktır.

Burada bahsedilen iki yöntem vardır: gözetimsiz öğrenme ve denetimli öğrenme Hızlı bir şekilde hatırlamak için denetimsiz öğrenmeyi kullanabilirsiniz, ancak denetimli sinyallerin eklenmesi, eşleştirme doğruluğunu büyük ölçüde artırabilir.

Sektörde popüler olan veya daha çok kullandığımız hızlı geri çağırma şemalarından bahsedeyim.

İlk yöntem, Sözcüksel terim sayımına dayanır. Herkes bu tür bir yönteme aşinadır.Literal eşleştirmeye dayanır.Avantajı, çok basit ve uzun kuyruklu kelimelere karşı iyi bir sağlamlığa sahip olmasıdır.Standart soruda göründüğü sürece, eşleştirme sırasında geri çağrılabilir. Ancak eksiklikleri açıktır, sembollere dayanır ve anlamsal bir anlayışa sahip değildir, bu nedenle benzer anlambilimlere sahip farklı edebi ifadelerle uğraşmak zordur.

İkincisi, dil modeline dayalı olarak ana fikir, olasılık yöntemini kullanarak bilgi tabanındaki SSS ve kullanıcı sorgularından hangisinin olasılığa daha yakın olduğunu belirlemektir. Gerçek savaş performansı daha iyidir, ancak dil modeli parametrelerinin optimizasyonuna karşı çok hassastır, bu nedenle çok sayıda yumuşatma deneyi yapılmalıdır.

Üçüncü yöntem vektörleştirmeye dayanmaktadır. Kullanıcının sorularını bu vektör uzayına yansıtıyorum ve bilgi tabanının SSS bölümünü bu vektör uzayına yansıtıyorum ve vektör uzayında ölçüm yapmak için uzaklık yöntemini kullanıyorum. Vektörü çıkarabilen veya diğer bazı yöntemlere göre vektörleştirebilen matris tabanlı ayrıştırma gibi birçok projeksiyon şeması vardır.Vektör uzayındaki mesafeyi hesaplamanın, ikisini hesaplamak için ortalama toplamı kullanmak gibi birçok yolu vardır. Noktalar arasındaki mesafe.

KİS, 2015 yılında yapılan bir çalışmadır. Bu mesafeyi hesaplamak için bazı yeni yöntemler kullanır Bu yöntem, sadece mesafenin ortalamasını almaktan daha iyidir. Ancak bir sorun var, bu yöntem belirsizliği çözmek için pek iyi değil.

Önce TF-IDF'den bahsedeyim, bu fikir çok sezgisel. TF, mevcut belgedeki kelimenin sıklığını belirtir ve IDF, kelimenin doğasını belirtir. IDF çok yüksekse, kelimenin nispeten benzersiz bir kelime olduğu anlamına gelir.Görece düşükse, birçok belgede yaygın olduğu ve nispeten genel bir kelime olduğu anlamına gelir. TF-IDF skorunu elde etmek için çarpabiliriz.

Dil modelinin temel fikri, cümleleri olasılık dağılımı şeklinde tanımlamaktır. Dil modelleri, makine çevirisi ve yazım hatası düzeltme gibi birçok yerde yaygın olarak kullanılmaktadır. Hangisinin daha olası olduğunu belirleyebilir. Kendi hatırlamamıza göre, mevcut kullanıcının Sorgu olasılığını belgelere veya standart SSS'lere dayanarak oluşturuyoruz ve ardından puanı belirliyoruz.Bu, IR'de kullanılan dil modelinin temel fikridir.

Çözülmesi gereken sorun ve karşılaşılan zorluk, kullanıcı Sorgusundaki sözcüğün SSS'de görünmemesinin çok muhtemel olmasıdır, bu nedenle aşağıdakileri düzeltmemiz gerekir - ya sözcük görünürse, ya görünmezse.

Farklı yumuşatma yöntemleri, farklı dil modellerine karşılık gelir. Pratik bir bakış açısından, TF-IDF ve dil modelini karşılaştıran dil modelinde nispeten büyük bir gelişme var Şeklin sağ tarafındaki karşılaştırmalardan beşinin önemli gelişmeler kaydettiğini görebilirsiniz.

Kelime kaydırma mesafesi yönteminden az önce bahsetmiştim, bu yöntem KİS'dir, ağırlıklı ortalamaya dayalı yöntem nispeten basittir, burada esas olarak KİS hakkında konuşuyoruz. Yansıttığımız her kelime mesafeyi hesaplamalı ve sadece bu kelimeyi ve yayılacak tüm kelimeleri ağırlıklandırmak yerine, kelimeye en çok benzeyen kelimeyi bulmalıyız.

Bu örneğe baktığımızda "Obama" kelimesi için Obama'ya en yakın kelime başkan, bu kelimeyi hesaplamak en kısa mesafe olmalı. Bu biraz seyahat problemi gibi ... Buradan oraya taşınmam gereken bazı eşyalarım var.Her hareket için her zaman minimum mesafeyi bulmalı ve bu mesafeleri toplamalıyım.

KİS'in etkisi aşağıdaki şekilde görülebilir: Birkaç değerlendirmede, hata oranı nispeten düşüktür ve diğer yöntemlerden yaklaşık yüzde on ila yirmi puan daha düşüktür. Gerçek etkisi gerçekten iyidir, ancak algoritma karmaşıklığı nispeten yüksektir, çünkü hesaplamak için tüm ikili karşılaştırmaları yapması gerekir, biraz daha uzun sürecektir. En büyük gereksinimlerimizden biri hızlı olmaktır.KİS hakkında uzun araştırmalarımız var.İlgilenen öğrenciler aşağıdaki işlere dikkat etmeye devam edebilirler.

Az önce bahsettiğim şey hızlı hatırlama, bir sonraki kilit nokta derin eşleştirme yapmak. Çoğu denetimli eşleme olmak üzere birçok derin eşleştirme yöntemi vardır, bunların arasında iki tür yöntem daha vardır, biri Siyam ağı ve diğeri etkileşim matrisine dayalı ağdır.

CNN gibi ARC-1, Siyam ağının tipik bir örneğidir. Siyam ağı nispeten sezgiseldir. Fikri çok basittir. İki giriş ifadesi yapmak için aynı kodlayıcıyı kullanın. İfade yapıldıktan sonra, benzer yapmak için bir modül kullanabilirsiniz Ağ yapısı ve parametrelerinin paylaşılmasıyla karakterize edilir. Sağdaki özel uygulama, Kodlayıcıyı uygulamak için CNN'yi kullanabilirsiniz.

Etkileşim matrisine dayalı ağ arasındaki fark, alaka ölçüsünün son ifadesine ek olarak, ortadaki bazı sözcüklerin, özellikle belge çok uzun olduğunda daha güçlü etkileşimlere sahip olabilmesidir. Siyam ağıyla karşılaştırıldığında, bu tür bir ağ, iki soru çok kısa olduğunda bağlanır, ancak soru çok uzunsa, çok fazla içerik içeriyorsa ve bazı önemli bilgiler içeriyorsa, ağ daha iyi olacaktır. İyi bir ifade yaptığımızda, bu ifadedeki her küçük cümle arasındaki etkileşime bakacağız.

Aşağıdaki şekil daha iyi bir ağdır: Sol taraf az önce bahsedilen yapıdır ve sağ taraf ek etkileşim eklemiştir. Sol taraf çok basit.Soru ve Cevap'ı girdikten sonra, ifade matrisini, ardından vektörü ve sonunda puanı alıyorsunuz Bu çok sezgisel bir süreçtir. Dikkatli Havuzlama ağında, etkileşim vektörün önüne yerleştirilir.Eğer etkileşim matrisinde satırın değerini ve sütunun değerini almak istiyorsanız, bunların yeniden ifadesini almalı ve ardından difüzyon puanını hesaplamak için son ifadeyi kullanmalısınız. Uzun belgeler için, özellikle de SSS çok uzunsa, etkileşim matrisine dayalı bir ağ daha fazla bilgi getirecektir.

Yapılandırılmış belge yapımının durumundan bahsettim. Gerçek senaryolarda, çok az yapılandırılmış veri vardır, çünkü yapı, insan gücüne yatırım anlamına gelir, bu da birçok insanın veri açıklamaları yapması ve bilgi tabanları oluşturması gerektiği anlamına gelir. Şu anda daha yapılandırılmamış veriler var.Bu aynı zamanda ekibimizin araştırmasının odak noktası ve aynı zamanda yapılandırılmamış belgelerde bilgi ve cevapların nasıl bulunacağına dair çok umut verici bir yön.

Çok benzer bir alan, aşağıdaki türlere sahip olan makine okumayı anlama alanıdır:

  • Cloze. Makalede birkaç varlık kelimesi kazın ve varlık kelimelerini doldurmak için model algoritmasını kullanın.

  • Çoktan seçmeli. Bu makaleyi okuduktan sonra sorularım olacak ve sonra birkaç cevap olacak, onlardan ilgili cevabı seçeceğim.

  • Cevap uyuyor. Genellikle bir soru verildiğinde, bu soru orijinal metinde görünür, orijinal metindeki hangi içeriğin bu soruyu cevaplayabileceğini bulun.

Aşağıdaki resmin sağ tarafı, Stanford'daki daha ünlü SQuAD yarışması olan cevap eşleştirmenin daha tipik bir örneğidir. SQuAD şimdi 2.0'ı yayınladı. 1.0 zamanında, soruların tüm cevapları orijinal metinde yer aldı, pek çok bilim adamı bunun özellikle gerçekçi olmadığını düşünüyordu, bu yüzden şimdi 2.0 sürümüne yükseltin. Şu anda üzerinde çalıştığımız senaryo, hala cevabın orijinal metinde olduğu ve cevabın hükümete benzer bazı belgelerde, materyallerde ve belgelerde bulunabileceği gerçeğine dayanmaktadır.

Aslında okuduğunu anlamadan hala farklıyız, sektörde okuduğunu anlama yaptığımızda önce hatırlamalıyız çünkü sorunun cevabının hangi makalede olduğunu bilmiyoruz. Burada geri alma işlemini hızlı bir şekilde yapmalıyız ve ardından bir sonraki bölüme, belge okuduğunu anlama modülüne geçeceğiz. Doküman okuduğunu anlama son iki yılda geliştirilmedi.Onunla ilgili çalışmalar uzun yıllar önce yapıldı.Önceden üçlü esasa dayalı ilişki çıkarma yöntemi gibi geleneksel özelliklere dayanıyordu.Şimdi bazı derin model yöntemleri kullanmak istiyorum. Okuduğunu anlama yapmaya gel.

Aşağıdaki genel bir Doc Reader çerçevesidir. Okuduğunu anlama çerçevesi son yıllarda çok popüler oldu ve birçok ilgili çalışma var. Sağdaki şekil, Google'ın en yüksek puana sahip yeni tek model QANet'ini göstermektedir. Kullanıcının tüm sorularını okuyacak bazı Kodlayıcılar olacağı görülebilir. Özü Dikkattir ve kelime tabanlı gibi birçok Dikkat mekanizması ayarlanabilir , İfadeye veya zamana ve adım uzunluğuna göre dikkat. Dikkat büyük bir aşamadır, birçok yöntemi deneyebilirsiniz. Sorunun içerik bilgisini ve belge etkileşimini aldığınızda, belgenin makaledeki konumunu oluşturmak için bunu Kod Çözücü kısmına gönderin. Yani bu bir sınıflandırma problemidir, yani dosyanın başlangıcıdır, diğeri ise sonunu bulmak, dosyanın dosyanın sonu olup olmadığını anlamaktır. Bu daha genel bir çerçevedir.

Son olarak, sektördeki bazı deneyimlerimizden bahsedin.

Her şeyden önce Baseline'a dikkat etmek çok önemlidir. Baseline'ı fazla karmaşık hale getirmeyin, çünkü verileri ve sorunları Baseline aracılığıyla anlamanız gerekir.

İkinci olarak, boru hattını mümkün olan en kısa sürede inşa edin. Ardışık düzenimiz, veri işleme, model eğitimi, model yükleme, model tahmini ve model değerlendirme dahil olmak üzere eksiksiz bir sistem setidir. Değerlendirme göstergelerine ve tüm sürecin bağlantısına özellikle dikkat edin. Yalnızca boru hattı kurulduğunda yineleme için bir temel olabilir. Boru hattı yoksa, hiçbir Yinelemenin, modeli değerlendirmenin ve çerçeveyi güncellemenin bir yolu yoktur.

Üçüncüsü, bedava yemek yok, Yitian Tulong Knife yok ve tüm problemleri çözebilecek bir algoritma yok Algoritma kendi uygulanabilir veri ve senaryolarına sahip olmalıdır. Kıyaslamalar ve değerlendirme kriterleriyle, modelin hangi koşullar altında daha uygun olduğunu bilmek, güçlü yönlerimizi en üst düzeye çıkarmak ve zayıflıklardan kaçınmak için daha fazla model deneyebiliriz.

Son olarak, alanla ilgili veriler olmalıdır. Alanla ilgili veriler yalnızca eğitim verilerini değil, aynı zamanda alandaki uzman deneyim ve bilgilerini ve alanla ilgili çerçeveler ve modelleri de içerir. Deneyimlerimize göre, etki alanı verilerini temizleme veya etki alanı sözlükleri ve kelime dağarcığı oluşturma gibi etki alanı verilerinin optimizasyonu, modellerin getirdiği iyileştirmelerden bile daha önemli olan önemli iyileştirmeler getiriyor, bu nedenle etki alanı verilerine dikkat etmeliyiz. Meslekler.

Hepsi bugün paylaşımım için. Herkese teşekkürler!

Yerli rehberler 15.98-24.18 milyon için piyasada, ne düşünüyorsunuz?
önceki
Lei Jun biraz panikledi! Xiaomi MIX2S ve Xiaomi Mi 8, Meizu 16 ile yüzleşmek için art arda güçlerini başlattı!
Sonraki
Ronnie Fieg x DSM x New Balance açığa çıkan gerçek casus fotoğraflar
Samsung şovu ikinci nesil MciroLED panel TV, 219 inçlik dev izleyiciyi şok etti
Yasuo nasıl çok güçlü olabilir? Kurbağa size Thresh ile çatlamayı öğretiyor! QE anahtar!
"Walk with God 3" Du Junxiu erkek başrol oldu, aynı zamanda üçüncü ve dördüncü filme
Aylık 5000 maaşlı bir arabaya paranız yetmiyor mu? Önce bu modellere bir göz atmak daha iyidir
Hong Kong Çin ekibi, He Yuming gibi grupların normalleşmesinin ötesinde, kendi kendine adaptasyon normalleştirmesinde bir atılım önerdi.
Xiaomi'nin gerçek amiral gemisi geliyor, Antutu vivoNEX'i geride bırakıyor!
Amcan hala senin amcan! Bin Yuan Katil 360 N5S resmen çıktı
5 milyar hücresel IoT modülü, NB-IoT yarıya mı katkıda bulunacak?
Suzhou, Xiangcheng'de bir araya gelen akıllı sürüş yenilik güçleri, "Otomotiv İnovasyonu Ana Kampı" ortaya çıkıyor
Bu yüzden Accord ve Camry yerine Teana'yı seçiyorum
Yeni nesil Nut Pro yakında piyasaya sürülecek, ancak adı artık Nut Pro3 değil!
To Top