g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Takema Intelligence CTO'su Weng Jiaqi: Aktif bir diyalog robotu nasıl oluşturulur

Konuşmacı: Weng Jiaqi | Takema Smart CTO'su

Chen Minglin Qu Xin Kurgu ve bitirme

Qubit Üretildi | Genel Hesap QbitAI

10 Mayıs akşamı, Qubit · Chiguashe, Takema Intelligence CTO'su Weng Jiaqi'yi duygusal hesaplamanın tasarımını ve uygulamasını ayrıntılı olarak açıklamaya ve kısaca "nasıl iyi bir sohbet robotu olunacağını" açıklamaya davet etti. Diyalog robotları oluşturmada doğal dil anlamanın önemine dikkat edin.

Bu sayının konuşmacısı, algoritmalar, programlama dilleri, arama motorları, ağ güvenliği ve e-posta güvenliğine aşina olan Takema Intelligence CTO'su Weng Jiaqi'dir ve 35'ten fazla dil kullanmıştır. Yapay zeka alanında teknik bir uzman olarak, Takema'nın yapay zeka alanında ürün geliştirme ve teknik planlamasından sorumlu ekibe liderlik etmektedir Alan ağırlıklı olarak diyalog robotları, bilgisayar görüşü, finansal teknoloji ve diğer alanları kapsamaktadır.

Qubit, okuyucuların isteği üzerine, bu paylaşıma verilen yanıtlar çok fazlaydı: Qubit, ayrıntılı metin notlarını aşağıdaki gibi düzenledi:

İnsan-bilgisayar etkileşiminin evrimi

İnsan-bilgisayar etkileşimi sadece mevcut değil, üç ila elli yıl önce de vardı ve önceki insan-bilgisayar etkileşimi öğretici idi.

Otuz yıl önce DOS döneminde satır satır oynanırdı ve hatta bazı oyunlar satır satır oynanırdı, daha sonra DOS onu kullanamamakta zorlanır ve yavaş yavaş Windows olur. Gelir.

Sonra cep telefonları ve tabletler gibi dokunmaya duyarlı ekranlar var.Artık çalışmak için fareyi kullanmıyoruz ve parmaklarımızla pek çok şey yapabiliriz. Yani şimdi App büyük ölçüde bazı Web uygulamalarının yerini aldı.

Gelecekte nasıl gelişecek? İki veya beş yıl sonra (etkileşimli cihazlar) bir bileklik, kulaklık veya hoparlör haline geldiğinde nasıl bir şey olur? O zamanlar ekran, fare veya klavye yoktu ve ses kullanarak insanlarla etkileşim kurmanın en ilkel yoluna geri döndü. Sesli etkileşimi kullanmak için doğal dili anlamaya başlamalıyız.

Doğal dil anlayışı, son yirmi yılda bazı darboğazlarla karşılaştığı kanıtlandı ve derin öğrenme ve makine öğrenimi küçük bir ilerleme olduğu ortaya çıkana kadar değildi. Bu cümlenin amacını, bu cümledeki diyalogun temasını ve bu cümlenin hafızası ve duygusunun ne olduğunu anlamak için anlambilimsel anlayışı kullanabilir misiniz ve sonra yavaşça daha doğru bir yanıt elde edebilirsiniz.

Anlamsal anlama, örneğin, esas olarak üç katmana bölünmüştür: en alt katman metin-NLP'dir. , "Açım" ve "Yemek istiyorum" iki cümlenin farklı sözdizimsel yapıları vardır.Kişisel isimler "Ben" olmasına rağmen bu sözdizimsel yapılar doğru analiz edilebilir mi? Sözdizimsel yapı nasıldır? nın-nin.

İkinci katman, niyetin belirlenmesidir "Açım" ve "Yemek istiyorum" aynı niyetlere sahip olabilir. İkisi de yemek sipariş etmek veya yakındaki bir restoranı tavsiye etmek istediğim anlamına geliyor, dolayısıyla niyetleri aynı. Şu anda herkesin yaptığı şey birinci ve ikinci katmanlar, doğal dil anlayışı ve niyet tanımadır, aslında arkasında üçüncü bir katman vardır.

Örneğin üçüncü katman, sizinle sohbet ediyorum demek, insan-bilgisayar etkileşiminin içeriğini tanıtmak ve aniden aç olduğumu söylemek gibi, ne düşünüyorsunuz? Bu konuşmacının sabırsız olduğunu mu düşünüyorsun? Bir kıza aniden aç olduğumu söyleseydim, o kız ne düşünürdü? Yanlış olabileceğini düşünürdü, ona akşam yemeğine çıkma teklif etmek ister miyim, kötü niyetim var mı?

Yukarıdakiler, arkasındaki daha derin anlamı anlama niyetidir. Şu anda, temelde dünyada iyi yapabilen ve bunu bir insan gibi yapabilen hiçbir şirket yok. Bunu başarmak için, niyet anlayışına ek olarak, orijinal NLP (Doğal Dil İşleme) ve NLU'ya (Doğal Dil Anlayışı) ek olarak, tüm durumu analiz etmek için bazı duygusal ve duygusal analizler yapılmalıdır.

Başlangıçtaki chatbotlar da birçok tanıtım yaptı. Çin'de çoğu kurallara dayanan 1.000'den fazla veya 2.000'den fazla konuşmacı şirket olabilir.

Örneğin, akıllı bir konuşmacıya "Sığır eriştesini sevmiyorum" derseniz, çoğu konuşmacı "sığır eriştesi" anahtar kelimesini yakalar, böylece bana "Tamam, yakındaki restoranları sizin için önerin" der. Aslında bunu demek istemedim.

"Dün etli erişte yedim ve şimdi ishal oldum" derseniz, bu cümlenin niyeti şu anda yemek istemediğim veya ishalle ne yapmam gerektiği anlamına gelebilir? Ancak anahtar kelime yöntemini ve şablon yöntemini kullanırsanız, "sığır şehriye" anahtar kelimesini de yakalar ve bana "Tamam, yakındaki restoranları sizin için önerin" der.

Anahtar kelimelerin kullanılamayacağı değil. Anahtar kelimelerin doğruluğu hala yaklaşık% 70'tir, ancak yalnızca en basit türde olumlu cümle verilerini çözebilir. Sözdizimi biraz değişti ve sorunu çözemez.

2000 yılı civarında, Bilgi Tabanlı QA (Amazon ve Google tarafından temsil edilir) ortaya çıkmaya başladı ve ardından Appleın Siri'sine geldi. Siri'yi kullandıysanız, üçten fazla cümleyle sohbet etmenin zor olduğunu göreceksiniz. Siri, iki veya üç yaşındaki çocuklardan bahsediyor Konuşmaktan mutlu olacak ama biz yetişkinler Siri ile hiç konuşamayız.

neden? Çünkü Siri kabaca iki yaşındaki bir çocuğa eşdeğer. Geçen yılın Ekim ayında Siri, Ekim 2017'de Amerika Birleşik Devletleri'nde bir zeka testine girdi. IQ'su iki yaşında bir çocuk.

Öyleyse gelecekte gelişmeye devam etmenin ve gerçekten konuşmalı bir yapay zeka olmanın bir yolu var mı? Sizinle iletişim kuruyorum, sadece bir soru ve bir cevap değil. Yani bugün konuşulacak ana içerik de bu, aktif ve konuşkan bir robotun iyi iş çıkarması için hangi kısımları ve nasıl yapılmalı?

Duygusal Hesaplamanın Tasarımı ve Uygulaması

Şirketimizin adı EMOTBOT'tur (Emotional Robot'un kısaltması, aynı zamanda Emotional Robot'un kısaltmasıdır). İnsan-bilgisayar etkileşiminde duygusal hesaplama nasıl bir rol oynar? Şu anda 4 çeşit ses duygumuz var - mutlu, kızgın, üzgün, tarafsız; 9 çeşit insan ifadesi yaptık; 22 çeşit metin duygusu yaptık.Aslında 22 çeşit duygu biraz daha fazla ama her halükarda sadece olmamalı Üç tür olumlu, olumsuz ve orta vardır: Ekrandaki bu resim gibi, nefret, öfke, üzüntü, üzüntü ve korku aslında farklı şeyler ifade eder.

Doğru geribildirim vermenin bir yolunu bulabilmek için bu farklı olumsuz duyguları ayırt edebilmek gerekiyor. Genellikle metnin duygusu yeterli değildir. Örneğin, "Üniversiteye giriş sınavında 500 puan aldım". Bu cümleyi gördüğünüzde beni tebrik etmeli mi yoksa teselli mi etmeli bilmiyorsunuz. Şu anda konuşmamın tonuna bağlı. Konuşmanın tonu "üniversiteye giriş sınavında 500 puan" ise (yavaş ve alçak), duyduğunuzda üzgün olduğumu biliyorsunuz ve beni rahatlatmak isteyebilirsiniz.

Bu nedenle, sesli duygu varsa, ses duygusunun yoğunluğu bu zamanda metin duygusundan daha büyük olacaktır. Yüz ifadeleri eklerseniz daha karmaşık hale gelir.Genelde verdiğim örnek, gülümsüyorum ve meslektaşıma "Sen öldün!" Gülümsediğim ve mutlu gözüktüğüm yüz ifadesi, ama "sen öldün" kelimesi öfke anlamına geliyor, ikisi tamamen zıt, şu anda duygularım nedir? Belki insanlar bile bunu anlamıyor.

Genellikle şu anda içeriğe bakmalıyız. Eğer ikimiz daha önce şaka yapıyor olsaydık, aniden "Hey sen öldün" dedim, o zaman bu bir şaka olmalı. Eğer ikimiz daha önce tartışıyor olsaydık ve ben birden yüzümde bir gülümsemeyle "öldün" dedim, bu senin için bir tehdit olmalı.

Bu yüzden, her türlü duyguya ek olarak, aynı zamanda çok yönlü duygulara da ulaşıyoruz.Kişinin mevcut toplam duygularının ne olduğunu anlamak için birlikte metin duyguları, yüz ifadeleri ve ses duyguları ekliyorum. O zaman aşağıda bir video izleyebiliriz.

Nasıl iyi bir sohbet robotu olunur

Daha sonra, iyi bir sohbet robotu yapmak için duyguların ve duyguların tanınmasından sonra yapılması gerekenler hakkında konuşacağız.

Her şeyden önce, iyi bir sohbet robotu bazı işlevlerden ve becerilerden kaçınamaz: örneğin, robota "yarın Şangay'da yağmur yağacak mı?", "Yarından sonraki gün Pekin'de yağmur yağacak mı" diye sormak ve bazı temel bağlamlar olabilir. , "Yarın Şangay'da yağmur yağacak mı? Ya yarından sonraki gün?", Hisse senedine sorabilir misin? Müzik dinleyebilir misin Robota bir fıkra anlatmasını söyleyebilir misin? Ya da robottan benim için bir taksi tutmasını, benim için bir otel rezervasyonu yapmasını ve benim için paket servisi sipariş etmesini isteyin, bunların hepsi işlevler ve beceriler.

Bilgi Grafiği

Bilgi grafiği, birkaç robotun insanları yenebileceği kısımdır.

Bilgi grafiğinin en temeli, "A'nın B eşittir C" olan üçlüdür. Örneğin, Yao Ming'in boyunun 2.26 metre, Yao Ming'in karısının Ye Li ve Yao Ming'in kilosunun 140 kilo olduğunu bilin Yao Ming hangi takımda oynadı? Yao Ming'in 43 puanlık bir kariyeri var ve Ye Li'nin boyunun 1,9 metre olduğunu da biliyor.

Bu temel bilgilere ek olarak, bilgi grafikleri, bir çıkarım sınıfı gibi çıkarımlar yapmak için kullanılabilir, Yao Ming'in karısının boyu ne kadar? Yao Mingin karısının Ye Li olduğunu ve Ye Linin boyunun 1,9 metre olduğunu biliyorum.

İki sınıf arasında çıkarımlar yapabilir miyiz? Örneğin, Nicholas Tse ve Chen Xiaochun arasındaki ilişki nedir? Bunu genellikle bilmiyoruz, ancak bilgi haritasında, Nicholas Tsenin eski eşinin Cecilia Cheung olduğunu ve Chen Xiaochunun eski kız arkadaşının da Cecilia Cheung olduğunu biliyoruz, bu nedenle Chen Xiaochun, Nicholas Tsenin eski karısının eski erkek arkadaşı. Bu ikinci sınıf bir çıkarımdır ve çıkarılabilir.

Çok sınıflı çıkarımlar yapabilir miyiz? Örneğin, Lu Qi Baidu'ya katıldıktan sonra hisse senedi fiyatı yükseldi mi yoksa düştü mü? O zaman önce Lu Qi'nin kim olduğunu bilmeliyiz? Baidu'ya ne zaman katıldın? O sırada Baidu'nun hisse senedi fiyatı ne kadardı, şu anda hisse senedi fiyatı ne kadar ve yükselmiş ya da düşmüş mü ve ne kadar yükseldi? İnsan beyni pek çok şeyi hatırlamıyor ama robot hatırlayabilir, bu yüzden robotun insanı yenme şansının olduğu kısım budur.

Bir kişi olarak, şirketin bazı seyahat düzenlemelerini ve tatil düzenlemelerini okuyup tüm soruları yanıtlamanın bir yolu yoktur, çünkü sorulacak çok fazla soru var - Pekin'e gittim, bir otel rezervasyonu yapmak istiyorum, sadece bir şirket için rezervasyon yapabilirim Anlaşma oteli mi? Anlaşmalı otel çok iyi değil Daha iyi bir otel rezervasyonu için para ekleyebilir miyim? Tamam mı, değil mi? Robot, şirketin seyahat düzenlemelerini okuduktan sonra, şirketteki çalışanların bu sorularını yanıtlamanıza yardımcı olabilir.

Tabii daha uzun okuduğunu anlama şu anda mümkün değil. Jin Yong'un tam bir romanını okumak imkansızdır ve sonunda kimin en yüksek dövüş sanatlarına sahip olduğunu cevaplama yeteneğine sahiptir? Bu mevcut makine hala çok geride.

Görüşme konusu

Bilgi grafiğine ek olarak, insan-bilgisayar etkileşiminin en önemli parçası olan diyalog konusuna da bir göz atalım.

Genellikle diyalog konusu hiyerarşiktir.Örneğin, "Premier Lig'de hangi takımı seversiniz?" Ve "Premier Lig'de hangi takımı seversiniz?" Diye soruyorum. Bu, sporda futbolun beş büyük liginden Premier Ligdir. Sonra "Aslında Barselona'yı seviyorum" dedim. Bana Premier Lig'i sordunuz ama cevap Barselona'ydı.Bu insanlar arasındaki diyalogda sorun olmayabilir, çünkü teması çok fazla sapmıyor.

Sonra cevap verdim, "Aslında NBA'i izlemeyi seviyorum." Bana futbolu sordunuz ve cevabım basketboldu ... Bu konuşmanın konusu bundan çok uzaklaştı ama tamamen imkansız değil. Ama en azından "Yumurtalı kızarmış pilav yemeyi seviyorum" cevabını vermeyeceğim, ki bu kesinlikle iyi değil, çünkü en büyük sınıf teması bile yanlış.

Ek olarak, konu hakkında aktif bir rehberlik yapabilir misiniz? Bugün robot F1'i izlemeyi sevdiğimi biliyor, bu yüzden bugün onunla sohbet ederken nasıl cevap vereceğini bilemeyebilir, ama bana şöyle dedi: "Ne demek istediğini anlamıyorum ama Şangay'ın F1'i başlamak üzere. Bu yıl ister misin? Bilet satın al?"

Öyleyse, bu robotun aktif olarak konuya atlama şansı var mı, orijinal konu artık tartışılamazsa, teslim olmanın yanı sıra, konuya aktif olarak liderlik edebilir mi? Hafızanıza göre daha önce söylediklerinize dayanır, neyi seversiniz? Neyi sevmiyorsun Kullanıcı profilinize göre, kullanıcı profilinize göre bunu yapabilir mi? Robot bile artık pasif değil. Birisi bir soru sorduğunda her zaman cevap vermiyor. "NBA bugün ne zaman tekrar oynayacak, onu izlemek ister misin?" Diyerek aktif olarak tavsiye edebilir. Sabah işteyken izleyebilirsin Daha fazla yok.

Bağlam anlayışı

Bağlamın anlaşılması da önemli bir nokta: Temel olarak, her seferinde tam bir cümle söylemiyoruz. Örneğin, sorum şu: "Yarından sonraki güne ne dersiniz?" Ama "yarından sonraki gün" ne anlama geliyor, bağlamıma bağlıdır.

"Yarın sinemaya gidelim mi?"

"Hayır, yarın bir şey olacak."

"Ya yarından sonraki gün?"

"Ya yarından sonraki gün?" Temsilci yarından sonraki gün sinemaya gideceğimizi söyledi, tamam mı?

"Yarın sabah yağmur yağacak mı?"

"Evet, yarın Şangay'da yağmur yağacak ve sıcaklık birkaç ila birkaç derece olacak."

"Ya yarından sonraki gün?" Bu, yarından sonraki gün Şangay'da yağmur yağıp yağmayacağı anlamına mı geliyor?

Bu, geçmiş referans çözümleme veya özne, yüklem ve nesnenin olmamasıdır. Bu cümlede özne veya hangi sözcük eksik olduğundan, eksik bilgileri aşağı çekmek için yukarıdaki cümleye gidin.

Diğeri ise diyalog konusunu kullanmak:

"Su arıtma cihazı satıyor musunuz?"

"Evet"

"Yer kaplıyor mu?" (Mevcut diyaloğun konusu su arıtıcı)

Ne işe yarar? Su arıtma cihazı yer kaplamaz.

"Nasıl satılır"

Ne satabilirim? Su arıtma cihazı nasıl satılır. Çünkü şimdi konuşmanın konusu su arıtıcı. Kullanıcı aniden "Kredi kartınızda şu anda promosyon var mı?" Dedi ve konuşmamın konusu su arıtma cihazından kredi kartına sıçradı, sonra bu benim sonraki konuşmam ve bağlam kredi kartına dayalı olabilir. Bu daha çok normal insan iletişimi gibi olacak .

En azından sağdakine benzemiyor, "Ne tür bir tişört satın almak istiyorum?" Diye sorabilirim ve sonra bana üç parça verir, sonra ona "Siyah istiyorum" derim. Çünkü bağlam yok, hiç dinleyemez. Ne hakkında konuştuğunu anlayın, bana sadece siyahın tanımının ne olduğunu açıkladı. İlk bakışta insanlar robotunuzun aptal olduğunu düşünür. Dolayısıyla bağlamı anlamak, bir robotun yapabileceği en temel işlevlerden biridir, çünkü insanlar her seferinde tam bir cümle konuşmazlar.

Uzun süreli hafıza ve kısa süreli hafıza

Robot neyi sevdiğinizi hatırlayabilir mi? Neyi sevmiyorsun Arkadaşın olsaydım, sevmediğin konulardan kaçınmak için her zaman inisiyatif alırdım ve sevdiğin konuların sana yaklaşmasına izin verirdim.

Yani hafıza kaybı olan bir arkadaşınız olmayacak, onunla her konuştuğunuzda oyunda bir NPC gibi olacaksınız.Kim olduğunuzu hiç hatırlamıyor, sadece mekanik bir cevap. Ona baharatlı yiyecekleri sevmediğimi söyledim Da Zhangwei'yi seviyorum Hatırlayabiliyor mu? İki ay sonra, "Yakınlarda hangi restoranlar var?" Diye sorun, Siçuan mutfağı ve Hunan mutfağı görünmemeli.

Ona "sevdiğim bir şarkı gel" dedim ve o Da Zhang Wei'yi sevdiğimi biliyor, Zhang Wei'nin şarkısını bana yükseltecek. Şanghay'da yaşıyorum ve o hatırlıyor, bu yüzden yarından sonraki gün yağmur yağıp yağmayacağını sorduğumda, muhtemelen yarından sonraki gün Şanghay'da yağmur yağıp yağmayacağını kastetmiştim.

Bu uzun süreli bir hafızadır ve temelde değişmez. Kısa süreli hafıza da başka bir şey mesela yarın Bay Zhang'ı görmek için Suzhou'ya gideceğim, süpermarkete gittiğimde süt alacağım ve süpermarkete gittiğimde yumurta alacağım. Gece eve giderken robota sordum, "Süpermarkette ne satın almak istiyorum?", Bana süt ve yumurta olduğunu söyleyebilir. Yani bu kısa süreli hafıza yaklaşık 48 saat ile bir hafta arasındadır ve sonrasında yıkanabilir.

Doğal dil anlamanın önemi

Daha sonra NLU'nun (Natural Language Understanding) önemi hakkında konuşacağım. Şirketimiz de NLU'da pek çok şey yapıyor.

Çince kelime segmentasyonu: "Huangpu Nehri kenarındayım", "Huangpu" ve "Jiangbian" veya "Huangpu Nehri" ve "Bian" olarak ikiye ayrılmalıdır. Participle her şeyin temelidir, eğer katılımcı yanlışsa, daha sonra olmayacak.

Konuşma etiketlemesinin bir parçası, kelime bir isim, fiil, sıfat veya zarf mı? Anahtar kelimeler nelerdir?

Kişisel varlık: Birinci kişi mi, ikinci kişi mi yoksa üçüncü kişi mi?

Yasadışılık: "Bekle, McDonald's'a gidelim tamam mı?" Dedim. Bu cümle, Görüş Sorusu. Kişisel fikrini soruyorum, bu yüzden genellikle cevabın olumlu bir cümle veya olumsuz bir cümle veya retorik bir soru olabilir. Bir soru, "O zaman ne zaman gidiyoruz?" Her şey yolunda.

Ve cümle tanıma vb. .

Bu modülleri yaptıktan sonra bunlarla daha sonra hangi uygulamalar kullanılabilir,

İlk olarak, kelime segmentasyonunun temel noktalarına bakın , İki örnek ver, "çok tatlısın" dedim, "merhaba" ve "tatlı" ya da "sen" ve "tatlı" olarak ikiye ayrılırsa, bazen "merhaba" birlikte olmalı, bazen "sen" , "İyi" ayrılmalıdır. "Merhaba" kelimesini bir araya getirirseniz, bu bir selamlaşma olur, o zaman arkasındaki tüm anlamsal anlayış yanlış olabilir.

Şu andaki örneğe ek olarak, anlambilimsel anlayış, örneğin, "Yarın Şanghay'a uçacağım, iki gün yaşayacağım ve evim gibi olacağım" ifadesi ne anlama geliyor? Bütün katılımcı ayrılmış. Ana kelimenizin "Ben" olduğunu biliyorum. Yarın Şanghay'a uçacak ve iki gün evde kalacaksınız. Çekirdek fiilleriniz "uçmak", "yaşamak" ve "sen", Şangay'a uçmak, iki gün yaşamak, evde olmak istiyorum. Sözdizimsel yapı böyledir.

SRL adında başka bir şey daha var, çekirdek fiili kavramaktır. , Şangay'a uçun, Şangay'da yaşıyor, canlı LOC (Konum) Şangay, Temsilci "Ben" ve "Uç", TMP "Uç" ve "Yarın" ve "Canlı" ve "İki gün". O zaman bu temsilci çok önemli değil, ancak yarın zaman ve iki gün kalacak. Ayrıca, ATP'nin "evde olmak" olduğunu biliyorum, bu nedenle "evde olmak" a göre niyetinizin bir otel rezervasyonu yapmak olabileceğini ve diyaloğun temasının otel olduğunu biliyorum. kalmak.

Sonra senin için bütünü hesapladıktan sonra, bugünün 10 Mayıs olduğunu biliyorum, bu yüzden yarın 11 Mayıs'ta Şanghay'a uçacağım ve iki gün kalacağım.Üç gün sonra dükkandan ayrılacağını biliyorum ve sonra şehir Şangay, Ev Hanlar, bu kesinlikle yeterli değil Şangay o kadar büyük ki, robot ayrıca Pudong'da mı Hongqiao'da mı yoksa Halk Meydanı'ndaki Ev Hanında mı yaşamak istediğinizi soracak ve en sevdiğiniz fiyatı, oda tipini vb. Sormaya devam edecek ve ardından tüm bilgileri aldıktan sonra bunu tamamlamanıza yardımcı olacaktır. görev.

İnsan-bilgisayar etkileşiminde bir sonraki adım

İnsan-bilgisayar etkileşiminin bir sonraki adımından bahsedelim. Şu anda, Taobao, JD, Vipshop, Suning, China Merchants Bank, Minsheng Bank, Ctrip gibi birçok akıllı müşteri hizmeti var. Çevrimiçi müşteri hizmetleri zaten bir robot. Ancak, çevrimiçi müşteri hizmetlerini kullandıysanız, şu anda çok akıllı olamayabileceğinizi ve beklentilerinizi karşılamayabileceğinizi göreceksiniz, o halde bundan sonra ne yapmalısınız?

Önce bazı verilere bakalım. Akıllı müşteri hizmetleri manuel müşteri hizmetleri ile kullanılmalıdır. Bu, robotun cevaplayamayacağı soruların manuel olarak cevaplanacağı anlamına gelir. Ancak, istatistikler bir kişinin bugün robotla sohbet ettiğini bulacaktır. Bir süre sonra, Sonunda,% 67'si yanlış cevaplardan değil, cevapları anlamadığı için doğuma geçmeye karar verdi. .

Örneğin robota giysilerimin küçük olduğunu ve giysilerin küçük olduğunu bildiğini söyledim, demek istediğim birini değiştirmek ya da iade etmek istiyorum. Malları takas etmek istediğimi biliyorsa, eşleştirme tamam, ancak sekiz değiştirme aşaması olabilir. Değişim aşamaları için toplamda 300 kelime olduğunu söylüyor. Kimse bu 300 kelimeyi okumak istemeyecek. Bunu 300 kelimeyi görüyorum. Sabrımı kaybettim ve doğuma geçmeye karar verdim.

Beklentilerimiz neler? Beklenti, makinenin benimle etkileşime girmesi ve yazıcının bağlanamamasıdır.Bilgisayarınız Windows mu yoksa MAC mi? Hangi kata bağlanmak istiyorsunuz, hangi yazıcıyı ve yazıcıya en son ne zaman bağlandınız? Hiç bağlandın mı Veya bu ilk defa. Benimle iletişim kurduktan sonra nihayet çok kısa bir cevap verdim ve bana doğrudan ne yapacağımı söyledim.

Dolayısıyla, manuel çalışmaya geçme kararlarının% 67'sinin aslında kötü tasarlanmış yanıtlardan kaynaklandığını göreceksiniz. Kullanıcıların% 25'i manuel çalışmaya geçmeye karar veriyor. Bunun nedeni yeni bir sorun olabilir, çünkü bu sorun geçmişte yoktu. Robotlar olmayacak, sadece 8 Kullanıcıların% 'si, algoritma eşleştirme hataları nedeniyle manuel çalışmaya geçmeye karar verdi.

Yani algoritma 100 puana ulaşsa bile yeterli değildir çünkü problemlerin sadece% 8'ini çözersiniz. Bana interaktif bir şekilde soru sormak, cümle cümle sormak için diyaloglar kullanmak ve sonunda ne yapmam gerektiğini söylemek gerekiyor, şimdi çok ihtiyaç duyulan şey bu.

Ek olarak, inisiyatif alabilir misiniz? Robot pasif olarak birinin sormasını beklemeyi bırakabilir mi?

Örneğin, bir alışveriş merkezinin kapısına veya belirli bir rafın kapısına monitör, kamera ve tablet takın. Bir kamera var ve uzun düz saçlı bir kız yanından geçiyor ve robot ona diyor ki, "Bu bayan, uzun düz saçların çok güzel. Saç kremim var, buna ihtiyacın var mı?" Kullanıcının yüzüne göre Bunları yargılamak için atıfta bulundu ve onunla konuşmak için inisiyatif aldı. Konuşma sürecinde, bu bayanın yüzünün gittikçe daha çirkinleştiğini gördü, bu yüzden çenesini kapadı ve konuyu hızla değiştirdi.

Bu, yüz özellikleri, yüz duyguları, yüz ifadeleri ve tüm insan-bilgisayar etkileşimi diyaloğunun kapsamlı bir uygulamasıdır.

İnsan-makine diyaloğu ile etkileşime girmek için makine vizyonunu kullanmak ve yavaş yavaş bazı mağaza asistanlarının işlerini veya en azından insansız mağazaların geleceğini değiştirmeye başlamak mümkün mü, insansız mağaza gerçekten hiç insan olmadığını varsayıyor ve raf söz konusu olduğunda gerçekten sorgulanabilir O sırada bir robot ürünleri tanıtmak için inisiyatif aldı ve bu şüpheleri benim için cevaplamak için inisiyatif aldı.

Elde edilecek insan-bilgisayar etkileşimi yuvarlak değil, çok turlu bir diyalog motoru olmalıdır. Bu yapılabilir mi? Bu örneği ele alalım, örneğin, "Bir servet yönetimi ürünü satın almak istiyorum." Robot hemen soruyor, "Sermayeyi korumanız gerekiyor mu?" Bu sırada kullanıcı, "Bir yıllık beklenen getiri beşten az değil. Puan ". Robot yalnızca bir soru sorar: "Başkenti korumak, başkenti korumak", ancak kullanıcı aynı anda üç şeyi yanıtlar: Şu anda üç bilgiyi de toplayabilir misiniz?

Yani robotun yuvayı doldurma yolunu kullanması gerekiyor, doldurulması gereken üç boşluk var ve şimdi kullanıcı bana üç boşluğun da doldurulduğunu yanıtlıyor, sorusunu doğrudan cevaplayacağım. Kullanıcı yalnızca "garantili" yanıtını verirse, robot ona "Bir yıl mı, altı ay mı yoksa iki yıl mı istiyorsunuz? Beklenen getiri nedir?" Diye soracaktır. Kullanıcının sözlerine göre, bilgileri boş yuvaya doldurun ve ardından eksik olana göre Bilgi, bir sonraki cümlenin ne sorulacağını belirler.

En azından "Korumalı, bir yılda beklenen getiri beş puandan az değil" diyen bir kullanıcıya dönüşmeyecek. Sonuç olarak, aşağıdaki robot aslında ona "Bir yıl mı yoksa iki yıl mı istiyorsun?" Diye sordu ve kullanıcı bu robotun bir Salak.

QA

Google Asistan Çince konuşuyor mu?

Çince ve İngilizce arasındaki uçurum nispeten büyük ve Google Çince şu anda pek iyi durumda değil.

Çince ve İngilizce arasındaki uçurum nerede? Çince kelime segmentasyonuna ihtiyaç duyar, İngilizce'ye ihtiyaç duymaz , Özellikle Almanca, sözdizimsel yapısı ve gramer yapısı çok standartlaştırılmıştır, bu nedenle Almanca sözdizimsel yapıyı analiz etmek için tüm grameri kullanabilir, niyetinizin ne olduğunu bilirsiniz, ancak Çince bundan çok uzaktır.

"Baba oğlunu çok şişman olduğu için tutamaz" ve "Baba oğlunu çok zayıf olduğu için tutamaz" gibi ilginç örnekler verin. "O" ikisini kime atıfta bulunuyor? Elbette İngilizcede de aynı sorun olabilir. Sonra Çince'yi "Bugün çok ilginç dedin", "Ciddiyim", "Ne demek istiyorsun?" Olarak değiştiririz, bu üç "anlam" olabilir. Hepsi farklı, yabancıların anlaması kolay olmayabilir.

"Çin masa tenisini kimse kazanamaz" ve "Çin futbolunu kimse kazanamaz" demek daha zor ... Bu iki cümlenin sözdizimi birebir aynı, ancak arkasındaki anlam farklı olabilir. Bu ilkokul öğrencileri tarafından bile anlaşılmayabilir. Çince'nin düzensiz gramer yapısı da dahil olmak üzere kelime bölümleme de dahil olmak üzere birçok sorunu vardır.

Google Asistan arama yapmanıza nasıl yardımcı olur? Sizin için bir restoran nasıl rezerve edilir? Sizin için bir şeyler nasıl yapılır? Hangi teknolojiye ihtiyaç var?

Öncelikle ASR (Otomatik Konuşma Tanıma), TTS (Metinden Konuşmaya) ihtiyacımız var , Ses tanıma gerektirir, sesi metne dönüştürür ve son olarak metni sese dönüştürür. Aslında, bu ikisini nispeten olgun yapan birçok yerli şirket var.

Daha sonra anlamsal anlama geliyor Bu cümlenin amacı nedir? Bu cümlenin temel içeriğinin bir kısmı nasıl çıkarılmalıdır? Bugün aradım ve "Yarın gece 6 kişi olacak ve ikisinin yerini tespit etmek zorunda kalacak" dedim. Bu cümle, insan sayısı ve niyetleriniz dahil olmak üzere zamanın alınmasını içermelidir. Yerini bulmak istiyorsunuz. Yine de sıralamak zorundasın, yoksa ne?

O halde bir restoran robotuysanız, bu müşteriye nasıl yanıt verirsiniz? Bu bilgileri aldıktan sonra, doldurmam ve bir restoran rezervasyonu yapmam gereken birkaç boşluk var. Gerekli bilgiler saat ve kişi sayısıdır. Özel bir oda mı yoksa bir lobi mi istiyorsunuz? Bazı özel ihtiyaçlar da var: Birkaç bebek sandalyesine ihtiyacınız var, doğum günü olan var mı, doğum günü pastası hazırlamanız, müzik çalmanız veya hatta bir doğum günü şarkısı söylemeniz gerekiyor mu?

Sizin için bir restoran ayırtmanız farklıdır. Diğer kişinin ne dediğini nasıl anlarım? O zaman senin için nasıl cevap vereceksin? Tüm bilgileri önceden verdim ve o lokantadaki kişiye cümle ile nasıl söyleyebileceğimi biliyorum, ben kaç kişiyim? Saat kaç? Özel bir oda istersem ne yapmalıyım? Tersi doğru olsa da, temelde temel bir anlambilimsel anlayıştır.

Google Asistan bir restoran rezervasyonu yapıyorsa sorunun ne olduğunu biliyor muyum? Karşı tarafın sorduğu soru, zaman, kişi sayısı veya sahip olduğunuz özel ihtiyaçlardır.Bu aslında nispeten basittir, çünkü genellikle telefonu yanıtlayan bir müşteri hizmetleri görevlisi daha standart sorular soracaktır ve bunun tersi de geçerlidir. Tersine, bir robot olsaydım, müşteri hizmetleri personeli olurdum, ancak kullanıcı yemek sipariş etmek için aradı ve kullanıcı çeşitli yollar öğretti.Bu genellikle anlaşılması biraz daha zor.

Netleştirmeye atıfta bulunma probleminde ne zaman bir ilerleme olacak?

Dürüst olmak gerekirse, zor buluyorum, çünkü belki insanlar bile başa çıkamayabilir, "Babam oğlunu çok şişman olduğu için tutamaz" gibi, bu "o" bir baba mı yoksa oğul mu? Herkesin bunu açıklamanın farklı bir yolu olabilir, bu da bunun, kaç tane diyalog turunun dağıtılmayı dört gözle beklediğini ifade ettiği anlamına gelir Bu aslında şu anda zordur.

Şu anda, neredeyse üç ila altı diyalog turunu dört gözle beklemek daha iyidir, ancak çok fazla ileriye bakarsanız, doğruluk büyük ölçüde azalacaktır. Çünkü birçok yanlış hüküm olacak. Kişisel görüşüm, bu sorunların son 25 yıldır çözüldüğü ve çözülmediği yönünde.

Derin öğrenme bu sorunları çözebilir mi? Şu anda yeterli olmayacak gibi görünüyor.Bu problemleri çözmek için derin öğrenmeye güvenmek aslında yeterli değil.Ayrıca bağlam anlama, referans çözümleme veya referans netleştirme konularında iyi bir iş çıkarmak için güncellenmesi ve daha iyi teknolojilere ihtiyacı olabilir.

Takema'nın çok yönlü diyaloğu ne kadar eğitim külliyatına ihtiyaç duyar?

İki tane. Birincisi, niyetinizi nasıl bilebilirim? Örneğin, TV'nin ses düzeyiyle ilgili olarak, sesi artırmak istiyorum. "Sesi aç", "Daha yüksek sesle konuş", "Çok alçak", "Seni net bir şekilde duyamıyorum" demenin farklı yolları, o zaman Bu öğretilerin aslında niyetleriyle tutarlı olduğunu nasıl bilebilirim?

Anahtar kelimeleri kullanırsanız, geçmiş deneyimimizde, yalnızca anahtar kelimeleri kullanırsanız, doğruluğunuz muhtemelen yalnızca% 70 civarındadır ve muhtemelen artmayacaktır. Örneğin, bazı karma modeller kullanıyorsanız, derin öğrenmeyi kullanırım. , Ben de dil modelini kullanıyorum ve sonra anahtar kelimelerin küçük bir kısmı işe yarıyor, bunları bir araya getiriyorum. Şu anda bu tür bir TV niyeti anlayışında% 97 ~% 98 hatta% 99'a ulaşma şansım var.

Sichuan'daki mevcut Changhong TV'miz gibi, arkasında da niyetimiz var ve doğruluk muhtemelen% 97 ile% 99 arasında. Fırsatın varsa daha iyi. Niyet anlaşıldıktan sonra, birden çok diyalog turu ve birden fazla diyalog turu olacağını varsayalım. Aslında, eğitim verilerine ihtiyacım yok çünkü sadece bilgi çıkarmak istiyorum.

Nerede rezervasyon yaptırmak istersiniz? Bu kentsel bilginin çıkarılmasıdır, yani Şangay veya Pudong'dan bahsedebilirsiniz, o zaman Pudong'un da Şangay'da olduğunu biliyorum, Hongqiao veya Wudaokou'dan bahsedebilirsiniz, Wudaokou'nun Pekin'de olduğunu biliyorum.

Bu, konum çıkarma bilgisinin yanı sıra zamanın çıkarılması, sayıların çıkarılmasıdır. , Hatta bazıları "Bir bilet ayırtmak istiyorum" demek bile var. Havayolu Eastern Airlines (Eastern Airlines), China Southern Airlines (China Southern Airlines), vb. Çiziyor. Bir liste yükleyebilirim ve bu eşanlamlılarla eşleşecek ve Bu şey yakalandı ve hatta bazı belirsiz eşleştirme yapıldı. Aslında, bu işin çoğu kurallarla yapılır ve çok fazla eğitim külliyatına ihtiyaç duymaz.

Diyalog duygu tanıma sıradan yorumlardan nasıl farklıdır?

Genelde sadece sıradan yorumları olumlu, olumsuz ve orta olarak ayırmam gerekiyor Bu bir kamuoyu analizi. Bazı insanların bir şeyden çok şikayet ettiğini biliyorum.Aslında biraz daha kaba duygu analizi yapabilirim, olumlu ya da olumsuz olduğunu biliyorum. Diyalog farklı Diyalog, neşe, öfke, keder, korku ve nötrde gerçekten en az altı veya on duygu olabilir. , Tıpkı başta söylediğim gibi, üzgünüm, kızgınım, korkarım üçü de olumsuz duygular, ama konuşma tarzım farklı ve konuşma şeklim farklı.

Bilgi grafiğinin depolanması nedir?

Aşağıdakiler de dahil olmak üzere birkaç ana akım var Neo4j (grafik veritabanı), ArangoDB, OrientDB , Ali'nin kendi grafik veritabanını da geliştirmesi gibi bazı depolama yöntemleri vardır. Şu anda, bu açık kaynaklı şeyler veri hacminize bağlıdır.Veri hacminiz 10 milyon veya 20 milyonu aşarsa performansı yeterince iyi olmayabilir, bu nedenle bu açık kaynak araçların şu anda sorunun bu bölümünü tamamen çözme yolu yoktur. Şirketimizin grafik veri tabanının bir kısmı açık kaynak olabilir, bir kısmı kendimiz geliştirebilir veya tüm veri tabanının veri yapısı kendimiz yazabilir.

Multimodal duygu nasıl çalışır?

Bunu yapmanın birkaç yolu var, bu da temelde mevcut yapay zekamızla aynı. Ya kuralları kullanın ya da model eğitimi kullanın . Model eğitimi için on binlerce vaka bulabilirim Ses duygusu nedir? Yüz ifadesi nedir? Metin havası nedir? Öyleyse ne olmalı? On binlerce veya yüzbinlerce eğitim verisine sahibim ve bunları eğitime dahil ediyorum ve sonra çok modlu bir modele sahip olabilirim.

Başka bir kural da kullanılabilir.Örneğin, ses duygusu% 90'dan büyükse, o duygunun kızgın olduğunu düşünür, temelde kızgındır.İnsan ifadelerine ve metin duygularına bakılmasına gerek olmayabilir çünkü ses duygusu çok ağırdır. Kızgın olduğumu düşünün ama güven seviyesi sadece% 30. Metin mutlu olduğumu söylüyor ve güven seviyesi% 90. Şu anda ağırlıklandırma yapmak için bazı kurallar kullanabiliriz.

Şu anda çeşitli yöntemler kullanıyoruz, öğrenme yöntemi ve kural yöntemi de kullanılıyor ve bütün yargılamak için birleştiriliyor. Artık her şey aynı olduğu için kuralların kullanılabileceğini söylemek ister misiniz? Kullanılabilir ama 60, 70, 80 puan olabilir ve bir daha yukarı çıkmayacaktır.

Derin öğrenme kullanılabilir mi? Yapabilmek , Peki derin öğrenme tüm sorunlarınızı çözüyor mu? Yeterli değil, eğitim verileriniz yeterli değil. Bu yüzden şu anda daha iyi bir yol, karıştırmak ve eşleştirmek için birden fazla model kullanmaktır ve bunu gerçekleştirme şansınız daha yüksektir.

Cümle analizi nasıl çalışır? Örneğin, soru cümlelerinde ve bildirim cümlelerinde nasıl analiz edilir.

Elbette birkaç çeşit var. Birincisi bir kara kutu var. Bu cümleyi atın ve sonra bu cümlenin sorgulayıcı bir cümle olduğunu ve bu cümlenin olumlu bir cümle olduğunu söyleyerek işaretleyin. Sonra cümle benzeri bir cevap üretmek için, Elbette, konuşma parçası etiketlemeniz de dahil olmak üzere kelime bölütleme sonuçlarını da kullanabilirim ve sonra bu ipuçlarını cümle durumunuzun ne olduğunu oluşturmak için kullanabilirim.

İkinci yöntem aslında eğitim verilerini kaydeder.Sadece şiddetli bir kara kutu kullanılırsa, eğitim verileri daha büyük olabilir, ancak bazı temel sökme işlemlerinden sonra, bu sökme ipuçlarına göre gideceğim. Eğitim için, eğitim verisi örneği çok daha küçük olacak ve bu daha uygun olacaktır.

İlgili öğrenim materyalleri

Yukarıdakiler, Takema Smart'tan Weng Jiaqi tarafından paylaşılan tüm içeriktir, QbitAI arayüzünde yanıt verin "180516" Mevcut Tam sürüm PPT ile Video oynatma bağlantısı .

Not: Qubit · Cuguashe çevrimiçi paylaşım getirmeye devam edecek, herkesin dikkatini çekmesini sağlayacak ~

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

100.000'e satıldı, standart bir LCD enstrüman da var ama 4S satıp almaya cesaret edemiyorum, sadece ağlayabilirim ve üretimi durdurabilirim

2018'in en güçlü savaşı! Çin'de sadece 5 gün hayatta kalan bir oyun, 4 milyar şahesere meydan okudu!