AI Frontiers | Microsoft Baş Yapay Zeka Bilimcisi Deng Li'nin Konferansı: Konuşulan Diyalog Sistemlerinin Sınıflandırılması ve Üç Nesil Evrimi

Editörün notu: Dr. Deng Li, Kanada'daki Waterloo Üniversitesi'nde profesördü. 1999'da Microsoft'a katıldı ve 2016'dan beri Microsoft'un baş yapay zeka bilimcisi olarak görev yapıyor. Microsoft'un derin öğrenme teknoloji merkezinin uygulama eğilimi üzerine derin öğrenme araştırmalarından sorumludur.

Geçen hafta AI Frontiers konferansında Dr. Deng Li, konuklar için sözlü diyalog sistemi üzerine bir konuşma yaptı. Leifeng.com'dan muhabirler yerinde konuşmayı kaydetti ve bu konuşma kaydını PPT ile derledi. Bu sefer Bay Deng, sözlü diyalog sisteminin sınıflandırılmasını, üç kuşağın evrimi ve kuru mallarla dolu üç sınır araştırma alanını tanıttı. NLP sahasındaki çocuk ayakkabıları kaçırılmamalıdır.

Deng Li:

Bugün hakkında konuşmak istiyorum Sözlü diyalog sistemi (Sözlü Diyalog Sistemi). "Sözlü Diyalog Sistemi" 30 yıldır bir terimdir ve şimdi biz de Konuşma arayüzü (Konuşma Kullanıcı Arayüzü) veya "botlar". Yani birkaç terimi var ama temelde aynı şeyi ifade ediyorlar. Bu tür sistemleri geliştirmek için insanlarla konuşabilmeniz gerekir. , Sesle veya mesajla . Bu sefer sese ve bu iki bot türü arasındaki temel farka odaklanacağım.

Konuşma tanıma ve metin tabanlı

Konuşma tanıma teknolojisi son beş yılda hızlı bir ilerleme kaydetti ve bu iki tür diyalog sistemi arasındaki boşluk daralmakta, bu çok önemli bir sinyal. Ancak diğer yandan, çoğu durumda hala birçok konuşma tanıma hatamız var. Bir diyalog sistemini bir dereceye kadar şöyle düşünebiliriz:

Diyalog sistemi = konuşma tanıma + metin tabanlı (veya "anlamsal anlama" olarak çevrilmiş) sistem

Konuşma tanıma, metin tabanlı diyalog sistemlerine bazı düşük gecikmeli metin girişi sağlar . Böylece onları bir araya getirebilirsiniz (eşit olduklarını düşünün), bu daha geleneksel bir görüştür.

Günümüzde geleneksel bakış açısının ötesine geçebilir ve entegre bir sistem tasarımının nasıl yapılacağını düşünebilirsiniz. Aslında, bu iki tür sistemi bir boru hattında bir araya getirmekten daha iyisini yapabilirsiniz. Bu Entegre öğrenme (Bütünleşik öğrenme) kavramı. Bu yöne odaklanacağım.

Ses, ton ve duygu gibi dil dışında (Para-linguistik ipuçları) bilgi sağlar. Bu, metin tabanlı diyalog sistemlerinde mevcut değildir - ikincisi bu bilgiyi veya ipuçlarını sağlamaz. Bu bakımdan iki sistem birbirine eşit değil . Kullanıcıya bağlı olarak, ses girişi metin girişinden daha basit olabilir - ancak daha karmaşık da olabilir. Şahsen benim için, sesi daha iyi anladığım için, karmaşık gerçekleri ifade etmek için sesi kullanma eğilimindeyim ve hata oranı o kadar yüksek olmayabilir. Ses, daha fazla bilgiyi daha hızlı sağlamama olanak tanıyor. Ancak çoğu insan için metin tabanlı diyalogları kullanırken karmaşık cümleler kullanma eğilimindedirler. Bunun nedeni ya bunun daha hızlı olması ya da diğerinin ses tanıma yeteneği hakkında endişelenmeleri ve daha sonra özellikle gürültülü bir ortamda tekrarlamak ya da çok fazla konuşmak istememesidir. Kullanıcının kişisel özelliklerine bağlı olarak, bu iki durum da ortaya çıkabilir. Zaman geçtikçe ses tanıma sisteminin daha da olgunlaştığını ve bu konudaki sesli ve yazılı diyalog arasındaki uçurumun giderek küçüleceğini düşünüyorum.

Bir başka çok önemli husus ise Dar alan ve geniş alan (Dar alan ve geniş alan). Ses temelli konuşmalar, dar alanlara odaklanma eğilimindedir. Ama şimdi konuşma tanıma teknolojisindeki ilerlemeden dolayı farklılaşıyor.

Birkaç ay önce, Venturebeat, konuşulan diyalog sistemini (yine bazı insanlar onlara Botlar, bazen diyalog etkileşimli arayüzler olarak adlandırılır) özetleyen "Botların Peyzajını Tanıtmak" adlı çok iyi bir makale yayınladı ve Sektörün durumu.

Bir bakışta Botlar alanının manzarası

Üst sütun: Çekici Botlar; Sol sütun (yukarıdan aşağıya): Bağlayıcı / paylaşım hizmeti, Bot keşfi, analiz; Sağ sütun (yukarıdan aşağıya): AI araçları: NLP, ML, ses tanıma; Bot geliştirme Çerçeve ve araçlar, SMS

Diyalog sistemi, teknolojinizi üçüncü şahıslara bağlamak için bir bağlayıcı olarak görülebilir. O zaman bunu başarmak için bir dizi geliştirme çerçeveniz ve aracınız var. Microsoft bu konuda büyük hamleler yaptı: 11 ay önce Microsoft Build geliştirici konferansında büyük bir duyuru vardı: Microsoft Bot Çerçevesi (Microsoft Bot Çerçevesi) Herkese ve üçüncü şahıslara açıktır.

Bot Kategorileri

Zaman kısıtlamaları nedeniyle, bugün yalnızca yapay zeka araçlarına, doğal dil işleme (NLP) ve konuşma tanımaya odaklanacağım. Bu perspektiften, 1990'ların başından beri ilgili teknolojilerin üç nesil gelişimini gözden geçireceğim.

Birkaç ay önce, botların değerini tartışmak için "Derin takviye öğrenimi sohbet robotlarına nasıl yardımcı olabilir" başlıklı bu makaleyi yazdım. Bugünün konusu bu makaleye dayanmaktadır. Makalede ilk olarak uygulamaların ve web modellerinin karşılaştığı sorunlardan bahsetmiştim; ikincisi yeni ve büyüyen bir mobil UI (mobil UI) olarak ve bunda b Ots'un oynadığı insan ve makine arasındaki akıllı ajanın rolü . Teknik detayları daha derinlemesine tartışacağım.

Botları üç kategoriye ayırdım:

  • Sosyal sohbet robotu

  • Infobot (infobot)

  • Görev tamamlama botu

Sözlü diyalog sisteminin üç nesil gelişimi

Şimdi son birkaç yıldaki teknolojik ilerlemeden bahsetmeye başlıyorum. Son yıllarda, AI teknolojisi (hype) hakkında çok sayıda kamuoyu heyecanı yaşadık. Ancak gerçek şu ki, ilgili teknolojilerin temeli 1980'lerin sonunda ve 1990'ların başında geliştirildi. Bu teknolojilerin ilk nesilden en yeni nesile nasıl geliştiğini özetleyeceğim.

İlk nesil: gösterim kurallarına, şablonlara dayalı

Her şeyden önce, ilk nesil teknoloji 1980'lerin sonunda başladı.Popülerlik açısından, bu teknoloji dalgasının birkaç yıldan daha uzun bir süre önce olduğu söylenebilir, ancak bazı ticari sistemler bulabilir ve bot start-up'ları hala onları kullanıyor. Bu nesil teknoloji, uzmanlar tarafından manuel olarak formüle edilen gramer kurallarına ve ontolojik tasarıma dayanır. Bu kuralların açıklanması, anlaşılması kolaydır ve nispeten şeffaftır. Bu nedenle, bu teknoloji nesli bir dizi başarılı ticari uygulama ortaya çıkarmıştır. Boşlukları yamamak kolaydır ve sistem güncellemeleri de kolaydır.

Sınırlamaları:

  • Uzmanlara güvenin. Bu tür uygulamaların nasıl yazılacağını bilen uzman yoksa, geliştirilmesi son derece zor olacaktır.

  • Etki alanları arasında yetersiz ölçeklenebilirlik

  • Veriler öğrenmek için değil kuralları tasarlamak için kullanılır

İlk günlerde pek çok üniversite, devlet kurumu ve ticari şirket bu tür sistemleri geliştirdi. Konuşma tanıma ve dil anlama sistemlerine ayrılabilirler. Hepsi sembolik kurallardan oluşur ve geliştirilmesi için büyük çaba gerektirir.

Bu sınırlamalar nedeniyle, İlk nesil teknoloji yalnızca çok dar alanlara uygulanabilir ve bu iyi bir şey olabilir . Bu tür teknoloji hakkında çok iyi bir makale var ve araştırma hedefi Berkeley'deki restoran. Leifeng.com, yazılacak çok fazla kural olduğu için sıradan restoranların işe yaramayacağını öğrendi.

İkinci nesil: veriye dayalı, sığ öğrenme

İkinci nesil teknoloji veriye dayalıdır.

Uygulayıcılar bu nesil teknolojiye sığ öğrenme demeye isteksizler, ancak aslında bunlar geleneksel sığ öğrenme yöntemleridir. Bu arada, diyalog politikası için takviye öğrenimi şu anda geliştirildi (1990'lar). Bugün gördüğümüz pekiştirmeli öğrenmenin zirvesi, o dönemde temeli attı. Şimdi derin öğrenmenin ilerlemesi daha da yardımcı oldu.

Sığ öğrenmeye dayalı bu veri odaklı yaklaşımın anlaşılması ve boşlukları kapatması kolay değildir, ancak öğrenme yeteneğine sahiptir.

Bu makale ("POMDP tabanlı istatistiksel sözlü diyalog sistemleri: bir inceleme"), ikinci nesil teknolojiyi bir bütün olarak özetlemektedir. 4 yıl önce (2013), derin öğrenmenin başlangıcından hemen önce yayınlandı. Bu makale Cambridge Üniversitesi'nin bir sonucudur ve sistemi ticarileştirmek için çok çaba sarf etmişlerdir.

Üçüncü nesil: veriye dayalı derin öğrenme

Üçüncü nesil teknoloji, sığ öğrenmenin yerini derin öğrenmeyle değiştirir. İkinci nesil teknoloji gibi, veriler diyalog sistemindeki her şeyi öğrenmek için kullanılır. Üçüncü nesil nöral modeller ve temsiller, önceki iki nesilden çok daha güçlüdür ve uçtan uca öğrenme uygulanabilir hale gelir. . İki yıl öncesinden bu yana, tüm dünyada büyük araştırma ilgisi çekmiştir. Ancak birçok sınırlaması da vardır:

  • Güvenlik açıklarını açıklamak, düzeltmek ve sistemi güncellemek hala kolay değil.

  • Sinir ağı öğrenimi ve sembolik doğal dil arasında etkileşimli bir arayüzün olmaması

  • Alanlar arası genişleme, ancak oldukça fazla araştırma, derin transfer öğrenmeyi ve pekiştirmeli öğrenmeyi başarmak için kullanma yollarını bulmaya çalışıyor

  • Net ticari başarı hikayeleri yoktur.

Bu üç nesil teknolojinin kendi güçlü yönleri vardır ve bu avantajların nasıl entegre edileceği büyük bir zorluktur. Pek çok araştırma buna odaklanıyor.

Takviye öğrenme

Bu tür sistemleri açıkça ifade etmek için pekiştirmeli öğrenme nasıl kullanılır?

"Durum nedir? Eylem nedir? Ödül nedir?" Konusunu dikkatlice düşünürseniz, yukarıda belirtilen üç tür Robotu (sosyal robotlar, bilgi robotları, görev tamamlama Robot) pekiştirmeli öğrenme ile temsil edilir.

Araştırma sınırı

Burada üç sınır araştırma alanını listeledim:

  • Ses tabanlı ve metin tabanlı

  • Diyalog için derin takviye öğrenme

  • Sembol-sinir entegrasyonu

Konuşma tanımanın geleceği

Konuşma tanıma büyük ilerleme kaydetti. Buradaki amacım, Ses problemi sadece bir sinyal tanıma problemi değil, aynı zamanda bir bilgi işleme problemidir.

Film izleyici sayısı 100 milyonu aştı. "Wolf Warrior 2" den sonra Wu Jing bir kez daha efsane yarattı!
önceki
"Persona 5" yeni çevre birimleri, bu tişört, bu telefon kılıfı kalbinizi çalabilir
Sonraki
HG Devil Battle Hasarlı Şeytan Gundam
Apple, LG ile işbirliğini yoğunlaştırıyor, yeni iPhone fiyatlı veya daha ucuz
Beyin yakan 6 adli televizyon dizisini önerin, hangisini en çok seviyorsunuz
72.93 milyon ile 2 gün boyunca vizyona giren Douban, 8.9 sayı ile gişeyi "Alita" ile geride bıraktı!
PG 1/60 RX-78-2 Gundam patlayabilir
Hunan'daki Manzaralı Noktalarda "8 Mart Tanrıça Festivali" Özel Etkinlikleri Sunuluyor
Duvar anahtarlarının ömründe devrim yaratmak için: Oribo duvar "orta konsolu" piyasaya sürüyor
Candy Translation Mobile S20 Review: Candy S20 ile dünyayı dolaşın
Gece geç zehirleme stratejisi: Yiyecekleri bir fotoğrafçı gibi fotoğraflayın Yararlı işlevler
10 heyecan verici gerilim muhakeme filmi önerin
Dapeng kanatlarını açıyor, RG 1/144 Freedom Gundam'a saldırıyor
Birlikte geçirdiğiniz güzel günleri anımsatan 7 güzel gençlik kampüsü filmi
To Top