DuerOS Prometheus Projesi: 30 sayfalık uluslararası uzman PPT kapsamlı konuşmalı AI veri seti analizi

9 Kasım'da ABD Batı Saati, Baidu DuerOS Prometheus, ABD, Silikon Vadisi'nde bir lansman konferansı düzenlemeyi planlıyor. Bir hafta sonra, 2017 Baidu Dünya Kongresi'nde Prometheus resmen yelken açmayı planlıyor. Raporlara göre, Baidunun DuerOSunun bu yılki en önemli stratejik planlarından biri olan Prometheus planı, açık ultra büyük ölçekli diyaloğa dayalı yapay zeka veri kümeleri, disiplinler arası işbirliği ve disiplinler arası ortak inşaat gibi çeşitli planları ve Diyaloğa dayalı AI alanında olağanüstü projeleri ve yetenekleri teşvik edin ve geliştirin.

Silikon Vadisi açılış toplantısında Amazonun üst düzey makine öğrenimi direktörü Dr. Björn Hoffmeister, Johns Hopkins Üniversitesi İnsan Dili Teknoloji Merkezi direktörü Dr. Sanjeev Khudanpur ve eski bir Facebook araştırma ve geliştirme bilim insanı olan Antonie Raux üç hususu tartıştı: sesli uyandırma, ses tanıma ve çok yönlü etkileşim. Bir açılış konuşması yaptı, akademik alanın gelişimini, araştırma yöntemlerini vb. Tanıttı ve Prometheus planının yüksek bir değerlendirmesini yaptı ve küresel konuşma yapay zeka endüstrisinin bilimsel araştırma geliştirmesini ve yetenek eğitimini artıracağına inandı. Ayrıca, Carnegie Mellon Üniversitesi araştırma profesörü Alexander Rudnicky, Massachusetts Institute of Technology (MIT) kıdemli araştırma bilimcisi Jim Glass ve diğer yabancı uzmanlar ve akademisyenler proje danışman ekibine katıldı ve süper lüks uzman yönlendirme komitesini oluşturdu.

DuerOS Prometheus Projesi Küresel Uzman Yönlendirme Komitesi

Prometheus planının lansman konferansında, Dr. Khudanpur ve Dr.Antoine Raux, uyanma ve veri etrafında diyaloğa dayalı yapay zekanın derinlemesine analizini gerçekleştirdiler.

Baidu'nun baş mimarı Chen Guoguo bir keresinde yetenek, veri, altyapı ve bilgi işlem yeteneklerinin yapay zeka alanındaki en önemli dört unsur olduğuna dikkat çekti. Büyük veri çağında, makine öğrenimi modelleri, özellikle sinir ağı modelleri, eğitim için büyük miktarda veriye ihtiyaç duyar. Ancak büyük ölçekli veri kümeleri, sektörde her zaman kıt bir kaynak olmuştur. Prometheus tarafından bu kez yayınlanan veri seti, şu anda en büyük miktarda veriyle Çince konuşma ve diyalogla ilgili veri seti olacak ve birden fazla görev veri seti yalnızca endüstride yayınlandı. Plan, "üretim, öğrenme ve araştırma" nın üç yönünden konuşmalı yapay zekanın gelişimini kapsamlı bir şekilde destekleyecektir.

Aşağıda Johns Hopkins Üniversitesi İnsan Dili Teknoloji Merkezi Direktörü Dr. Sanjeev Khudanpur ve Facebook'ta eski bir Ar-Ge bilimcisi olan Antonie Raux tarafından belirlenen diyaloğa dayalı yapay zeka verilerinin derinlemesine bir yorumu yer almaktadır.

Kaldi ile konuşmalı yapay zeka sistemi devrimine nasıl başlanır

Dr. Khudanpur, Johns Hopkins Üniversitesi Elektronik ve Bilgisayar Mühendisliği Fakültesi'nde profesördür. Teknoloji şirketlerinin şu anda akıllı hoparlörler konuşlandırdığına, diyaloğa dayalı yapay zeka için yeni bir savaş alanı olduğuna inanıyor. Elbette Baidu bu fırsatı kaçırmayacak. Aynı zamanda, DuerOS bakışını bununla sınırlamaz, her şeyi uyandırmak için AI aracılığıyla daha fazla sahneyi güçlendirmek için.

Dr. Khudanpur konuşmanın bir konuşma yapay zeka sisteminin girişi olduğuna ve konuşma tanıma sisteminin performansının özellikle önemli olduğuna dikkat çekti. Tam bir konuşma tanıma sistemi genellikle üç bölümden oluşur: dil modeli, akustik model ve kod çözücü. Dil modeli, belirli bir dilin gramer kurallarının kısıtlamaları altında oluşturulan sözcükler ve sözcükler arasındaki eşdizim ilişkisini tanımlamak için kullanılır ve akustik model, fonemlerin telaffuz özelliklerini tanımlamak için kullanılır. İkisi bir sözlük aracılığıyla birbirine bağlanır ve kod çözücü aramayı oluşturur En uygun yolun kodu, tanıma sonucu olan boşluk tarafından çözülür.

Geçmişte, sektördeki çeşitli şirketlerin kendi benzersiz sistemleri ve algoritmaları varken, akademi ideal koşullar altında tanıma performansını iyileştirmeye odaklandı. Bu nedenle, yeni kurulan şirketlerin ve küçük laboratuvarların gerçek senaryolarda yüksek oranda kullanılabilir bir konuşma tanıma sistemi kurması zordur.

Kaldi, 2009 yılında Johns Hopkins Üniversitesi'ndeki bir atölyede doğdu. Apache 2.0 lisansını kullanıyor ve değişiklik ve yeniden dağıtımı destekliyor. Kaldi adı, kahveyi keşfeden efsanevi ilk kişiden türetilmiştir.Kaldi adı, geliştiricilerin kullanması için uygun olan kahve gibi esnek, kullanışlı ve popüler bir konuşma tanıma aracı sağlamayı amaçlamaktadır.

Kaldi projesinin son 6 veya 7 yılda 150'den fazla farklı katkısı olmuştur, ana versiyonun dışında 8 şubesi, 2000'den fazla takipçisi vardır ve birçok kişi projenin yaptığı araçları kullanmaktadır ve Çok aktif bir posta listesi. İndirme sayısı 20.000'i aştı, kağıt

Kaldi, C ++ ile yazılmış belirli bir konuşma tanıma sistemi oluşturmak için bir dizi veritabanı, komut satırı aracı ve bazı komut dosyalarıdır. Bu programlar size belirli bir durumda ne yapmanız gerektiğini söyler.Örneğin, uzak bölgelerden çok sayıda konuşma materyaliniz var veya Çeşitli dillerde karıştırılmış ses materyalleri. Kaldi ayrıca akademi ve endüstride de yaygın olarak kullanılmaktadır: MIT, CMU, Microsoft, Google, vb. Hepsi araştırma çalışmaları için Kaldi'yi kullanır. Ana Kaldi versiyonu Dr. Dan Povey tarafından hazırlanmaktadır.

Konuşma tanıma teknolojisinin sürekli ilerlemesiyle, Kaldi araçları da verimli bir şekilde güncellenir: Gauss modelinden sinir ağı uygulamasına, kaynak kıtlığı koşullarında konuşma tanıma çözümleri sağlar, GPU eğitimini destekler ve yakın alan tanımadan uzak alan tanımaya genişler. , Birden çok stil ve birden çok cihaz kaynağından alınan eğitim verileri desteği, daha yüksek verimlilik ve performansa sahip Zincir Modeli ve eğitim sürecine eklenmiş rakip öğrenme. Ayrıca, giderek daha fazla araştırmacı ve geliştirici, Kaldi'ye dayalı yeni teknolojileri araştırıyor ve geliştiriyor.

Büyük veri hacimleri durumunda eğitim hızı optimizasyonu sorununu hedefleyen Kaldi, çoklu GPU veri paralel stratejisi kullanıyor. Bir yandan, doğal gradyan (NG-SGD), mevcut eğitim hedefi fonksiyon iniş oranını hızlandırmak için geleneksel gradyan yerine kullanılır; diğer taraftan, GPU, karşılık gelen parti verilerini hesaplarken model parametrelerini paylaşır ve ardından gradyan sayılır ve paylaşılan parametreler güncellenir.

Bir konuşma tanıma sistemi için, konuşmacının aksanı farklıdır ve konuşma hızı farklıdır; konuşmacının bulunduğu sahne, genellikle çeşitli seslerle birlikte sürekli değişmektedir; ses koleksiyonunun donanım donanımı ve kodlama formatı tek tip değildir. Bu üç faktör, konuşma tanıma sistemlerinin gerçek kullanımda büyük zorluklarla karşılaşmasına neden olur. Çeşitli belirsizliklere karşı hala etkili olan bir tanıma sisteminin geliştirilmesi, konuşma tanıma teknolojisinin nihai hedefi haline gelmiştir. Ulusal İstihbarat İleri Araştırma Projeleri Ajansı tarafından düzenlenen ASpIRE yarışmasında da izlenen hedef budur.

Kaldi, 2015 yılında IARPA tarafından düzenlenen ASpIRE yarışmasında birinci oldu. Bu yarışmada Kaldi tarafından kullanılan siyah teknolojiler başlıca şunları içerir:

1. Aşağı örnekleme TDNN ağı daha verimlidir ve daha fazla bağlam bilgisi kullanabilir.

2. Eğitim verilerini çeşitli uzak alan senaryolarını simüle etmek üzere dönüştürmek için gerçek uzak alan ortamının etki tepkisini ve gürültüsünü birleştiren veri ön işleme.

3. Hoparlörden ve ortamdan çıkarılan i-vektör özelliklerini TRAP özelliğine eklemek için i-vector özelliklerini kullanın.

Zincir Modeli, CTC eğitim yönteminden esinlenmiştir Durum ve HMM geçişinin topolojisini yeniden tasarladık (hmm durumlarının sayısı 3 veya 5'ten 1'e düşürüldü ve dönüşün 0 veya daha fazla kez tekrarlanması için aslında bir boşluk var. Durum), kare hızını düşürdü (100 Hz'den 33 Hz'ye) ve hmm geçiş olasılığını düzeltti. Buna ek olarak, geleneksel SDT'nin (Sıra Ayrımcılık Eğitim Yöntemi) bir başlangıç modeli eğitmek için çapraz entropi hedef işlevini kullanması ve ardından bu model üzerinde bir kafes oluşturması gerekir. Kafes, karşılıklı hesaplama için doğru yolu ve daha yüksek olasılığa sahip diğer yolları içerir. Bilgi ve gradyanlar geri yayılır. Kaldi'deki Zincir Modeli, Kafessiz bir eğitim yöntemidir.Ağ çıktı katmanındaki tüm olası etiketlenmiş dizilerin posterior olasılığını hesaplar ve MMI ve gradyanı doğrudan hesaplar. Deneysel sonuçlar, geleneksel TDNN modeli ile karşılaştırıldığında, Zincir Modeli (LF-MMI) + TDNN modelinin kod çözme hızı ve doğruluğunu önemli ölçüde iyileştirdiğini göstermektedir.

Zincir Modeli (LF-MMI), geleneksel TDNN + sMBR (Durum Hata Oranını En Aza İndir) ile karşılaştırıldığında, kod çözme sırasında kelime hata oranı% 6-% 11 azaltılır, eğitim hızı 5-10 kat, kod çözme hızı 3 kat artar. Ayrıca deneyler, Zincir Modeli (LF-MMI) eğitiminden sonra üretilen model üzerinde sıra ayırt etme eğitimi (sMBR) gerçekleştirmenin pek bir şey sağlamayacağını göstermektedir.

Veri: Diyaloğa dayalı yapay zeka ve veriler arasındaki ilişki

Dr.Antoine Raux, Facebook'ta eski bir araştırma ve geliştirme bilimcisi, CTO ve konuşmaya dayalı bir yapay zeka girişiminin kurucu ortağıdır. Konuşma yapay zekasının mevcut gelişiminde verilerin oldukça az olduğuna ve yeterli ve etkili verilerin konuşma yapay zekasının geliştirilmesindeki bazı zorlukların çözülmesine büyük ölçüde yardımcı olabileceğine inanıyor. Dolayısıyla veri çok önemlidir Aşağıdaki iki soru üzerinde düşünmemiz gerekir: 1) Hangi veriler kullanılabilir 2) Diyalog verilerinin toplanmasında ne tür bir tasarım mantıklıdır?

Örneğin, yukarıdaki şekil tipik bir konuşma yapay zeka sistemidir. Veriler bu alt sistemlerden geçer ve son olarak kullanıcıya geri bildirim ve çıktı verir: İlk olarak, kullanıcının sesi Otomatik Konuşma Tanıma (ASR) ve doğal dil anlayışı yoluyla metin verisi olarak tanınır ( Natural Language Understanding (NLU) modülü bir NLU sonucuna işlenir (amaç + yuvaların sonucu, yani PPT'deki amaç çerçevesi). Daha sonra, Diyalog Durumu İzleme (DST) modülünde modül, diyalog süreci boyunca çoklu NLU tanıma sonuçları ve geçmiş verilere dayalı olarak mevcut diyalog durumunu (diyalog durumu) günceller ve ardından Politika modülü aracılığıyla amaç çerçevesini çıkarır. Amaç çerçevesi, Natural Language Generation (NLG) modülü tarafından metne dönüştürülür ve son olarak, kullanıcıya yayınlanmak üzere Text To Speech (TTS) modülü tarafından sese dönüştürülür. İçinde çok fazla veri var: Sesten metne, niyet çerçevesine, diyalog durumuna, gereken veri miktarı kademeli olarak azaltılır, ancak her görevin özelliği giderek artmaktadır. Sol tarafta, belirli bir görev için olmayan büyük miktarda veriniz var Ortada, veriler azaltılır ve görev daha hedeflenir. Aşağıdaki rapor içeriği aşağıdaki üç bölüme ayrılacaktır: Birincisi, veri toplama sorunları hakkında konuşacak, ikincisi veri etiketleme sorunları hakkında konuşacak ve son olarak Antonie'nin katıldığı ve aynı zamanda bu alandaki bazı yeni çalışmaları temsil eden bazı örneklerden örnekler verecektir.

Öncelikle veri toplama ile ilgili konulardan bahsedelim.

Statik bir külliyat olsun, ne tür verileri kullanmanız gerektiğine karar vermelisiniz, bir topluluk oluşturup sonra onu kullanıp dağıtmalısınız ya da yerinde etkileşim uygulamalısınız, yani başkalarının test etmek istediğiniz sistemi kullanmasına izin verin ve gerçek insanlara ve sistemlere ihtiyacınız var. Etkileşim. Her şeyden önce, statik yapı için aşağıdaki 4 avantajı vardır:

Büyük külliyat oluşturabilir

Paylaşılabilir

Karşılaştırmalı veri analizi için uygun

Yeniden kullanım yoluyla maliyetleri azaltın

Ancak veri toplama stratejisiyle sınırlı olan statik derlemin belirli sınırlamaları vardır ve verilerin dışında diyalog yolunu keşfedemezsiniz. Çevrimiçi etkileşimin avantajlarından bahsedelim:

Geri bildirim yoluyla farklı politikaları test edebilir, yeni politikaları keşfedebilir ve A / B testleri yapabilirsiniz (bu statik derlemeyle mümkün değildir)

Veri dağıtımı gerçek kullanıcılara daha yakındır

Ancak çevrimiçi etkileşimli veri toplama oldukça pahalıdır, çok fazla zaman ve paraya mal olur ve büyük miktarda veri elde etmek zordur.

Toplanan konuşma verileri 2 türe ayrılabilir:

Biri, insanlar arasındaki etkileşimdir

Biri, insanlar ve makineler arasındaki etkileşimdir

Öncelikle, insandan insana etkileşimin özelliklerinden bahsedelim:

Etkileşim daha doğal ve sınırsızdır

Bir sistem kurmaya gerek yok

Bazı senaryolarda, müşteri hizmetleri sistemi gibi zaten mevcut veriler vardır, telefon kaydı olacaktır.

Sistemi simüle edebilir, yani bir kişi sistem olarak hareket eder ve bir kişi kullanıcı olarak hareket eder

Ancak herkesin diyalog problemini uygulamak zordur çünkü bu diyaloglar açık ve çok doğaldır ve kullanımı belirli bir kontrol aralığına sahip verilerden daha zordur. Bu tür veriler, yaptığınız uygulamadan da uzak olacaktır.

İnsan-bilgisayar etkileşiminin özellikleri hakkında konuşun:

Gerçek uygulamaya yakın

Toplama maliyeti düşük

Ancak bir sistemin kurulması gerekir ve sistemin yeteneklerinin kalitesi de veri toplama kalitesini etkiler. Sınırlı sistem yetenekleri nedeniyle, yeni özellikleri keşfetmek zordur.

İster topluluk isterse çevrimiçi etkileşim için olsun, bir kullanıcının konuşmasını kaydetmek istiyorsanız, kullanıcıların seçim yapabileceği iki seçenek vardır: biri gerçek kullanıcıdır: pratik uygulamayı çözer ve iyi beklenmedik girdi verileri üretebilir; dezavantaj: koleksiyon oldukça fazladır Pahalı, çok zamana ve paraya mal olacak.

Diğeri ise kullanıcıları simüle etmektir: büyük miktarda veri üretebilir, kullanıcıya en iyi yanıtı seçmek için sürekli olarak farklı stratejileri test edebilir, toplama maliyeti düşüktür ve çok fazla zaman ve para harcamayacaktır; dezavantajlar: ve gerçek kullanıcı davranışı Sapmalar var Bazı durumlarda sapma büyük olabilir ve iyi bir simülasyon kullanıcısı geliştirmek de zordur.

[Not: BAŞTAN SONU HEDEFE YÖNELİK DİYALOG ÖĞRENME referans makalesi Antoine Bordes, Y-Lan Boureau ve Jason Weston]

Bu, Facebook tarafından 2017 yılında yayınlanan ve külliyatın yönteminin değerlendirildiği bir makaledir:

Makalede yer alan veri seti üç kategoriye ayrılmıştır: Biri şablondan oluşturulan külliyat; diğeri çalışanlar ve sistem arasındaki diyalogla oluşturulan külliyat; sonuncusu ise insanlar arası diyalog külliyatıdır. Deneysel sonuçlardan, oluşturulan diyalog verilerinde etkinin çok iyi olduğu ve etkinin% 60 ila% 100 olduğu, ancak insan-bilgisayar diyalog verilerinde etkinin yarı yarıya azaldığı, insandan insana diyalog korpusunda ise% 41,1'e düştüğü görülmektedir. İçinde, etki daha da azaltıldı, yalnızca% 16,7'ye ulaştı. Bu nedenle, diyaloğu oluşturmanın sonuçları, pratik vakanın başarısını garanti etmez. Deneysel sonuçlar, önceki analiz sonuçlarını da doğruladı: 1) Statik külliyat veri toplama stratejisi ile sınırlıdır ve belirli sınırlamaları vardır.Verilerde olmayan etkiyi göremezsiniz; gerçek kullanıcı verilerinden sapmalar olacaktır; 2) İnsanlar Heren verilerinin pratik uygulamalarda kullanılması zordur çünkü verileri kontrol etmek için fazlasıyla açık ve doğaldır; veriler son uygulamadan oldukça farklıdır.

Şimdi gerçek kullanıcılar ile çalışanlar arasındaki farka bakalım

Gerçek kullanıcılar:

Gerçek uygulamaya yakın

Çok sayıda potansiyel kullanıcıya sahip olmak

zorluk

Rekabetçi ürünler üretme ve sürdürme ihtiyacı

Olası gizlilik konuları

Etkili geribildirim sinyalleri olmadan, bir etkileşimin başarılı olup olmadığını bilmek imkansızdır

Çalışanlar:

Ürünün ilk aşamasında kullanıma uygundur (yani ürün kullanıma sunulmadan önce)

Olgunlaşmamış ve riskli stratejileri test etme yeteneği (gerçek kullanıcı olmadığı için kullanıcı deneyimine zarar vermeye gerek yoktur)

Gizlilik dikkate alınmaz (bu nedenle Baidu, tüketici bilgilerini kullanmak yerine kitle fonlaması yoluyla veri oluşturmak ister, çünkü bu bilgiler dağıtılamaz.)

Dezavantaj

Gerçek kullanıcı davranışından farklı

Kullanıcı sayısı sınırlıdır ve kitle kaynak kullanımı gereklidir

Gerçek kullanıcılar ile işe alan kullanıcılar arasındaki farktan bahsetmişken, 2010 yılında CMU'nun bu yazısından bahsetmek istiyorum. Diğer üniversitelerin mevcut sistemlerini okullarıyla paylaşmalarına olanak sağlamak için bir yarışma düzenlediler.Her gün gerçek kullanıcılar otobüsle ilgili soru sormak için ararlar. Zaman çizelgesi bilgisi için, diğer üniversitelerin sistemlerinin aynı görevleri tamamlamak için kendi sistemleri ile değiş tokuş yapmasına izin verirler, ancak sistemler tamamen farklıdır. Oyunu tamamlamak için gerçek kullanıcıları kullanırlar. Bu bize laboratuvarda işe alınan kullanıcıların verilerini daha sonra gerçek kullanıcıların verileriyle karşılaştırma fırsatı veriyor.

[Not: Spoken Dialog Challenge 2010 referans makalesi: Canlı ve Kontrol Test Sonuçlarının Karşılaştırması]

Sol üst köşe konuşma tanıma testidir.Deneyde üç farklı sistem vardır. Sistem 1, CMU'nun kıyaslama sistemidir, Sistem 3 akademik dünyadaki en iyi araştırmacılar tarafından kurulan bir sistemdir ve Sistem 4, sektördeki katılımcı bir ekip tarafından yapılır. Bir sistem laboratuvardan gerçek kullanıcı verilerine (canlı grup) kullanıcı verilerini (kontrol grubu) topladıktan sonra, kelime hata oranı (WER) arttı. Sistem 3'ün performansı önemli ölçüde düştü, diyalog başarı oranı% 90'dan% 65'e düşerken, Sistem 4 önemli ölçüde düşmedi. Sistem 4 daha çok ticari uygulamalara yöneliktir, bu nedenle daha temkinlidir ve fantezi peşinde koşmaz, Sistem 3 ise gelişmiş pekiştirmeli öğrenme ve diğer teknolojileri kullanır.Bu teknolojiler net bir topluluk ortamında iyi çalışır, ancak gerçek kullanıcı verileri altında kalite önemli ölçüde azalır. İlgili diğer bir soru için aşağıdaki tabloya bakabilirsiniz: Sol kontrol grubu ve sağ canlı gruptur. Kontrol grubunda, üst sistem 3, ASR doğruluk oranı çok düşük olsa bile performansı çok fazla düşmez, bu da zayıf ESR performansını telafi etmek için diyalog teknolojisini kullanabilecekleri anlamına gelir. Ancak canlı grupta, tüm sistemler ASR doğruluk oranına karşı aynı yeteneğe sahiptir ASR doğruluk oranı azaldıkça, senkronizasyon önemli ölçüde azalır. Farklı veri dağıtımı durumunda (yani, kullanıcı verilerini (kontrol grubu) kullanan laboratuvar ile gerçek kullanıcı verileri (canlı grup) arasındaki fark), sistemin ASR doğruluğu için hata toleransı da ortadan kalkar.

Ek olarak, 2007'de, çalışanlar ve gerçek kullanıcılar arasındaki davranış farkını göstermek için deneysel verileri de kullanan bir makale var. Soldaki şekilde diyalogun uzunluğu ve her turun uzunluğu gösterilmiş olup, çalışanların genellikle daha karmaşık ve daha uzun ifadeler kullandığı görülmektedir. Ayrıca sistemlerinde bir evet / hayır düğmesi veya yanıt işlevi vardır.Bazı soruları yanıtlarken, kullanıcıların yalnızca evet veya hayır'a basması veya evet veya hayır yanıtlaması gerekir.Ancak laboratuvar durumunda neredeyse hiçbir kullanıcı evet / İşlev yok, durmaksızın konuşmaya daha meyillidirler, ancak gerçek kullanıcılar bir şans bulur bulmaz evet / hayır moduna geçecektir. "Yardım gerekli" işlevindeki fark daha da belirgindir.Laboratuvar kullanıcıları neredeyse hiçbir zaman yardım istemez, gerçek kullanıcılar ise çok sık yardım ister. Bu nedenle, çalışanların davranışları ile gerçek kullanıcılar arasında hala birçok fark vardır Veri toplama için, gerçek kullanıcı verileri önemli bir kısımdır.

Bir sonraki içerik, veri etiketleme hakkındadır

Veri etiketlemeyle ilgili sorun, verileri aldıktan sonra bununla nasıl başa çıkılacağıdır. Bunun bir yolu, ses veya yazıya dökülmüş metin veya her ikisi de dahil olmak üzere orijinal verileri serbest bırakmaktır. Bu, konuşmanın en kolay özümsenen yönüdür. Belirli bir sınıflandırma sistemine veya belirli bir konuşmaya veya dil okuluna bağlı kalmanıza gerek yoktur, yalnızca bırakın Data, herkes sesteki kelimelerin ne olduğu konusunda hemfikir olacak. Ancak doğrudan metinden uçtan uca öğrenmek zordur ve çok fazla veri gerektirir. [Not: e2e dışı yaklaşımlar kendi ek açıklamasına dayanır (bunu anlamadım)]

Öte yandan, birleşik açıklamalar sunabilirsiniz, ancak birçok dil değerlendirme problemini, resmi standardizasyonu ve diğer sorunları çözmeniz gerekir, böylece herkes farklı veri setlerinde aynı notları kullanır ve bu da belirli teoriler gerektirir. Ne tür bir etiketleme sisteminin seçileceği (hangi amaçlar ve alanlar vb. Dahil) genel olarak beklenenden daha fazla zaman ve çaba gerektirecektir.

Diyalog durumunu etiketlemek çok zordur.İlk olarak, diyalog durumunu neyin oluşturduğunu açıkça tanımlamak gerekir ve ikinci olarak, manüel etiketleme için birleşik bir etiketleme standardına sahip olmak zordur. DSTC'de, diyalog durumu etiketlenirken bir sorun vardı ve NLU etiketlenirken net değildi. Çünkü her sistem tarafından kullanılan sınıflandırma yöntemleri farklıdır ve belirli bir boşluk değeri için tek tip bir standart yoktur, bu nedenle kitle fonlaması yoluyla iş istemem gerekir Personelin belirli bir NLU varsayımının doğru olup olmadığı. Sonunda, her bir referans etiketi turunu işaretlemek yerine, hangi NLU hipotezinin doğru olduğunu belirler ve ardından bu sonucu diyalog durumunu tahmin etmek için kullanır.

Ardından, bazı güncel diyalog veri planlarını tartışın

Her şeyden önce, ilk diyalog durumu izleme zorluğu, Pittsburgh otobüs yolcularının telefon kayıtları dahil olmak üzere önceki diyalog veri setlerini topladı, toplam A, B, C üç farklı diyalog sistemi kullanıcı veri toplama.

Veri seti, sistem ve kullanıcı arasındaki diyalogun yanı sıra yuva ve diyalog durumunun etiketlerini içerir. NLU'nun çıktısı en iyi slot listesidir ve diyalog durumu, slotlar üzerindeki olasılık dağılımının bir tahminidir.

Son olarak, birkaç mevcut girişimden bahsetmek istiyorum, bazılarını daha önce duymuş olabilirsiniz. CMU'nun şimdi bahsedilen yarışmanın devamı niteliğinde bir projesi var. Yaklaşımları akademik dünyadaki bazı diyalog sistemlerine birleşik bir arayüz sağlamak. Sistemleriyle sohbet etmek için web sitelerine gidebilirsiniz. Bu sistem akademik dünyayı birleştirir. Birçok sistem. Laboratuvar iseniz sisteminizi ekleyebilir ve sistem ile sohbet eden kullanıcıların verilerini alabilirsiniz. Amazon tarafından sohbet sistemi kurmak için düzenlenen bir yarışma da var.Sizinle 25 dakikalık küçük bir sohbet yapabilirsiniz.Birbirleriyle yarışan birçok takım olacak.Sıradan Alexa kullanıcıları deneyebilir.Bu gerçek kullanıcılarla açık bir yarışma. Amazon yarışmasının sonuçlarını görmek umuduyla finaller devam ediyor. Facebook'tan bir başka proje de diyalog için çok sayıda veri setinin paylaşılmasıdır.Raporda bahsedilen ilk makale, bu proje aracılığıyla dağıtılan veri setidir.Ayrıca, sistemin kalitesinin nasıl olduğunu görmek için başkalarının da sisteminizi kullanmasına izin verebilirsiniz. . Bu projelerle ilgili ilginç olan şey, birçok projenin yerinde etkileşime gittikçe daha fazla önem vermesidir.Bu projelerden bazıları, gerçek kullanıcıların şirket kullanmak yerine sistemle etkileşime girmesine izin verir.Bazı projeler, veri erişiminin ve dağıtımının standartlaştırılmasına odaklanır. Bazıları simülasyon görevlerini kullanır.

Son olarak, Dr. Antoine Raux raporu özetledi: Diyalog sistemi çok karmaşık bir görevdir ve çeşitli veri kümeleri gerektirir. Araştırmacılar ve katılımcılar, külliyat koleksiyonunu tasarlarken değiş tokuşlara dikkat etmelidir. Son eğilim, verileri yalnızca sabit bir külliyat değil, çevrimiçi etkileşimli bir şekilde toplamaktır.

Baidu'nun DuMi Bölümü genel müdürü Jing Kun'un dediği gibi, AI işletim sistemlerinin sürekli olarak öğrenilmesi ve geliştirilmesi gerekiyor. Ne kadar çok veri olursa o kadar akıllı hale geliyor. Baidu DuerOS Prometheus planı tarafından yayınlanan üç büyük veri seti, yalnızca olağanüstü konuşma yapay zeka yeteneklerini ve projelerini etkin bir şekilde teşvik etmek ve teşvik etmekle kalmaz, aynı zamanda bu alandaki endüstri-akademi-araştırma bağlantısının geliştirilmesini teşvik eder ve akıllı sesin uygulanmasını ve uygulanmasını teşvik eder. . Yapay zekanın ilerlemesi, her veri kümesinin yığılmasıyla oluşturulur ve YZ'nin geleceği de bu verilerde ve arkasındaki sürekli öğrenmede tasarlanır.

Harika görünüm, parlak ışık efekti, olağanüstü el hissi, bu mekanik klavye mükemmel bir fiyat-performans oranıdır
önceki
Arabayı aldığımda kilometre sayacı sıfır değildi! Bu 4S dükkanlarının hilesi mi?
Sonraki
Nüfus akışını sağlamak için yemek nasıl fotoğraflanabilir?
Yapımcılığını "UFO Club" yapan "God Eater 3" OP yayınlandı
Xu Zheng'in kara para aklama tarzı "Perde Arkasındaki Oyuncular" ın kara para aklama afişi, dört yıl sonra bir gerilim filmi yaptı.
Küçük arabalar, kompakt arabalar kadar güvenli değil mi?
Çocuklar Günü'nde çocuklar için en iyi hediye: imea'da çocuklar için ekran TV yok
Yarın Laba Festivali, Yeni Yıla geri sayım!
"Yok Olma", ulusu güzelliği aramaya itiyor "İyi Yok Etme", internetteki en yeni sıcak kelime haline geldi
Tüm aile için uygun maliyetli projeksiyon JMGO C6100 inç büyük ekran, olağanüstü projeksiyon efektlerine sahiptir
Bu, NOAH yöneticisi Brendon'ın sevdiği tek spor ayakkabı
Çeşitli sesli sihirbaz Zhu Yawen ortağı Song Jia "Canis Island" ın dublajını yapıyor Çince dublaj dizisi ortaya çıktı
Pekin Otomobil Fuarı açılmak üzere, BMW popüler SUV modelini getiriyor
Üst düzey kaliteli Audioengine A5 + 'ın keyfi dünyanın sesini dinleyin
To Top