Sogou ICASSP makalesi: Modal dikkat temelinde uçtan uca sesli ve görsel konuşma tanıma

Leifeng.com'un AI teknolojisi makale notu: Sogou ve Tsinghua Tiangong Araştırma Enstitüsü son konuşma konferansında ICASSP 2019'da ilginç bir makale yayınladı: Modal dikkat temelinde uçtan uca sesli ve görsel konuşma tanıma.

Basitçe ifade etmek gerekirse, "modal dikkat temelinde uçtan uca" yönteminin tanıtımı, konuşma ve dudak hareketi bilgilerini organik olarak entegre ederek gürültülü ortamlarda konuşma tanımanın etkisini önemli ölçüde geliştirir.

Kağıt bağlantısı: https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

Sessiz bir ortamda konuşma tanımanın doğruluğunun artık% 98'den fazlasına ulaşabileceğini ve ticari uygulamaların temelde sorun olmadığını biliyoruz. Bununla birlikte, gürültülü ortamlarda (toplantı salonları ve metro ortamları gibi) ses tanıma ile ideal sonuçlar elde etmek zordur.

0dB'lik bir gürültü ortamını (gürültü ve sinyal gücü aynıdır) örnek olarak alırsak, DeepMind ve Oxford Üniversitesi tarafından CVPR2017'de ortaklaşa yayınlanan bir çalışmada, karakter hata oranı (CER)% 29,8 idi; son iki yılda, diğer çalışmalar etkili olmamıştır. Önemli ölçüde geliştirildi. Sogou'nun bu makalesi hem yöntem hem de performans açısından dikkate değer.

Bu makalenin aynı zamanda Sogou'nun dudak dili serisi araştırmasının yeni bir sonucu olduğunu belirtmekte fayda var. 2017 yılında Sogou, sektörden büyük ilgi gören 4. Wuzhen Dünya İnternet Konferansı'nda dudak tanıma teknolojisinin Google'dan çok daha üstün olduğunu açıkça gösterdi. Sogou'nun Ses Etkileşim Merkezi'nin teknik direktörü Chen Wei, "Akıllı Şeyler" ile yaptığı röportajda, gürültülü ortamlarda konuşma tanıma performansını iyileştirmek için keşif dudak dilini konuşma tanıma (mikrofon dizisi gürültü azaltma kullanmak yerine) ile entegre etme fikrini zaten ifade etmişti. . Bu makale bir cevaptır.

1. Yenilik

Herhangi bir yenilik, öncekilerin omuzlarında duruyor.

Biz insanları düşünün. Karşınızdaki kişiyi net bir şekilde duyamadığınızda, doğal olarak konuşmacının ağzına bakarsınız. Bu, konuşmacının anlamını bir dereceye kadar anlamanıza yardımcı olur. Aslında bu, konuşmacının dudakları tarafından taşınan bilginin kullanılmasıdır. (Ayrıca dudak dili).

Bir bilgisayar gürültülü bir ortamda söylenenleri nasıl anlayabilir? Tıpkı insanlar gibi, çözüm, konuşma temelinde görsel bilgi eklemek ve AVSR (Otomatik Görsel Konuşma Tanıma) adı verilen görsel ve işitsel modal bilgilerin füzyonu yoluyla konuşma tanımanın etkisini arttırmaktır.

Konuşma tanımanın etkisini artırmak için dudak hareketleriyle taşınan bilgileri kullanın

İki sorun var. Her şeyden önce, ses ve video temelde farklı veri akışlarıdır ve orijinal kare hızları genellikle farklıdır.İki mod bilgisinin nasıl birleştirileceği zorlu bir sorundur.

Derin öğrenmeden önce, geleneksel yöntem genellikle ikisini aynı kare hızına dönüştürmek ve bunları doğrudan birbirine bağlamak için yukarı örnekleme veya aşağı örnekleme kullanırdı.

Bunun dezavantajları şunlardır: (1) bilgi kaybına neden olacaktır; (2) işitsel özelliklerin model eğitim sürecinde öncü bir rol oynamasına neden olacak, model eğitiminin yakınlaşmasının zorlaşmasına neden olacak ve görsel bilgi sınırlı işitsel bilgiyi iyileştirebilecektir; (3) orijinal Özelliğin uzunluğu daha uzundur ve doğrudan ekleme yönteminin daha fazla hesaplama getirmesi muhtemeldir.

Derin öğrenme çağında, Noda ve arkadaşları 2015 yılında özellik füzyonunu (önceki veri eklemeden ziyade) önerdi, yani ilk olarak görsel özellikleri çıkarmak için CNN'i kullanın ve ardından bunları ses özellikleriyle tek bir özellikte birleştirin. Şu anda, bu AVSR'nin ana fikri haline geldi.

Kaynak: Noda, K., Yamaguchi, Y., Nakadai, K. ve diğerleri Appl Intell (2015) 42: 722. https://doi.org/10.1007/s10489-014-0629-7

Ancak bu iki özellik nasıl daha etkili olabilir? Çoğu durumda dudak tanımanın doğruluğunun konuşma tanımanın doğruluğundan çok daha düşük olduğunu biliyoruz ve uygun olmayan füzyon, konuşma tanımanın orijinal etkisini bile azaltabilir.

DeepMind ve Oxford Üniversitesi araştırmacıları tarafından 2017'de yayınlanan çalışmada (WLAS) benimsenen fikir şudur: ilgili ses ve dudak bağlam vektörlerini birleştirmek ve bunları tahmin için çıktı katmanına girmek için dikkat kodlayıcı kod çözücü çerçevesini kullanın. ,Aşağıda gösterildiği gibi:

Kaynak: Joon Son Chung, Andrew W Senior, Oriol Vinyals ve An Drew Zisserman, "Vahşi doğada dudak okuma cümleleri.", CVPR, 2017, s. 34443453.

ADAPT Merkezi'nden George ve arkadaşlarının (arXiv: 1809.01728v3, AV_align) fikri, elde edilen dudak özelliklerini ses özelliklerini tamamlamak ve düzeltmek için kullanmak ve ardından birleştirilmiş görsel-işitsel bilgileri düzeltmek için dikkat tabanlı bir kod çözücü kullanmaktır. Özelliklerin kodu çözüldü:

Kaynak: George Sterpu, Christian Saam ve Naomi Harte, "Sağlam otomatik konuşma tanıma için dikkat temelli görsel-işitsel füzyon", Uluslararası Multimodal Etkileşim Konferansı 2018 Bildirileri'nde. ACM, 2018, s. 111115.

Bu iki yöntemin kapsamlı bir şekilde incelenmesi, aralarındaki temel farkın yalnızca entegre oldukları yerde olduğunu ortaya çıkaracaktır. Birincisi, kod çözücünün içinde birleştirilir ve ikincisi, kodlayıcının çıktı katmanındaki mevcut işitsel vektörle ilgili görsel vektörü bulmak için dikkati kullanır ve ardından bunu işitsel vektörle birleştirir.

Diğer bir sorun, farklı modalitelerin özellik füzyonu sürecinde daha sağlam füzyon bilgisi elde etmek için uygun ağırlıkların açıkça nasıl atanacağıdır.

Gürültü farklı olduğunda ve konuşmacının artikülasyonu farklı olduğunda işitme ve görme tarafından taşınan bilgi oranının sabit olmadığını biliyoruz. Bu nedenle, en iyi yol doğal olarak modelin bilgi içeriğine göre ağırlıkları açık ve uyarlamalı olarak atayabilmek olmalıdır.

Yukarıdaki iki çalışmada, iki mod bilgisine atanmış açık bir ağırlık vektörü yoktur Modalitelerin önemi sonraki ağ bağlantı ağırlıklarından öğrenilir. Sogou'nun bu makalesi esas olarak bu sorunu çözmektedir.

Önceki ikisinden farklı olarak, araştırmacı Zhou Pan ve Sogou araştırmacısı Yang Wenwen ve diğerleri, modelin sesi kaynaştırmak için modal ağırlığını uyarlamalı olarak ayarlamasını sağlayan modalitelerin (modal dikkat) önemine dayanan bir dikkat mekanizması tasarladılar. Görsel özellikler.

Ayrıntılı olarak, yani, t-inci kod çözme aşamasında, kod çözücü durumu, bu iki modu birleştirmek yerine karşılık gelen akustik bağlam vektörünü ve görsel bağlam vektörünü elde etmek için ses kodlayıcıya ve görsel kodlayıcıya dikkat ettikten sonra Bilgi birleştirilir, ancak modal dikkat temelinde, ikisi birleştirilerek kaynaşmış bir bağlam vektörü ve çıktı tahmini elde edilir.

Ses ve görsel dikkatin ardından füzyona modal bir dikkat eklemenin bu yöntemi aşağıdaki avantajlara sahiptir:

  • Bağlam vektörü, orijinal özellikleri birleştirmekten daha net ve daha etkili olan mevcut çıktıyla ilgili bilgileri zaten içerir;

  • Modal dikkat ile elde edilen modal ağırlıklar bu ikisini birleştirmek için kullanılır, bu da model tarafından dikkate alınan farklı modların mevcut çıktıdaki göreceli önemini yansıtır;

  • Modlar arasındaki füzyon katsayısı, verilere bağlı olarak otomatik olarak öğrenilebilir ve ayarlanabilir;

  • Her bir kod çözme adımında, orijinal özellik füzyonuna kıyasla hesaplama miktarını azaltan füzyon gerçekleştirilir.

  • 2. Eğitim ve sonuçlar

    Yukarıdaki modele göre, 150 saat TV haberlerinin görsel-işitsel verileri üzerinde eğitim aldılar. Deneyler, bu modal dikkat yönteminin, 0dB gürültü koşulu altında LAS'ın saf konuşma tanıması için hata oranında nispeten% 36 düşüş sağlayabildiğini göstermektedir. Ve diğer görsel-işitsel kombinasyon yöntemlerinden (WLAS, AV_align) daha iyidir. Farklı sinyal-gürültü oranları altında farklı sistemlerin tanıma hata oranı (CER) aşağıdaki gibidir:

    Not:

    • LAS, Dinle, Katıl ve Yaz, yani saf konuşma tanıma;

    • WAS, Watch, Attend ve Spell, yani saf dudak tanıma, tabii ki gürültüden etkilenmez;

    • DeepMind ve Cambridge Üniversitesi tarafından ortaklaşa önerilen model olan WLAS, Watch, Listen, Attend and Spell;

    • AV_align, George ve diğerleri tarafından önerilen model;

    • MD_ATT, modal ilgiye dayalı AVSR sistemi

    • MD_ATT_MC, MD_ATT temelinde çok koşullu veri ekleyin

    Makale ayrıca modelin farklı sesler altında iki farklı moda bağımlılığını da analiz ediyor. Gürültünün artmasıyla birlikte, ses ve görüntüyü birleştirirken modelin görsel bilgiye olan bağımlılığı giderek artmaktadır.

    Üç, anlamı

    Bu makalenin önemi, görsel-işitsel mod özelliklerini dinamik olarak entegre eden ve konuşma tanımanın doğruluğunu ve sağlamlığını deneysel olarak önemli ölçüde geliştiren modsal bir dikkat mekanizması önermektir.

    Bu yöntemin evrensel olduğunu ve her türlü multimodal bilgi füzyonuna aktarılabileceğini belirtmek gerekir. Öte yandan, Sogou'nun teknolojisi sonuçta ürünlerde kullanılacak. Sektör, konuşma gürültüsünü azaltmak için çoğunlukla mikrofon dizilerini kullanır.Sogou, gürültü sağlamlığını artırmak için çok modlu tanıma teknolojisini kullanarak ses ve görüntü kombinasyonunu kullanmaya çalışıyor.

    Chen Wei'ye göre, bu teknolojinin performansı ticarileştirilebilecek bir seviyeye ulaştı.Şu anda iki olası iniş senaryosu şunları içerir: 1) Ses giriş senaryoları.Gürültülü ortamlarda ses tanıma etkisi, kamera işlevi çağrılarak iyileştirilir.Gelecekte, Sogou giriş yöntemi Yetenek başlatılacak; 2) Uzak alan insan-bilgisayar etkileşim sistemine iniş, özellikle araç içi etkileşim. Chen Wei'ye göre, Sogou şu anda bazı araba şirketleriyle araba gürültüsü sahnelerindeki konuşma tanıma sorununu (örneğin, sürüş penceresinin altındaki aşırı gürültü gibi) kameralar ekleyerek (mikrofon dizileri eklemek yerine) çözmek için görüşüyor.

    Lei Feng Ağı Lei Feng Ağı

    Orijinal bağlantı: https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

    Apple ve Intel, içeriden öğrenenlerin açığa çıkmasını engelledi, kendi geliştirdiği 5G temel bant 2025'te beklenebilir
    önceki
    Bir dağ gibi baba! EJ sosu tutan büyücünün sıcak fotoğrafı: 27. yaş günün kutlu olsun! Baban olmaktan onur duyuyorum
    Sonraki
    Kararlı bir şekilde otonom sürüşe ve buluta dokunmayın, Kneron'un yeniden yapılandırılabilir AI çipi AIoT pazarını kazanabilir mi?
    Zhao Ruirui ve Feng Kun, kadın voleybol takımına aynı çerçevede 15 büyük başarı ile liderlik etti! Toplam 34 dünya şampiyonluğu kazandı, bu kadro Olimpiyatları süpürdü
    "Children's Words and Strategies 2" ağın tamamında 200 milyon isabet aldı
    Bu garip kişisel alışkanlıklar kalbini dürttü mü?
    Baidu'nun mali raporu, Hailong'un çıkması ve Robin Li'nin değişiklik peşinde olmasıyla ilk kez bir zarar gösterdi.
    Resim çok güzel! Zhu Ting ve Ding Xia bir anda dünyayı hareket ettirir, Zhu'nun ikinci geçiş pasları ve Ding smaçlara cevap verir ve Japonya'yı yener
    Neiqiu, Hebei: Hanımeli çiçek açan "altın ve gümüş"
    garip! Çin voleybolundaki ilk kişi olan Lang Ping'i yenmesi için Zhu Ting'in CCTV yorumu, Hui Ruoqi cevap vermeye cesaret edemedi
    Dongguan Bebek ve Çocuk Fuarı burada! Tanınmış eğitim ve öğretim kurumları açıklandı ve oynamanızı bekleyen ebeveyn-çocuk oyunları var
    Sıfırdan pekiştirmeli öğrenme
    Eski kadın voleybol takımının altın nesli, Lang Ping ve Zhu Ting'e yardım ediyor! Feng Kun doğum yaptıktan sonra ilk kez geri döndü, Liu Yanan şişman Wang Yimei oldu
    dik! Antrenör Lin Gaoyuan, Japon masa tenisinin ilk kız kardeşinin raketini inceledi: Ishikawa Kasumi'yi fırlatmak için çok eski
    To Top