Leifeng.com'un AI teknolojisi makale notu: Sogou ve Tsinghua Tiangong Araştırma Enstitüsü son konuşma konferansında ICASSP 2019'da ilginç bir makale yayınladı: Modal dikkat temelinde uçtan uca sesli ve görsel konuşma tanıma.
Basitçe ifade etmek gerekirse, "modal dikkat temelinde uçtan uca" yönteminin tanıtımı, konuşma ve dudak hareketi bilgilerini organik olarak entegre ederek gürültülü ortamlarda konuşma tanımanın etkisini önemli ölçüde geliştirir.
Kağıt bağlantısı: https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649
Sessiz bir ortamda konuşma tanımanın doğruluğunun artık% 98'den fazlasına ulaşabileceğini ve ticari uygulamaların temelde sorun olmadığını biliyoruz. Bununla birlikte, gürültülü ortamlarda (toplantı salonları ve metro ortamları gibi) ses tanıma ile ideal sonuçlar elde etmek zordur.
0dB'lik bir gürültü ortamını (gürültü ve sinyal gücü aynıdır) örnek olarak alırsak, DeepMind ve Oxford Üniversitesi tarafından CVPR2017'de ortaklaşa yayınlanan bir çalışmada, karakter hata oranı (CER)% 29,8 idi; son iki yılda, diğer çalışmalar etkili olmamıştır. Önemli ölçüde geliştirildi. Sogou'nun bu makalesi hem yöntem hem de performans açısından dikkate değer.
Bu makalenin aynı zamanda Sogou'nun dudak dili serisi araştırmasının yeni bir sonucu olduğunu belirtmekte fayda var. 2017 yılında Sogou, sektörden büyük ilgi gören 4. Wuzhen Dünya İnternet Konferansı'nda dudak tanıma teknolojisinin Google'dan çok daha üstün olduğunu açıkça gösterdi. Sogou'nun Ses Etkileşim Merkezi'nin teknik direktörü Chen Wei, "Akıllı Şeyler" ile yaptığı röportajda, gürültülü ortamlarda konuşma tanıma performansını iyileştirmek için keşif dudak dilini konuşma tanıma (mikrofon dizisi gürültü azaltma kullanmak yerine) ile entegre etme fikrini zaten ifade etmişti. . Bu makale bir cevaptır.
1. Yenilik
Herhangi bir yenilik, öncekilerin omuzlarında duruyor.
Biz insanları düşünün. Karşınızdaki kişiyi net bir şekilde duyamadığınızda, doğal olarak konuşmacının ağzına bakarsınız. Bu, konuşmacının anlamını bir dereceye kadar anlamanıza yardımcı olur. Aslında bu, konuşmacının dudakları tarafından taşınan bilginin kullanılmasıdır. (Ayrıca dudak dili).
Bir bilgisayar gürültülü bir ortamda söylenenleri nasıl anlayabilir? Tıpkı insanlar gibi, çözüm, konuşma temelinde görsel bilgi eklemek ve AVSR (Otomatik Görsel Konuşma Tanıma) adı verilen görsel ve işitsel modal bilgilerin füzyonu yoluyla konuşma tanımanın etkisini arttırmaktır.
Konuşma tanımanın etkisini artırmak için dudak hareketleriyle taşınan bilgileri kullanın
İki sorun var. Her şeyden önce, ses ve video temelde farklı veri akışlarıdır ve orijinal kare hızları genellikle farklıdır.İki mod bilgisinin nasıl birleştirileceği zorlu bir sorundur.
Derin öğrenmeden önce, geleneksel yöntem genellikle ikisini aynı kare hızına dönüştürmek ve bunları doğrudan birbirine bağlamak için yukarı örnekleme veya aşağı örnekleme kullanırdı.
Bunun dezavantajları şunlardır: (1) bilgi kaybına neden olacaktır; (2) işitsel özelliklerin model eğitim sürecinde öncü bir rol oynamasına neden olacak, model eğitiminin yakınlaşmasının zorlaşmasına neden olacak ve görsel bilgi sınırlı işitsel bilgiyi iyileştirebilecektir; (3) orijinal Özelliğin uzunluğu daha uzundur ve doğrudan ekleme yönteminin daha fazla hesaplama getirmesi muhtemeldir.
Derin öğrenme çağında, Noda ve arkadaşları 2015 yılında özellik füzyonunu (önceki veri eklemeden ziyade) önerdi, yani ilk olarak görsel özellikleri çıkarmak için CNN'i kullanın ve ardından bunları ses özellikleriyle tek bir özellikte birleştirin. Şu anda, bu AVSR'nin ana fikri haline geldi.
Kaynak: Noda, K., Yamaguchi, Y., Nakadai, K. ve diğerleri Appl Intell (2015) 42: 722. https://doi.org/10.1007/s10489-014-0629-7
Ancak bu iki özellik nasıl daha etkili olabilir? Çoğu durumda dudak tanımanın doğruluğunun konuşma tanımanın doğruluğundan çok daha düşük olduğunu biliyoruz ve uygun olmayan füzyon, konuşma tanımanın orijinal etkisini bile azaltabilir.
DeepMind ve Oxford Üniversitesi araştırmacıları tarafından 2017'de yayınlanan çalışmada (WLAS) benimsenen fikir şudur: ilgili ses ve dudak bağlam vektörlerini birleştirmek ve bunları tahmin için çıktı katmanına girmek için dikkat kodlayıcı kod çözücü çerçevesini kullanın. ,Aşağıda gösterildiği gibi:
Kaynak: Joon Son Chung, Andrew W Senior, Oriol Vinyals ve An Drew Zisserman, "Vahşi doğada dudak okuma cümleleri.", CVPR, 2017, s. 34443453.
ADAPT Merkezi'nden George ve arkadaşlarının (arXiv: 1809.01728v3, AV_align) fikri, elde edilen dudak özelliklerini ses özelliklerini tamamlamak ve düzeltmek için kullanmak ve ardından birleştirilmiş görsel-işitsel bilgileri düzeltmek için dikkat tabanlı bir kod çözücü kullanmaktır. Özelliklerin kodu çözüldü:
Kaynak: George Sterpu, Christian Saam ve Naomi Harte, "Sağlam otomatik konuşma tanıma için dikkat temelli görsel-işitsel füzyon", Uluslararası Multimodal Etkileşim Konferansı 2018 Bildirileri'nde. ACM, 2018, s. 111115.
Bu iki yöntemin kapsamlı bir şekilde incelenmesi, aralarındaki temel farkın yalnızca entegre oldukları yerde olduğunu ortaya çıkaracaktır. Birincisi, kod çözücünün içinde birleştirilir ve ikincisi, kodlayıcının çıktı katmanındaki mevcut işitsel vektörle ilgili görsel vektörü bulmak için dikkati kullanır ve ardından bunu işitsel vektörle birleştirir.
Diğer bir sorun, farklı modalitelerin özellik füzyonu sürecinde daha sağlam füzyon bilgisi elde etmek için uygun ağırlıkların açıkça nasıl atanacağıdır.
Gürültü farklı olduğunda ve konuşmacının artikülasyonu farklı olduğunda işitme ve görme tarafından taşınan bilgi oranının sabit olmadığını biliyoruz. Bu nedenle, en iyi yol doğal olarak modelin bilgi içeriğine göre ağırlıkları açık ve uyarlamalı olarak atayabilmek olmalıdır.
Yukarıdaki iki çalışmada, iki mod bilgisine atanmış açık bir ağırlık vektörü yoktur Modalitelerin önemi sonraki ağ bağlantı ağırlıklarından öğrenilir. Sogou'nun bu makalesi esas olarak bu sorunu çözmektedir.
Önceki ikisinden farklı olarak, araştırmacı Zhou Pan ve Sogou araştırmacısı Yang Wenwen ve diğerleri, modelin sesi kaynaştırmak için modal ağırlığını uyarlamalı olarak ayarlamasını sağlayan modalitelerin (modal dikkat) önemine dayanan bir dikkat mekanizması tasarladılar. Görsel özellikler.
Ayrıntılı olarak, yani, t-inci kod çözme aşamasında, kod çözücü durumu, bu iki modu birleştirmek yerine karşılık gelen akustik bağlam vektörünü ve görsel bağlam vektörünü elde etmek için ses kodlayıcıya ve görsel kodlayıcıya dikkat ettikten sonra Bilgi birleştirilir, ancak modal dikkat temelinde, ikisi birleştirilerek kaynaşmış bir bağlam vektörü ve çıktı tahmini elde edilir.
Ses ve görsel dikkatin ardından füzyona modal bir dikkat eklemenin bu yöntemi aşağıdaki avantajlara sahiptir:
Bağlam vektörü, orijinal özellikleri birleştirmekten daha net ve daha etkili olan mevcut çıktıyla ilgili bilgileri zaten içerir;
Modal dikkat ile elde edilen modal ağırlıklar bu ikisini birleştirmek için kullanılır, bu da model tarafından dikkate alınan farklı modların mevcut çıktıdaki göreceli önemini yansıtır;
Modlar arasındaki füzyon katsayısı, verilere bağlı olarak otomatik olarak öğrenilebilir ve ayarlanabilir;
Her bir kod çözme adımında, orijinal özellik füzyonuna kıyasla hesaplama miktarını azaltan füzyon gerçekleştirilir.
Yukarıdaki modele göre, 150 saat TV haberlerinin görsel-işitsel verileri üzerinde eğitim aldılar. Deneyler, bu modal dikkat yönteminin, 0dB gürültü koşulu altında LAS'ın saf konuşma tanıması için hata oranında nispeten% 36 düşüş sağlayabildiğini göstermektedir. Ve diğer görsel-işitsel kombinasyon yöntemlerinden (WLAS, AV_align) daha iyidir. Farklı sinyal-gürültü oranları altında farklı sistemlerin tanıma hata oranı (CER) aşağıdaki gibidir:
Not:
LAS, Dinle, Katıl ve Yaz, yani saf konuşma tanıma;
WAS, Watch, Attend ve Spell, yani saf dudak tanıma, tabii ki gürültüden etkilenmez;
DeepMind ve Cambridge Üniversitesi tarafından ortaklaşa önerilen model olan WLAS, Watch, Listen, Attend and Spell;
AV_align, George ve diğerleri tarafından önerilen model;
MD_ATT, modal ilgiye dayalı AVSR sistemi
MD_ATT_MC, MD_ATT temelinde çok koşullu veri ekleyin
Makale ayrıca modelin farklı sesler altında iki farklı moda bağımlılığını da analiz ediyor. Gürültünün artmasıyla birlikte, ses ve görüntüyü birleştirirken modelin görsel bilgiye olan bağımlılığı giderek artmaktadır.
Bu makalenin önemi, görsel-işitsel mod özelliklerini dinamik olarak entegre eden ve konuşma tanımanın doğruluğunu ve sağlamlığını deneysel olarak önemli ölçüde geliştiren modsal bir dikkat mekanizması önermektir.
Bu yöntemin evrensel olduğunu ve her türlü multimodal bilgi füzyonuna aktarılabileceğini belirtmek gerekir. Öte yandan, Sogou'nun teknolojisi sonuçta ürünlerde kullanılacak. Sektör, konuşma gürültüsünü azaltmak için çoğunlukla mikrofon dizilerini kullanır.Sogou, gürültü sağlamlığını artırmak için çok modlu tanıma teknolojisini kullanarak ses ve görüntü kombinasyonunu kullanmaya çalışıyor.
Chen Wei'ye göre, bu teknolojinin performansı ticarileştirilebilecek bir seviyeye ulaştı.Şu anda iki olası iniş senaryosu şunları içerir: 1) Ses giriş senaryoları.Gürültülü ortamlarda ses tanıma etkisi, kamera işlevi çağrılarak iyileştirilir.Gelecekte, Sogou giriş yöntemi Yetenek başlatılacak; 2) Uzak alan insan-bilgisayar etkileşim sistemine iniş, özellikle araç içi etkileşim. Chen Wei'ye göre, Sogou şu anda bazı araba şirketleriyle araba gürültüsü sahnelerindeki konuşma tanıma sorununu (örneğin, sürüş penceresinin altındaki aşırı gürültü gibi) kameralar ekleyerek (mikrofon dizileri eklemek yerine) çözmek için görüşüyor.
Lei Feng Ağı Lei Feng Ağı
Orijinal bağlantı: https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649