Tencent'in makalesi Interspeech 2017 için seçildi: Tek kanallı konuşma ayırmada kullanılan derin sinir ağlarının eğitim optimizasyonu

Leifeng.comun yapay zeka teknolojisi inceleme notu: 20 Ağustos 2017'de, sesli iletişim alanındaki en önemli uluslararası akademik konferans olan Interspeech 2017 İsveç'in Stockholm kentinde düzenlendi. Tencent Ses ve Video Laboratuvarı'ndan Dr. Wang Yannan tarafından bir bildiri seçildi ve konferansta sözlü bir sunum yapmak üzere davet edildi. bildiri.

Interspeech, Uluslararası Konuşma İletişimi Derneği (ISCA) tarafından düzenlenen konuşma araştırması alanındaki en iyi konferanslardan biridir.Dünyanın en kapsamlı konuşma sinyali işleme teknolojisi etkinliğidir.Konferans yılda bir kez yapılır ve her seferinde dünyayı cezbeder. Sesli sinyal ve yapay zeka alanında tanınmış akademisyenler, şirketler ve Ar-Ge personeli katıldı.

Bu yılki Interspeech'te akademik devlerin yanı sıra Apple, Google, Microsoft, Amazon, Tencent, Alibaba, Baidu, Didi gibi tanınmış yerli ve yabancı şirketler de yer aldı. Yannan Wang'ın Tencent Audio and Video Lab'den "Tek Kanallı Konuşma Ayrımı için Derin Sinir Ağı Tabanlı Doğrusal Olmayan Spektral Haritalamaya Maksimum Olasılık Yaklaşımı" tezi Interspeech 2017 için seçildi.

Aşağıdaki resim, Interspeech makalelerinin yıllar içindeki koleksiyonunu göstermektedir.Son üç yılda dahil edilen makale sayısı sırasıyla 614, 746 ve 779 idi.

(Veri kaynağı: Interspeech 2016'nın düzenleyicisinden hoş geldiniz raporu)

Dr. Wang'ın tezinin ana içeriği, tek kanallı konuşma ayırmada kullanılan derin sinir ağlarının eğitim optimizasyonunu incelemektir. Bu teknoloji, hedef konuşmacının sesini birden çok konuşmacının karışık konuşma sinyallerinden ayırmayı amaçlamaktadır. Engelliler için sesli aramalar ve işitme cihazları önemli uygulamalara sahiptir.

Bu tezde, Dr. Wang'ın araştırması, tek kanallı konuşma ayrımı için derin sinir ağına dayalı spektrum haritalama yönteminde yaygın olarak kullanılan minimum ortalama karesel hatayı (MMSE) iyileştirmeye odaklanmaktadır. Derin sinir ağına dayalı tek kanallı konuşma ayrımında, hedef konuşmacının konuşması, ağın konuşma spektrumu çıkışı ile hedef spektrum arasındaki farkı en aza indirmek için temel olarak MMSE kriterine dayanan çok sınıflı bir regresyon yöntemi ile karışık konuşma spektrumundan kurtarılır. Bu bağlamda, Dr. Wang ve diğerleri, derin sinir ağının çıktısının tahmin hatası üzerine istatistiksel analiz yaptılar ve çıktı logaritmik güç spektrumunun her bir boyut bileşeninin aşağıdaki şekilde gösterildiği gibi tek modlu bir dağılıma uyduğunu buldular:

Bu nedenle, sıfır ortalamalı Gauss dağılımı işlevi, sinir ağının tahmin hata vektörünü açıklamak için tanıtıldı ve aşağıdaki şekilde gösterildiği gibi, maksimum olasılık tahmin yöntemini kullanarak derin sinir ağının parametrelerini eğitmek için olasılık dağılımı öğrenmesi tanıtıldı.

Deneysel karşılaştırma yoluyla, maksimum olasılık yöntemine dayalı olarak eğitilen sinir ağı tarafından ayrılan konuşmanın, farklı nesnel göstergelerde geleneksel minimum ortalama kare hata kriteri kullanılarak eğitilen sinir ağını aştığı bulunmuştur.

Ek olarak, doğrulama setindeki yeniden yapılandırma kaybındaki değişiklikleri karşılaştırarak, Dr. Wang ve diğerleri modelin daha güçlü genelleme yeteneğine sahip olduğunu ve yöntemin yakınsama hızı açısından da bariz avantajlara sahip olduğunu buldular. .

Dr. Yannan Wang Hakkında

Yannan Wang, Çin Bilim ve Teknoloji Üniversitesi, Ulusal Konuşma Sinyali ve Bilgi İşleme Laboratuvarı'ndan mezun olmuştur.Araştırma alanları arasında konuşma geliştirme ve ayırma, dil tanıma, el yazısı tanıma vb. Yer almaktadır ve Interspeech ve IEEE Transaction on Audio, Speech ve Language Processing gibi ünlü uluslararası konuşma konferanslarına katılmıştır. Dergi çok sayıda makale yayınlamış ve denetimsiz konuşma ayırma yöntemlerine önemli katkılarda bulunmuştur. Dr. Wang, 2017 yılında Tencent Ses ve Video Laboratuvarı'na katıldı ve konuşma geliştirme ve ayırma gibi ön uç sinyal işlemeye odaklandı.

Tencent Audio and Video Lab Hakkında

Kasım 2016'da kurulan Tencent Ses ve Video Laboratuvarı, küresel gerçek zamanlı ses ve video ağı optimizasyonu, son teknoloji ses ve video kodlama ve kod çözme algoritmaları üzerine araştırmalar, bilgisayarla görüntülü görüntü işleme ve AI tabanlı ses ve ses dahil olmak üzere ses ve video iletişim teknolojileri üzerine ileriye dönük araştırmalara odaklanıyor. Geliştirme, ses güzelleştirme, ses ve video kalitesi değerlendirmesi vb.

Bu Game Boy izle, çalar saat "Mario Continental" in tema şarkısı
önceki
Chongqing'deki bu yer son zamanlarda 4A manzaralı bir yer haline geldi ve kışın ziyaret etmek için mükemmel bir yer!
Sonraki
Philips Sonicare Yeni Yıl Koi Hediye Kutusu: Şans tanrıçası olun, Yeni Yıl "koi" yi seçin
İlk Çin-İtalyan ortak yapımı olan "Kahve Fırtınası" filmi övgü topladı. Tan Zhuo toplantıya üç önemli noktayı açıklamak için katıldı.
"Endüstri etkin noktası" USB PD ile USB Tip-C arasındaki ilişki nedir?
Kırmızı kış çilekleri olgunlaşmış! Lütfen Chongqing'in bir seçim haritasını kabul edin ~
10.000 karakterlik uzun deneme, EMNLP 2017'de kabul edilen 11 makalenin derinlemesine yorumu
Sokağın her yerinde Japon arabaları kullanıyor. Sadece bu şirket Japonya'ya araba sattı!
`` Blog gönderisi seçimi '' Jenkins ardışık düzeni harika komut dosyası yürütme iznini iptal ediyor
Hem şık hem de evde sadece 200.000 fiyata sahip dört orta sınıf spor otomobil
Google+ hizmeti erken kapandı ve 2 Nisan'dan sonra artık tüketicilere açık olmayacak
4K, 1 inç mikro ekran VR başlığı deneyimi: "gösteri" ekranına sahip bir cihaz
40,000 yuan'ın iyi bir araba alamayacağını kim söyledi? 4 önerilen mobilite aracı
Zhiqi 6 kanallı kraliyet halberd yayınladı: en yüksek kapasite 192 GB
To Top