Tao Jianhua, Çin Bilimler Akademisi: Ses Teknolojisinin Mevcut Durumu ve Geleceği

Olay yerine varamazsanız, yine de en kuru akademik raporu izleyebilirsiniz!

Selam millet. Bu, akademik rapor sütunudur. Temel okuma becerilerinin editörü, bilim ve teknoloji alanındaki en iyi akademik raporları herkes için sunmak, öğrenciler için kuru ürünleri kaydetmek ve ilk elden PPT elde etmenin yollarını bulmak ve yeterince canlı video bulmak için zaman zaman seçer ve toplantıyı bizzat yönetir. Kuru yiyecekler, yeterince taze! Fazla bir şey söylemeyin, sadece bir göz atın. Bu seçkin genç akademisyenlerin ve uzmanların akademik raporlarının boş zamanlarınızda okumanızı daha değerli hale getireceğini umuyorum.

Yapay zeka forumu artık uçsuz bucaksız bir duman denizi ve zor ve kuru dersler var ama yüz tanesi dışında. "AI Future Talk · Gençlik Akademik Forumu" konferansları dizisi, tamamen Baidu tarafından desteklenen, Çin Bilimler Akademisi Üniversitesi tarafından düzenlenmektedir ve temel okuma, işbirliğine dayalı bir öz medyadır. Organizatör, Çin Bilimler Üniversitesi Öğrenci Birliği ve ortak organizatörler, Çin Bilimler Akademisi Bilgisayar Teknolojisi Enstitüsü Mezunlar Birliği, Ağ Merkezi Mezunlar Birliği, Yapay Zeka Okulu Öğrenci Birliği, Kimya Mühendisliği Okulu Öğrenci Birliği, Kamu Politikası ve Yönetimi Okulu Öğrenci Birliği ve Mikroelektronik Okulu Öğrenci Birliği. "AI Future Talk Gençlik Akademik Forumu" nun dördüncü "Ses Teknolojisi" özel oturumu 27 Nisan 2019 öğleden sonra Çin Bilimler Akademisi'nde düzenlendi. Çin Bilimler Akademisi'nden öğretmen Tao Jianhua, "Ses Teknolojisinin Durumu ve Geleceği" başlıklı bir rapor getirdi.

Tao Jianhua, Çin Bilimler Akademisi Otomasyon Enstitüsü'nün müdür yardımcısı, araştırmacısı ve doktora süpervizörü, Devlet Anahtar Örüntü Tanıma Laboratuvarı müdür yardımcısı, Çin Bilimler Akademisi Üniversitesi baş profesörü ve Yapay Zeka Okulu dekan yardımcısı, Ulusal Üstün Gençlik Fonu galibi, ulusal 10.000 Önde gelen yetenekleri planlayın ve Devlet Konseyi'nden özel hükümet ödeneklerinden yararlanın. Esas olarak akıllı etkileşim, büyük veri analizi, örüntü tanıma vb. İle uğraşan, büyük yerli ve yabancı dergilerde veya konferanslarda 300'den fazla makale yayınladı ve araştırma sonuçları, yerli ve yabancı akademik konferanslarda birçok ödül kazandı.

Ulusal 863 anahtar proje, ulusal anahtar araştırma ve geliştirme projeleri, Çin Ulusal Doğa Bilimleri Vakfı'nın temel projeleri, Çin Bilimler Akademisi pilot projeleri ve Ulusal Kalkınma ve Reform Komisyonu projeleri gibi önemli bilimsel araştırma görevlerinden art arda sorumlu olmuştur. Şu anda Çin Bilgisayar Topluluğu'nun bir üyesi ve yönetici müdürü, Çin Yapay Zeka Derneği Akıllı Etkileşim Komitesi'nin müdürü ve müdür yardımcısı, Çin Görüntü ve Grafik Derneği İnsan-Bilgisayar Etkileşimi Komitesi'nin yöneticisi ve yöneticisi, Çin Çin Bilgi Toplumu'nun direktörü ve Sesli Bilgi Komitesi'nin müdür yardımcısı olarak hizmet veriyor. Vb ve Speech Communication, JMUI gibi birçok büyük yerli ve yabancı derginin yayın kurulu ve Interspeech, ACII, IEEEICSP, IEEE MLSP, ISCSLP, NCMMSC gibi konferans veya program komitesi başkanı olarak görev yaptı.

Rapor içeriği: Ses teknolojisinin gelişim tarihi boyunca, mevcut ses teknolojisinin temel teknik özelliklerini ve ayrıca uygulamada ses teknolojisinin karşılaştığı ana formları ve sorunları analiz edin. Rapor, ses teknolojisinin karşılaştığı zorlu sorunları ve gelecekteki teknolojik geliştirme fikirlerini daha ayrıntılı olarak analiz edecek.

Ses teknolojisi durumu ve geleceği

Araştırmacı Tao Jianhua ilk olarak ses teknolojisinin gelişim tarihi hakkında konuştu. Telefonda en erken konuşma uygulamasını, spektrometrenin doğuşunu ve konuşma üretme teknolojisi, konuşma tanıma DTW teknolojisi ve gizli Markov model teknolojisi ve derin sinir ağı teknolojisinin gelişim sürecindeki önemli düğümleri analiz eder. 2010 yılı civarında konuşma tanımada derin öğrenmenin uygulanması ile konuşma teknolojisinin gelişimini büyük ölçüde desteklemiştir.Bulut platformları ve büyük verinin desteğiyle konuşma teknolojisi, tek bir varoluştan bulut platformuna doğru gelişmektedir.

Sonraki raporda, son yıllarda basitçe C-end uygulamaları ve B-end uygulamaları olarak ayrılabilen ses teknolojisinin ana uygulama biçimlerinden bahsedildi. C terminali, insan-bilgisayar etkileşiminin orijinal şeklini değiştirmek için kullanılan üç mobil cihaz, araba ve mobilya senaryosunu ifade eder. Ana uygulama özelliği mobil cihazların birleşimidir. Konuşma tanımanın doğruluğunun açık bir ortamda iyileştirilmesi gerektiğinden, mevcut C-end uygulamaları yine de belirli kısıtlamalara tabi olacaktır. B tarafı, işgücü verimliliğini artırmak için bazı dikey endüstrilerin ihtiyaçlarına yöneliktir. Müşteri hizmetleri şu anda B-end'in en yaygın kullanılan alanıdır ve işçilik maliyetlerinden tasarruf sağlayabilir. İkinci olarak, eğitim B tarafında insanların eğitim ve öğretim yapmalarına yardımcı olabilecek büyük bir uygulama alanıdır. Ayrıca tıbbi tedavi ve finans da B tarafı için çok önemli uygulama alanlarıdır.

Ardından sesli etkileşim teknolojisinin karşılaştığı sorunlar hakkında konuştu. İlk sorun, mevcut ses teknolojisinin çoğunlukla okuma stilinin sesiyle sınırlı olması ve sözlü işlem yeteneğinin yeterince güçlü olmamasıdır. İkinci sorun, çok dilli işlemenin yeterince güçlü olmaması, özellikle çok dilli entegrasyonun işleme yeteneğinin tatmin edici olmaması ve küçük diller için işleme yeteneğinin de birçok sınırlamaya tabi olmasıdır. Üçüncü problem, konuşma akustik modeli ile sınırlıdır.Örnek olarak konuşma tanımayı ele alırsak, konuşma tanıma sistemi bir akustik modelden ve seri halinde bir dil hata düzeltme modelinden oluşur.Akustik modelin performansı sonraki tanıma sürecini büyük ölçüde etkileyecektir. Dördüncü sorun, çok kanallı konuşma anlayışının iyileştirilmesi gerektiğidir.Örneğin, kişiden kişiye iletişimde, diğer kişinin ifade ve duruşu diğer kişinin anlamını daha iyi anlayabilir.

3 konuşma teknolojisinin bazı temel bilimsel konularını ve ilgili geliştirme fikirlerini özetler. Bilimsel problem 1, ses akustik seviyesindeki sinyallerin hassas simülasyonu ve bilişsel mekanizmasıdır ve bunlara karşılık gelen çözümler, derin seviyeli ses akustik modelleme yöntemleri ve çok dilli modellerdir. Bilimsel problem 2 esnek, kişiselleştirilmiş, uyarlanabilir ve bulanık duygusal işlemedir ve buna karşılık gelen çözüm, kişiselleştirilmiş ve duygusal konuşma modelleridir. Bilimsel problem 3, doğal konuşma dilinde çok kanallı füzyon mekanizması ve çok alanlı haritalama ilişkisidir Karşılık gelen çözüm, çok modlu derin füzyon diyalog sistemidir.

Son olarak, ekibimin konuşma tanıma, konuşma sentezi ve etkileşimli soru-cevap öğrenimindeki uygulamasının sonuçlarını gösterdim ve konuşma teknolojisinde daha fazla araştırmaya değer birçok alan olduğunu belirttim. Geçmişteki çalışmalar, çoğunlukla kapalı ortam sorunları üzerine yapılan araştırmalardır. Bu nedenle, açık çevre alanında hala incelemeye ve fethetmeye değer birçok sorun var.

Yorum bırak Arkadaş çevresi gönder
AI öğrenme ve geliştirmenin kuru mallarını paylaşalım

Tam platform yapay zeka dikey öz medya "temel okuma" yı takip etmeye hoş geldiniz

Song Jia gevşek rüzgarlık kot pantolonlar şık ve yakışıklı, ancak omuzdaki çanta şikayet edilebilir: dipçik gibi
önceki
Google, Pixel serisinin orta sınıf amiral gemisini piyasaya sürdü ve arkadaki tek kamera ikonik bir tasarım dili haline geldi!
Sonraki
İyi haberler! Zhao Jianbo Asya Şampiyonası'nın zirvesine tırmandı, Bai Yulu Asya şampiyonasını kazandı, Çinli oyuncular şampiyonluğu ve ikinciliği aldı
Wang Zixuan, uzun çizmeli pembe bir elbise giyen "ilk bacak" tır, bacakları bambu direkleri gibi düz
Core Sound Today | XR pil ömrü abartıldı mı? Apple, test yönteminin farklı olduğunu iddia ediyor
Dünya Şampiyonası yarı finalleri: Gilbert 147 kaybetti ve hala Higgins'i yönetiyor
Zhang Xueying'in gözden geçirilmemiş resmi gerçekten şişman, kotu kalın ve kısa ve "çiçek kolları" daha toprak gibi.
[İşaretler] Pengzhou Çin Açık 3.lükte başlıyor, Chaolumen beyaz güvercinleri 100'den fazla ustanın yan etkinliklerde yarışmasına öncülük ediyor
Jing Tian et örtmede gerçekten çok iyi.Beyaz gömlek etek taze ve yaşlanmayı azaltıyor.Siyah kuşakla hemen 10 kilo verdi
Bugün CoreSound | Huawei, 2021'de faaliyete geçecek olan Cambridge'deki ARM genel merkezinin yakınında bir çip fabrikası kuracak
İlk yarı final oyunu: Gilbert 147'yi kaçırdı, arkadan Higgins'i 5-3 önde geçti
Yang Yuying, aşkından dolayı hala evli değil ve nane yeşili bir elbise ve at kuyruğu giyiyor ve 16'nın çok fazla olduğunu söylüyor.
Yaşlı hastaları huzurevlerinden uzak tutun ve sosyal robotları unutmayın
Zhang Junning çok "yeryüzünde", bol bir palto ve kot pantolon giyiyor, havaalanında yürürken parlak bir tat yok
To Top