27 Nisan 2019 öğleden sonra, Pekin Çin Bilimler Akademisi, Zhongguancun Kampüsü, Eğitim Binası 3, S101'deki konferans salonunda "Yapay Zeka Konuşmuyor · Gençlik Akademik Forumu" nun dördüncü konuşma teknolojisi oturumu gerçekleştirildi.
"AI Future Talk · Gençlik Akademik Forumu" konferansları dizisi, tamamen Baidu tarafından desteklenen, Çin Bilimler Akademisi Üniversitesi tarafından düzenlenmektedir ve temel okuma, işbirliğine dayalı bir öz medyadır. Organizatör, Çin Bilimler Üniversitesi Öğrenci Birliği ve ortak organizatörler, Çin Bilimler Akademisi Bilgisayar Teknolojisi Enstitüsü Mezunlar Birliği, Ağ Merkezi Mezunlar Birliği, Yapay Zeka Okulu Öğrenci Birliği, Kimya Mühendisliği Okulu Öğrenci Birliği, Kamu Politikası ve Yönetimi Okulu Öğrenci Birliği ve Mikroelektronik Okulu Öğrenci Birliği.
Bilgisayarların dinleyebilmesini, görebilmesini, görebilmesini, konuşabilmesini ve hissedebilmesini sağlamak, insan-bilgisayar etkileşiminin gelecekteki gelişme yönüdür; bunların arasında dinleme ve konuşma ses teknolojisinin kategorileridir. Sonuç olarak, akıllı konuşma teknolojisi en başarılı iki dalı üretti: konuşma tanıma teknolojisi ve konuşma sentez teknolojisi. Konuşma tanıma, yalnızca konuşmadan metne ve sesli komutlar gibi uygulama senaryolarını değil, aynı zamanda ses izi tanıma, duygu tanıma ve akustik olay izleme gibi daha zorlu duygu ve karakteristik bilgi tanıma görevlerini de içerir. En eski dalga biçimi ekleme ve bariz mekanik olarak sentezlenmiş seslerden, konuşma sentezi artık yanlış ve doğal, doğal ve akıcı gerçek insanlarla konuşabilir ve hatta lehçeleri, aksanları ve duyguları ifade edebilir.Teknolojide niteliksel bir sıçrama yaşandı.
Artık, Baidu Xiaodu ve Apple Siri gibi akıllı asistanlarla cep telefonları, akıllı hoparlörler ve diğer cihazlar aracılığıyla kolayca iletişim kurabiliyoruz.Günlük hayatımızda, çeşitli yapay zeka teknolojilerinin sesli etkileşimle daha sık geldiğini görüyoruz. Akıllı ses teknolojisi çoktan başladı. Sıradan insanların evlerine girmek hayatımızın bir parçası haline geldi.
Bu forumda 5 misafir raporu paylaşımı bulunmaktadır. Çin Bilimler Akademisi Otomasyon Enstitüsü'nden araştırmacı Tao Jianhua, Tsinghua Üniversitesi Elektronik Mühendisliği Bölümü'nden Profesör Wu Ji, Xiaomi'den Ses Teknolojisi Direktörü Dr. Wang Yujun, Baidu'dan Baş Mimarı Dr. Kang Yongguo ve Çin Bilimler Akademisi Otomasyon Enstitüsü'nden Liu Bin dahil Dr.
Çin Bilimler Akademisi Otomasyon Enstitüsü müdür yardımcısı, araştırmacısı ve doktora süpervizörü, Devlet Anahtar Örüntü Tanıma Laboratuvarı müdür yardımcısı, Çin Bilimler Akademisi Üniversitesi baş profesörü ve Yapay Zeka Okulu dekan yardımcısı, Ulusal Üstün Gençlik Fonu kazanan, Ulusal On Bin Yetenek Programı lideri Yetenek, araştırmacı Tao Jianhuanın raporu temelde ses teknolojisinin gelişim tarihini, mevcut ses teknolojisinin özelliklerini, mevcut ses teknolojisinin uygulama biçimini ve zorluklarını ve gelecekteki geliştirme fikirlerini içermektedir. Raporda C ve B tarafında ses teknolojisinin uygulanmasına değinildi ve mevcut ses anlayışının yalnızca makinenin beklentilerini karşılayan geri bildirimler olmasına rağmen, makinenin kişileştirme geri bildirimlerinin gerçekten büyük bir atılım gerçekleştirdiğine dikkat çekildi. Raporda, konuşma tanımanın, lehçe ve çok dilli işlemede hala yeterince iyi olmadığına dikkat çekildi.Yüz ifadeleri gibi çok modlu verilerle birlikte konuşma tanımanın daha iyi performans gösterebileceği, bunların arasında konuşmanın duygu tanıma ve duygusal tonla konuşma sentezinin de sorun teşkil ettiği belirtildi. Zorluk, konuşma sentezi, ses efekti sahnelerinin oluşturulması gibi pratik uygulamalara genişletilebilir.
Tsinghua Üniversitesi Elektronik Mühendisliği Bölümü'nde dekan yardımcısı, uzun vadeli profesör ve doktora şefi olarak, Tsinghua-Xunfei ortak laboratuvarının yöneticisi, China Voice Industry Alliance'ın teknik çalışma grubunun lideri, State Key Laboratory of Cognitive Intelligence Akademik Komitesi üyesi, China Computer Profesyonel Sesli Diyalog ve İşitme Grubu üyesi olan Profesör Wu Ji'nin raporu, esas olarak ses sinyalleri alanındaki araştırma yönlerinin girişini ve ses sinyali işlemeye derin öğrenme yöntemlerini tanıtma girişimlerini içermektedir. Rapor, ses özellik çıkarma ve özellik dizisi modelleme dahil olmak üzere ses sinyali işlemenin temel çerçevesini verir. Özellik çıkarmada, biri frekans etki alanı filtre bankasına ait bir sinir ağı oluşturmak ve gerektiğinde şekil kısıtlamaları sunmaktır; diğeri ise uçtan uca ses özelliği çıkarma yöntemini geliştirmek ve frekans noktalarını öğrenip temel işlevleri öğrenebilen bir örnekleme Fourier önermektir. Yaprak dönüştürme modülü. Özellik dizisi modellemesinde, Fourier dönüşümüne dayalı zaman aktarımı modülü önerilmiştir ve veriler, veri bölütleme yeniden düzenleme, rastgele çerçeve atlama, vb. İle artırılmıştır ve LSTM modeli zaman dikkati ve bellek dikkati de önerilmiştir.
Xiaomi'nin yapay zeka departmanının yapay zeka laboratuvarının ses teknolojisi direktörü olan Dr. Wang Yujun'un raporu esas olarak AI asistanı Xiao Ai'nin geliştirme sürecine odaklanıyor ve Xiaomi'deki ses teknolojisini keşfetmeye yönelik bir dizi deneyim ve öngörü sunuyor. Raporda, TV'nin Xiaomi'nin konuşma tanıma için bir dönüm noktası olduğu ve çocuk saatlerinin ve çocukların korpusunun önemli uygulama senaryoları olduğu belirtildi. Raporda teknik detaylar açısından, sıcak başlatma projeleri ile veri elde edilmesi, otomatik tanıma ve manuel etiketleme yoluyla eğitime yardımcı olunması, veri artırma yoluyla tanınma oranının artırılması ve dikkat mekanizmalarının tanıtılması gibi göstergelerden bahsedildi.
Baidu'nun baş mimarı ve CCF Konuşma Diyaloğu ve İşitme Profesyonel Grubu Daimi Komitesi'nin bir üyesi olan Dr. Yongguo Kang'ın raporu, Baidu konuşmasının ilerlemesini ve uygulamasını, tanıma teknolojisindeki Baidu konuşmasının yeniliğini ve endüstride ve akademide problem çözme arasındaki farkı içeriyor. Üç parça. Baidu Voice yalnızca Baidu APP, Baidu Giriş Yöntemi, Baidu Haritası, DuMi ve ortak üreticilerde kullanılmaz, aynı zamanda geliştiricilerin kullanması için açık bir platform sağlar. Ana uygulamalar arasında ses uyandırma, ses tanıma ve ses sentezi bulunur. Bölümlere ayrılmış akış, çok seviyeli dikkat modeli ve konuşma tanımadaki diğer teknolojilerin tanıtımı doğruluğu artırır. Vurgu modellemesinin ve konuşma sentezinde diğer teknolojilerin tanıtımı, konuşma yayıncılığı, sesli okuma, ses asistanları, sanal karakterler vb.
"Yapay Zeka Geleceği · Gençlik Akademik Forumu" konferans dizisi, ulusal yapay zeka geliştirme planını uygulamayı ve Çin'de yapay zeka teknolojisinin ilerlemesini teşvik etmeyi amaçlamaktadır. Sektör uzmanları, genç akademisyenler ve seçkin öğrenciler bu alandaki en son teknolojik başarıları tanıtmakta ve öğretimi, bilimsel araştırmaları ve Sanayileşme deneyimi, üretim, öğrenme ve araştırmanın entegrasyonunu destekler ve Çin'in yapay zeka endüstrisinin güçlü bir şekilde gelişmesine yardımcı olur.
Otomasyon Enstitüsü, Çin Bilimler Akademisi'nden ve ICASSP 2018 en iyi öğrenci ödevinin birincisi olan Dr. Liu Bin, ilk olarak uçtan uca akustik modelleme teknolojisini tanıttı, ortak CTC, dikkat modeli ve diğer yöntemleri tanıttı ve konuşma tanımayı tanıttı. Gürültü ve konuşma bozulması sorunları ve konuşma geliştirme ve sağlam konuşma tanımaya uygulanan GAN modeli. Daha sonra Dr. Liu, konuşma geliştirme ve tanıma modellerinin ortak yüzleşme eğitimi için bir çerçeve önerdi.Çerçeve, ortak bir şekilde optimize etmek için önceden ayrı olan konuşma geliştirme ve konuşma tanıma modüllerini birleştirir ve üretken bir yüzleşme ağı aracılığıyla modelin sağlamlığını geliştirir. . Dr. Liu, modelin deneysel parametrelerini ve sonuçlarını verdi ve gelecekte daha büyük veri kümeleri üzerinde deneylerin yapılacağını ve güçlü uçtan uca akustik modellemede mikrofon dizilerine dayalı ön uç ve arka uç füzyon uygulamalarının araştırılacağını belirtti.