"AI Is Not Speaking" in dördüncü sayısı sizi AI "dinleme" ve "konuşma" nın konuşma teknolojisi hakkında konuşmaya götürecek

27 Nisan 2019 öğleden sonra, Pekin Çin Bilimler Akademisi, Zhongguancun Kampüsü, Eğitim Binası 3, S101'deki konferans salonunda "Yapay Zeka Konuşmuyor · Gençlik Akademik Forumu" nun dördüncü konuşma teknolojisi oturumu gerçekleştirildi.

"AI Future Talk · Gençlik Akademik Forumu" konferansları dizisi, tamamen Baidu tarafından desteklenen, Çin Bilimler Akademisi Üniversitesi tarafından düzenlenmektedir ve temel okuma, işbirliğine dayalı bir öz medyadır. Organizatör, Çin Bilimler Üniversitesi Öğrenci Birliği ve ortak organizatörler, Çin Bilimler Akademisi Bilgisayar Teknolojisi Enstitüsü Mezunlar Birliği, Ağ Merkezi Mezunlar Birliği, Yapay Zeka Okulu Öğrenci Birliği, Kimya Mühendisliği Okulu Öğrenci Birliği, Kamu Politikası ve Yönetimi Okulu Öğrenci Birliği ve Mikroelektronik Okulu Öğrenci Birliği.

Bilgisayarların dinleyebilmesini, görebilmesini, görebilmesini, konuşabilmesini ve hissedebilmesini sağlamak, insan-bilgisayar etkileşiminin gelecekteki gelişme yönüdür; bunların arasında dinleme ve konuşma ses teknolojisinin kategorileridir. Sonuç olarak, akıllı konuşma teknolojisi en başarılı iki dalı üretti: konuşma tanıma teknolojisi ve konuşma sentez teknolojisi. Konuşma tanıma, yalnızca konuşmadan metne ve sesli komutlar gibi uygulama senaryolarını değil, aynı zamanda ses izi tanıma, duygu tanıma ve akustik olay izleme gibi daha zorlu duygu ve karakteristik bilgi tanıma görevlerini de içerir. En eski dalga biçimi ekleme ve bariz mekanik olarak sentezlenmiş seslerden, konuşma sentezi artık yanlış ve doğal, doğal ve akıcı gerçek insanlarla konuşabilir ve hatta lehçeleri, aksanları ve duyguları ifade edebilir.Teknolojide niteliksel bir sıçrama yaşandı.

Artık, Baidu Xiaodu ve Apple Siri gibi akıllı asistanlarla cep telefonları, akıllı hoparlörler ve diğer cihazlar aracılığıyla kolayca iletişim kurabiliyoruz.Günlük hayatımızda, çeşitli yapay zeka teknolojilerinin sesli etkileşimle daha sık geldiğini görüyoruz. Akıllı ses teknolojisi çoktan başladı. Sıradan insanların evlerine girmek hayatımızın bir parçası haline geldi.

Bu forumda 5 misafir raporu paylaşımı bulunmaktadır. Çin Bilimler Akademisi Otomasyon Enstitüsü'nden araştırmacı Tao Jianhua, Tsinghua Üniversitesi Elektronik Mühendisliği Bölümü'nden Profesör Wu Ji, Xiaomi'den Ses Teknolojisi Direktörü Dr. Wang Yujun, Baidu'dan Baş Mimarı Dr. Kang Yongguo ve Çin Bilimler Akademisi Otomasyon Enstitüsü'nden Liu Bin dahil Dr.

Araştırmacı Tao Jianhua, "Ses Teknolojisinin Durumu ve Geleceği" üzerine bir rapor hazırladı

Çin Bilimler Akademisi Otomasyon Enstitüsü müdür yardımcısı, araştırmacısı ve doktora süpervizörü, Devlet Anahtar Örüntü Tanıma Laboratuvarı müdür yardımcısı, Çin Bilimler Akademisi Üniversitesi baş profesörü ve Yapay Zeka Okulu dekan yardımcısı, Ulusal Üstün Gençlik Fonu kazanan, Ulusal On Bin Yetenek Programı lideri Yetenek, araştırmacı Tao Jianhuanın raporu temelde ses teknolojisinin gelişim tarihini, mevcut ses teknolojisinin özelliklerini, mevcut ses teknolojisinin uygulama biçimini ve zorluklarını ve gelecekteki geliştirme fikirlerini içermektedir. Raporda C ve B tarafında ses teknolojisinin uygulanmasına değinildi ve mevcut ses anlayışının yalnızca makinenin beklentilerini karşılayan geri bildirimler olmasına rağmen, makinenin kişileştirme geri bildirimlerinin gerçekten büyük bir atılım gerçekleştirdiğine dikkat çekildi. Raporda, konuşma tanımanın, lehçe ve çok dilli işlemede hala yeterince iyi olmadığına dikkat çekildi.Yüz ifadeleri gibi çok modlu verilerle birlikte konuşma tanımanın daha iyi performans gösterebileceği, bunların arasında konuşmanın duygu tanıma ve duygusal tonla konuşma sentezinin de sorun teşkil ettiği belirtildi. Zorluk, konuşma sentezi, ses efekti sahnelerinin oluşturulması gibi pratik uygulamalara genişletilebilir.

Profesör Wu Ji, "Ses Sinyalinin Derin Öğrenme İşleme Yöntemi" hakkında bir rapor hazırladı

Tsinghua Üniversitesi Elektronik Mühendisliği Bölümü'nde dekan yardımcısı, uzun vadeli profesör ve doktora şefi olarak, Tsinghua-Xunfei ortak laboratuvarının yöneticisi, China Voice Industry Alliance'ın teknik çalışma grubunun lideri, State Key Laboratory of Cognitive Intelligence Akademik Komitesi üyesi, China Computer Profesyonel Sesli Diyalog ve İşitme Grubu üyesi olan Profesör Wu Ji'nin raporu, esas olarak ses sinyalleri alanındaki araştırma yönlerinin girişini ve ses sinyali işlemeye derin öğrenme yöntemlerini tanıtma girişimlerini içermektedir. Rapor, ses özellik çıkarma ve özellik dizisi modelleme dahil olmak üzere ses sinyali işlemenin temel çerçevesini verir. Özellik çıkarmada, biri frekans etki alanı filtre bankasına ait bir sinir ağı oluşturmak ve gerektiğinde şekil kısıtlamaları sunmaktır; diğeri ise uçtan uca ses özelliği çıkarma yöntemini geliştirmek ve frekans noktalarını öğrenip temel işlevleri öğrenebilen bir örnekleme Fourier önermektir. Yaprak dönüştürme modülü. Özellik dizisi modellemesinde, Fourier dönüşümüne dayalı zaman aktarımı modülü önerilmiştir ve veriler, veri bölütleme yeniden düzenleme, rastgele çerçeve atlama, vb. İle artırılmıştır ve LSTM modeli zaman dikkati ve bellek dikkati de önerilmiştir.

Dr. Yujun Wang, "Xiao Ai'nin Arkasındaki Millet Sesi Teknolojisi" hakkında bir rapor yaptı

Xiaomi'nin yapay zeka departmanının yapay zeka laboratuvarının ses teknolojisi direktörü olan Dr. Wang Yujun'un raporu esas olarak AI asistanı Xiao Ai'nin geliştirme sürecine odaklanıyor ve Xiaomi'deki ses teknolojisini keşfetmeye yönelik bir dizi deneyim ve öngörü sunuyor. Raporda, TV'nin Xiaomi'nin konuşma tanıma için bir dönüm noktası olduğu ve çocuk saatlerinin ve çocukların korpusunun önemli uygulama senaryoları olduğu belirtildi. Raporda teknik detaylar açısından, sıcak başlatma projeleri ile veri elde edilmesi, otomatik tanıma ve manuel etiketleme yoluyla eğitime yardımcı olunması, veri artırma yoluyla tanınma oranının artırılması ve dikkat mekanizmalarının tanıtılması gibi göstergelerden bahsedildi.

Dr. Kang Yongguo, "AI Çağında Baidu Ses Teknolojisi" hakkında bir rapor hazırladı

Baidu'nun baş mimarı ve CCF Konuşma Diyaloğu ve İşitme Profesyonel Grubu Daimi Komitesi'nin bir üyesi olan Dr. Yongguo Kang'ın raporu, Baidu konuşmasının ilerlemesini ve uygulamasını, tanıma teknolojisindeki Baidu konuşmasının yeniliğini ve endüstride ve akademide problem çözme arasındaki farkı içeriyor. Üç parça. Baidu Voice yalnızca Baidu APP, Baidu Giriş Yöntemi, Baidu Haritası, DuMi ve ortak üreticilerde kullanılmaz, aynı zamanda geliştiricilerin kullanması için açık bir platform sağlar. Ana uygulamalar arasında ses uyandırma, ses tanıma ve ses sentezi bulunur. Bölümlere ayrılmış akış, çok seviyeli dikkat modeli ve konuşma tanımadaki diğer teknolojilerin tanıtımı doğruluğu artırır. Vurgu modellemesinin ve konuşma sentezinde diğer teknolojilerin tanıtımı, konuşma yayıncılığı, sesli okuma, ses asistanları, sanal karakterler vb.

"Yapay Zeka Geleceği · Gençlik Akademik Forumu" konferans dizisi, ulusal yapay zeka geliştirme planını uygulamayı ve Çin'de yapay zeka teknolojisinin ilerlemesini teşvik etmeyi amaçlamaktadır. Sektör uzmanları, genç akademisyenler ve seçkin öğrenciler bu alandaki en son teknolojik başarıları tanıtmakta ve öğretimi, bilimsel araştırmaları ve Sanayileşme deneyimi, üretim, öğrenme ve araştırmanın entegrasyonunu destekler ve Çin'in yapay zeka endüstrisinin güçlü bir şekilde gelişmesine yardımcı olur.

Dr. Liu Bin, "Ortak Yüzleşme Geliştirme Eğitimine Dayalı Sağlam Uçtan Uca Konuşma Tanıma" hakkında bir rapor hazırladı

Otomasyon Enstitüsü, Çin Bilimler Akademisi'nden ve ICASSP 2018 en iyi öğrenci ödevinin birincisi olan Dr. Liu Bin, ilk olarak uçtan uca akustik modelleme teknolojisini tanıttı, ortak CTC, dikkat modeli ve diğer yöntemleri tanıttı ve konuşma tanımayı tanıttı. Gürültü ve konuşma bozulması sorunları ve konuşma geliştirme ve sağlam konuşma tanımaya uygulanan GAN modeli. Daha sonra Dr. Liu, konuşma geliştirme ve tanıma modellerinin ortak yüzleşme eğitimi için bir çerçeve önerdi.Çerçeve, ortak bir şekilde optimize etmek için önceden ayrı olan konuşma geliştirme ve konuşma tanıma modüllerini birleştirir ve üretken bir yüzleşme ağı aracılığıyla modelin sağlamlığını geliştirir. . Dr. Liu, modelin deneysel parametrelerini ve sonuçlarını verdi ve gelecekte daha büyük veri kümeleri üzerinde deneylerin yapılacağını ve güçlü uçtan uca akustik modellemede mikrofon dizilerine dayalı ön uç ve arka uç füzyon uygulamalarının araştırılacağını belirtti.

O, Lin Gengxin'in eski kız arkadaşı. Eklenmiş bir elbise giyiyor ve aynaya gülümsüyor ve ilk aşkı oldu
önceki
Lao Luo ile kararlı bir şekilde değil, Xiaomi bir kez daha elektronik sigara yapmayacağı yönündeki söylentileri yalanlıyor!
Sonraki
Lin Yun havaalanında göründü, topun başına şakacı bir bakışla iki "kısa kollu" kot pantolon giydi.
"Yanxi Sarayı Stratejisi", kolsuz dikişli etekli süveter, daha çok rahibe gibi şapka giymesi nedeniyle popüler oldu.
Marka 3.6 milyar değerinde mi? "Huiyuan" da 15.4 milyar teklif edildi!
Heilongjiang Eyaleti Nehirlerde ve Göllerde "Dört Bozukluğu Temizleme" Özel Eylemini Teşvik Ediyor Nehirler ve göller yavaş yavaş eski canlılıklarına geri dönüyor.
Aynı etek, Qi Wei kısa kollu bir deri cekete dönüştü, eski moda Han Xue'yi öldürüyor.
B istasyonunda bile programlamayı öğrenebileceğinize inanıyor musunuz?
"Creation 101" tarafından elendi, şimdi siyah şortlu bir süveter giymiş ve "sosisli bacakların" güzelliğini gösteriyor
Alibaba Cloud'un Nesnelerin İnternetine Giden Yolu
Düşüşü süpür! JD'nin 2019'un ilk çeyreğindeki "Rapor Kartı" rekor kırdı!
Edebiyat ve sanat tanrıçası Jiang Yiyan, çiçek etekli gevşek rüzgarlık, kemer olarak kenevir ipi hala güzelliğin odak noktası
Zhang Bichen gerçekten yeryüzünde. Kırmızı T ve mavi pantolonlar bir yaş duygusu taşıyor. Netizenler: Güldüğüm için affedin
IQiyi% 20 oranında işten çıkarmaları reddediyor; JD Avustralya'dan çekilmeye yanıt veriyor | Geek Headlines
To Top