Wu Ji, Tsinghua Üniversitesi: Ses Sinyalinin Derin Öğrenme İşleme Yöntemi

Olay yerine varamazsanız, yine de en kuru akademik raporu izleyebilirsiniz!

Selam millet. Bu, akademik rapor sütunudur. Temel okuma becerilerinin editörü, bilim ve teknoloji alanındaki en iyi akademik raporları herkes için sunmak, öğrenciler için kuru ürünleri kaydetmek ve ilk elden PPT elde etmenin yollarını bulmak ve yeterince canlı video bulmak için zaman zaman seçer ve toplantıyı bizzat yönetir. Kuru yiyecekler, yeterince taze! Fazla bir şey söylemeyin, sadece bir göz atın. Bu seçkin genç akademisyenlerin ve uzmanların akademik raporlarının boş zamanlarınızda okumanızı daha değerli hale getireceğini umuyorum.

Yapay zeka forumu artık uçsuz bucaksız bir duman denizi ve zor ve kuru dersler var ama yüz tanesi dışında. "AI Future Talk · Gençlik Akademik Forumu" konferansları dizisi, tamamen Baidu tarafından desteklenen, Çin Bilimler Akademisi Üniversitesi tarafından düzenlenmektedir ve temel okuma, işbirliğine dayalı bir öz medyadır. Organizatör, Çin Bilimler Üniversitesi Öğrenci Birliği ve ortak organizatörler, Çin Bilimler Akademisi Bilgisayar Teknolojisi Enstitüsü Mezunlar Birliği, Ağ Merkezi Mezunlar Birliği, Yapay Zeka Okulu Öğrenci Birliği, Kimya Mühendisliği Okulu Öğrenci Birliği, Kamu Politikası ve Yönetimi Okulu Öğrenci Birliği ve Mikroelektronik Okulu Öğrenci Birliği. "AI Future Talk Gençlik Akademik Forumu" nun dördüncü "Ses Teknolojisi" özel oturumu 27 Nisan 2019 öğleden sonra Çin Bilimler Akademisi'nde düzenlendi. Tsinghua Üniversitesi'nden öğretmen Wu Ji, "Ses Sinyalinin Derin Öğrenme İşleme Yöntemi" adlı bir rapor getirdi.

Tsinghua Üniversitesi, Elektronik Mühendisliği Bölümü başkan yardımcısı Wu Ji, uzun vadeli profesör ve doktora süpervizörü. Tsinghua-Xunfei Ortak Laboratuvarı Direktörü. IEEE Kıdemli Üyesi, Çin Konuşma Endüstrisi Birliği Teknik Çalışma Grubu Başkanı, Devlet Anahtar Bilişsel Zeka Laboratuvarı Akademik Komite Üyesi, Dental Dijital Tıbbi Teknoloji ve Malzemeler Ulusal Mühendislik Laboratuvarı İkinci Teknik Komite Üyesi, Çin Bilgisayar Topluluğu Konuşma Diyaloğu ve İşitme Ana Bilim Dalı Grup üyeleri. 2018-2022 Milli Eğitim Bakanlığı Telekomünikasyon Meslek Eğitimi Yönlendirme Komitesi Genel Sekreter Yardımcısı, Ulusal Anahtar Araştırma ve Geliştirme Programı, 863, Ulusal Doğa Bilimleri Vakfı ve Sanayi ve Bilgi Teknolojileri Bakanlığı Elektronik Geliştirme Fonu gibi bir dizi ulusal bilimsel araştırma projesini üstlenmiştir.

Rapor içeriği: Derin öğrenme yöntemlerinin tanıtımı, ses teknolojisinin ilerlemesini önemli ölçüde destekledi. Konuşma tanıma, konuşma sentezi ve konuşmacı tanımanın pratik uygulamalarının tümü artıyor ve konuşma teknolojisi, yapay zekanın önemli bir parçası ve uygulama inişinin ana yönlerinden biri haline geldi. Ses sinyalleri konuşma sinyallerinden daha geniş bir menzile sahiptir ve ses sahne analizi gibi birçok önemli ve ilginç araştırma yönü vardır. Ses sinyalleri için, geleneksel işleme yöntemleri iki ana bölüme ayrılabilir: ses özelliği çıkarma ve ses dizisi modelleme. Bu rapor, derin öğrenme yöntemlerini ses sinyali işlemeye sokmanın bazı girişimlerini ve ön sonuçlarını tartışmaktadır.

Ses sinyalinin derin öğrenme işleme yöntemi

Rapor esas olarak ses sinyalleri alanındaki araştırma yönlerinin girişini ve derin öğrenme yöntemlerini ses sinyali işlemeye sokma girişimlerini ve ön sonuçlarını içermektedir.

Rapor ilk olarak, iki ana bölüm dahil olmak üzere geleneksel ses sinyali işlemenin temel çerçevesini verir: ses özellik çıkarma ve özellik dizisi modelleme. Yani, ses çerçevesinden başlayarak, öznitelikleri elde etmek için zaman-frekans analizi yapılır ve ardından birden çok kareden elde edilen öznitelik dizisi modellenir. Geleneksel yöntem, doğrusal zaman spektrumunu kısa süreli Fourier dönüşümü yoluyla elde eder, ardından Mel enerji spektrumunu Mel filtre bankası aracılığıyla elde eder, logaritmik işleme yoluyla logaritmik spektrumu elde eder ve ayrıca daha ileri işlemlerle MFCC gibi ses özelliklerini elde edebilir.

Özellik çıkarımında, derin öğrenme yöntemi tanıtıldı, bunlardan biri, Mel filtre bankası üzerindeki frekans alanı filtre bankasının sinir ağını oluşturmaktır. Şekil kısıtlamaları getirilirse, filtre kazancı, merkez frekansı ve bant genişliği öğrenilebilir üç parametredir. Üçgen pencere filtresi için, sigmoid eğri ve düz çizgi, küresel farklılaşabilirliği sağlamak için üçgen pencereye sığdırmak için kullanılabilir veya Gauss Şekil kısıtlamaları olmayan pencere filtreleri veya filtreler kullanılır.

Spektrum yeniden yapılandırma görevinde, kısıtlanmamış filtre bankası daha iyi performans gösterir ve işitsel sahne sınıflandırma görevinde, şekli kısıtlı filtre bankası daha iyi performans gösterir. Öğrenilen filtrenin daha ileri analizi, öğrenilebilir filtre bankasının daha düşük frekans bilgileri kullanma eğiliminde olduğunu görebiliriz. İkincisi, uçtan uca ses özelliği çıkarma yöntemini geliştirmektir.

TCNN (Google, 2015), zaman etki alanı evrişimi + zaman etki alanı havuzu + doğrusal olmayan dönüşümü kullanabilen bir zaman etki alanı sinyal işleme birimi önerir. WaveNet (Google, 2016), katman katman komşu evrişim + doğrusal olmayan dönüşümü havuzlayan zaman etki alanı kullanmayı önerir. Rapor, sinir ağlarını kullanan Fourier dönüşümü için bir modül önermektedir. Belirli frekans noktalarını seçerek, modülün zaman verimliliği iyileştirilir. Öğrenilebilir frekans noktalarına karşılık gelen başlatma koşulları eklenerek, Fourier dönüşüm modülü optimize edilir Frekans noktalarının seçimi ve modülün özellik çıkarma kapasitesini geliştirmek için öğrenme temel fonksiyonuna sinüs ve kosinüs kısıtlamaları ekleyerek. TCNN ve WaveNet ile karşılaştırıldığında, bu modülün performansı ve verimliliği önemli ölçüde iyileştirildi.

Özellik dizisi modelleme kısmında da bir dizi çalışma yapılmıştır. Karmaşık işitsel sahne sinyallerinde, bazı ses olayları rasgele meydana gelir, bu nedenle, ses zaman kaydırma adı verilen benzer ses çerçeveleri farklı konumlarda görünebilir Bu sorunu çözmek için, Fourier dönüşümüne dayalı bir zaman kayması önerilmiştir. Modül, zaman spektrumu, Fourier dönüşümü ve enerji çıkarma dizisi aracılığıyla karakteristik spektrumu elde eder ve daha sonra özellik boyutsallığını azaltma yoluyla ses karakteristiğini elde eder. Bu modül, DNN, CNN, LSTM, vb. Gibi farklı sinir ağı yapıları üzerine yerleştirilebilir ve ses sahnesi sınıflandırma görevlerinde tutarlı performans artışı elde etmiştir.

Veri büyütme için rastgele bölümleme bozukluğu ve rastgele çerçeve atlama fikri dikkate alındığında, sinir ağı modelinin yetersiz veri hacmi nedeniyle aşırı takılabileceği sorunu için, kural tabanlı bir ses dizisi genişletme yöntemi ve rastgele çerçeve atlama kullanan bir döngü önerilmektedir. Sinir ağı modeli. Kural tabanlı sıra genişletme, verileri bölümlere ayırmak ve sıra dışı olarak yeniden düzenlemektir.Rastgele bölümleme, dizinin çeşitliliğini artırır, veri boyutunu artırır ve önemli performans iyileştirmeleri sağlar.

Rastgele çerçeve atlama stratejisi hiyerarşik olarak uygulanabilir.Her katman arasındaki çerçeve atlama stratejisi aynı veya farklı olabilir. Bu strateji LSTM ve GRU üzerinde bir etkiye sahiptir. Çerçeve atlama olasılığı p'nin değeri ne kadar küçükse, sıra çeşitliliği o kadar iyi olur. , Daha iyi performans. Yetersiz sinir ağı dizisi modelleme yeteneği sorunu için, LSTM'nin her çerçevesinin çıktısına bir ağırlık verilerek ve LSTM'nin bellek birimini yeniden yapılandırarak, zaman dikkatine ve bellek dikkatine dayalı LSTM modeli önerilmiştir. İki dikkat mekanizması birbirini tamamlar ve sesli sahne sınıflandırma görevlerinde daha iyi performans sağlar.

Yukarıda bahsedilen çeşitli stratejileri uçtan uca optimizasyondan sonra birleştirmek, işitsel sahne sınıflandırma görevlerinde önemli bir performans iyileştirmesi sağlayabilirken, hesaplama verimliliği yaklaşık iki büyüklük sırası kadar iyileştirilir.

Son olarak Profesör Wu şu sonuca vardı: Derin öğrenme, ses sinyali işleme için yeni bakış açıları ve işleme yöntemleri sağlar; geleneksel yöntemler yeniden değerlendirilebilir ve ortak optimizasyona dayalı olarak tasarlanabilir; derin sinir ağlarına dayalı ses dizisi modelleri, ses sinyallerinin özellikleri kullanılarak optimize edilebilir; Uçtan uca ses sinyali işleme, etki ve verimlilik açısından büyük bir potansiyele sahiptir.

Yorum bırak Arkadaş çevresi gönder
AI öğrenme ve geliştirmenin kuru mallarını paylaşalım
Tam platform yapay zeka dikey öz medya "temel okuma" yı takip etmeye hoş geldiniz
23 yaşında "Ebedi Sevgili Cariye" ile ünlendi. Bugün "satranç tahtası eteği" tanınamayacak kadar güzel olan siyah iplikle kaplı.
önceki
Wu Qian yüksek topuklu "komik bacaklarını" gösterdi, ancak kısa bir etekle spot ışığından yoksun bırakıldı: büyük cepleri şişmişti
Sonraki
Android Q uyumlu üreticilerin ilk partisinin listesi yayınlandı ve üç marka oldukça şaşırtıcı!
Dünya Şampiyonası: Higgins sık sık hata yapıyor ve çöküyor, Gilbert 10-6 önde gidiyor
Song Jia gevşek rüzgarlık kot pantolonlar şık ve yakışıklı, ancak omuzdaki çanta şikayet edilebilir: dipçik gibi
Tao Jianhua, Çin Bilimler Akademisi: Ses Teknolojisinin Mevcut Durumu ve Geleceği
Google, Pixel serisinin orta sınıf amiral gemisini piyasaya sürdü ve arkadaki tek kamera ikonik bir tasarım dili haline geldi!
İyi haberler! Zhao Jianbo Asya Şampiyonası'nın zirvesine tırmandı, Bai Yulu Asya şampiyonasını kazandı, Çinli oyuncular şampiyonluğu ve ikinciliği aldı
Wang Zixuan, uzun çizmeli pembe bir elbise giyen "ilk bacak" tır, bacakları bambu direkleri gibi düz
Core Sound Today | XR pil ömrü abartıldı mı? Apple, test yönteminin farklı olduğunu iddia ediyor
Dünya Şampiyonası yarı finalleri: Gilbert 147 kaybetti ve hala Higgins'i yönetiyor
Zhang Xueying'in gözden geçirilmemiş resmi gerçekten şişman, kotu kalın ve kısa ve "çiçek kolları" daha toprak gibi.
[İşaretler] Pengzhou Çin Açık 3.lükte başlıyor, Chaolumen beyaz güvercinleri 100'den fazla ustanın yan etkinliklerde yarışmasına öncülük ediyor
Jing Tian et örtmede gerçekten çok iyi.Beyaz gömlek etek taze ve yaşlanmayı azaltıyor.Siyah kuşakla hemen 10 kilo verdi
To Top