Ekstrem Meta-algoritma Uzmanı: Konuşma Oluşturmada Tipik Derin Öğrenmenin Uygulaması | Akademik Paylaşım Oturumunun Özeti

Leifeng.comun yapay zeka teknolojisi inceleme notu: Derin öğrenme, 2006'da ortaya çıktıktan sonra, son yıllarda hem akademi hem de endüstride üstel bir büyüme eğilimi göstererek hızlı bir gelişme kaydetti; bu teknolojinin sürekli olgunluğuyla derin öğrenme Akıllı ses alanı liderliği ele geçirdi ve bir dizi başarılı uygulama elde etti.

Bu paylaşım oturumunda Leifeng.com, Çin Bilimler Akademisi Otomasyon Enstitüsü'nden Dr. Liu Bin'i davet etti. Çin Bilimler Akademisi Otomasyon Enstitüsü'nden Ph.D., Xtreme'in kıdemli akıllı konuşma algoritması uzmanı ve Çin Bilimler Akademisi-Xtreme Akıllı Etkileşim Ortak Laboratuvarı'nın çekirdek teknisyeni.En üst düzey uluslararası konferanslarda birçok makale yayınladı ve ses ve ses alanında çok sayıda patent aldı. Kapsamlı mühendislik deneyimine sahiptir. Dr. Liu Bin, konuşma sentezi ve konuşma geliştirme ile ilgili iki tipik soruna odaklanarak son yıllarda konuşma oluşturmada yeni derin öğrenme yöntemlerini sizinle paylaşacak.

Leifeng.com AI Technology Review bu konuşmanın özetini aşağıdaki gibi özetliyor. Daha fazlasını öğrenmek isteyen okuyucular, makalenin sonundaki videoyu izleyebilir ve ayrıca Dr. Liu Bin'in rehberliğine göre anlayışlarını artırmak için ilgili materyalleri bulabilirler.

Liu Bin: Herkese merhaba. Derin öğrenme, son yıllarda çok sıcak bir şekilde gelişti ve akademi ve endüstride birçok başarıya ve uygulamaya sahip. Derin öğrenme, konuşma alanında konuşma sentezi, konuşma geliştirme, konuşma dönüştürme, konuşma bant genişliği genişletme vb. Gibi birçok sorunu da çözmüştür. Bugün konuşma sentezi ve konuşma güçlendirme yöntemlerine odaklanacağım.

Konuşma sentezi

Konuşma sentezinin görev amacı, metin girişinden akustik özelliklere dönüştürmektir. Konuşma oluşturmadan önce, metnin analiz edilmesi ve ön işlemden geçirilmesi gerekir.Düzenlenme sayılar ve özel semboller içindir, fonetik kelime dönüşümü polifonik karakterler içindir ve prozodi işleme, oluşturulan konuşmayı inceltme ve ritmik hale getirir ve ardından arka uç oluşturma gerçekleştirilir. Yaygın olarak kullanılan akustik işleme yöntemleri, istatistiksel parametre modelleme ve ses kodlayıcı yöntemlerini içerir.

Bu, Gizli Markov Çerçevesine (HMM) dayalı geleneksel bir istatistiksel parametre konuşma sentez sistemidir.Metin parametreleri ile ses parametreleri arasındaki eşleştirme ilişkisi eğitim süreci sırasında kurulur. Ses kalitesinin bozulmasına yol açacak üç bağlantı vardır: karar ağacı kümeleme, ses kodlayıcı yeniden üreten konuşma ve dinamik parametre oluşturma algoritması. Bu üç soruna yanıt olarak, bazı insanlar geliştirmek için derin öğrenme yöntemlerini kullanmayı önerdiler.

Derin öğrenme yönteminde, metin özellikleri ile akustik özellikler arasındaki ilişkiyi kurmak için karar ağaçları yerine sinir ağlarının kullanılması, modelin doğruluğunu artırmaktadır. Spesifik model yapısı için, LSTM, DBN'den daha güçlü bir dizi öğrenme yeteneğine sahiptir, bu nedenle LSTM'yi kullanırken, genellikle parametre oluşturma algoritmasını atlayabilir, konuşma parametrelerini doğrudan tahmin edebilir ve ardından konuşma oluşturmak için bunu ses kodlayıcıya gönderebilirsiniz. Derin sinir ağlarının güçlü doğrusal olmayan modelleme yetenekleri, konuşma sentez sistemlerinin performansını da bir dereceye kadar artırabilir.

Endüstride son bir veya iki yılda WavNet tabanlı konuşma sentezi gibi bazı yeni konuşma sentezi yöntemleri olmuştur. Bu, konuşma problemlerini zaman alanı perspektifinden ele almanın bir yoludur (ses dalgalarının farklı zamanlarda örnekleme değerinin boyutu) Sorunun kendisi çok zordur; geleneksel yöntemlerin tümü frekans alanından (farklı zamanlarda ses dalgalarının frekansı) nın-nin. Google tarafından önerilen WavNet, metin parametreleri ve ses dalgası örnekleme değerleri arasında doğrudan uygun bir ilişki kurabilir. Temel sorunu, bir seferde yalnızca tek bir örnekleme noktasının değerini verebilmesidir, bu da yavaş hesaplama hızı ve düşük üretim verimliliği ile sonuçlanır.

Baidu ayrıca DeepVoice'a dayalı, birden çok modülü uygulamak için derin sinir ağlarını kullanan ve ardından WavNet'e benzer modüllerle sesler üreten bir ses oluşturma sistemi önerdi. Hesaplama hızı WavNet'inkinden yaklaşık 400 kat daha hızlıdır. Daha sonra Baidu, birden çok konuşmacı konuşma sentezini destekleyebilen DeepVoice2'yi daha da genişletti ve her kişi en az yarım saatlik verilerle ideal sonuçlar elde edebilir.

Tacotron, Google tarafından başlatılan nispeten yeni bir konuşma sentez sistemidir. Bir kodlayıcı-kod çözücü ağ yapısının kullanılmasıyla karakterizedir. Avantajı, giriş ve çıkış dizilerinin uzunluğunun aynı olması gerekmemesidir; ve bir dikkat mekanizmasının tanıtımı gelişebilir verim. Yapı ayrıca bir son işlem ağı içerir. Ağın çıktısı, bir faz yeniden yapılandırma algoritması kullanılarak konuşmaya dönüştürülebilen bir spektrogramdır. Bu yöntemde, ses kodlayıcı modülü atlanır, bu da ses kalitesini artırabilir.

Şu anda, konuşma sentezinde hala bazı çözülmemiş sorunlar vardır: Birincisi, çoğu yöntem hala tek bir konuşmacıya yöneliktir. Birden çok konuşmacı ve birden çok dil için konuşma sentezinin etkisi hala ideal değildir. Transfer öğrenmesiyle ilgili yöntemler, bu tür sorunların çözümüne katkıda bulunabilir. İkincisi, mevcut konuşma sistemi tarafından üretilen sesin ifade gücü hala yetersizdir, özellikle konuşma dili sentezlendiğinde, etki azalacaktır.

Konuşma geliştirme

Konuşma geliştirme, konuşma tanıma ve ses izi tanıma gibi algoritmalarda önemli bir ön uç işleme modülüdür. Artıları ve eksileri, sonraki tanıma yöntemlerinin sağlamlığını bir dereceye kadar etkiler. Mikrofon sayısına göre, konuşma geliştirme, tek kanallı konuşma geliştirme ve çok kanallı konuşma geliştirme olarak ikiye ayrılabilir. Çok kanallı konuşma geliştirme, sesin uzamsal bilgisini daha etkin bir şekilde kullanabilir, hedef yöndeki ses bilgisini geliştirebilir ve hedef yöndeki parazit kaynaklarını bastırabilir.Bu tür bir yöntem bugün ayrıntılı olarak tanıtılmayacaktır.İlgileniyorsanız, lütfen mikrofon dizisi teknolojisinin ilgili materyallerine bakın.

Şekil, gerçek koşullar altında aynı anda var olabilen ve konuşmayı güçlendirmeye büyük güçlük getiren dört ana girişim kaynağını göstermektedir. Aşağıda, tek kanallı bir ses ortamında bazı ses geliştirme yöntemleri tanıtılmaktadır.

Tek kanallı konuşma geliştirme yöntemleri temel olarak üç kategoriye ayrılır. Derin öğrenmeye dayalı konuşma geliştirme yöntemi aşağıda ayrıntılı olarak tanıtılacaktır. Bu aynı zamanda derin öğrenmenin güçlü doğrusal olmayan modelleme yeteneklerinin kullanılmasıdır.Avantajları uyumlu bir ortamda açıktır ve sabit olmayan gürültü ile uğraşırken belirli avantajları vardır.

Bu, derin bir sinir ağı aracılığıyla spektral parametreleri doğrudan tahmin etmenin bir yöntemidir.Girişi, gürültülü konuşmanın genlik spektrumuyla ilgili özellikleridir ve çıktı, temiz konuşmanın genlik spektrumuyla ilgili özellikleridir ve ardından ikisi arasındaki haritalama ilişkisi kurulur. Ağ yapısı DNN, LSTM veya hatta CNN olabilir. Bu tür bir yöntem, bağlamsal bilgileri daha etkili bir şekilde yakalayabilir, bu nedenle sabit olmayan gürültüyle uğraşırken belirli avantajları vardır.

Koruma değerini tahmin etmek için derin sinir ağları da kullanılabilir. Bu tür bir yöntemde, modelin girdisi işitsel etki alanıyla ilişkilendirilebilir ve çıktı, bir ikili maske değeri veya bir kayan nokta maskesi değeri olabilir. Bu tür bir yöntem, sesi işitsel algının özelliklerine göre farklı alt bantlara böler ve karakteristik parametreleri çıkarır. Asıl işlevi, zaman-frekans birimindeki içeriğin konuşma mı yoksa gürültü mü olduğuna karar vermek ve ardından yargı sonucuna göre zaman-frekans birimindeki enerjiyi saklamak veya sıfırlamaktır. Bu tür yöntemin avantajı, biçimlendirmedeki enerjinin iyi korunabilirken, bitişik formantlar ve çukurlar arasındaki sesin daha fazla bozulacağı, ancak insanlar bu bilgiye duyarlı olmadıkları için hala nispeten yüksek olmasıdır. Anlaşılabilirlik.

Önceki yöntemler esas olarak sesin genlik spektrumuna odaklandı ve faz spektrumundaki bilgileri kullanmadı. Karmaşık sinir ağındaki karmaşık spektrum, hem genlik spektrumunu hem de faz spektrumunu kullanan bir yöntemdir.

Üretken karşı ağ GAN'larını kullanan konuşma geliştirme yöntemleri de vardır. GAN'lar son iki yıldır sıcak bir paradigma olmuştur.Şu anda ses alanında çok fazla uygulama yok, ancak bu yıl bazı insanlar onları ses geliştirmede kullanmayı önerdi. Bu makaledeki yöntemde, RNN yapı ağındaki özyinelemeli işlem artık gerekli değildir ve orijinal ses doğrudan işlenebilir.Bu, manuel özellik çıkarımı olmaksızın uçtan uca bir yöntemdir ve orijinal veriler hakkında hiçbir açık varsayım yoktur. Jeneratör yapısı CNN kullanır ve model parametrelerinin sayısını azaltabilen ve eğitim süresini kısaltabilen tamamen bağlı bir katman yoktur; orijinal konuşma sinyalini doğrudan işlemenin uçtan uca yöntemi, ses özelliklerinin dönüştürülmesi ve çıkarılması gibi karmaşık süreçleri de önler. Ayırıcı, jeneratörü güncelleme için hala rehberlik etme rolünü oynar.

Esasen çevresel gürültü bastırmayı amaçlayan az önce bahsedilen yöntemlere ek olarak, PIT yöntemi iki veya daha fazla hoparlör karıştırıldığında ayırma sorununu çözebilir. Derin kümelemeye dayalı bir ayırma yöntemi de vardır. Ancak gerçek bir ortamda kullanılabilmesi için gürültü giderme ve yankılama gibi konuların da dikkate alınması gerekir ve ayırma sorunu hala çok zordur.

Konuşma iyileştirme alanında çözülmesi gereken sorun, gürültüyü ortadan kaldırırken anlaşılabilirliği ve işitme duyusunu nasıl etkili bir şekilde iyileştireceği (konuşmanın kendisinin özelliklerini ortadan kaldırmaktan kaçınmak için) ve sonraki konuşma tanıma ve ses izi tanıma yöntemleri olarak konuşma geliştirme yöntemlerinin nasıl kullanılacağıdır. Sistemin ön işleme modülünün önce ve sonra düzgün bir şekilde bağlanması ve tüm sistemin sağlamlığını artırmak için ayrı olarak tasarlanmaması gerekir.

Son olarak, gelecekteki gelişme olasılığı için, konuşma oluşturma alanındaki birçok sorunun farklı modelleme yöntemlerine sahip olmasına rağmen, birbirlerinden öğrenmeye değer ve karşılıklı gelişimi teşvik edebilecek birçok bölüm de vardır. Derin öğrenme sıcak bir yöntem olsa da, derin öğrenmenin tüm sorunları çözmesini bekleyemeyiz. Dahası, önce işlenecek nesnenin fiziksel anlamını derinlemesine anlamalıyız ve bu temelde daha iyi bir problem çözme etkisi elde etmek için uygun bir model bulabilir ve modeli optimize edebiliriz.

Video oynatma

Bu sefer paylaşılan video tekrar oynatma buraya tıklanabilir.

Leifeng.com'da ayrıca birçok CV ve NLP paylaşım etkinliği var, bizi takip etmeye devam etmenizi bekliyoruz!

Gree Group, Gree Electric Appliances hisselerinin% 15'ini devretmeyi planlıyor, sahibi hala açıklanacak
önceki
Çevrimiçi üyelik hizmeti ayrıntılarını değiştirin: Aboneler FC / NES denetleyicilerini kullanabilir
Sonraki
15 ° C! Ateşin içindeler, ama "Buz Adam" olarak donmuşlar ...
200.000 yuan'dan fazla fiyata sahip lüks bir SUV nasıl seçilir?
Jingmen şimşek gök gürültüsü ve dolu! Arabaların hepsi çukurdan parçalandı
"24 Saat: Sonunda Yeniden Doğuş" ülke çapında gösterildi ve ağızdan ağza yayılan aksiyon filminin yeni bir biçimini açıyor
Bu birkaç ortak girişim küçük SUV, yeni evliler için araba satın almak için ilk tercih mi?
Nanjing Fırtına birden fazla uçuşu iptal etti, bir uçuşa yıldırım düştü
[AET orijinal] Bir Bosch sensörüyle gelin ve akıllı hayata başlayın
Intelin e-spor için asıl amacı: sadece oyunculara daha yakın olmak için aralıksız çabalar
"Sen No Kiseki 4" DLC dekorasyon ekran görüntüleri çok "deli"
Diğerleri kayıyor ve ben okuyorum! Wu Enda'nın kitabı, deeplearning.ai'ye adım atmanız için zorunlu bir derstir.
Huben T310: DynamIQ mimarisine dayalı dünyanın ilk 4 çekirdekli LTE çip platformu
Akıllı kapı kilitleri neden sıradan kilitlerden daha pahalıdır? Kullanımı gerçekten çok kolay mı?
To Top