g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Google, TTS sistemi Tacotron 2'yi piyasaya sürdü, zaman ayarlı tekerlemeler yapıyor, etki WaveNet'ten daha iyi

Annie derleyin ve organize edin

Qubit Üretildi | Genel Hesap QbitAI

Bilgisayarın konuşmasına izin vermek sorun değil, ancak bilgisayarın 666 konuşmasına izin vermek kolay değil.

Bugün Google, konuşmayı doğrudan metinden sentezleyen bir sinir ağı yapısı olan yeni TTS (Metinden Konuşmaya, TTS) sistemi Tacotron 2'yi tanıttı. Tacotron 2, WaveNet ve Tacotron'un avantajlarını birleştirir ve herhangi bir gramer bilgisi olmadan metne karşılık gelen konuşmayı doğrudan çıkarabilir.

Aşağıdaki Tacotron 2 tarafından üretilen bir ses örneğidir. Etki gerçekten iyidir ve aynı zamanda geçmiş katılımcı formundaki "oku" kelimesinin telaffuz değişikliklerini de ayırt edebilir.

Qubit'ten Google Tacotron 2 örneği 00: 00: 00: 01 "Her şeyi okudu"

WaveNet ve Tacotron'un Ötesinde

Tacotron 2'nin temeli olarak, WaveNet ve Tacotron'un mimarileri nelerdir?

Geçen yıl Eylül ayında, Google DeepMind, orijinal dalga biçimlerini modellemek için sinir ağlarını kullanan bir teknolojiyi duyurdu ve ortaya çıkan ses efekti o zamanki TTS sisteminden daha iyi.

WaveNet, ses bölümlerini mekanik olarak basitçe birleştiren geleneksel TTS yöntemini atar ve tüm ses dalga biçimini sıfırdan oluşturur. Bununla birlikte, WaveNet'in dil özelliklerini mevcut TTS ön ucundan ayarlaması gerekir; bu, uçtan uca bir konuşma sentez sistemi değil, yalnızca ses kodlayıcı ve akustik modelin değiştirilmesine eşdeğerdir.

WaveNet mimarisi

Bu yılın Mart ayında, Google'dan Wang Yuxuan ve diğerleri yeni bir uçtan uca konuşma sentez sistemi Tacotron önerdiler. Alınan giriş karakterlerini karşılık gelen orijinal spektrograma çıkarabilir ve ardından konuşma oluşturmak için bunu Griffin-Lim yeniden yapılandırma algoritmasına sağlayabilir.

Tacotron model mimarisi

Tacotron 2

Tacotron 2 döngüsel sekans-sekans özellik tahmin ağından oluşur.Karakterler ilk olarak Mel ölçekli soyağacı diyagramına gömülür ve daha sonra değiştirilmiş WaveNet modeli bu spektrogramlardan zaman alanını sentezlemek için bir ses kodlayıcı olarak kullanılır. dalga formu.

Araştırmacılar, Jonathan Shen, Ruoming Pang ve Google'dan diğerleri ve Berkeley Kaliforniya Üniversitesi'nden Zongheng Yang tarafından ortaklaşa yayınlanan Mel Spektrogram Tahminlerinde WaveNet Koşullandırarak WaveNet ile Doğal TTS Sentezi adlı makalede, araştırmacılar Tacotron 2'nin çalışma ilkesini tanıttı.

TTS'yi diziden diziye bir modelle optimize ettiler ve harf dizisini kodlanmış sesin özellik dizisine eşlediler. Bu özellikler, her 12.5 milisaniyede bir hesaplanan, sadece kelimelerin telaffuzlarını değil, aynı zamanda ses, hız ve tonlama gibi dil nüanslarını da içeren 80 boyutlu bir spektrogramdır.

Ardından, araştırmacılar bu özellikleri 24kHz dalga formlarına dönüştürmek için WaveNet benzeri bir mimari kullandılar.

Tacotron 2'nin model mimarisi / Şeklin alt kısmı, bir dizi harfi bir spektrograma eşleyen bir dizi-sıra modelidir.

Değerlendirme sonuçları ve sınırlamalar

Son olarak, araştırmacılar 100 ses örneği çıkardı ve insan dinleyicilerden farklı TTS sistemleri tarafından üretilen dillerin doğallığını derecelendirmelerini istedi. Test sonuçları, Tacotron 2'nin ortalama görüş puanının yaklaşık 4,53 olduğunu gösteriyor ki bu, diğer modellerden önemli ölçüde daha iyi ve profesyonel kayıt personelinin kesinlik puanından sadece biraz daha düşük.

Farklı model test seslerinin ortalama görüş puanı (MOS)

Ses sonuçları görüntüleme sayfasında görebileceğiniz gibi, araştırmacılar Tacotron 2'nin sonuçlarının çok boyutlu bir değerlendirmesini yaptılar:

Özel isimler ve karmaşık kelimeler
Aynı kelimenin farklı zaman ve anlamlarda telaffuzundaki değişiklikler
Yazım hatalarının telaffuz üzerindeki etkisi
Noktalama işaretlerinin etkisi
Anahtar noktaların ve tonlamanın kontrolü
Tekerleme

Tacotron 2 tarafından üretilen örnekler kulağa hoş gelse de çözülmesi gereken bazı sorunlar var. Örneğin, sistem "edep" ve "merlot" gibi karmaşık kelimelerin telaffuzunda güçlük çeker ve rastgele garip sesler üretebilir.

Şu anda, Tacotron 2 gerçek zamanlı olarak ses üretemiyor ve üretilen seslere insan duyguları ekleyemiyor.

Google araştırmacıları blogun sonunda "Her sorun ilginç bir araştırma yönüdür." Dedi.

Ses örnekleri ve ilgili malzemeler

Yukarıdaki değerlendirme sonuçlarıyla ilgileniyorsanız, daha fazla bilgi için Google Github proje sayfasına gidebilirsiniz:

https://google.github.io/tacotron/publications/tacotron2/

Kağıt adresi:

https://arxiv.org/abs/1712.05884

Google Blog Tanıtımı:

https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Stillik: Oyunun başında, dezavantajlı bir şekilde, Wang Zhenghao'ya Karşı Paulinho'nun güç farkı çok büyük.

"Double Eleven" Changan CS35PLUS, Guiyang'da piyasaya sürüldü