Google, TTS sistemi Tacotron 2'yi piyasaya sürdü, zaman ayarlı tekerlemeler yapıyor, etki WaveNet'ten daha iyi

Annie derleyin ve organize edin

Qubit Üretildi | Genel Hesap QbitAI

Bilgisayarın konuşmasına izin vermek sorun değil, ancak bilgisayarın 666 konuşmasına izin vermek kolay değil.

Bugün Google, konuşmayı doğrudan metinden sentezleyen bir sinir ağı yapısı olan yeni TTS (Metinden Konuşmaya, TTS) sistemi Tacotron 2'yi tanıttı. Tacotron 2, WaveNet ve Tacotron'un avantajlarını birleştirir ve herhangi bir gramer bilgisi olmadan metne karşılık gelen konuşmayı doğrudan çıkarabilir.

Aşağıdaki Tacotron 2 tarafından üretilen bir ses örneğidir. Etki gerçekten iyidir ve aynı zamanda geçmiş katılımcı formundaki "oku" kelimesinin telaffuz değişikliklerini de ayırt edebilir.

Qubit'ten Google Tacotron 2 örneği 00: 00: 00: 01 "Her şeyi okudu"

WaveNet ve Tacotron'un Ötesinde

Tacotron 2'nin temeli olarak, WaveNet ve Tacotron'un mimarileri nelerdir?

Geçen yıl Eylül ayında, Google DeepMind, orijinal dalga biçimlerini modellemek için sinir ağlarını kullanan bir teknolojiyi duyurdu ve ortaya çıkan ses efekti o zamanki TTS sisteminden daha iyi.

WaveNet, ses bölümlerini mekanik olarak basitçe birleştiren geleneksel TTS yöntemini atar ve tüm ses dalga biçimini sıfırdan oluşturur. Bununla birlikte, WaveNet'in dil özelliklerini mevcut TTS ön ucundan ayarlaması gerekir; bu, uçtan uca bir konuşma sentez sistemi değil, yalnızca ses kodlayıcı ve akustik modelin değiştirilmesine eşdeğerdir.

WaveNet mimarisi

Bu yılın Mart ayında, Google'dan Wang Yuxuan ve diğerleri yeni bir uçtan uca konuşma sentez sistemi Tacotron önerdiler. Alınan giriş karakterlerini karşılık gelen orijinal spektrograma çıkarabilir ve ardından konuşma oluşturmak için bunu Griffin-Lim yeniden yapılandırma algoritmasına sağlayabilir.

Tacotron model mimarisi

Tacotron 2

Tacotron 2 döngüsel sekans-sekans özellik tahmin ağından oluşur.Karakterler ilk olarak Mel ölçekli soyağacı diyagramına gömülür ve daha sonra değiştirilmiş WaveNet modeli bu spektrogramlardan zaman alanını sentezlemek için bir ses kodlayıcı olarak kullanılır. dalga formu.

Araştırmacılar, Jonathan Shen, Ruoming Pang ve Google'dan diğerleri ve Berkeley Kaliforniya Üniversitesi'nden Zongheng Yang tarafından ortaklaşa yayınlanan Mel Spektrogram Tahminlerinde WaveNet Koşullandırarak WaveNet ile Doğal TTS Sentezi adlı makalede, araştırmacılar Tacotron 2'nin çalışma ilkesini tanıttı.

TTS'yi diziden diziye bir modelle optimize ettiler ve harf dizisini kodlanmış sesin özellik dizisine eşlediler. Bu özellikler, her 12.5 milisaniyede bir hesaplanan, sadece kelimelerin telaffuzlarını değil, aynı zamanda ses, hız ve tonlama gibi dil nüanslarını da içeren 80 boyutlu bir spektrogramdır.

Ardından, araştırmacılar bu özellikleri 24kHz dalga formlarına dönüştürmek için WaveNet benzeri bir mimari kullandılar.

Tacotron 2'nin model mimarisi / Şeklin alt kısmı, bir dizi harfi bir spektrograma eşleyen bir dizi-sıra modelidir.

Değerlendirme sonuçları ve sınırlamalar

Son olarak, araştırmacılar 100 ses örneği çıkardı ve insan dinleyicilerden farklı TTS sistemleri tarafından üretilen dillerin doğallığını derecelendirmelerini istedi. Test sonuçları, Tacotron 2'nin ortalama görüş puanının yaklaşık 4,53 olduğunu gösteriyor ki bu, diğer modellerden önemli ölçüde daha iyi ve profesyonel kayıt personelinin kesinlik puanından sadece biraz daha düşük.

Farklı model test seslerinin ortalama görüş puanı (MOS)

Ses sonuçları görüntüleme sayfasında görebileceğiniz gibi, araştırmacılar Tacotron 2'nin sonuçlarının çok boyutlu bir değerlendirmesini yaptılar:

  • Özel isimler ve karmaşık kelimeler

  • Aynı kelimenin farklı zaman ve anlamlarda telaffuzundaki değişiklikler

  • Yazım hatalarının telaffuz üzerindeki etkisi

  • Noktalama işaretlerinin etkisi

  • Anahtar noktaların ve tonlamanın kontrolü

  • Tekerleme

Tacotron 2 tarafından üretilen örnekler kulağa hoş gelse de çözülmesi gereken bazı sorunlar var. Örneğin, sistem "edep" ve "merlot" gibi karmaşık kelimelerin telaffuzunda güçlük çeker ve rastgele garip sesler üretebilir.

Şu anda, Tacotron 2 gerçek zamanlı olarak ses üretemiyor ve üretilen seslere insan duyguları ekleyemiyor.

Google araştırmacıları blogun sonunda "Her sorun ilginç bir araştırma yönüdür." Dedi.

Ses örnekleri ve ilgili malzemeler

Yukarıdaki değerlendirme sonuçlarıyla ilgileniyorsanız, daha fazla bilgi için Google Github proje sayfasına gidebilirsiniz:

https://google.github.io/tacotron/publications/tacotron2/

Kağıt adresi:

https://arxiv.org/abs/1712.05884

Google Blog Tanıtımı:

https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Stillik: Oyunun başında, dezavantajlı bir şekilde, Wang Zhenghao'ya Karşı Paulinho'nun güç farkı çok büyük.
önceki
"Double Eleven" Changan CS35PLUS, Guiyang'da piyasaya sürüldü
Sonraki
En az ciddi oyuncu! LOL'de QQ Speed oynamak çok gösterişli, Feng Nan'dan daha mutlu!
Avrupa Altın Ayakkabı'yı iki kez kazandı! İkinci kademe Avrupa liginde oynayan dehşet verici bir forvet
Cui Kangxi eski bir dünya olmaya değer! Baskıyı azaltmak için bir öğrenci olarak Qin Sheng'i desteklemek için bir kelime, futbol oynamak bir oyun değildir
İman denen bir tür aşk, Sway adında özel bir tren ve Evergrande'ye güvenmek denen bir tür küme düşme var.
Oyun dünyasından 7 klasik alıntı! DNF oyuncuları "XX diliyorum", LOL oyuncuları "bu dalgayı kaybetmesin"
Eski İngiliz taç oyuncularının yıllık maaşı Tevez'den daha az, hala Shenhua oynuyor
Hamm'ın narsist saç modeli? Carrasco kükrüyor! Li Jianbin ve Zhu Ting daha yakışıklı, Dakui Erkui fıstık
Yeni nesil Fox, "kralın en güçlü dönüşü", Changan Ford'un Zijin Hanedanlığı'na dönmesine izin verecek.
Google, net ve güzel resimler seçmenize yardımcı olmak için derin CNN modeli NIMA'yı önerir
Sadece yaratıcı değil, aynı zamanda en dikkat çekici 6 yabancı bağımsız oyun! Resim, 3A şaheserini yakalar
Fellaini'nin milli takımdan çekilmesi bir taşla iki kuş vuruyor! Luneng afişi kadın hayranlar diler, Jianye: Korkusuz ileride
Ekim satış raporu, Geely neden Çinli markaların yükseliş trendinde C konumunda duruyor?
To Top