Hız 17,5 kat arttı! Baidu, tamamen paralel bir TTS sistemi olan yeni bir konuşma sentezi modeli öneriyor

Bronz ruh, içbükey tapınaktan gelir

Qubit Üretildi | Genel Hesap QbitAI

Metin okuma (TTS) alanında yeni ilerleme kaydedilmiştir.

Bu sefer Baidu, otoregresif olmayan bir sekans-sekans modeli olan ParaNet'i önerdi ve metni spektrogramlara dönüştürmek için tamamen paralel bir nöral TTS sistemini tanıttı.

Baidu tarafından önerilen gerçek zamanlı bir konuşma sentez sistemi olan Deep Voice 3 ile karşılaştırıldığında ParaNet, aynı doğruluğu sağlarken hızı 17,5 katına çıkarabilir.

Bu nasıl yapılır?

Otoregresif özellikler

Konuşma sentezi olarak da bilinen metin okuma (TTS), insan-bilgisayar etkileşiminde, sanal asistanlarda ve içerik oluşturmada yaygın olarak kullanılmaktadır.

Geleneksel TTS sistemi, bu özelliğe girdi veya ön eğitim olarak güvenerek çok seviyeli el mühendisliğine dayanmaktadır.

Bu yöntemde, otoregresif derin sinir ağı modeli, yüksek sadakatli ses sentezi, daha basit sekans-sekans (seq2seq) boru hattı dahil olmak üzere daha gelişmiş araştırmalar yapmıştır.

Bunların arasında en popüler sinir TTS boru hattı genellikle iki bölümden oluşur:

Biri, metinden Mel spektrumunu oluşturan otoregresif seq2seq modelidir;

İkincisi, Mel spektrumundan orijinal dalga formunu oluşturabilen otoregresif nöral ses kodlayıcıdır (WaveNet gibi).

Bu tür bir ardışık düzen, profesyonel bilginin derinliği için daha az gereksinim içerir ve yalnızca eğitim verileri için eşleştirilmiş ses ve puanlara ihtiyaç duyar.

Bununla birlikte, bu modelin otoregresif doğası da sentez hızını yavaşlatır, çünkü bunlar sürekli olarak dalga formu örnekleri veya yüksek zaman çözünürlüğü ile akustik özellikleri çalıştırırlar.

Bu soruna yanıt olarak, birçok çalışma onu iyileştiriyor. Örneğin, Google'ın paralel WaveNet (paralel WaveNet) ve Baidu ClariNet paralel dalga formu sentez yöntemleri önermişler, ancak ses çerçeve seviyesi oluşturmak için hala otoregresif veya yinelemeli bileşenlere güveniyorlar özelliği.

Diğer bir deyişle, önceki tüm araştırmalar, paralel araştırma için optimize edilmiş modern donanım üzerinde kapsamlı hızda iyileştirme için çok yer var.

Parallel Neural Text-to-Speech adlı makalede, Baidu Araştırma Enstitüsü'nden araştırmacılar tarafından önerilen otoregresif olmayan metin grafik modeli ParaNet, hız sorununu çözmek için tamamen paralel bir nöral TTS sistemi sunuyor.

Yukarıdaki resimde, resim a otoregresif seq2seq modelidir, noktalı çizgi çıkarım sırasında otoregresif kod çözmenin Mel spektrogramını temsil eder ve resim b, önceden eğitilmiş otoregresif modelden dikkati çeken otoregresif olmayan ParaNet modelidir. .

ParaNet, dikkat mimarisine dayalı ilk otoregresif olmayan TTS modelidir.Bu, metni mel spektrograma dönüştürebilen tamamen evrişimli bir yapıdır.

ParaNet'in mimarisi aşağıdaki şekilde gösterilmektedir:

Kodlayıcının metin temsili olarak (anahtar, değer) sağladığı görülebilir. Kod çözücüdeki ilk dikkat bloğu konum kodunu bir sorgu talimatı olarak elde eder, ardından nedensel olmayan bir evrişim bloğu ve dikkat bloğu gelir.

Ek olarak, araştırmacılar ters otoregresif akış (ters otoregresif akış, IAF Paralel nöral ses kodlayıcı olarak. Tek bir ileri geri bildirim yoluyla metinden konuşmayı sentezleyebilir.

Araştırmacılar ParaNet'in konuşma sentez etkisini değerlendirmek için farklı yöntemler kullandılar.

Sonuçlar ParaNet'in konuşma sentez hızının Baidu'nun önceki Deep Voice 3 mimarisinden 17,5 kat daha hızlı olduğunu ve 50 çalıştırma ortalama çıkarım gecikmesini 1,418 saniyeden 0,081 saniyeye düşürdüğünü gösteriyor.

Dahası, iki yöntem temelde sentezlenmiş konuşmanın kalitesi açısından aynıdır.

Ayrıca araştırmacılar, 100 cümlelik test setinde test metninden spektral modele dikkat hatasını verirken, dikkat maskeli otoregresif olmayan ParaNet'in de sentez sürecinde en küçük hataya sahip olduğunu bulmuşlardır.

Çin takımı

Bu makale Baidu Araştırma Enstitüsü'nden geliyor ve ilgili dört ortak yazarın hepsi Çinli.

Yazarlardan biri Kainan Peng Linkedin bilgilerine göre, 2015 yılında Beijing Institute of Technology'den mezun olduktan sonra Kainan, elektrik ve bilgisayar mühendisliği alanında yüksek lisans yapmak için CMU'ya gitti.

Kainan, 2017 yılında Baidu'ya katıldı ve Deep Voice of NIPS spotlight 20172, Deep Voice of ICLR20183, Voice Cloning of NIPS spotlight 2018 makalesi ve ICLR 2019 tarafından alınan ClariNet araştırması dahil olmak üzere birçok önemli konferans makalesinin araştırmasına katıldı.

Başka bir yazar Wei Ping Baidu Silikon Vadisi Araştırma Enstitüsü'nde kıdemli araştırmacıdır. Wei Ping'in özgeçmişi, Harbin Teknoloji Enstitüsü'nden bilgisayar bilimi lisans derecesi, Tsinghua Üniversitesi'nden yüksek lisans derecesi ve Kaliforniya Üniversitesi'nden bir doktora derecesi ile parlıyor. Wei Ping mezun olduktan sonra Microsoft ve California Üniversitesi'nde çalıştı.

Baidu'ya katıldıktan bir yıldan kısa bir süre sonra Wei Ping, Baidu'nun WaveNet tabanlı paralel ses dalga biçimi oluşturma modeli ClariNet'e liderlik etti.

Ayrıca Baidu Research Zhao Şarkı ile Kexin Zhao Bu araştırmaya da katıldı.

Portal

Kağıt adresi:

https://128.84.21.199/abs/1905.08459

Proje ana sayfası:

https://parallel-neural-tts-demo.github.io/

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzündeki "işe alma" kelimesini yanıtlayın.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri izleme

Gu Jian Qi Tan Online: Yeni oyun burada, ama geri dönmek istersem ne yapmalıyım? Uzun zaman önce çıkmalıydı
önceki
Xiaokai çok kararlı, bir hafta boyunca bütün gece ayakta kalıyor, ancak kimsenin beni dik bir şekilde vuramamasıyla alay etti!
Sonraki
Microsoft ve Google, kuantum programlama kurslarını başlatmak için işbirliği yapıyor: şimdi sınırlı bir süre için ücretsiz, ayrıca Python'u da destekliyor
Wang Junkai süper favori bir hayran ve Çocuklar Günü ayrıca hayranlar için büyük bir hediye hazırlıyor!
Guo Weiwei'nin 1 Nisan şakası gerçek oldu mu? Jianwang 3 mobil oyununa ek olarak, gizemli katiller bile var
Xiaobei ile Qianxi arasında büyük bir tezat var ve kızların giydiği kıyafetler bile şikayet ediliyor!
2019'un en az satın almaya değer şaheseri olan Nioh 2'yi beklemeyin! Devam filmi sıkıştırmama izin vermek mi?
Qian Xi bir oyuncu tarafından reddedildi, Qian Xi özür dileyen oyuncuya çok cömert davrandı?
Wang Junkai makyaj yapmayı reddediyor mu? Gerçek karakter özel olarak ortaya çıktı!
Pcl Ligi: Wei Shen rekoru kırdı ama yine de kaybetti! Teknoloji ne kadar güçlü olursa olsun, çemberin babasını yenemez!
Wang Yuan'ın "Haha Çiftçisi" bitti. Taraftarlar bu iki nedenden dolayı çok mutlular mı?
Warcraft'ın ilerlemesi neden "W" oldu? Aslında Çinliler tarafından geleceği tahmin edebileceğini iddia ederek icat edildi!
TFBOYS ile benim çocukken arasındaki zıtlık çok büyük, mükemmel insanlar, tüm yol kuzeye!
Bu "Peace Elite" güncellemesi dalgası o kadar güçlü ki uluslararası oyuncular geri çekilemez
To Top