Google'ın yeni nesil WaveNet'i: Derin öğrenme nasıl konuşma üretir? | 2 dakikalık kağıt

İşte Lei Feng'in altyazı grubu tarafından derlenen İki dakikalık kağıt sütun Her hafta, en yeni teknolojileri okumak ve AI alanındaki en son araştırma sonuçlarını öğrenmek için parçalı zaman harcayacağız.

Orijinal başlığı MEL SPECTROGRAM TAHMİNLERİ ÜZERİNDE DALGANETİ KOŞULLANARAK DOĞAL TTS SENTEZİ | Two Minute Papers

Çeviri | Düzenleyen Zhang Fengkai | Fan Jiang Lin Youtian

Önceki 2 dakikalık kağıt sütununda Google'ın WaveNet'inden (öğrenmeye dayalı bir metin okuma motoru) bahsettik, yani eğitimli modele bazı okuma materyalleri verdiğimiz sürece motor elinden gelenin en iyisini yapacaktır. Daha gerçekçi bir ses oluşturabilir. Bu videoda, sentezlenmiş konuşmayı mükemmel hale getirmek için orijinal bazda geliştirilmiş yeni bir ürün tanıtacağız.

Resim kaynağı: WaveNet: Ham Ses için Üretken Bir Model

Bu videoyu tıkladıktan sonra, sentezlenmiş konuşmanın ritim, vurgu ve tonlamada çok iyi olduğunu ve doğru ile yanlışı ayırt etmenin zor olduğunu duyacaksınız. İlgili ses bilgileri şurada bulunabilir: https://google.github.io/tacotron/publications/tacotron2/index.html

Orijinal Google WaveNet makalesinde, konuşma sentezi problemini çözmek için, genişletilmiş evrişim yarattık.Bu ağ yapısı, giriş verilerini atlayarak bize daha iyi bir global görünüm sağlıyor. Bu biraz, gözlerimizin alıcı alanını artırmak gibi, fotoğraftaki ağaçların dar perspektifi yerine tüm manzarayı algılamamıza izin veriyor.

Yeni çerçeve, WaveNet'in girdisi olarak Mel ses spektrumunu kullanır.Bu ses spektrumu, insan algısına dayalı bir ara ortamdır.Sadece farklı kelimelerin nasıl telaffuz edildiğini değil, aynı zamanda beklenen ses seviyesini ve tonlamayı da kaydeder.

Yeni model, konuşma verisi üzerine yaklaşık 24 saat eğitim aldı.Elbette, model ancak belirli bir test derecesinden sonra uygun hale geldi.

Test yöntemimiz, önceki algoritmanın ortalama görüş puanını kaydetmektir (ses örneği ile gerçek insan sesi arasındaki puanı tanımlamak için kullanılır). Yeni algoritmamız büyük bir başarıydı ve daha sonra kullanıcı araştırması yoluyla, kullanıcıların duydukları sesin sentezlenmiş mi yoksa gerçek mi olduğunu tahmin etmek için kör testler yapmalarına izin verildi.

İnanılmaz çünkü test sonuçlarının çoğu insanlar doğru olup olmadıklarını bilemezler.

Lütfen bu dalga formlarını oluşturmanın gerçek zamanlı olmadığını ve uzun zaman alacağını unutmayın. Daha iyi verimlilik elde etmek için DeepMind bilim adamları, WaveNe'nin dalga formu oluşturma hızını binlerce kez artıran sansasyonel bir makale yazdı. Elbette, yeni icatlar da yeni zorluklar getirecektir - bu, kayıtların tahrif edilmesini kolaylaştırabilir ve kayda dijital imza eklemek gibi yeni bir doğrulama yöntemi bulmazsak, kayıtlar fiziksel kanıt olarak zayıflatılır. .

Makalenin orijinal adresi https://arxiv.org/pdf/1712.05884.pdf

Daha fazla makale için Leifeng.com'u takip edin, Leiphonefansub WeChat hesabını (leiphonefansub) arkadaş olarak ekleyin

AI Gönüllüsü Olmak İçin "Katılmak istiyorum" dedi

Lei Feng Ağı Lei Feng Ağı

Xu Zhiyuan ve Li Dan: Ortadan kaybolan gençler
önceki
"Venom" SDCC çizgi roman gösterisinde görünmek üzere, Teacher Tang bağlandıktan sonra ne olacak?
Sonraki
Bilim kurgu araba öğelerinin hepsi burada ve "Yıldız Projesi" pek çok siyah teknoloji getiriyor
Tiger'ın ilk sezonu ve sineğin rekoru kıran Köylülerin Tazminatı Başkanı "Sadece 2500 Yuan Alır" Demir Sertifikası altında maruz kaldı
Meitu Dönüşüm Festivali Büyük Açılış Wu Xinhong: Birlikte rüya görmenin eğlencesini yaşayın
İnternet kurbağası
Doğal dil işlemede sorunların% 90'ı nasıl çözülür?
"Ben bir ilaç tanrısı değilim" gişesi 2,5 milyarı aştı ve grup oyunculuğunun öne çıkan olaylarını gözler önüne seriyor
Araba tasarımı sadece çizgilerden ibaret değil, dedi Zotye: daha fazla "Çin unsurları"
Birisi "Resident Evil 2 Remake" i sabit bir perspektife döndürmek için bir MOD yaptı
Davos'ta toplantı yapmanın maliyeti nedir?
Sonynin ilk çift kameralı akıllı telefonu, Xperia XZ2 Premium gerçek 4K ekranının güzelliği
Yaz aksiyonu gişe rekorları kıran "Çözme Oyunu" Han Gengfeng Xiaoyue Li Yuan Yamashita Tomohisa Asya ile kararlı bir şekilde savaşıyor
Dondurucu gökyüzünde av köpekleri: jet avcılarının üretimi ve gelişimi (bölüm 2)
To Top