g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Google'ın yeni nesil WaveNet'i: Derin öğrenme nasıl konuşma üretir? | 2 dakikalık kağıt

İşte Lei Feng'in altyazı grubu tarafından derlenen İki dakikalık kağıt sütun Her hafta, en yeni teknolojileri okumak ve AI alanındaki en son araştırma sonuçlarını öğrenmek için parçalı zaman harcayacağız.

Orijinal başlığı MEL SPECTROGRAM TAHMİNLERİ ÜZERİNDE DALGANETİ KOŞULLANARAK DOĞAL TTS SENTEZİ | Two Minute Papers

Çeviri | Düzenleyen Zhang Fengkai | Fan Jiang Lin Youtian

Önceki 2 dakikalık kağıt sütununda Google'ın WaveNet'inden (öğrenmeye dayalı bir metin okuma motoru) bahsettik, yani eğitimli modele bazı okuma materyalleri verdiğimiz sürece motor elinden gelenin en iyisini yapacaktır. Daha gerçekçi bir ses oluşturabilir. Bu videoda, sentezlenmiş konuşmayı mükemmel hale getirmek için orijinal bazda geliştirilmiş yeni bir ürün tanıtacağız.

Resim kaynağı: WaveNet: Ham Ses için Üretken Bir Model

Bu videoyu tıkladıktan sonra, sentezlenmiş konuşmanın ritim, vurgu ve tonlamada çok iyi olduğunu ve doğru ile yanlışı ayırt etmenin zor olduğunu duyacaksınız. İlgili ses bilgileri şurada bulunabilir: https://google.github.io/tacotron/publications/tacotron2/index.html

Orijinal Google WaveNet makalesinde, konuşma sentezi problemini çözmek için, genişletilmiş evrişim yarattık.Bu ağ yapısı, giriş verilerini atlayarak bize daha iyi bir global görünüm sağlıyor. Bu biraz, gözlerimizin alıcı alanını artırmak gibi, fotoğraftaki ağaçların dar perspektifi yerine tüm manzarayı algılamamıza izin veriyor.

Yeni çerçeve, WaveNet'in girdisi olarak Mel ses spektrumunu kullanır.Bu ses spektrumu, insan algısına dayalı bir ara ortamdır.Sadece farklı kelimelerin nasıl telaffuz edildiğini değil, aynı zamanda beklenen ses seviyesini ve tonlamayı da kaydeder.

Yeni model, konuşma verisi üzerine yaklaşık 24 saat eğitim aldı.Elbette, model ancak belirli bir test derecesinden sonra uygun hale geldi.

Test yöntemimiz, önceki algoritmanın ortalama görüş puanını kaydetmektir (ses örneği ile gerçek insan sesi arasındaki puanı tanımlamak için kullanılır). Yeni algoritmamız büyük bir başarıydı ve daha sonra kullanıcı araştırması yoluyla, kullanıcıların duydukları sesin sentezlenmiş mi yoksa gerçek mi olduğunu tahmin etmek için kör testler yapmalarına izin verildi.

İnanılmaz çünkü test sonuçlarının çoğu insanlar doğru olup olmadıklarını bilemezler.

Lütfen bu dalga formlarını oluşturmanın gerçek zamanlı olmadığını ve uzun zaman alacağını unutmayın. Daha iyi verimlilik elde etmek için DeepMind bilim adamları, WaveNe'nin dalga formu oluşturma hızını binlerce kez artıran sansasyonel bir makale yazdı. Elbette, yeni icatlar da yeni zorluklar getirecektir - bu, kayıtların tahrif edilmesini kolaylaştırabilir ve kayda dijital imza eklemek gibi yeni bir doğrulama yöntemi bulmazsak, kayıtlar fiziksel kanıt olarak zayıflatılır. .

Makalenin orijinal adresi https://arxiv.org/pdf/1712.05884.pdf

Daha fazla makale için Leifeng.com'u takip edin, Leiphonefansub WeChat hesabını (leiphonefansub) arkadaş olarak ekleyin

AI Gönüllüsü Olmak İçin "Katılmak istiyorum" dedi