100 milyonun üzerindeki model parametreleriyle çalışamaz mı? MIT kardeş, az miktarda veriyle yüksek kaliteli metin okuma işlemini tamamlar!

[Xinzhiyuan Kılavuzu] Piyasada birçok metin okuma aracı vardır ve bazı yerel üreticiler de çevrimiçi API'ler sağlar, ancak belirli bir tonda sese ihtiyaç duyarsak, modeli yine de kendimiz eğitmemiz gerekir, ancak geleneksel derin öğrenme yöntemleri çok şey gerektirir Eğitim külliyatı çok yoğun kaynak gerektirir Bir alternatif var mı? Bugün hafif bir metin okuma aracına bakacağız. "Xinzhiyuan acilen baş yazar, editör, operasyon müdürü, hesap yöneticisi işe alıyor, HR WeChat'i (Dr-wly) ekliyor veya daha fazla bilgi edinmek için makalenin sonuna QR kodunu taratıyor."

Son zamanlarda, reddit'te bir metinden-sese uygulaması popüler hale geldi .teen fif.ai adlı bir şirket tarafından başlatıldı.Geleneksel derin sinir ağı metinden-sese modelinin aksine, çok fazla ham ses verisi gerektirmiyor.

Az miktarda eğitim verisi yüksek kaliteli ses oluşturabilir

Bu metinden sese dönüştürme aracı, çeşitli metinler için 44,1 kHz konuşma oluşturmak için kullanılabilir. Ses Çeşitli ses sentez algoritmalarını ve gerçek zamanlı olarak oluşturulan özelleştirilmiş bir derin sinir ağını kullanma , Bu sinir ağları, çok az veri (karakter başına 30 ila 120 dakika saf ses) üzerinde eğitilmiştir. Proje, karakterin duygusunu korurken bir sesi klonlamak için gereken ses miktarının önemli ölçüde azaldığını gösterdi.

Yazar, kendi metnini kolayca dönüştürebilen bir çevrimiçi web sitesi sağlar Bu web sitesi yalnızca ticari olmayan kullanım içindir. Ticari amaçlarla kullanmak istiyorsanız, orijinal metne bir bağlantı vermeniz yeterlidir.

Araç tarafından oluşturulan ses dosyasının örnekleme hızı 44100 Hz'dir , Ve derin öğrenmeye dayalı çoğu metin okuma uygulaması örnekleme oranını kullanır 16.000 Hz . Bu nedenle, ürettiği ses spektrumu daha ayrıntılı (daha yüksek kaliteli ses) olacak ve kusurlar daha belirgin olacaktır. Sesin daha insan gibi görünmesini sağlamak için oluşturulan sesi daha düşük örnekleme hızına indirmek için diğer ses düzenleme araçlarını (Audacity gibi) kullanabilirsiniz, ancak bunu yapmak sesin nispeten bulanık olmasına neden olur.

Kendi sesinizi oluşturmak için bu aracı nasıl kullanabilirsiniz?

Gelecekte bu aracı geliştireceğiz. İyileştirmeden önce, bir uzlaşma yöntemi var. Bunu birkaç kez üretebilirsiniz. Sinir ağının belirsizliği nedeniyle, her seferinde üretilen ses farklı olacaktır. En memnun olduğunuz birini seçebilirsiniz.

elbette Bu kadar küçük bir külliyat üzerinde eğitilen model de kusurludur ve bazı kelimeler yanlış telaffuz edilebilir. Aslında bunu anlamak da çok kolay. İnsanlar bile yeni kelimelerle karşılaştıklarında doğru telaffuz edemeyebilirler. Derin modeller genellikle 40 saat veya daha fazla korpusa sahiptir Yani hata oranı daha düşük olacaktır. Ancak bu araç, yeterli külliyattan yoksun olanlar için hala çok pratiktir.

Ek olarak, yazar, modelin genelleme yeteneğini geliştirmeye yardımcı olabilecek bazı püf noktalarından bahsetti. Sevmek Modelin uygulanabilirliğini iyileştirmek için kasıtlı olarak bazı yazım hataları, noktalama işaretleri ekleyin veya telaffuzu kasten bozun .

"İlk denemede mükemmel ses elde etmeyi beklemeyin. Sizi tatmin edecek bir telaffuz ve tonlama üretmek için denemeye devam etmeniz gerekebilir."

Kendi sesimizi oluşturmak, rastgele bir paragraf seçmek veya bir paragraf metni girmek için bu aracın web sürümünü kullanabiliriz ve bir süre sonra oynatmak için oynat düğmesini tıklayabiliriz, bu yüzden acele edin ve deneyin!

Referans bağlantısı:

https://fifteen.ai

Trump, yeni taca 50 milyar dolarlık bir yanıt başlattı ve 1.700 Google çalışanı virüs testine katıldı
önceki
Trump'ın test raporu olumsuz ve dünya çapında yaklaşık bir milyon insan yeni koronavirüs için test edildi!
Sonraki
Heavy | Berkeley "Derin Denetimsiz Öğrenme" 2020 bahar yeni dersi burada!
Muhteşem bir Kol efsanesi
Şu anda Google, doğrudan MLM kaybıyla önceden eğitilmiş 24 küçük BERT modeli yayınladı
Google AutoML'nin yeni çalışması AutoML-Zero: sıfırdan makine öğrenimi algoritmaları oluşturun
Tarihteki en büyük ICLR 2020 çevrimdışı olarak iptal edildi ve salgın Afrika'nın ilk AI zirvesini evini kaybetmesine neden oldu
Magic Leap kendini satmak için 2.6 milyar dolar mı yakıyor? Facebook alıcı olmak istemediğini söylüyor
Programcı, Dachang'ın milyonlarca yıllık maaşlı AI algoritma mühendislerinden ne kadar uzakta?
Tarihin en kapsamlı "Bilgi Grafiği" 2020 inceleme makalesi, 18 yazar, 130 sayfa pdf
17 yaşındaki bir lise öğrencisi bağımsız olarak dünyanın en sıcak salgın izleme web sitesini geliştirdi! İdolü Jobs
Yapay zeka beyinlerini kuantum hesaplamaya koyun! Google'ın kuantum bilgi işlem kitaplığı TensorFlow Quantum açık kaynak
bAbI listeyi yine mi mahvetti? DeepMind'ın yeni modeli MEMO, insan beyni muhakemesini taklit eden Transformer'ı tanıttı
Apple Başkanı Cook, küresel çalışanları eve işe gitmeye çağırdı; Stanford ve diğer prestijli okullar dersleri askıya aldı
To Top