[Xinzhiyuan Kılavuzu] Piyasada birçok metin okuma aracı vardır ve bazı yerel üreticiler de çevrimiçi API'ler sağlar, ancak belirli bir tonda sese ihtiyaç duyarsak, modeli yine de kendimiz eğitmemiz gerekir, ancak geleneksel derin öğrenme yöntemleri çok şey gerektirir Eğitim külliyatı çok yoğun kaynak gerektirir Bir alternatif var mı? Bugün hafif bir metin okuma aracına bakacağız. "Xinzhiyuan acilen baş yazar, editör, operasyon müdürü, hesap yöneticisi işe alıyor, HR WeChat'i (Dr-wly) ekliyor veya daha fazla bilgi edinmek için makalenin sonuna QR kodunu taratıyor."
Son zamanlarda, reddit'te bir metinden-sese uygulaması popüler hale geldi .teen fif.ai adlı bir şirket tarafından başlatıldı.Geleneksel derin sinir ağı metinden-sese modelinin aksine, çok fazla ham ses verisi gerektirmiyor.
Bu metinden sese dönüştürme aracı, çeşitli metinler için 44,1 kHz konuşma oluşturmak için kullanılabilir. Ses Çeşitli ses sentez algoritmalarını ve gerçek zamanlı olarak oluşturulan özelleştirilmiş bir derin sinir ağını kullanma , Bu sinir ağları, çok az veri (karakter başına 30 ila 120 dakika saf ses) üzerinde eğitilmiştir. Proje, karakterin duygusunu korurken bir sesi klonlamak için gereken ses miktarının önemli ölçüde azaldığını gösterdi.
Yazar, kendi metnini kolayca dönüştürebilen bir çevrimiçi web sitesi sağlar Bu web sitesi yalnızca ticari olmayan kullanım içindir. Ticari amaçlarla kullanmak istiyorsanız, orijinal metne bir bağlantı vermeniz yeterlidir.
Araç tarafından oluşturulan ses dosyasının örnekleme hızı 44100 Hz'dir , Ve derin öğrenmeye dayalı çoğu metin okuma uygulaması örnekleme oranını kullanır 16.000 Hz . Bu nedenle, ürettiği ses spektrumu daha ayrıntılı (daha yüksek kaliteli ses) olacak ve kusurlar daha belirgin olacaktır. Sesin daha insan gibi görünmesini sağlamak için oluşturulan sesi daha düşük örnekleme hızına indirmek için diğer ses düzenleme araçlarını (Audacity gibi) kullanabilirsiniz, ancak bunu yapmak sesin nispeten bulanık olmasına neden olur.
Gelecekte bu aracı geliştireceğiz. İyileştirmeden önce, bir uzlaşma yöntemi var. Bunu birkaç kez üretebilirsiniz. Sinir ağının belirsizliği nedeniyle, her seferinde üretilen ses farklı olacaktır. En memnun olduğunuz birini seçebilirsiniz.
elbette Bu kadar küçük bir külliyat üzerinde eğitilen model de kusurludur ve bazı kelimeler yanlış telaffuz edilebilir. Aslında bunu anlamak da çok kolay. İnsanlar bile yeni kelimelerle karşılaştıklarında doğru telaffuz edemeyebilirler. Derin modeller genellikle 40 saat veya daha fazla korpusa sahiptir Yani hata oranı daha düşük olacaktır. Ancak bu araç, yeterli külliyattan yoksun olanlar için hala çok pratiktir.
Ek olarak, yazar, modelin genelleme yeteneğini geliştirmeye yardımcı olabilecek bazı püf noktalarından bahsetti. Sevmek Modelin uygulanabilirliğini iyileştirmek için kasıtlı olarak bazı yazım hataları, noktalama işaretleri ekleyin veya telaffuzu kasten bozun .
"İlk denemede mükemmel ses elde etmeyi beklemeyin. Sizi tatmin edecek bir telaffuz ve tonlama üretmek için denemeye devam etmeniz gerekebilir."
Kendi sesimizi oluşturmak, rastgele bir paragraf seçmek veya bir paragraf metni girmek için bu aracın web sürümünü kullanabiliriz ve bir süre sonra oynatmak için oynat düğmesini tıklayabiliriz, bu yüzden acele edin ve deneyin!
Referans bağlantısı:
https://fifteen.ai