Yazar | Google Ekibi
Çevirmen | Kayn
Editör | Jane
Üretildi | AI Teknolojisi Ana Kampı (ID: rgznai100)
Bu makalede, Google ekibi, çok sayıda konuşmacının ses özelliklerini az sayıda örnekle öğrenebilen ve konuşma sesini sentezleyebilen bir metinden konuşmaya sinir sistemi önerdi. Ek olarak, eğitim sırasında ağ ile temas halinde olmayan konuşmacılar için, konuşma sesini yalnızca bilinmeyen konuşmacının sesinden birkaç saniye boyunca yeniden eğitim yapmadan sentezleyebilirler, yani ağın sıfır örnekleme öğrenme yetenekleri vardır.
Şu anda birisi makaleyi uyguladı ve GitHub'da açık kaynaklı bir proje yayınladı. Şu anki hedef 9.5k'nin üzerinde ve çatal sayısı 1.5k.
GitHub bağlantısı:
https: // github .com / CorentinJ / Gerçek Zamanlı Ses Klonlama? Utm_source = mybridgeutm_medium = blogutm_campaign = read_more
Giriş
Geleneksel doğal konuşma sentez sistemleri, eğitim sırasında çok sayıda yüksek kaliteli örnek gerektirir. Genellikle, her konuşmacı yüz binlerce dakikalık eğitim verisi gerektirir. Bu, modeli genellikle evrensel hale getirir ve büyük ölçekte karmaşık için uygulanamaz. Çevre (birçok farklı konuşmacı var). Bu ağların tümü, iki konuşma modelleme ve konuşma sentezi sürecini karıştırır. Bu makalenin çalışması önce bu iki işlemi ayırır, konuşmacının ses özelliklerini modellemek için ilk ses özelliği kodlama ağını (kodlayıcı) kullanır ve ardından özellikten konuşmaya dönüştürmeyi tamamlamak için ikinci yüksek kaliteli TTS ağını kullanır.
İki ağ, farklı veri kümeleri üzerinde eğitilebilir, bu nedenle eğitim verileri talebi Çok azaltın. Özellik kodlama ağı için anahtar, ses izi bilgisinin modellenmesinde, yani iki konuşmanın aynı kişi tarafından konuşulduğuna karar verilmesinde yatmaktadır. Bu nedenle, konuşma tanıma (konuşmacı doğrulama) görevinden geçiş öğrenimi gerçekleştirilebilir ve ağ Çok hedefli bir veri kümesi üzerinde çok gürültülü eğitim.
Ağın bilinmeyen hoparlörlerden (eğitim setinde değil) ses özelliklerini ayıklama yeteneğine sahip olmasını sağlamak için, kodlama ağı 18K hoparlör veri seti üzerinde eğitilirken, konuşma sentezi ağının sadece 1.2K hoparlör veri seti üzerinde eğitilmesi gerekir.
Ağ yapısı
Esas olarak üç bölümden oluşur:
Ses özelliği kodlayıcı (hoparlör kodlayıcı):
1. Konuşmacının ses özelliği bilgilerini alan ses kodlayıcı. Konuşmacının konuşması yerleşiktir ve konuşmacının sesinin potansiyel özelliklerini temsil eden sabit boyutların bir vektörü olarak kodlanır.
2. Sıradan diziye haritalama sentez ağı
Tacotron 2 haritalama ağına dayalı olarak, 1 ile elde edilen metin ve vektör aracılığıyla bir log mel spektrogram oluşturulur.
(Mel spektrogram, spektrogramın frekans ölçeğinin Hz logaritmasını alır ve bunu Mel ölçeğine dönüştürür, böylece insan kulağının sese duyarlılığı Mel ölçeği ile doğrusal olarak ilişkilendirilir)
3. WaveNet tabanlı otoregresif konuşma sentez ağı
Konuşma sentezini tamamlamak için mel spektrogramı (spektrum alanı) bir zaman serisi ses dalga formuna (zaman alanı) dönüştürün.
Ağın bu üç bölümünün tamamen bağımsız olarak eğitildiği ve ses kodlayıcı ağın, üretilen konuşmanın hoparlörün benzersiz ses özelliklerine sahip olmasını sağlamak için esas olarak sekans eşleme ağında koşullu bir denetim rolü oynadığı belirtilmelidir.
1. Ses özelliği kodlayıcı
Kodlayıcı temel olarak referans konuşma sinyalini sabit boyutlu bir vektör uzayına gömer ve kodlar ve bunu denetim olarak kullanır, böylece eşleştirme ağı aynı özelliklere sahip orijinal ses sinyalini (Meier spektrogram) üretebilir. Kodlayıcının temel işlevi benzerlik ölçümüdür Aynı hoparlörün farklı konuşması için, gömme vektör uzayındaki vektör mesafesi (kosinüs dahil açı) mümkün olduğu kadar küçük ve farklı hoparlörler için olabildiğince büyük olmalıdır. Ek olarak, kodlayıcının gürültü önleme özelliği ve sağlamlığı da olmalı ve konuşmacının sesinin potansiyel özellik bilgisini belirli konuşma içeriği ve arka plan gürültüsünden etkilenmeden çıkarabilmelidir. Bu gereksinimler, konuşmacı-ayrımcı modelin gereksinimleri ile örtüşmektedir, bu nedenle transfer öğrenimi gerçekleştirilebilir.
Kodlayıcı esas olarak üç LSTM katmanından oluşur Giriş, 40 kanallı bir logaritmik mel spektrogramdır Son katmanın son çerçevesine karşılık gelen çıktı, tüm dizinin gömme vektör gösterimini elde etmek için L2 düzenlenmesi ile işlenir. Gerçek muhakemede, herhangi bir uzunluktaki bir giriş konuşma sinyali 800 ms'lik bir pencere ile birden çok bölüme bölünecek ve her bölüm bir çıktı alacaktır.Son olarak, son gömme vektörünü elde etmek için tüm çıktılar ortalama olarak üst üste bindirilir. Bu yöntem, kısa süreli Fourier dönüşümüne (STFT) çok benzer.
Eğitim seti, 1,6 saniyeye bölünmüş ses örneklerini ve bunlara karşılık gelen hoparlör etiket bilgilerini içerir ve herhangi bir kopya örnek kullanmaz.
Oluşturulan yerleştirme alanı vektör görselleştirmesi aşağıdaki gibidir:
Gömme alanında farklı hoparlörlerin farklı kümelenme aralıklarına karşılık geldiği ve kolaylıkla ayırt edilebildiği ve her iki tarafta da farklı cinsiyetlerden konuşmacıların yer aldığı görülebilir.
Bununla birlikte, sentezlenmiş konuşmayı gerçek konuşmadan ayırt etmek daha kolaydır ve sentezlenmiş konuşma küme merkezinden daha uzaktır. Bu sentezlenmiş konuşmanın gerçekçiliğinin yeterli olmadığını göstermektedir.
2. Sıradan diziye haritalama sentez ağı
Tacotron 2 temelinde, birden fazla farklı konuşmacının konuşmasını sentezleme işlevi ek olarak eklenmiştir. Tacotron 2 dikkat katmanını içerir Yazar, dikkat katmanının girdisi olarak gömme vektörünü doğrudan kullanmanın, ağı farklı hoparlörlere yakınsamasını sağlayabileceğini buldu.
Bu ağ, kodlayıcı ağının eğitiminden bağımsızdır ve ses sinyallerini ve karşılık gelen metinleri giriş olarak alır.Ses sinyalleri, özellikleri çıkarmak için önce önceden eğitilmiş kodlayıcı tarafından çıkarılır ve ardından dikkat katmanının girişi olarak kullanılır. Ağ çıkış özelliği pencere uzunluğu 50ms ve adım boyutu 12.5ms olan bir diziden oluşur Mel ölçek filtresi ve logaritmik dinamik aralık sıkıştırmasından sonra mel spektrogram elde edilir. Gürültülü verilerin etkisini azaltmak için, bu makale ayrıca bu bölümün kayıp işlevine L1 düzenlileştirmesini de ekler.
Giriş mel spektrogramının ve sentetik spektrogramın karşılaştırma örneği aşağıdaki gibidir:
Sağdaki kırmızı çizgi, metin ve spektrum arasındaki uygunluğu gösterir. Referans denetimi için kullanılan ses sinyalinin metinsel olarak hedef ses sinyali ile tutarlı olmasına gerek olmadığı görülebilir ki bu da bu işin önemli bir özelliği.
3. WaveNet tabanlı otoregresif konuşma sentez ağı
Sentezlenen spektrogram elde edildikten sonra, zaman alanında bir ses dalga formuna daha fazla dönüştürülmesi gerekir.Bu kısım esas olarak otoregresif WaveNet ile tamamlanır. Önceki sentezleyici tarafından üretilen sekans, ses sentezi için gerekli tüm bilgileri zaten içerdiğinden, bu kısım kodlayıcının denetlenmesine gerek duymaz.
4. Sıfır örnek çıkarımı
Yukarıdaki üç kısma ek olarak, ağın sıfır örneklemli çıkarım yetenekleri de vardır. Yani, eğitim setinde olmayan (görünmeyen) bir hoparlör için, konuşmacının yalnızca birkaç saniyelik ses bölümü gereklidir ve kodlayıcı, konuşmacının temel konuşma özelliklerini çıkarabilir ve bunu eşleme ağı sentez sırasına yardımcı olmak için kullanabilir. Ve bu konuşmanın sentezlenecek konuşmayla aynı metne sahip olmasına gerek yoktur.
Deneysel sonuçlar
Temel olarak iki büyük VCTK ve LibriSpeech veri seti üzerinde eğitilmiştir.
Konuşma doğallığı
Öncelikle modelin sentezlenmiş konuşmasının doğallığı (yani özgünlük derecesi) değerlendirilir, 100 cümlelik (eğitim setinde olmayan) bir doğrulama seti oluşturulur ve daha sonra her veri seti için belirli sayıda görünür ve görünmez konuşmacı seçilir. Kodlayıcının girişi olarak her konuşmacı için rastgele bir cümle seçin, ardından konuşmacının tüm cümlelerini sentezleyin ve orijinal doğruluk değeriyle karşılaştırın:
Ses benzerliği
Sentezlenen konuşmanın orijinal konuşmacının konuşmasına benzer olup olmadığını doğrulamak için, her konuşmacının her konuşması için, başka bir konuşma doğruluk değeri olarak rastgele seçilir ve ardından benzerlikleri değerlendirilir:
Hoparlör kimlik doğrulaması
Bu gösterge önceki iki göstergeye aykırıdır ve konuşma tanıma sisteminin sentetik konuşma ile gerçek konuşmayı etkili bir şekilde ayırt edip edemediğini doğrulamayı amaçlamaktadır:
Konuşma kodlayıcı değerlendirmesi
Konuşma kodlayıcı, bu makalenin temel ağıdır ve kodlayıcıyı eğitmek için kullanılan veri kümesi, ağın genel performansı üzerinde daha büyük bir etkiye sahiptir:
sonuç olarak
Bu yazıda önerilen konuşma sentezi ağı, eğitimde görünmeyen konuşmacıların sesini sentezleyebilir ve konuşmacının konuşmasının yalnızca küçük bir bölümüne dayanır, bu ağın gerçek ortama büyük ölçekte uygulanmasını sağlar ve aynı zamanda konuşma sahtekarlığının maliyetini düşürür. Çok Önceki deepfake ağına benzer şekilde azaltıldı.
Yazar, sentezlenmiş konuşma ve ağ tarafından üretilen gerçek konuşmanın, yetersiz sayıda eğitim seti nedeniyle (çok gerçekçi olmanın neden olduğu güvenlik sorunlarından kaçınmak için) hala ayırt edilebileceğine dikkat çekiyor. Çok gerçekçi bir ses üretmek istiyorsanız, her hedefle konuşmak için yine de onlarca dakikalık konuşmaya ihtiyacınız var.
Kağıt bağlantısı: https: // ar xi v.org/pdf/ 180 6.04558.pdf