GitHub'da yaklaşık 100.000 yıldız: Sesinizi yalnızca 5 saniyelik ses kaynağında gerçek zamanlı olarak "klonlayabilirsiniz"

Yazar | Google Ekibi

Çevirmen | Kayn

Editör | Jane

Üretildi | AI Teknolojisi Ana Kampı (ID: rgznai100)

Bu makalede, Google ekibi, çok sayıda konuşmacının ses özelliklerini az sayıda örnekle öğrenebilen ve konuşma sesini sentezleyebilen bir metinden konuşmaya sinir sistemi önerdi. Ek olarak, eğitim sırasında ağ ile temas halinde olmayan konuşmacılar için, konuşma sesini yalnızca bilinmeyen konuşmacının sesinden birkaç saniye boyunca yeniden eğitim yapmadan sentezleyebilirler, yani ağın sıfır örnekleme öğrenme yetenekleri vardır.

Şu anda birisi makaleyi uyguladı ve GitHub'da açık kaynaklı bir proje yayınladı. Şu anki hedef 9.5k'nin üzerinde ve çatal sayısı 1.5k.

GitHub bağlantısı:

https: // github .com / CorentinJ / Gerçek Zamanlı Ses Klonlama? Utm_source = mybridgeutm_medium = blogutm_campaign = read_more

Giriş

Geleneksel doğal konuşma sentez sistemleri, eğitim sırasında çok sayıda yüksek kaliteli örnek gerektirir. Genellikle, her konuşmacı yüz binlerce dakikalık eğitim verisi gerektirir. Bu, modeli genellikle evrensel hale getirir ve büyük ölçekte karmaşık için uygulanamaz. Çevre (birçok farklı konuşmacı var). Bu ağların tümü, iki konuşma modelleme ve konuşma sentezi sürecini karıştırır. Bu makalenin çalışması önce bu iki işlemi ayırır, konuşmacının ses özelliklerini modellemek için ilk ses özelliği kodlama ağını (kodlayıcı) kullanır ve ardından özellikten konuşmaya dönüştürmeyi tamamlamak için ikinci yüksek kaliteli TTS ağını kullanır.

İki ağ, farklı veri kümeleri üzerinde eğitilebilir, bu nedenle eğitim verileri talebi Çok azaltın. Özellik kodlama ağı için anahtar, ses izi bilgisinin modellenmesinde, yani iki konuşmanın aynı kişi tarafından konuşulduğuna karar verilmesinde yatmaktadır. Bu nedenle, konuşma tanıma (konuşmacı doğrulama) görevinden geçiş öğrenimi gerçekleştirilebilir ve ağ Çok hedefli bir veri kümesi üzerinde çok gürültülü eğitim.

Ağın bilinmeyen hoparlörlerden (eğitim setinde değil) ses özelliklerini ayıklama yeteneğine sahip olmasını sağlamak için, kodlama ağı 18K hoparlör veri seti üzerinde eğitilirken, konuşma sentezi ağının sadece 1.2K hoparlör veri seti üzerinde eğitilmesi gerekir.

Ağ yapısı

Esas olarak üç bölümden oluşur:

Ses özelliği kodlayıcı (hoparlör kodlayıcı):

1. Konuşmacının ses özelliği bilgilerini alan ses kodlayıcı. Konuşmacının konuşması yerleşiktir ve konuşmacının sesinin potansiyel özelliklerini temsil eden sabit boyutların bir vektörü olarak kodlanır.

2. Sıradan diziye haritalama sentez ağı

Tacotron 2 haritalama ağına dayalı olarak, 1 ile elde edilen metin ve vektör aracılığıyla bir log mel spektrogram oluşturulur.

(Mel spektrogram, spektrogramın frekans ölçeğinin Hz logaritmasını alır ve bunu Mel ölçeğine dönüştürür, böylece insan kulağının sese duyarlılığı Mel ölçeği ile doğrusal olarak ilişkilendirilir)

3. WaveNet tabanlı otoregresif konuşma sentez ağı

Konuşma sentezini tamamlamak için mel spektrogramı (spektrum alanı) bir zaman serisi ses dalga formuna (zaman alanı) dönüştürün.

Ağın bu üç bölümünün tamamen bağımsız olarak eğitildiği ve ses kodlayıcı ağın, üretilen konuşmanın hoparlörün benzersiz ses özelliklerine sahip olmasını sağlamak için esas olarak sekans eşleme ağında koşullu bir denetim rolü oynadığı belirtilmelidir.

1. Ses özelliği kodlayıcı

Kodlayıcı temel olarak referans konuşma sinyalini sabit boyutlu bir vektör uzayına gömer ve kodlar ve bunu denetim olarak kullanır, böylece eşleştirme ağı aynı özelliklere sahip orijinal ses sinyalini (Meier spektrogram) üretebilir. Kodlayıcının temel işlevi benzerlik ölçümüdür Aynı hoparlörün farklı konuşması için, gömme vektör uzayındaki vektör mesafesi (kosinüs dahil açı) mümkün olduğu kadar küçük ve farklı hoparlörler için olabildiğince büyük olmalıdır. Ek olarak, kodlayıcının gürültü önleme özelliği ve sağlamlığı da olmalı ve konuşmacının sesinin potansiyel özellik bilgisini belirli konuşma içeriği ve arka plan gürültüsünden etkilenmeden çıkarabilmelidir. Bu gereksinimler, konuşmacı-ayrımcı modelin gereksinimleri ile örtüşmektedir, bu nedenle transfer öğrenimi gerçekleştirilebilir.

Kodlayıcı esas olarak üç LSTM katmanından oluşur Giriş, 40 kanallı bir logaritmik mel spektrogramdır Son katmanın son çerçevesine karşılık gelen çıktı, tüm dizinin gömme vektör gösterimini elde etmek için L2 düzenlenmesi ile işlenir. Gerçek muhakemede, herhangi bir uzunluktaki bir giriş konuşma sinyali 800 ms'lik bir pencere ile birden çok bölüme bölünecek ve her bölüm bir çıktı alacaktır.Son olarak, son gömme vektörünü elde etmek için tüm çıktılar ortalama olarak üst üste bindirilir. Bu yöntem, kısa süreli Fourier dönüşümüne (STFT) çok benzer.

Eğitim seti, 1,6 saniyeye bölünmüş ses örneklerini ve bunlara karşılık gelen hoparlör etiket bilgilerini içerir ve herhangi bir kopya örnek kullanmaz.

Oluşturulan yerleştirme alanı vektör görselleştirmesi aşağıdaki gibidir:

Gömme alanında farklı hoparlörlerin farklı kümelenme aralıklarına karşılık geldiği ve kolaylıkla ayırt edilebildiği ve her iki tarafta da farklı cinsiyetlerden konuşmacıların yer aldığı görülebilir.

Bununla birlikte, sentezlenmiş konuşmayı gerçek konuşmadan ayırt etmek daha kolaydır ve sentezlenmiş konuşma küme merkezinden daha uzaktır. Bu sentezlenmiş konuşmanın gerçekçiliğinin yeterli olmadığını göstermektedir.

2. Sıradan diziye haritalama sentez ağı

Tacotron 2 temelinde, birden fazla farklı konuşmacının konuşmasını sentezleme işlevi ek olarak eklenmiştir. Tacotron 2 dikkat katmanını içerir Yazar, dikkat katmanının girdisi olarak gömme vektörünü doğrudan kullanmanın, ağı farklı hoparlörlere yakınsamasını sağlayabileceğini buldu.

Bu ağ, kodlayıcı ağının eğitiminden bağımsızdır ve ses sinyallerini ve karşılık gelen metinleri giriş olarak alır.Ses sinyalleri, özellikleri çıkarmak için önce önceden eğitilmiş kodlayıcı tarafından çıkarılır ve ardından dikkat katmanının girişi olarak kullanılır. Ağ çıkış özelliği pencere uzunluğu 50ms ve adım boyutu 12.5ms olan bir diziden oluşur Mel ölçek filtresi ve logaritmik dinamik aralık sıkıştırmasından sonra mel spektrogram elde edilir. Gürültülü verilerin etkisini azaltmak için, bu makale ayrıca bu bölümün kayıp işlevine L1 düzenlileştirmesini de ekler.

Giriş mel spektrogramının ve sentetik spektrogramın karşılaştırma örneği aşağıdaki gibidir:

Sağdaki kırmızı çizgi, metin ve spektrum arasındaki uygunluğu gösterir. Referans denetimi için kullanılan ses sinyalinin metinsel olarak hedef ses sinyali ile tutarlı olmasına gerek olmadığı görülebilir ki bu da bu işin önemli bir özelliği.

3. WaveNet tabanlı otoregresif konuşma sentez ağı

Sentezlenen spektrogram elde edildikten sonra, zaman alanında bir ses dalga formuna daha fazla dönüştürülmesi gerekir.Bu kısım esas olarak otoregresif WaveNet ile tamamlanır. Önceki sentezleyici tarafından üretilen sekans, ses sentezi için gerekli tüm bilgileri zaten içerdiğinden, bu kısım kodlayıcının denetlenmesine gerek duymaz.

4. Sıfır örnek çıkarımı

Yukarıdaki üç kısma ek olarak, ağın sıfır örneklemli çıkarım yetenekleri de vardır. Yani, eğitim setinde olmayan (görünmeyen) bir hoparlör için, konuşmacının yalnızca birkaç saniyelik ses bölümü gereklidir ve kodlayıcı, konuşmacının temel konuşma özelliklerini çıkarabilir ve bunu eşleme ağı sentez sırasına yardımcı olmak için kullanabilir. Ve bu konuşmanın sentezlenecek konuşmayla aynı metne sahip olmasına gerek yoktur.

Deneysel sonuçlar

Temel olarak iki büyük VCTK ve LibriSpeech veri seti üzerinde eğitilmiştir.

Konuşma doğallığı

Öncelikle modelin sentezlenmiş konuşmasının doğallığı (yani özgünlük derecesi) değerlendirilir, 100 cümlelik (eğitim setinde olmayan) bir doğrulama seti oluşturulur ve daha sonra her veri seti için belirli sayıda görünür ve görünmez konuşmacı seçilir. Kodlayıcının girişi olarak her konuşmacı için rastgele bir cümle seçin, ardından konuşmacının tüm cümlelerini sentezleyin ve orijinal doğruluk değeriyle karşılaştırın:

Ses benzerliği

Sentezlenen konuşmanın orijinal konuşmacının konuşmasına benzer olup olmadığını doğrulamak için, her konuşmacının her konuşması için, başka bir konuşma doğruluk değeri olarak rastgele seçilir ve ardından benzerlikleri değerlendirilir:

Hoparlör kimlik doğrulaması

Bu gösterge önceki iki göstergeye aykırıdır ve konuşma tanıma sisteminin sentetik konuşma ile gerçek konuşmayı etkili bir şekilde ayırt edip edemediğini doğrulamayı amaçlamaktadır:

Konuşma kodlayıcı değerlendirmesi

Konuşma kodlayıcı, bu makalenin temel ağıdır ve kodlayıcıyı eğitmek için kullanılan veri kümesi, ağın genel performansı üzerinde daha büyük bir etkiye sahiptir:

sonuç olarak

Bu yazıda önerilen konuşma sentezi ağı, eğitimde görünmeyen konuşmacıların sesini sentezleyebilir ve konuşmacının konuşmasının yalnızca küçük bir bölümüne dayanır, bu ağın gerçek ortama büyük ölçekte uygulanmasını sağlar ve aynı zamanda konuşma sahtekarlığının maliyetini düşürür. Çok Önceki deepfake ağına benzer şekilde azaltıldı.

Yazar, sentezlenmiş konuşma ve ağ tarafından üretilen gerçek konuşmanın, yetersiz sayıda eğitim seti nedeniyle (çok gerçekçi olmanın neden olduğu güvenlik sorunlarından kaçınmak için) hala ayırt edilebileceğine dikkat çekiyor. Çok gerçekçi bir ses üretmek istiyorsanız, her hedefle konuşmak için yine de onlarca dakikalık konuşmaya ihtiyacınız var.

Kağıt bağlantısı: https: // ar xi v.org/pdf/ 180 6.04558.pdf

Geleneksel Çin Tıbbı Rizhao Hastanesi 2019 Alçı Festivalini Açıyor ve vatandaşlar yerinde Çin tıbbı kültürünü deneyimliyor
önceki
Tayland'ın son tertemiz denizi olan Koh Chang'ı yeniden yaşayın
Sonraki
İkili arama hakkında daha derin bir anlayışınız var mı?
Tayland'da okumaya başlamadan önce bunları anlamalısınız
90'lar sonrası teknoloji evi araştırma ve geliştirme Magi bir gecede popüler oldu. Bilgiye dayalı yapı araştırmasında yeni bir çağ mı geliyor?
Asyanın en iyi 50 restoranı, bunlardan 8i Taylandda
500 milyon tahvil "patlayıcı"! 40 milyarlık eski "ayakkabı kralı", hesabında yalnızca 15 milyondan fazlası kalmışken kanatlarını katlıyor ve piyasa değeri% 90 düştü! Ve bu devler de dikildi ...
Sıcak tartışmayı bilin! Python'u öğrendikten sonra programlama yeteneğim kötüleşti
Tayland'a sadece seyahat için mi gidiyorsunuz? Ayrıca prestijli uluslararası okullar da var
Mobil gerçek zamanlı ses ve videoda süper çözünürlük uygulama pratiği
Tayland'a seyahatin = dünyayı dolaştığını duydum
Birdenbire 100 milyarı aştı! Özel sermaye fonları patladı! On milyarlarca özel sermayenin en son performansı ortaya çıktı ve bu kurumlar yanıyor
Uluslararası öğrenciler ana dal seçer, bu yanlış anlamalardan kaçınmayı unutmayın
Continental Group ADAS İşe Alım Eski sürücü sizi yerinde otonom sürüş keyfini yaşamaya götürecek
To Top