ICLR 2020 | GAN kullanarak yüksek kaliteli konuşma sentezi

Bu makale, ICLR 2020 makalesi "Karşıt Ağlarla Yüksek Doğruluklu Konuşma Sentezi" nin bir yorumudur. Makalenin yazarı Google'dan. Yazar | Li Keyu

Düzenle | Kongun Sonu

Kağıt adresi: https://openreview.net/forum?id=r1gfQgSFDr

1 Soru sordu

GAN üretildiği için ağırlıklı olarak görüntü oluşturma alanında kullanılmakta ancak konuşma sentezi alanında yer almamaktadır. Konuşma sentezi alanında GAN'ın araştırılmamasını telafi etmek için, bu makale metni konuşmaya dönüştürmek için GAN'ı kullanan bir model önermektedir. Bu model, farklı değerlendirme ölçülerinde önceki konuşma sentez modelleriyle karşılaştırılabilir etkiler elde etti ve verimli ileri yayılma üreteci sayesinde öncekiler tarafından önerilen otoregresif modelle karşılaştırıldığında, bu model de elde etti Yüksek derecede paralellik.

2 Araştırma geçmişi

Metin tabanlı konuşma sentezi (TTS) alanında, öncüllerin çoğu orijinal konuşma dalga formlarını (WaveNet, SampleRNN, WaveRNN, vb.) İşlemek için nöral otoregresif modeller kullandı.Bu modellerin bariz bir kusuru, konuşma ile başa çıkmak için sıra formunu kullanmalarıdır. Sinyaller tahmin edildiğinden, paralel hesaplamalar yapmak zordur, bu da çok fazla hesaplama maliyeti tüketir ve birçok senaryoda pratik değildir.

Bu nedenle, TTS ile ilgili son zamanlarda yapılan birçok araştırma, akış tabanlı bir model kullanmak gibi paralelliği geliştirmeye odaklanmıştır.

Paralel üretimi geliştirmenin bir başka yolu da Generative Adversarial Networks (GAN) kullanmaktır. GAN çoğunlukla önceki araştırmalarda görüntü oluşturmak için kullanılır ve genellikle gerçek verilerden ayırt edilmesi zor olan yüksek düzeyde simüle edilmiş örnekler oluşturabilir. Bununla birlikte, konuşma sentezi görevinde GAN çok az araştırılmıştır.

3 Çözüm

1. Temel fikir

Bu makale, konuşma sentezi için orijinal dalga formu grafiğini oluşturmak için GAN'ı kullanır; bu, ters ağ ileri besleme jeneratörünün gerçekten de yüksek kaliteli konuşma ve ses üretebileceğini kanıtlar ve önceki modellerde paralellik eksikliğini çözer.

2. Ana katkılar

Bu makalenin ana katkıları:

(1) İleri yayılma katmanında oluşturucu olarak evrişimli bir sinir ağı kullanan metin koşullu yüksek sadakatli konuşma sentezi modeli (GAN-TTS, metin koşullu yüksek sadakatli konuşma sentezi için bir Üretken Karşıt Ağ) için bir Üretken Karşıt Ağ (Generative Adversarial Network) önerilmiştir. Ayırıcı, çok frekanslı rasgele pencerelere dayalı ayırma analizi gerçekleştirmek için çoklu ayırıcıları entegre etme yöntemini kullanır.

(2) Aynı zamanda, görüntü oluşturma için iki ölçüm göstergesi olan Frechet Başlangıç Mesafesi (FID) ve Çekirdek Başlangıç Mesafesine (KID) dayalı olarak, bu makale aynı zamanda konuşma üretiminin kalitesini ölçmek için bir dizi gösterge önermektedir.

(3) TTS-GAN modeli için, bu makale nicel ve öznel bir değerlendirme standardı önermekte ve modelin her bir parçasının seçiminin önemini kanıtlayan kontrol değişkenleri aracılığıyla modeli bileşenlere göre değerlendirmektedir. Elde edilen en iyi sonuçlar, GAN'ın verimli TTS görevlerinde uygulanabilirliğini kanıtlayan diğer modern metin konuşma sentezi araştırma yöntemlerine benzerdir.

3. Model ayrıntıları

(1) Jeneratör

Bu makalede kullanılan G jeneratörünün yapısı aşağıdaki şekilde gösterilmektedir:

G'nin girişi 200Hz'lik bir dil ve ton bilgisi dizisidir ve çıktı, 24kHz'lik orijinal bir dalga biçimidir. Jeneratör, her bloğun iki artık bloktan oluşan bir yığın olduğu yedi bloktan (GBlocks) oluşur.

Oluşturucu orijinal konuşmayı oluştururken, G'nin algısal alanının uzun vadeli nitelikleri yakalayacak kadar büyük olmasını sağlamak için delik evrişimi kullanırız. Her GBlock'ta dört evrişim çekirdeği vardır, boyut 3'tür ve delik faktörü 1, 2, 4, 8'dir. Evrişim bölümünde, bu makale Koşullu Toplu Normalleştirme'yi (Koşullu Toplu Normalleştirme) kullanır. Bir GBlock iki atlama bağlantısı içerir: Birincisi, çıkış frekansı giriş frekansından daha büyük olduğunda yukarı örnekleme gerçekleştirir ve ikincisi, çıkış kanalı ve giriş kanalı farklı olduğunda 1 boyutunda bir evrişim işlemi kullanır. Son evrişimli katman, tek kanallı bir ses dalga formu oluşturmak için Tanh aktivasyon işlevini kullanır.

(2) Rastgele pencere ayırıcı entegrasyonu

Tek bir ayırıcı ile karşılaştırıldığında, bu makale, gerçek ve üretilmiş örneklerin rastgele alt örnekleme parçaları üzerinde çalışan rastgele pencere ayırıcılarını (Rastgele Pencere Ayırıcıları, RWD'ler) entegre eder. Entegre işlem, bu makalenin ses modelini tek tek değerlendirmesine izin verir ve 1) rastgele pencerenin boyutu ve 2) ayırıcının dili ve perde bilgisini yakalayıp yakalamadığı olmak üzere iki parametrenin Kartezyen çarpımı ile elde edilebilir. Daha kısa bir rastgele pencerenin kullanılması nedeniyle, entegre ayırıcı, geleneksel ayrımcılardan daha iyi eğitim etkileri elde edebilir.

Oluşturulan örneklemin tamamında çalışmakla karşılaştırıldığında, farklı boyutlarda rastgele pencereler kullanmak veri geliştirme etkisine sahiptir ve hesaplama karmaşıklığını azaltabilir. Aynı zamanda, koşul ayırıcı, üretilen sesin çıktı koşullarıyla eşleşip eşleşmediğini belirleyebilmesi için dil ve ton özelliklerini yakalayabilir.

(3) Ayrımcı mimarisi

Bu makalede kullanılan ayırıcının yapısı aşağıdaki şekilde gösterilmektedir:

Çoklu Rastgele Pencere Ayırıcı mimarisi

Kullanılan DBlock ve Koşullu DBlock aşağıdaki gibidir:

Bunların arasında, ayırıcı bloklardan oluşur (DBlocks), jeneratörde kullanılan GBlock'a benzer, fark, parti standardizasyonu olmamasıdır. DBlock ve Koşullu DBlock arasındaki fark. Koşullu DBlock'taki ilk evrişim işleminden sonra, dil bilgilerinin gömülü bir temsili eklenir.

Ayırıcı yapıda, ilk iki ve son iki DBlock aşağı örneklenmez.Aynı zamanda, bu makale ayrıca orta katmana en az iki aşağı örnekleme bloğu ekler. DBlock'taki evrişimin delik faktörü, 1, 2, 1 ve 2'nin parametre değişikliklerini takip eder, çünkü jeneratörün aksine, ayırıcı nispeten daha küçük bir pencerede çalışır ve bu makale, büyük bir delik faktörü kullanmanın getirmediğini tespit eder. Herhangi bir fayda elde edin.

4 Model değerlendirmesi

Bu makale, modelin sonuçlarını değerlendirmek için Ortalama Görüş Puanlarına (MOS) dayalı öznel insan değerlendirme göstergeleri ve nicel göstergeler sağlar.

1. MOS

Bu makale, modeli bin cümleyle değerlendirmek için insan değerlendiricileri kullanıyor. Van den Oord ve diğerleri tarafından WaveNet ve Parallel WaveNet'te bildirilen puanlarla karşılaştırıldığında, her değerlendiricinin cümlenin öznel doğallığını 1-5 Likert ölçeği ile işaretlemesi gerekir.

2. Ses mesafesi

Görüntü oluşturma için iki ölçüm göstergesi olan Frechet Başlangıç Mesafesi (FID) ve Kernel Başlangıç Mesafesine (KID) dayalı olarak, bu makale, koşulsuz ve koşullu Frechet DeepSpeech mesafesi (FDSD ve cFDSD) dahil olmak üzere konuşma üretiminin kalitesini ölçmek için bir dizi gösterge önermektedir. Ve nükleer DeepSpeech mesafesi (KDSK, cKDSD).

5 deney

1. Veri seti

Bu makalede önerilen metinden sese modeli, dil özelliklerini ve ses perdesi bilgilerini içeren yüksek kaliteli insan konuşması üzerine eğitilmiştir. Dil özellikleri konuşmayı ve süreyi kodlarken perde bilgisi logaritmik temel frekansı kullanır

Veri seti, değişken uzunlukta konuşma dilimlerinden oluşan tek bir diziden oluşur. Telaffuz, standart Amerikan dilinde. Eğitim için dil özellikleriyle birleştirilmiş iki saniyelik zaman penceresi kullanılır. Toplam süre 44 saattir, örnek frekansı 24 kHz'dir ve hesaplamak için 5 milisaniye zaman penceresi kullanılır Dil özellikleri ve ton bilgileri. Bu, üretici ağın sinyali 120 kez örneklediği ve dil özelliklerini ve adım bilgisini orijinal konuşmaya nasıl dönüştürebileceğini öğrenmesi gerektiği anlamına gelir.

2. Deneysel ayarlar

Bu makaledeki modelin ana ayarları, çoklu kayan pencere ayırıcıları (RWD), koşullu ve koşulsuz ayarlamalar ve farklı alt örnekleme faktörleridir. Bu nedenle, deneysel bölümde bu makale, model seçiminin optimalliğini kanıtlamak için kontrol değişkenlerini kullanır. Özel ayarlar aşağıdaki gibidir:

Karşılaştırma ayarının deneysel kısmında, yukarıdaki değişiklikler haricinde, diğer tüm parametreler bu makaledeki model ile tutarlıdır.

3. Deneysel sonuçlar

Aşağıdaki tablo, bu modelin nicel değerlendirmesinin sonuçlarını göstermektedir:

Deneysel sonuçlar, bu makalede önerilen modelin etkisinin WaveNet ve Parallel WaveNet'ten daha kötü olmasına rağmen, yine de karşılaştırılabilir bir sayısal aralık içinde olduğunu göstermektedir. Ve bu makale, bu tür sorunları çözmek ve daha iyi performans sonuçları elde etmek için GAN'ı kullanan ilk kaşiftir. Eklenmesi gereken şey, WaveNet ve Parallel WaveNet eğitimi için kullanılan veri seti GAN-TTS'den daha büyük olduğu için, modellerin tamamen doğrudan karşılaştırılabilir olmamasıdır.

Değişkenleri kontrol ederek, bu makale birden fazla DWT kullanmanın önemini kanıtlamaktadır, çünkü tüm çoklu RWD modelleri tek bir cRWD'den daha iyi sonuçlar elde etmiştir.Aynı zamanda, koşulsuz RWD kullanan tüm modeller, olmayanlara göre daha iyi sonuçlara sahiptir. 10 diskriminatörlü modelle karşılaştırıldığında, sabit uzunlukta pencereli model önemli ölçüde daha kötü performans gösterdiğinden, farklı pencere boyutlarının bir kombinasyonunu kullanmanın daha fazla fayda sağlayacağı açıktır.

Son olarak, bu makale ayrıca MOS ile nicel değerlendirme göstergeleri arasındaki bariz korelasyonu gözlemler ve bu da bu göstergelerin sinirsel konuşma sentez modellerini değerlendirmek için çok uygun olduğunu kanıtlar.

4. Sonuçların tartışılması

(1) Rastgele pencere ayırıcı (RWD)

DWT'nin neden genel ayırt ediciden daha iyi olduğunu söylemek zor olsa da, bu makale nedeninin dağıtımın göreceli basitliğinde ve aynı dağılımın örneklemesinin çeşitliliğinde yattığını varsaymaktadır.

(2) Geçerliliğin hesaplanması

Paralel WaveNet ile karşılaştırıldığında, bu yazıda önerilen jeneratör daha büyük bir algısal alana sahipken FLOP'leri üç kat azaltır. Ve genel jeneratör yerine entegre RWD kullanıldığından, model eğitim sürecinde daha hızlı bir hız elde etti. Son olarak, ağ derinliği seviyesinde, bu modelin oluşturucusu, Parallel WaveNet'in yarısı olan 30 katmana sahiptir.

(3) Kararlılık

Bu makalede önerilen model eğitim sürecinde oldukça kararlıdır.Öğnel örnek kalitesi eğitim süreci ile kademeli olarak artar ve nicel değerlendirme göstergeleri de kademeli olarak azalır ve eğitim 1 milyon iterasyona ulaşana kadar GAN ile karşılaşılmaz. Model çöküyor.

6. Sonuç

Bu makale, GAN tabanlı orijinal metinden sese oluşturma modeli olan GAN-TTS'yi tanıtır. Önceki metinden konuşmaya modelinin aksine, GAN-TTS rakip eğitimdir ve jeneratör, nesli oluşturan ileri beslemeli evrişimli bir sinir ağıdır. Model çok verimli ve pratik uygulama senaryoları için faydalıdır. Kullanılan model mimarisi, farklı pencere boyutlarına sahip koşullu ve koşulsuz rastgele pencere ayırıcıları kullanır; bu, sentezlenmiş konuşmanın gerçekliğini ve giriş metni ile tutarlılığını yargılayabilir.

Deneysel bölümde, bu makale, modelin her bir parçasının nihai iyi sonuç için önemini kanıtlamak için kontrollü değişken yöntemini kullanır. Aynı zamanda, bu makale konuşma sentezinin (durum) Fre chet DeepSpeech Mesafesi ve (durum) Kernel DeepSpeech Mesafesinin etkisini ölçmek için nicel göstergeler önermekte ve bu göstergelerin deneydeki insan değerlendirme etkisiyle tutarlı olduğunu kanıtlamaktadır, çünkü bu göstergeler Açık kaynak DeepSpeech tanıma modeline dayalı olarak, tüm makine öğrenimi topluluğuna katkıda bulunabilir.

Son olarak, bu makalenin deneysel sonuçları, üretilen konuşma örnekleri için nicel değerlendirme göstergeleri ve öznel ölçüm göstergelerinin, metinden sese dönüştürme alanında GAN'ı kullanmanın uygulanabilirliğini kanıtladığını göstermektedir.

IJCAI'den uyarı! En iyi kulüpleri doldurmak gittikçe zorlaşıyor ve AI top kulüplerinin toplam işe alma oranı yıllardır düşüyor.
önceki
CVPR 2020 | MetaFuse: İnsan poz tahmini için önceden eğitilmiş bilgi füzyon modeli
Sonraki
ICLR 2020 | Pekin Üniversitesi Turing Sınıfı tam puan raporu: Hesaplama kısıtlamaları altında faydalı bilgilere dayalı bilgi teorisi
Tek bir çip tüm sesli etkileşimleri çözer, Baidu endüstriyi değiştiren teknolojik bir yenilik yaptı
ICLR 2020 | Deformable Kernels, deforme olabilen, yaratıcılıkla dolu bir evrişim çekirdeği
Today Paper | Dağıtık temsil; meta-öğrenmeye dayalı; ilçe düzeyinde veri seti; GPS-NET, vb.
Standart yok, işbirliği yok, üretim ilişkilerini değiştiren çok taraflı bir işbirliği | Federe Öğrenme IEEE Uluslararası Standardı yayımlanmak üzere
CVPR 20208 bitlik değerler de modelleri eğitebilir mi? SenseTime, eğitim hızlandırması için yeni bir algoritma öneriyor
Paper Today | Öz dikkat uyumu; otomatik değerlendirme; ilişki çıkarma görevleri; LSTM modelleri vb.
Hardcore! Kolombiya polisi, halkı evde kalmaya ikna etmek için tabutu taşıdı Netizen: Takım elbise nerede? Kravat nerede?
Hindistan'da bir pizza servis işçisi yeni koroner pnömoni teşhisi koydu ve 72 aileye yemek dağıttı
Avrupa'da 100.000'den fazla ölüm oldu ve Suudi Arabistan Dünya Sağlık Örgütü'ne 500 milyon ABD doları bağışladı Dr. Fauci virüsün kökenini söyledi ...
Zhao Yingming ve karısı yine! ateş! Gmp
Söyleyeyim: Bir boğa piyasası gelirse önce hangi sektör yükselecek ve en son hangi sektör yükselecek? Holdingleri anlayın
To Top