g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Tez yorumu: Uçtan uca konuşma tanıma ağının iki yeni keşfi

Lei Feng.com AI teknolojisi yorum notu: Konuşma tanıma teknolojisinin uzun bir geçmişi vardır. 1950'lerin başlarında Bell Araştırma Enstitüsü, on İngilizce rakamı tanıyan basit bir sistem geliştirdi. 1970'lerden beri, geleneksel istatistiksel tabanlı HMM akustik modeli ve N-tuple dil modelinin icadı, konuşma tanıma teknolojisinin küçük ölçekli bir kelime dağarcığında kullanılmasını sağlamıştır. Yeni yüzyılın başında, konuşma tanımanın doğruluğunu daha da iyileştirmek için GMM-HMM modelinin sıra ayırıcı eğitim yöntemi önerildi. Son 5-10 yılda derin öğrenmenin hızla gelişmesi, hesaplama gücünün hızlı büyümesi ve veri hacminin hızla artması ile derin öğrenme, konuşma tanıma alanına geniş ölçekte uygulanmaya başlamış ve atılımlar yapmıştır.Derin modeller temiz standartlara ulaşmayı başarmıştır. Monolog sesin yanlış kelime oranı% 5'ten az. Ek olarak, uçtan uca model, endüstrinin teknoloji araştırma ve uygulamasının ilerlemesini büyük ölçüde teşvik edecek ek fonem sözlükleri hazırlamaya gerek kalmadan çeşitli dilleri tek bir modelde kolayca birleştirebilir.

Derin öğrenmeyi kullanan ana akım konuşma tanıma modellerinde hala birçok grup var: Biri orijinal GMM parçasını, yani DNN-HMM benzeri modelleri değiştirmek için derin öğrenme modellerini kullanmak, diğeri ise uçtan uca derin öğrenmedir. model.

İlk model, derin sinir ağlarının ileri eğitiminden önce HMM yapısının ve konuşmanın hizalanmasını gerektirir. Ek olarak, bu tür bir modeli eğitirken, eğitim örneğinin ek açıklaması yalnızca orijinal metin değildir, aynı zamanda metnin ses birimi giriş eğitimine daha da ayrılması gerekir, bu da açıklama bölümünün çalışması için büyük bir zorluk yaratacaktır. . Kod çözerken, bu modelin de bu telaffuz sözlüğüne güvenmesi gerekir.

Uçtan uca model, konuşma girişini ve kod çözme tanımayı tek adımda doğrudan gerçekleştirmeyi amaçlamaktadır, böylece karmaşık hizalama çalışmasına ve telaffuz sözlüğü üretim çalışmasına gerek kalmaz ve çok fazla hazırlık süresinden tasarruf etme avantajına sahiptir ve veriler gerçekten kullanılabilir. .

Uçtan uca modelin bir başka avantajı, aynı çerçeve yapısının, tanıma dili sistemini değiştirirken doğrudan eğitim için kullanılabilmesidir. Örneğin, aynı ağ yapısı 26 karakter içeren bir İngilizce modeli ve 3000 yaygın olarak kullanılan Çince karakter içeren bir Çince modeli eğitebilir.Hatta bir hibrit modeli eğitmek için Çince ve İngilizce sözlükleri doğrudan birleştirmek bile mümkündür.

Ayrıca en önemli nokta uçtan uca modelin tahminlerde daha hızlı olmasıdır.Yaklaşık 10 saniyelik bir ses dosyası için uçtan uca model bir GPU sunucusunda yaklaşık 0,2 saniyede verilebilir. tahmin sonucu.

Mevcut konuşma tanıma sorunu aşağıdaki zorluklara sahiptir:

Doğal dilin tanınması ve anlaşılması;
Ses bilgisinin hacmi büyük. Ses modu sadece farklı konuşmacılar için değil aynı zamanda aynı konuşmacı için de farklıdır.Bir konuşmacının ses bilgisi, isteyerek konuşurken ve ciddi konuşurken farklıdır;
Konuşmanın belirsizliği. Konuşmacı konuşurken, farklı kelimeler kulağa benzer gelebilir;
Harflerin veya kelimelerin veya karakterlerin fonetik özellikleri, vurguyu, perdeyi, sesi ve telaffuz hızını değiştiren bağlamdan etkilenir.

Uçtan uca model, geleneksel fonem veya kelime kavramlarını tanıtmaz ve doğrudan sesten metne modelini eğitir, bu da yukarıda bahsedilen zorlukları etkili bir şekilde önleyebilir.

Yuncong Technology, uçtan uca konuşma tanıma ağına dayalı iki yöntemi araştırdı; biri orijinal CNN-RNN-CTC ağının iyileştirilmesine dayanıyor, diğeri ise CTC kaybı ve dikkat kaybının birleşimine dayalı bir ağ. Aşağıdaki, bu iki yöntemin ayrıntılı bir yorumudur.

ilk yöntem

Adres: https://arxiv.org/abs/1810.12001

Baidu tarafından önerilen Deep Speech 2 model çerçevesine dayanan yazar, üç iyileştirme önermektedir.

Birincisi, tekrarlayan sinir ağındaki uzun ve kısa vadeli bellek katmanını (LSTM) iki yönlü artık uzun ve kısa süreli bellek katmanına (resBiLSTM) dönüştürmektir. Bu eylem, önceki evrişimli sinir ağı tarafından çıkarılan ses birimi bilgisini daha iyi tutabilir ve her iki yönlü artığın uzun ve kısa vadeli bellek katmanlarını daha iyi birleştirebilir. Yinelenen sinir ağındaki her katman esas olarak cümlelerde anlamsal bilgilerin çıkarılmasından sorumludur, ancak anlamsal bilginin anlaşılması da fonem bilgisiyle yakından ilgilidir. Tekrarlayan sinir ağının derinleşmesiyle, orijinal alt katmanın evrişimli sinir ağının verdiği bilgiyi alması zorlaşır.Karmaşık uzun cümlelerde ses ve anlamsal bilginin kombinasyonu için, yeni önerilen artık ağ daha fazla olabilir. Bu sorunu iyi düzeltin.

İkinci nokta, kademeli bir eğitim yapısının tanıtılmasıdır, yani ikinci eğitim, birinci ağdaki kayıtsız (yanlış bölünmüş) örnekler üzerinde gerçekleştirilir. Deneyde, birinci katman ağ yapısındaki yanlış örneklerin, tüm örneklerin ortalama cümle uzunluğundan% 11 daha uzun olduğunu bulduk. Cümleler uzadıkça, güçlü gramer ve anlambilim içeren kelimeler birbirinden uzaklaşacak ve daha sığ, tekrarlayan bir sinir ağının bu bilgiyi yakalaması daha zor olacaktır. Yazar, bu farkı keşfettikten sonra, ikinci katmanın kademeli yapısında daha derin bir tekrarlayan sinir ağı (katmanlar 7 ila 13) kullandı, ancak aynı zamanda her katmandaki gizli düğümlerin sayısını (örnek boyutuna karşılık gelir) azalttı. Karmaşık modellerin aşırı oturma sorunlarını önlemek için azaltın). Aşağıdaki şekil, bu iki iyileştirmeden sonraki özel model diyagramıdır.

Son nokta, yazarın eğitim hızını artırmak için yeni bir eğitim yöntemi önermesidir. Derin öğrenmedeki modeller genellikle stokastik gradyan inişi kullanılarak eğitilir ve her seferinde yalnızca bir veri grubu (mini parti) eğitilir. Orijinal eğitim modu, parti boyutunu birinden diğerine sabitlemektir. Ancak konuşma tanıma gibi sorunlar için, girdi verileri değişken uzunluktadır ve bu, her gruptaki en uzun veri parçasının ve eğitim sırasında her bir partinin farklı olmasına neden olur. Eğitim sırasında bellek taşmasını önlemek için, sabit toplu yöntem veri setindeki en uzun sesi barındırmalıdır. Eğitim veri setimizde, en uzun ses, en kısa sesten yaklaşık 10 kat daha fazladır ve bu, kısa sesleri eğitirken hafıza kaybına neden olur. Yazar, tüm eğitim setlerini düşükten yükseğe doğru sıralamanın bir yolunu önerir. Sıralanan ses grubu her alındığında ve ardından grup boyutu, gruptaki en uzun ses segmentine göre gerçek zamanlı olarak ayarlanır, böylece bellek kullanımı geliştirilir ve Eğitim süresi yaklaşık% 25 düştü. LibriSpeech 960 saatlik eğitim veri setinde, 8 parça 1080Ti üzerindeki eğitim süresi% 25 azalma ile 24500 saniyeden yaklaşık 18400 saniyeye düşürüldü. Ayrıca, sıralama, veri seçiminin rasgeleliğini yitirdiği için bu yöntem etkisiz görünmemektedir.

Yazar, ön işlemedeki spektral özellikleri çıkarmak için hala geleneksel ve basit hızlı Fourier dönüşümünü (FFT) kullanıyor.Gelişmiş derin öğrenme ağını girin ve modelin metin çıktısının kodunu çözmek ve kodunu çözmek için istatistiksel tabanlı bir N-tuple dil modelini benimser. Düzelt. Bu iki yöntemi seçmenin nedeni, işlemenin basit olması ve karmaşık bir eğitim gerektirmemesidir. Yazar tarafından önerilen ses modeli, ses modelinin avantajlarını daha da kanıtlayan basit bir ön işleme mekanizmasıyla hala iyi sonuçlar elde edebilir. Son olarak, Librispeech konuşma tanıma veri setinde% 3,41'lik bir kelime hata oranı elde edildi.

Konuşma tanıma alanında, LibriSpeech, 960 saatlik eğitim seti verileri dahil olmak üzere konuşmayı okumak için temel veri kümesidir. Kelime Hata Oranı, konuşma tanıma teknolojisini ölçmek için önemli bir göstergedir. Tahmin edilen metin, üç kelime değiştirme, silme ve ekleme işlemiyle etiketli metin ile tamamen tutarlı olabilir.Gerekli işlem adımı sayısı cümledeki yanlış kelime sayısı ve yanlış kelime oranı = yanlış kelime sayısı / toplam kelime sayısıdır.

İkinci yöntem

Adres: https://arxiv.org/abs/1810.12020

Mevcut popüler uçtan-uca konuşma tanıma modelleri temel olarak şunları içerir: yalnızca CTC kod çözme işlemine dayanan modeller, yalnızca dikkat kod çözmeye dayanan modeller ve CTC ile kod çözme dikkatini bir araya getiren modeller. Saf CTC kod çözme, her çerçevenin çıktısını tahmin ederek konuşmayı tanır Algoritmanın gerçekleştirilmesi, her çerçevenin kod çözümünün birbirinden bağımsız kaldığı varsayımına dayanır, bu nedenle kod çözme işleminden önce ve sonra konuşma özellikleri arasındaki bağlantıdan yoksundur ve dil modelinin düzeltilmesine bağlıdır. Tamamen dikkat kod çözme işleminin, girdi konuşmasının çerçevelerinin sırası ile hiçbir ilgisi yoktur Her bir kod çözme birimi, önceki birimin kod çözme sonucu ve genel konuşma özellikleriyle mevcut sonucu üretir Kod çözme işlemi, konuşmanın monoton zamanlamasını göz ardı eder. İki yöntemin avantajlarını ve dezavantajlarını hesaba katmak için, yazar bir hibrit kod çözme çerçeve modeli kullanır. Ağ yapısı, evrişimli katmanın Kodlayıcı yapısı artı BiLSTM katmanıdır ve ardından sırasıyla Dikkat ve CTC'ye dayalı olarak Dekoder yapısına bağlanır ve iki kod çözücü birlikte tanıma sonuçlarını verir.

Karma modelin Kayıp hesaplaması, CTC-Kaybı ve Dikkat-Kaybının ağırlıklı toplamıdır. Yazar, deneylerde, karışık modelde CTC ağırlığı ne kadar düşükse, etkinin o kadar iyi olduğunu buldu. CTC-Loss'un ağırlığı azaldığında, genel ağın Dikkat kısmı tarafından elde edilen gradyan, ters gradyan hesaplanırken ana kısmı hesaba katacaktır.Sonuç, ağın, Dikkat kod çözme optimizasyonu yönünde parametreleri tercihli olarak ayarlaması ve son eğitim elde edilmiş olmasıdır. CTC kod çözme etkisi nispeten zayıftır. Yazar, bu noktayı göz önünde bulundurarak, CTC kod çözücü kısmına ayrı bir BiLSTM katmanı ekledi.Bu katman, Dikkat kısmı ile paylaşılmaz. Optimizasyon için yalnızca CTC-Kaybının ters gradyanına dayanır, böylece düşük CTC ağırlığının neden olduğu eksiklikleri giderir ve Dikkatini yapar Kod çözme etkisi optimal olduğunda CTC bölümünün etkisini mümkün olduğunca iyileştirin.

Bu makalede yazar, alt kelime tabanlı bir kodlama ve kod çözme yöntemi kullanmaktadır. Alt kelimeler, harfler ve kelimeler arasında bir temsil yöntemidir. İngilizce kelimelerde sıklıkla telaffuz edilmemiş harfler bulunduğundan, aynı harflerin farklı kelimelerdeki telaffuzu da çok farklıdır, bu da harf temelli kodlama ve kod çözme modellerine çok fazla sorun çıkarır ve bu da dil modellerine güvenmek zorundadır. Düzelt. Kelime tabanlı model sadece eğitime katılan önceden etiketlenmiş kelimelerin kodunu çözebilir, böylece OOV problemini hiç çözemez. Metni alt kelimelere göre ayırmak, yukarıdaki iki yöntemdeki sorunları aynı anda iyileştirebilir. Öte yandan, ağın alt kelimelerin kodunun çözülmesine daha iyi uyum sağlaması için yazar, yumuşatma-dikkat yöntemini kullanır:

Olağan dikkat yöntemi (bu makalede kullanılan Loc-Aware dahil) dikkat enerjisinin hesaplanmasında softmax'ı kullanacak, bu da dikkat puanlarının dağılımını daha keskin hale getirecek ve son olarak dikkatten elde edilen özellikler belirli bir çerçeve pozisyonunda yoğunlaşacaktır. Harf düzeyinde kod çözme ile karşılaştırıldığında, alt sözcükler nispeten daha geniş bağlam özellikleri gerektirir. Yazar, dikkat puanlarının dağılımını nispeten pürüzsüz hale getirmek için sigmoid'e dikkat ederek softmax'ı değiştirdi, böylece kod çözücünün her bir LSTM biriminin giriş özellikleri daha fazla konuşma bağlam özelliği bilgisi içeriyor.

Son olarak, yazar 14600 kitaba dayalı Librispeech açık dil modeli genişletme veri setini kullanarak iki katmanlı bir LSTM'yi bir dil modeli (LM) olarak eğitmiştir.Konuşma tanıma veri seti Librispeech üzerinde, yazar açık uçtan uca konuşma tanıma ağını elde etmiştir. En iyi sonuçlar. Şu anda, github'daki Espnet modeli, genişletilmiş dil modeli veri seti eğitimi LM'yi kullandıktan sonra, test-temizleme performansı WER =% 4.0'dır. Buna karşılık, yazarın yönteminin etkililiğinde% 16,5'lik bir artış var.