Özel Tek bir makalede konuşma tanıma (öğrenme kaynakları ile)

I.Giriş

27 Haziran'da, yetkili Amerikan teknoloji dergisi "MIT Technology Review" dünyanın en akıllı 50 şirketinin 2017 listesini açıkladı. IFLYTEK, Çin'de birinci, dünyada altıncı sırada yer almaktadır. HKBTÜ'nün iFLYTEK'inde dünyanın önde gelen şirketleri şunlardır: Nvidia, Spacex, Amazon, 23andme, Alphabet. "MIT Technology Review" 'a göre, "HKUST altındaki ses asistanı Siri'nin Çince versiyonudur ve taşınabilir gerçek zamanlı tercümanı, lehçelerin, argoların ve arka plan gürültüsünün üstesinden gelen ve doğru şekilde Çince yapabilen olağanüstü bir yapay zeka uygulamasıdır Yerel olarak bir düzineden fazla dile çevrildi. HKUST IFLYTEK, Çin'in konuşma teknolojisi pazarında% 70 pazar payına sahip. "Gittikçe daha fazla insan, konuşma tanımanın gelecek nesil etkileşimli devrimin anahtar teknolojisi olacağına inanıyor.

Aynı zamanda, günlük hayatta, sürüş sırasında haftalık bir günlük rutin oluşturmak ve başkalarının mesajlarına kısaca yanıt vermek gibi bazı özel durumlarda bazı küçük sorunları çözmemize yardımcı olması için Siri veya Cortana gibi sesli asistanları kullanmaya alışkınız. Ancak çoğu durumda ses asistanlarının kullanım oranı yüksek değil.Araştırma kuruluşu CreativeStrategies tarafından yapılan bir ankete göre Android kullanıcılarının% 62'si hiç ses asistanı kullanmamışken, bu sayı Apple kullanıcılarının% 70'i. Konuşma tanıma teknolojisi yeterince gelişmiş değil mi, yoksa insanların ses asistanlarına ihtiyacı yok mu? Amazon Echo'nun başarısı bana biraz ilham verebilir.

Amazon Echo, Amazon tarafından Kasım 2014'te piyasaya sürülen bir ev ses asistanıdır. Alışveriş, akıllı evi kontrol etme, Kindle okuma, Uber rezervasyonu, izleme (Amazon) ekspres teslimat, pizza sipariş etme, zamanlama, aritmetik, müzik çalma ve bulmayı gerçekleştirebilir. Cep telefonları, yağmur seslerini taklit etme gibi pek çok fonksiyon piyasaya sürüldükleri anda piyasanın coşkusunu ateşledi.Yabancı araştırma kurumlarının istatistiklerine göre 2015 yılında Echo'nun satışları yaklaşık 1,7 milyon adet iken 2016'da 6,5 milyon adedi aştı. 2017 yılı itibarıyla Ocak ayında Amazon Echo'nun küresel satışları 7 milyon adedi aştı ve bu yıl 11 milyon adedi aşması bekleniyor. EMarketer tarafından hazırlanan bir rapora göre, ABD akıllı hoparlör pazarında Amazon Echo, pazar payının% 70'inden fazlasını işgal ediyor.

Aynı zamanda bir ses asistanıdır.Echo ve Siri'nin durumu neden bu kadar farklı? Bazı araştırmacılar, bunun esas olarak iki ürünün farklı kullanım ortamlarından kaynaklandığına inanıyor. Çoğu insan için, cep telefonlarını halka açık yerlerde çıkarmak ve bir robotla konuşmak yalnızca mahremiyetten yoksun olmakla kalmaz, aynı zamanda biraz rahatsızlık da hisseder.Ailede, aile ve arkadaşlarla yüz yüze gelmek, bu etkili bir şekilde önlenebilir ve aynı zamanda sessiz bir ortam Makine tanımanın hızını ve doğruluğunu etkili bir şekilde artırabilir.Amazon Echo'nun pazara doğru bir şekilde girdiği düşünülebilir. Ancak, diğer devler uzlaşmak istemedikten sonra, kendi ev akıllı ses asistanlarını başlattılar: Apple, Home pod'u başlattı ve Google da google home'u başlattı. Görünüşe göre bir sesli savaş yaklaşmak üzere.

İkincisi, konuşma tanımanın temel ilkeleri

Sözde konuşma tanıma, bir konuşma sinyalini karşılık gelen metin bilgisine dönüştürmektir.Sistem esas olarak dört bölümden oluşur: özellik çıkarma, akustik model, dil modeli, sözlük ve kod çözme.Özellikleri daha etkin bir şekilde çıkarmak için, genellikle Orijinal sinyalden analiz edilecek sinyali çıkarmak için ses sinyalinin filtrelenmesi ve çerçevelenmesi gibi ön işleme çalışmalarını gerçekleştirin; bundan sonra, özellik çıkarma çalışması, akustik model için uygun bir özellik vektörü sağlamak üzere zaman alanından ses sinyalini frekans alanına dönüştürür; Akustik modelde, akustik özellik üzerindeki her bir özellik vektörünün puanı, akustik özelliklere göre hesaplanır; dil modeli, ses sinyalinin olası cümle dizisine karşılık gelme olasılığını hesaplamak için dilbilimle ilgili teorilere dayanır; son olarak, mevcut sözlüğe göre, ifade Olası nihai metin temsilini elde etmek için dizinin kodu çözülür.

1. Akustik sinyal ön işleme

Konuşma tanımanın öncülü ve temeli olarak, konuşma sinyallerinin ön işleme süreci çok önemlidir. Nihai şablon eşleştirmesinde, giriş konuşma sinyalinin karakteristik parametreleri şablon kitaplığındaki karakteristik parametreler ile karşılaştırılır Bu nedenle, ön işleme aşamasında sadece konuşma sinyalinin temel özelliklerini karakterize edebilen karakteristik parametreler elde edilebilir. Yüksek tanıma oranıyla konuşma tanıma için eşleştirme yapın.

Öncelikle ses sinyalinin filtrelenmesi ve örneklenmesi gerekir. Bu işlem esas olarak sinyallerin insan sesi ve 50Hz akım frekansı dışındaki frekanslarla parazitlenmesini ortadan kaldırmak içindir. Bu işlem genellikle bir bant geçiren filtre kullanır ve filtreleme için üst ve alt zil frekanslarını ayarlar ve ardından Orijinal ayrık sinyal nicelleştirilir ve işlenir; bundan sonra, sinyalin yüksek frekanslı ve düşük frekanslı kısımlarının bağlantı bölümünün yumuşatılması gerekir, böylece spektrum aynı sinyal-gürültü oranı koşulu altında çözülebilir ve analizi daha rahat ve hızlı hale getirir; çerçeveli ve pencereli İşlem, zaman sinyali ile orijinal frekans alanının değişikliğinin kısa vadeli kararlılık özelliklerine sahip olmasını sağlamaktır, yani, sürekli sinyal, kolay analiz için farklı uzunluklarda edinim pencerelerine sahip bağımsız frekans etki alanında kararlı parçalara bölünür.Bu süreç, esas olarak ön vurguyu kullanır. Teknoloji; Son olarak, uç nokta tespitine, yani giriş ses sinyalinin başlangıç ve bitiş noktalarının doğru yargılanmasına ihtiyaç vardır.Bu esas olarak kısa vadeli enerji (aynı çerçevedeki sinyal değişiminin genliği) ve kısa vadeli ortalama sıfır geçiş oranı (aynı çerçevede) aracılığıyla olur. Örneklenen sinyalin sıfırdan geçme sayısı) kaba bir karar vermek için kullanılır Ayrıntılar için lütfen makalenin sonundaki [Referanslar] bölümüne bakın.

2. Akustik özellik çıkarma

Sinyal ön işlemesi tamamlandıktan sonra, tüm süreçteki en kritik özellik çıkarma işlemi takip eder. Orijinal dalga formunun tanınması, iyi tanıma sonuçları elde edemez. Frekans alanı dönüşümünden sonra çıkarılan özellik parametreleri tanıma için kullanılır ve konuşma tanıma için kullanılabilen özellik parametreleri aşağıdaki noktaları karşılamalıdır:

  • Özellik parametreleri, konuşmanın temel özelliklerini olabildiğince açıklayabilir;

  • Parametre bileşenleri arasındaki bağlantıyı azaltmaya ve verileri sıkıştırmaya çalışın;

  • Özellik parametrelerini hesaplama süreci daha kolay ve algoritma daha verimli hale getirilmelidir. Perde periyodu ve biçimlendirme tepe noktası gibi parametreler, konuşma karakteristiklerini karakterize etmek için karakteristik parametreler olarak kullanılabilir.

Şu anda, ana araştırma kurumlarının en sık kullanılan karakteristik parametreleri şunlardır: Doğrusal Tahmin Cepstral Katsayısı (LPCC) ve Mel Cepstral Katsayısı (MFCC). İki karakteristik parametre, cepstrum alanındaki konuşma sinyali üzerinde çalışır, ilki, konuşma modelini başlangıç noktası olarak alır ve cepstrum katsayılarını bulmak için LPC teknolojisini kullanır. İkincisi, işitsel modeli simüle eder, konuşmanın çıktısını akustik özellik olarak filtre bankası modelinden alır ve daha sonra dönüşüm için ayrık Fourier dönüşümünü (DFT) kullanır.

Sözde perde periyodu, vokal kord titreşim frekansının (temel frekans) titreşim periyodunu ifade eder.Konuşma sinyallerinin özelliklerini etkili bir şekilde karakterize edebildiği için, perde periyodu tespiti, ilk konuşma tanıma araştırmasından çok önemli bir araştırma noktasıdır; sözde biçimlendirme , Enerjinin konuşma sinyalinde yoğunlaştığı alanı ifade eder, çünkü ses yolunun fiziksel özelliklerini karakterize eder ve telaffuz ses kalitesinin ana belirleyici koşulu olduğu için aynı zamanda çok önemli bir özellik parametresidir. İki ve mevcut ana özellik parametreleri LPCC, MFCC ve diğer ayrıntılı yöntemlerin ayrıntılı ayıklama yöntemleri burada tekrarlanmamaktadır ve [Referans] makalesinin sonuna bakabilirsiniz. Buna ek olarak, birçok araştırmacı, çıkarımı öne çıkarmak için bazı derin öğrenme yöntemlerini uygulamaya başlamış ve hızlı ilerleme kaydetmiştir.Bu kısım, Bölüm 3'te daha ayrıntılı olarak tanıtılacaktır.

3. Akustik model

Akustik model, konuşma tanıma sisteminde çok önemli bir bileşendir.Farklı temel birimleri ayırt etme yeteneği, tanıma sonucunun kalitesiyle doğrudan ilgilidir. Konuşma tanıma, esasen bir örüntü tanıma sürecidir ve örüntü tanımanın özü, sınıflandırıcılar ve sınıflandırma kararlarının sorunudur.

Genel olarak, izole edilmiş kelimelerin ve küçük ve orta kelimelerin tanınmasında dinamik zaman atlama (DTW) sınıflandırıcılarının kullanılması iyi bir tanıma etkisine sahip olacaktır ve tanıma hızı hızlıdır, sistem yükü küçüktür ve konuşma tanımada çok başarılı bir eşleştirme algoritmasıdır. Bununla birlikte, geniş kelime haznesi ve spesifik olmayan konuşma tanıma durumunda, DTW tanıma etkisi keskin bir şekilde düşecektir.Şu anda, eğitim ve tanıma etkisi için Gizli Markov Modelinin (HMM) kullanımı, geleneksel konuşma tanımada önemli ölçüde iyileştirilecektir. Genel olarak, sürekli Gauss karışım modeli GMM, durum çıktı yoğunluğu işlevini tanımlamak için kullanılır, bu nedenle GMM-HMM çerçevesi olarak da adlandırılır.

Aynı zamanda, derin öğrenmenin gelişmesiyle birlikte, akustik modelleme derin sinir ağları aracılığıyla tamamlanmış, geleneksel GMM-HMM çerçevesinin yerini alacak sözde DNN-HMM çerçevesini oluşturmuş ve konuşma tanımada da iyi sonuçlar elde etmiştir. Bölüm 3'te sunulan bu bölüm ilk olarak Gauss Karışım Modeli-Gizli Markov Modeli'nin (GMM-HMM) temel teorisini tanıtmaktadır.

3.1 Gauss karışım modeli

Rastgele bir x vektörü için, ortak olasılık yoğunluk fonksiyonu formül 2-9'a uyuyorsa, Gauss dağılımına uyduğu söylenir ve x N (µ, ) olarak gösterilir.

Bunlar arasında µ dağılımın beklentisidir ve dağılımın kovaryans matrisidir. Gauss dağılımı, gerçek dünya verilerine yaklaşma konusunda güçlü bir yeteneğe sahiptir ve hesaplanması kolaydır, bu nedenle çeşitli disiplinlerde yaygın olarak kullanılmaktadır. Bununla birlikte, bir Gauss dağılımı tarafından iyi tanımlanmayan birçok veri türü vardır. Şu anda, bu verileri açıklamak için birden çok Gauss dağılımının bir karışımını kullanabiliriz ve birden çok bileşen, farklı potansiyel veri kaynaklarından sorumludur. Şu anda, rastgele değişken yoğunluk işlevine uygundur.

Bunlar arasında, M, genellikle problem boyutuna göre belirlenen bileşen sayısıdır.

Verilerin Gauss karışım dağılımına uyduğunu düşünen modeli Gauss karışım modeli olarak adlandırıyoruz. Gauss karışım modeli, konuşma tanıma sistemlerinin birçok akustik modelinde yaygın olarak kullanılmaktadır. Konuşma tanımada vektör boyutunun nispeten büyük olduğu göz önüne alındığında, genellikle Gauss karışım dağılımındaki kovaryans matrisinin m diyagonal bir matris olduğunu varsayıyoruz. Bu sadece parametre sayısını büyük ölçüde azaltmakla kalmaz, aynı zamanda hesaplamanın verimliliğini de artırır.

Kısa vadeli özellik vektörlerini modellemek için Gauss karışım modelini kullanmak aşağıdaki avantajlara sahiptir: Birincisi, Gauss karışım modeli güçlü modelleme yeteneklerine sahiptir.Toplam bileşen sayısı yeterli olduğu sürece, Gauss karışım modeli bir olasılık dağılımına keyfi doğrulukla yaklaşabilir Fonksiyon; Ayrıca EM algoritmasının kullanılması, modelin eğitim verileri üzerinde kolayca yakınlaşmasını sağlayabilir. Hesaplama hızı ve aşırı uyum gibi sorunlar için, insanlar bunları çözmek için parametreye bağlı GMM ve alt uzay Gauss karışım modeli (alt uzay GMM) geliştirdiler. Maksimum olasılık tahmini için EM algoritmasını kullanmanın yanı sıra, sistem performansını büyük ölçüde artırabilen Gauss karışım modelini eğitmek için doğrudan kelime veya fonem hata oranıyla ilgili ayrımcı hata fonksiyonunu da kullanabiliriz. Bu nedenle, akustik modellerde derin sinir ağlarını kullanma teknolojisinin ortaya çıkmasına kadar, Gauss karışımı modeli, kısa vadeli özellik vektör modellemesi için en iyi seçim olmuştur.

Bununla birlikte, Gauss karışım modelinin de ciddi bir kusuru vardır: Gauss karışım modeli, vektör uzayına yakın doğrusal olmayan bir manifold üzerindeki verileri modellemede çok zayıftır. Örneğin, bazı verilerin bir kürenin her iki tarafına da dağıldığını ve küreye çok yakın olduğunu varsayalım. Uygun bir sınıflandırma modeli kullanılırsa, kürenin her iki tarafındaki verileri yalnızca birkaç parametre ile ayırt edebiliriz. Bununla birlikte, gerçek dağılımlarını tanımlamak için Gauss karışım modelini kullanırsak, bunları doğru bir şekilde tanımlamak için birçok Gauss dağıtım bileşenine ihtiyacımız var. Bu da bizi sınıflandırma için ses bilgisini daha etkili bir şekilde kullanabilen bir model bulmaya yönlendiriyor.

3.2 Gizli Markov Modeli

Şimdi ayrık bir rasgele diziyi ele alıyoruz: Eğer geçiş olasılığı Markov özelliğine uyuyorsa ve gelecek durum geçmiş durumdan bağımsızsa, buna Markov Zinciri denir. Geçiş olasılığının zamanla ilgisi yoksa, homojen Markov zinciri olarak adlandırılır. Markov zincirinin çıktısı önceden tanımlanmış duruma bire bir karşılık gelir Herhangi bir durum için, çıktı rasgele olmadan gözlemlenebilir. Çıkışı genişletirsek, Markov zincirinin her bir durumunun çıktısı bir olasılık dağılım fonksiyonudur. Bu durumda, Markov zincirinin durumu doğrudan gözlemlenemez ve yalnızca durum değişikliklerinden etkilenen olasılık dağılımına uyan diğer değişkenler tarafından çıkarılabilir. Verileri gizli Markov modelleri olarak modellemek için gizli Markov dizisi varsayımlarını kullanan bu modele diyoruz.

Konuşma tanıma sistemine karşılık olarak, özellik dizisi ve çoklu temel konuşma birimleri arasındaki yazışma sorununu çözmek için bir fonemin dahili alt durum değişikliklerini tanımlamak için gizli Markov modelini kullanıyoruz.

Gizli Markov modellerinin konuşma tanıma görevlerinde kullanılması, modelin bir konuşma bölümü üzerindeki olasılığının hesaplanmasını gerektirir. Eğitim sırasında, gizli Markov model parametrelerini öğrenmek ve Maksimum Olabilirlik Tahmini (MLE) gerçekleştirmek için Baum-Welch algoritmasını kullanmamız gerekir. Baum-Welch algoritması, EM (Beklenti-Maksimizasyon) algoritmasının özel bir durumudur.Koşullu beklentiyi hesaplamanın E adımını ve koşullu beklentiyi maksimize etme adımını yinelemeli olarak gerçekleştirmek için önceki ve sonraki terimlerin olasılık bilgilerini kullanır.

4. Dil Modeli

Dil modeli temel olarak insan dili ifadesinin yollarını ve alışkanlıklarını tanımlar ve sözcükler ile bunların düzenleme yapıları arasındaki içsel bağlantıyı açıklamaya odaklanır. Konuşma tanıma ve kod çözme sürecinde, ifade sözlüğü sözcükler içinde aktarılır ve referans dil modeli sözcükler arasında aktarılır İyi bir dil modeli, yalnızca kod çözme verimliliğini artırmakla kalmaz, aynı zamanda tanıma oranını da belirli bir ölçüde iyileştirir. Dil modelleri iki türe ayrılır: kural modelleri ve istatistiksel modeller.İstatistiksel dil modelleri, dil birimlerinin içsel istatistiksel yasalarını tanımlamak için olasılık ve istatistik yöntemlerini kullanır. Tasarımı basit ve pratiktir ve iyi sonuçlar elde etmiştir. Konuşma tanıma ve makinede yaygın olarak kullanılmaktadır. Çeviri, duygu tanıma ve diğer alanlar.

En basit ve en yaygın kullanılan dil modeli N-gram Dil Modelidir (N-gram LM). N-gram dil modeli, mevcut sözcüğün olasılığının verilen bağlamdaki yalnızca ilk N-1 sözcüklerle ilişkili olduğunu varsayar. Daha sonra w1, ..., Wm kelime dizisinin P (w1, ..., Wm) olasılığı şu şekilde tahmin edilebilir:

Yukarıda verilen formüldeki her kelimenin olasılığını elde etmek için, tahmin etmek için belirli bir dil metnine ihtiyacımız var. Olasılık, yukarıdaki tüm kelime çiftlerinde yukarıdakileri içeren kelime çiftlerinin oranı kullanılarak doğrudan hesaplanabilir, yani

Metinde görünmeyen kelime çiftleri için, bunları yaklaşık olarak tahmin etmek için Good-Turing tahmini veya Kneser-Ney düzgünleştirme gibi yumuşatma yöntemlerini kullanmamız gerekir.

5. Kod Çözme ve Sözlük

Kod çözücü, tanıma aşamasının temel bileşenidir En olası kelime dizisini elde etmek için eğitilmiş model aracılığıyla konuşmanın kodunu çözer veya sonraki bileşen işleme için ara tanıma sonucuna dayalı bir tanıma kafesi oluşturur. Kod çözücü kısmının temel algoritması dinamik programlama algoritması Viterbi'dir. Büyük kod çözme alanı nedeniyle, pratik uygulamalarda genellikle arama genişliğini sınırlayan belirteç geçirme yöntemlerini kullanırız.

Geleneksel kod çözücüler, ünlü konuşma tanıma aracı HTK'da (HMM Araç Kiti) dinamik olarak HVite ve HDecode gibi kod çözme grafikleri oluşturur. Bu uygulama küçük bir bellek ayak izine sahiptir, ancak her bileşenin karmaşıklığı düşünüldüğünde, tüm sistemin süreci zahmetlidir, dil modeli ile akustik modeli birleştirmek zahmetli ve verimlidir ve genişletilmesi daha zordur. Mevcut ana akım kod çözücü uygulamaları, önceden yüklenmiş bir Sonlu Durum Dönüştürücüsünü (FST) belirli bir dereceye kadar önceden yüklenmiş statik kod çözme görüntüsü olarak kullanacaktır. Burada standart sonlu durum transformatörleri olarak dil modelinin (G), kelime haznesinin (L), bağlamla ilgili bilgilerin (C) ve gizli Markov modelinin (H) dört bölümünü oluşturabilir ve ardından standart sonlu durumu geçebiliriz. Dönüştürücü işlemi, içeriğe duyarlı ses biriminden sözcüğe bir dönüştürücü oluşturmak için bunları birleştirir. Bu uygulama yöntemi bir miktar ek bellek alanı kullanır, ancak kod çözücünün talimat dizisini daha düzenli hale getirerek verimli bir kod çözücünün yapımını kolaylaştırır. Aynı zamanda, önceden oluşturulmuş sonlu durum dönüştürücüyü önceden optimize edebilir, gereksiz parçaları birleştirebilir ve keserek arama alanını daha makul hale getirebiliriz.

özet:

Geçmişte, en popüler konuşma tanıma sistemleri, özellik vektörleri olarak genellikle Mel cepstrum katsayıları MFCC veya göreli spektral dönüşüm-algısal doğrusal tahmin RASTA-PLP ve akustik model olarak Gauss karışım modeli-gizli Markov modeli GMM-HMM kullanıyordu. Bu modelleri eğitmek için maksimum olasılık kriterleri, makine öğrenimi ve beklenti maksimizasyonu algoritmalarını kullanın.

Üçüncüsü, konuşma tanımanın sınırı

1980'lerin başlarında, araştırmacılar sinir ağlarını dil tanımada sınıflandırıcı olarak kullandılar. Ancak o sırada makinenin hesaplama gücü, konuşma verilerinin kıtlığı ve temel konuşma birim modellemesinin seçimi ile sınırlı olan sinir ağı sınıflandırıcısı, daha sonra konuşma tanıma sisteminde ana akım haline gelmedi ve etkisi Gauss karışım modelini kullanmak kadar iyi değil. . Bununla birlikte, insanlar yeni yüzyılda sinir ağlarını yeniden anladıkça, derin öğrenme dalgası konuşma dünyasını bir kez daha süpürdü ve insanlar konuşma tanımada derin sinir ağlarının uygulanması üzerine araştırmalara yöneldi. Derin sinir ağı modeli, ayırt edici bir modeldir.Farklı temel birimleri ayırt etme görevi için, Gauss karışım modeli nispeten daha az parametre gerektirir ve tam dağılımı tanımlaması gereken üretici modelden elde edilmesi daha kolaydır. İyi sonuçlar.

Derin öğrenmenin popülaritesi ile yapay sinir ağı YSA, evrişimli sinir ağı CNN ve önemli geri yayılım BP gibi önemli kavramlar yaygın olarak biliniyor, bu yüzden burada tekrar etmeyeceğim.

1. Derin öğrenme ve akustik özellik çıkarma

Geleneksel HMM-GMM sistemlerinde sinir ağlarını uygulamanın en kolay yollarından biri, özellik öğrenimi için sinir ağlarını kullanmaktır. Böyle bir yöntemin mevcut konuşma tanıma çerçevesini değiştirmesine gerek yoktur ve büyük değişiklikler olmaksızın sistemin performansını iyileştirebilir.

Geleneksel konuşma özelliği çıkarma algoritmalarıyla (MFCC veya PLP gibi) çıkarılan özellikler, yalnızca etkili konuşma bilgilerini iyi bir şekilde kapsayamayan ve aynı zamanda gürültü kirliliğine duyarlı olan tek bir çerçeve sinyali üzerinde çalışır. Konuşma özelliği öğrenme ve konuşma tanıma için bu amaç, orijinal spektrum özelliklerinin kullanımı veya dalga formu özelliklerinin kullanımı olarak özetlenebilir. Son 30 yılda, konuşma spektrumunun dönüşümü orijinal konuşma verilerinin bir kısmını kaybetmiş olsa da, çeşitli "el yapımı" özellikler GMM-HMM sisteminin tanıma oranında büyük bir artışı teşvik etti. En başarılı olanlardan biri, MFCC özelliklerinin oluşturulmasını teşvik eden uyarlanabilir olmayan kosinüs dönüşümüdür. Kosinüs dönüşümü, köşegen kovaryans matrisi kullanan GMM için çok önemli olan özellik bileşenleri arasındaki korelasyonu yaklaşık olarak kaldırır. Bununla birlikte, derin öğrenme modeli GMM modelinin yerini aldığında, özellikler arasındaki korelasyonu kaldırmak alakasız hale gelir.

Özellik çıkarma için DNN kullanımında, iki ortak fikir vardır: ilki, bottlenec (BN) özelliğidir. Darboğaz şeklinde bir sinir ağı kurmamız gerekiyor, yani gizli katmanlardan birinin diğer gizli katmanlardan nispeten daha küçük bir boyutu var. Daha sonra, ağı denetimsiz olarak eğitmek için bir otomatik kodlayıcı kullanabilir veya ağın çıkış hedefini bir durum posterior olasılık haline getirebilir ve BP algoritması aracılığıyla denetimli eğitim gerçekleştirebiliriz. Eğitim tamamlandıktan sonra, darboğazın arkasındaki ağ yapısını silin ve bu sırada ağın çıktısını bir özellik olarak alın. Bu şekilde elde edilen BN özelliği, doğrusal olmayan bir özellik dönüşümü ve boyut azaltma teknolojisi olarak kabul edilebilir. HMM-GMM akustik modelini oluştururken, genellikle BN özelliklerini ve MFCC gibi geleneksel kısa vadeli özellikleri bir araya getiririz ve bunları öğrenme için HMM-GMM modelinin girdisi olarak birlikte kullanırız. Çalışmada, geleneksel BN özelliklerinde sıklıkla kullanılan sığ ağın yerini almak için önceden eğitilmiş bir derin sinir ağı kullanıldı ve ayrımcı eğitim yöntemi, sistemin performansını büyük ölçüde artırdı. Diğer bir özellik öğrenme yöntemi, tandem özellikleri kullanmaktır. Çalışmada, seri özellik önce fonemin posterior olasılığını tahmin etmek için sinir ağı sınıflandırıcısını kullanıyor ve ardından ağdan gelen vektör çıkışı, HMM-GMM sisteminin giriş özelliği olarak PCA tarafından ortogonalleştiriliyor. Böyle bir seri yöntemi, sinir ağı karma modelinin ve standart GMM modelinin doğrudan kullanımından daha iyidir. Sivadas ve diğerleri, seri özelliğinde hiyerarşik bir yapı kullanarak, orijinal tek sinir ağını farklı işlevlere sahip olacak şekilde eğitilmiş ve hiyerarşik olarak organize edilmiş birden çok sinir ağıyla değiştirdiler. Bu yöntem, orijinal tek sinir ağından daha az parametre ölçeğine, daha kısa eğitim süresine ve daha iyi performansa sahiptir.

2. Derin öğrenme ve akustik modelleme

Derin sinir ağlarının konuşma tanımadaki rolü adım adım araştırıldıkça, HMM-DNN hibrit modelini doğrudan kullanmak daha iyi bir seçimdir. HMM-DNN hibrit modelinde, farklı durumlarda kullanılan birden fazla GMM modelini derin bir sinir ağıyla değiştiriyoruz. Derin bir sinir ağını eğitmemiz gerekiyor Eğitimin amacı, her HMM durumundaki giriş konuşma çerçevesinin arka olasılığını, yani P (qt = s | xt) tahmin etmektir. Farklı durumlardaki son olasılıkları doğru bir şekilde tahmin etmek için, genellikle ağ eğitiminin hedefi olarak mevcut HMM-GMM modeli ve ek açıklamalar aracılığıyla eğitim gövdesinin kuvvet hizalama bilgilerini oluşturmamız gerekir. Zorunlu hizalama bilgilerinin kalitesi, eğitimli HMM-DNN hibrit model sisteminin performansını da büyük ölçüde etkiler.Çalışmada, insanlar, hizalama bilgisi oluşturmak için yeni eğitilmiş HMM-DNN hibrit modelini yinelemeli olarak kullanarak HMM-DNN hibrit modelini yeniden eğitiyor. Yöntem, sistemin performansını daha da artırır. Ek olarak, ağın bitişik bilgileri kullanma yeteneğini geliştirmek için genellikle sinir ağının girdisi olarak birden çok bitişik çerçevenin bileşik özelliklerini kullanırız.

3. Gelecekteki araştırma yönergeleri

Şu anda, gizli Markov modeliyle birlikte derin öğrenmeyi kullanan konuşma tanıma sistemi, iyi tanıma sonuçları elde etti.Örneğin, Baidu Deep Speech 2'nin ifade tanımanın kelime hata oranı% 3,7'ye düştü ve Microsoft İngilizce konuşma tanımanın kelime hata oranı 5,9'a ulaştı. % ve ticari uygulamalara yükseltildi, ancak mevcut akıllı konuşma tanıma hala iyileştirme için hatırı sayılır bir alana sahip.

Machine Heart'ın ev sahipliği yaptığı ilk Küresel Makine Zekası Zirvesi'nde (GMIS 2017), Tencent AI Lab müdür yardımcısı ve Seattle Yapay Zeka Araştırma Ofisi başkanı Yu Dong, "Konuşma Tanıma Alanında Sınır Araştırması" konulu bir konuşma yaptı. Konuşma tanıma alanında en son 4 sorunu paylaştı:

Araştırma yönü 1: Daha etkili diziden diziye dönüşüm modeli

Konuşma tanıma aslında bir dizi konuşma sinyalini bir dizi kelimeye veya kelimeye dönüştürür, bu nedenle birçok kişi bu sorunu çözmek için etkili bir dizi-sıra dönüşüm modeli bulmanın yeterli olduğunu düşünür.

Önceki araştırmaların çoğu, problemle ilgili varsayımlarda bulunmaya ve ardından konuşma sinyali dizisinden kelime dizisine kadar bir dizi bileşen oluşturmaya ve konuşma sinyali dizisini yavaş yavaş bir kelime dizisine dönüştürmeye dayanmaktadır. Kısa vadeli durağan varsayım ve koşullu bağımsızlık varsayımı gibi bu varsayımların çoğu, belirli durumlarda mantıklıdır, ancak birçok gerçek durumda sorunludur. Sıradan diziye doğrudan dönüşüm modelinin arkasındaki fikir, sorunlu varsayımlara göre tasarlanan bu bileşenleri kaldırırsak ve daha sonra bunları eğitim verilerinden öğrenilen dönüşüm modeliyle değiştirirsek daha iyi bir yol bulmamızın mümkün olmasıdır. Sekans dönüşümünü daha doğru hale getirin. Bunun bir başka avantajı da tüm eğitim sürecinin basitleştirilebilmesidir.

Araştırma yönü 2: Kokteyl partisi sorunu

Sessiz bir ortamda ses tanıma sistemi insan seviyesine yaklaştı. Aynı zamanda birçok pratik uygulama da vardır, ancak mevcut konuşma tanıma sisteminin güçlü gürültü paraziti altında pratik gereksinimleri karşılaması hala zordur. İnsan işitme sistemi için bir "kokteyl partisi etkisi" vardır. Arka plan gürültüsünün müdahalesi altında bir kişinin konuşmasına odaklanabiliriz. İnsan işitme sisteminin bu işlevi şu anda konuşma tanıma sistemidir. Yine de başarılması zordur. Bu sorun, uzak alan mikrofonu kullanıldığında daha açık olacaktır. Olası bir yöntem, tanıma efektini iyileştirmek için birden çok konumdan ve açıdan ses sinyallerini yakalamak için bir mikrofon dizisi kullanmaktır, ancak bu, en önemlisi olmayabilir. Mükemmel çözüm, gelecekte beyin üzerinde daha fazla araştırma yaparak bize ilham verebilir.

Araştırma yönü 3: Sürekli tahmin ve uyarlama modeli

Konuşma tanıma alanında sürekli bir tahmin sistemi kurabilir miyiz? Bu şekilde, mevcut tanıma sonuçlarına dayalı olarak bir sonraki tanımayı sürekli olarak iyileştirebiliriz Şu anda, konuşma tanımada, genellikle tanıma için konuşma ve metin arasında sadece basit bir eşleşmedir. Dildeki belirli bilgiler arasındaki bağlantı hala kullanılmaktadır. Çok yetersiz, bu nedenle daha iyi bir model oluşturulabilirse, tanımlamaya devam edebilir. İhtiyaç duyduğu özellikler nelerdir? Birincisi, Adaptasyonu çok hızlı bir şekilde yapabilir, böylece bir dahaki sefere tanıma yaptığımızda, modeldeki benzer bilgileri daha iyi bir şekilde sıkıştırmanın bir yolunu buluruz, böylece bir dahaki sefere hızlıca tanıma yapabiliriz.

Araştırma yönü 4: ön uç ve arka uç eklem optimizasyonu

Geleneksel olarak, ön uç sinyal işleme teknolojisi genellikle sadece mevcut durumda sesin sinyal bilgisini kullanır. Makine öğrenimi yöntemi, birçok eğiticide öğrenilen bilgileri kullanır, ancak mevcut çerçevenin bilgilerini nadiren kullanır. Veri modellemesi gerçekleştirmez, bu nedenle bu iki yöntemi daha iyi entegre etmenin bir yolu var mı? Bu, birçok araştırma kuruluşunun şu anda üzerinde çalıştığı bir yöndür.

Ek olarak, ön uç sinyal işlemeyi ve arka uç konuşma tanıma motorunu daha iyi optimize etmenin bir yolu var mı? Çünkü ön uç sinyal işleme bilgileri kaybedebilir ve arka uçta kurtarılamaz. Öyleyse, bu bilginin sinyal işlemesini daha iyi dağıtabilecek otomatik bir sistem kurmanın herhangi bir yolu var mı, böylece ön uç daha az bilgi kaybedebilir, böylece bilgi arka uçta daha iyi kullanılabilir.

Dört, kaynak önerisi

Kaynak İstasyonu

Konuşma tanımayı seviyorum. Kitaplar, kurslar ve iletişim forumları gibi çeşitli kaynaklar var.

kitabın

  • Dr. Xuedong Huang tarafından Konuşulan Dil İşleme

  • Profesör L.Rabiner ve Ulusal Mühendislik Akademisi üyesi Profesör Zhuang Binghuang'ın ortak yazarı Konuşma Tanıma Temelleri

  • Profesör Steve Young, Cambridge Üniversitesi eski Rektör Yardımcısı ve Kraliyet Mühendislik Akademisi Akademisyeni, HTK Toolkit Handbook, HTK Book.

Araç Seti

  • HTK

HTK ( dünya çapında yaklaşık 100.000 profesyonel kullanıcıyla Cambridge Üniversitesi tarafından geliştirilmiş çok klasik bir konuşma tanıma araç setidir. HTK, C dilinde yazılmıştır ve en eski kod 20 yıldan daha eskidir. HTK ile ilgili bir hikaye, bununla ilgili olan Cambridge Entropy'nin bir zamanlar Microsoft tarafından satın alınmış olmasıdır. Entropy'nin ses ekibini aldıktan sonra Microsoft, HTK'nın telif hakkını Cambridge Üniversitesi'ne iade etti ve bu daha sonra ücretsiz bir açık kaynak aracı haline geldi. HTK'nın en büyük avantajı, kodun ve işlevlerin çok kararlı olması ve en yaygın konuşma tanıma teknolojisini entegre etmesidir; HTK'nın uzantı paketlerinin çoğu, en önemli istatistiksel konuşma sentezi araç seti HTS gibi çok klasiktir. HTK'nın bir diğer büyük avantajı, yukarıda bahsedilen HTK Kitabı olan en eksiksiz dokümantasyon kılavuzuna sahip olmasıdır. HTK'nın dezavantajlarından biri, güncellemenin nispeten yavaş olması ve nispeten uzun yazma süresi nedeniyle kodun bir kısmının güncellenmesi gerekmesidir. 2015'in sonunda HTK, sinir ağı teknolojisini içeren 3.5 beta sürümünü güncelledi. HTK'nın bir başka dezavantajı, kullanımı kolay bir komut dosyası oluşturma sisteminin olmamasıdır.HTK ile birlikte verilen kaynak yönetimi (RM) veri seti, GMM-HMM, uyarlanabilir, farklılaştırılmış eğitim ve DNN gibi ana teknolojileri kapsasa da, bazı komut dosyaları tcsh kullanır. Yazmak, başlamak pek uygun değil.

  • Kaldi

Kaldi (Kaldi · GitHub), C ++ ile yazılmış kapsamlı bir nesne yönelimli araç setidir. Kaldi, efsanede kahveyi bulan kahve tanrısının adıdır.Bu ismin anlamının, araç setinin kahve kadar kolay, kullanışlı ve popüler olmasını umduğu söylenir.Özel yollardan biri, yeni başlayanlar için daha uygun olan çok sayıda senaryo yayınlamayı içerir. Ve örnekler, yani birçok yerli ses şirketinin doğrudan Kaldi'yi kullandığı veya Kaldi'nin kaynak kodundan teknoloji öğrendiği söyleniyor. Kaldi, eski Microsoft Araştırma Enstitüsü'nden Dr. Dan Povey ve Çek Cumhuriyeti'ndeki BUT Üniversitesi tarafından ortaklaşa geliştirildi. Dr. Dan Povey'in de HTK'nın yazarlarından biri olduğunu belirtmekte fayda var, bu nedenle Kaldi ve HTK'nın benzer teknik fikirleri var, ancak birkaç yıllık geliştirmeden sonra Kaldi, HTK'dan daha fazla teknolojiyi entegre etti. Bunun nedeni kısmen HTK geliştirme protokolünün farklı olmasıdır: Kaldi kullanıcı protokolü nispeten açık olduğundan, birçok yeni teknolojiyi ilk seferde entegre etmek çoğu zaman mümkündür. Ancak avantajlar ve dezavantajlar genellikle ilişkilidir.Kaldi'nin bir dezavantajı, daha fazla katılımcı olması, bu nedenle kodun daha fazla dalı olması ve bazen dengesiz veya sorunlu kod güncellemeleri olması, bu nedenle en son kodu kullanırsanız sık sık karşılaşacaksınız. Sorunlara gelince, bazen uyumsuz sürümler vardır. Dolayısıyla, Kaldi'nin daha yeni işlevlerini kullanıyorsanız, birkaç şubeyi karşılaştırmanız önerilir. Ve Kaldi şu an için kapsamlı bir kılavuza sahip değil, bu yüzden başlarsanız, deneyimli kullanıcılarla tartışmayı düşünebilirsiniz.

  • CNTK

Son zamanlarda şiddetle tavsiye edilen bir diğer yeni araç seti, Dr. Yu Dong liderliğindeki Microsoft Corporation tarafından geliştirilen CNTK (Hesaplamalı Ağ Araç Kiti (CNTK)). Sinir ağının işlevi çok güçlü ve Kaldi'de yaygın olarak kullanılan birçok sinir ağı dalından daha üstün olduğu söyleniyor. . CNTK'nın öne çıkan özelliklerinden biri, makine çevirisi + konuşma tanıma vb. Gibi birden çok sorunun birleşimidir. Ancak bu aynı zamanda CNTK'nın tamamen profesyonel bir konuşma tanıma aracı olmamasına ve Kaldi gibi araçlarla kullanılması gerektiğine neden olur. Microsoft'un CNTK'yı optimize ettiği ve güncellediği söyleniyor.Gelecekte, optimize edilmiş sürümün kaynak kod kalitesinden işletim verimliliğine önemli ölçüde iyileşmesi bekleniyor. Ayrıca CNTK, ev içi kullanım alışkanlıklarına daha uygun olan yukarıdaki araç kitleri arasında şüphesiz Windows platformu için en iyi destek.

kurs

Stanford Üniversitesi Mart ayında "Derin Öğrenme ve Doğal Dil İşleme" üzerine bir kurs açtı: CS224d: Doğal Dil İşleme için Derin Öğrenme Eğitmen, kendisi bir Alman olan genç bir yetenek Richard Socher'dı ve kolej sırasında doğal dil işlemeyle ilgileniyordu. Almanya'da yüksek lisans öğrencisiyken bilgisayarla görme konusunda uzmanlaştı ve ardından Stanford Üniversitesi'nde doktora eğitimi aldı. NLP alanında bir dev olan Chris Manning ve Derin Öğrenme alanında bir dev olan Andrew Ng ile çalıştı. Doktora tezi "Doğal Dil İşleme ve Bilgisayarla Görü için Özyinelemeli Derin Öğrenme "Yıllarca süren okul kariyeri için mükemmel bir darbe olarak kabul edilebilir. Mezun olduktan sonra, kurucu ortak ve CTO olarak MetaMind'ı kurdu.YZ alanında yeni bir yıldız girişim şirketi olan MetaMind, kuruluşunun başında 8 milyon dolarlık bir risk sermayesi yatırımı aldı ve bu dikkate değer.

Konuşma

https://v.qq.com/x/page/b0389gr6qsy.html

Referanslar:

Wang Yimeng.Konuşma Tanıma Anahtar Teknolojileri Üzerine Araştırma.Çin Elektronik Bilim ve Teknoloji Üniversitesi, 2015.

Liu Chao. Konuşma tanımada derin öğrenme yöntemleri. Tsinghua Üniversitesi, 2016.

Zhang Jianhua. Derin öğrenmeye dayalı konuşma tanıma uygulama araştırması. Beijing University of Post and Telecommunications, 2015.

Zhou Pan. Derin Sinir Ağına Dayalı Konuşma Tanıma için Akustik Modelleme Araştırması. Çin Bilim ve Teknoloji Üniversitesi, 2014.

Ke Dengfeng, Xu Bo. İnternet Çağında Konuşma Tanıma Temel Sorunları. Science in China: Information Science, 2013, 43 (12): 1578-1597.

GMIS 2017 | Tencent Yapay Zeka Laboratuvarı Müdür Yardımcısı Yu Dong: Konuşma Tanıma Araştırmasının Dört Sınırı, Makinenin Kalbi

Daha heyecan verici kuru ürün içeriği için lütfen Tsinghua-Qingdao Veri Bilimi Enstitüsü "Datapai THU" nun resmi kamu platformunu araştırın ve takip edin

Mod, hizmet ve gücü birleştiren 1919, bu yıl iki katına çıkar 11 satış 150 milyon
önceki
Luneng'in 96 dakikalık hikâyesi uçup gitti! Çin Süper Ligi hakemi büyük tartışmalara neden oldu ve tüm dünya bunu anlamadı
Sonraki
Özel Derin öğrenmeyi anlamak için bir makale (öğrenme kaynakları ile)
Guoan'ın bir numaralı zayıflığı ortaya çıktıktan sonra Schmidt bir değişiklik yaptı ve şampiyonluk bulmacasının son parçası olabilir!
Microsoft Build 20172. Gün: Windows 10 "platformlar arası, cihazlar arası" başarıya ulaştı, yeni MR ürünleri bu yıl satışta
Liepin'in Baş Veri Sorumlusu, büyük veri ve yapay zeka yeteneklerinin ustalaşması gereken temel becerileri ve gelecekteki kariyer geliştirme eğilimlerini ayrıntılı olarak açıklıyor.
Restoran gelecekte nasıl görünecek? Robotlar yemek pişirmeden teslimata kadar her şeyi tamamlar
Özel Bilgi akışı dalgası görsel bir dijital dünya oluşturur
Yatai 4-1 tersine döndü! 30 yaşından önce, uluslararası oyuncu ortadaki hat-trick oynadı, aşırı otoriterliği kutlamak için kaydı
2. İtalyan Çin Kültür ve Sanat Festivali Milano'da başarıyla gerçekleştirildi
2017 bilim kurgu filmi gişe rekorları kıran önerilen repertuar "Pacific Rim 2" gelecek yıla ertelendi
Luneng, son 10 dakika içinde arka arkaya üç tartışmalı ceza aldı. Süper Lig'deki profesyonel hakemler fazla "amatör"!
Özel Transfer öğrenimini anlamak için bir makale (öğrenme kiti ile)
Guoan deli! Zhang Yuning'in U23 gencini değiştirdi ve 4 dakika içinde yedek kulübesinde gol attı!
To Top