g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Akustik model algoritmasından 2016 yılında konuşma tanımanın büyük ilerlemesini özetleyen - zor yaratılan açık sınıf

Lei Feng.com: Geçtiğimiz yıl, konuşma tanıma bir kez daha çok büyük bir atılım yaptı. IBM ve Microsoft gibi birçok kurum, konuşma tanımanın doğruluğunu artırmak için art arda kendi Deep CNN modellerini başlattı; Artık / Karayolu ağının önerisi, sinir ağlarını daha derinlemesine eğitmemize olanak tanıyor.

CTC, Düşük Kare Hızı ve Zincir modeli gibi kaba taneli modelleme birimi teknolojileri, konuşma tanımanın doğruluğunu iyileştirirken, kod çözme hızı da büyük ölçüde hızlandırılabilir.

Leifeng.com'un zorlu açık sınıfının bu sayısında, Alibaba iDST için çalışan konuşma uzmanı Dr. Xue Shaofei, geçmiş dönem konuşma tanıma teknolojisinin gelişimini akademik bir bakış açısıyla inceliyor.

Misafir tanıtımı:

Xue Shaofei, Alibaba iDST konuşma tanıma uzmanı, Çin Bilim ve Teknoloji Üniversitesi'nden Ph.D. Şimdi Alibaba akustik modelinin araştırma ve uygulamasından sorumludur: iş senaryolarında konuşma tanıma akustik modelleme ve derin öğrenme uygulaması dahil. Doktora sırasında, araştırma yönü konuşma tanıma için konuşmacı uyarlamasıydı, Konuşmacı Koduna dayalı bir model alan uyarlama yöntemi önerdi ve konuşma ile ilgili konferans ve dergilerde ondan fazla makale yayınladı.

Leifeng.com'un zorlu açık sınıfının bu sayısı temel olarak üç bölümden oluşmaktadır:

Derin sinir ağı akustik modellerinin gelişiminin gözden geçirilmesi: konuşma tanıma akustik modellerinin uygulanmasında derin sinir ağı teknolojisinin geçmişinin kısa bir incelemesi;
En son akustik model teknolojisindeki gelişmeler: Derin CNN teknolojisi, Artık / Otoyol ağ teknolojisi ve kaba taneli modelleme ünitesi teknolojisi dahil olmak üzere akustik model teknolojisindeki birkaç ilginç yeni gelişmeyi tanıtın. Tabii ki, Dikkat teknolojisi gibi tüm yeni teknolojik gelişmeler buraya dahil edilmemiştir. Ses tanıma akustik model teknolojisinin ilerlemesini ve gelecekteki gelişme eğilimini görmek için bu üç satırı örnek olarak alın.
Shao Alibaba'nın ses tanıma akustik model teknolojisini tanıtın.

1. Derin sinir ağı akustik modellerinin geliştirilmesine ilişkin bir inceleme

Konuşma tanıma teknolojisinin gelişim geçmişine baktığımızda, 1990'larda konuşma tanıma akustik modelleri için ayrımcı eğitim kriterleri ve model adaptasyon yöntemleri önerildiğinden, konuşma tanımanın gelişiminin uzun bir süre nispeten yavaş olduğunu görebiliriz. Hata oranı çizgisi önemli ölçüde düşmedi. Hinton, Derin Sinir Ağı (DNN) araştırmasının yeniden canlanmasına neden olan Derin İnanç Ağı'nı (DBN) 2006 yılına kadar önermedi.

2009 yılında Hinton, DNN'yi konuşmanın akustik modellemesine uyguladı ve o sırada TIMIT'te en iyi sonuçları elde etti. 2011'in sonunda, Microsoft Araştırma Enstitüsü'nden iki öğretmen, Yu Dong ve Deng Li, DNN teknolojisini geniş kelime dağarcığına sahip sürekli konuşma tanıma görevlerine uyguladı ve bu da konuşma tanıma hata oranını büyük ölçüde düşürdü. O zamandan beri, DNN akustik model teknolojisine dayalı araştırmalar son derece sıcak hale geldi. Geçen yıl Ekim ayında Microsoft tarafından yayınlanan Santral konuşma tanıma testinde,% 5,9'luk bir kelime hata oranına bile ulaşarak, ilk kez insanlarla aynı tanıma seviyesine ulaşarak, bu tarihi bir atılımdır.

Peki DNN nedir? Aslında, standart DNN hiç de gizemli değildir.YSA genellikle yalnızca bir gizli katman içerirken DNN genellikle en az 3 gizli katman içermesi dışında, yapısal olarak geleneksel yapay sinirden (YSA) temel bir farkı yoktur. Çok katmanlı doğrusal olmayan dönüşüm gerçekleştirmek için gizli katmanların sayısını artırarak, modelin modelleme yeteneği büyük ölçüde geliştirildi.

Bu, DNN tabanlı bir konuşma tanıma sistemi çerçevesidir.Geleneksel GMM-HMM tabanlı konuşma tanıma sistemi ile karşılaştırıldığında, en büyük değişiklik DNN'nin konuşma gözlem olasılığını modellemek için GMM modelini değiştirmek için kullanılmasıdır.

Geleneksel GMM modeliyle karşılaştırıldığında, iki noktanın çok önemli olduğunu düşünüyorum:

1. DNN kullanımının konuşma verilerinin dağıtımı hakkında varsayımlarda bulunmasına gerek yoktur.
2. DNN'nin girişi, bitişik konuşma çerçevelerinin birleştirilmesiyle oluşturulan zamansal yapı bilgilerini içeren bir vektör olabilir.

O zamanlar, DNN'leri eğitmek için yaygın uygulama, önce denetimsiz ön eğitim gerçekleştirmek ve ardından denetimli ayarlamalar yapmaktı. Daha sonra, veri miktarı çok büyük olduğunda denetimsiz ön eğitimin gerekli olmadığı keşfedildi. Elbette, bu daha sonra bir şey.

O dönemde DNN araştırmasının yeniden ortaya çıkmasına neden olan çok önemli bir faktör daha var ve ben şahsen en temel faktörün bilgi işlem gücünün iyileştirilmesi olduğunu düşünüyorum.

DNN'yi CPU üzerinde eğitmek eskiden çok yavaştı. Bir deney yapmak haftalar hatta aylar sürebilir. Bu dayanılmaz. GPU'nun gelişiyle bu durum değişti. GPU, matris işlemlerini hızlandırmak için çok uygun. , Ve DNN eğitimi sonunda matrisin çalışmasına ayrılabilir, ikisi doğal olarak uyumludur.

GPU teknolojisinin sürekli gelişimi ve ilerlemesiyle, daha büyük veri hacimli, daha derin ağlara ve daha karmaşık yapılara sahip modelleri eğitebiliriz.Bu, derin sinir ağı teknolojisinin hızlı gelişmesine yol açmıştır.

Herkesin, özel bir tekrarlayan sinir ağı (RNN) türü olan LSTM modeline aşina olduğuna inanıyorum. Konuşma tanıma, aslında bir zaman serisi modelleme problemidir, bu nedenle RNN ile modelleme için çok uygundur.

Bununla birlikte, basit RNN'ler, gradyan patlaması ve gradyan yayılım problemleri ile sınırlıdır ve eğitilmesi daha zordur. Bununla birlikte, LSTM, giriş kapıları, çıkış kapıları ve unutma kapıları yoluyla bilgi akışını ve iletimini daha iyi kontrol edebilir, uzun ve kısa süreli bellek yeteneklerine sahiptir ve RNN'nin gradyan yayılımı ve gradyan patlama problemlerini bir dereceye kadar hafifletir. Tabii ki, aynı zamanda eksiklikleri de vardır: Hesaplama karmaşıklığı DNN'ye kıyasla büyük ölçüde artmıştır ve yinelemeli bağlantıların varlığından dolayı iyi bir paralelleştirme yapmak zordur.

BLSTM, bu tip modelin modelleme yeteneklerini daha da geliştirir.LSTM ile karşılaştırıldığında, ters zamanlama bilgisinin etkisini, yani "geleceğin" "şimdi" üzerindeki etkisini de dikkate alır ki bu da konuşma tanımada çok önemlidir.

Tabii ki, bu yeteneğin bedeli, modelin hesaplama karmaşıklığının daha da artması ve genellikle eğitim için tam bir cümle gerektirmesidir: GPU bellek tüketimi artar- > Azaltılmış paralellik > Model eğitimi daha yavaştır ve pratik uygulamalarda gerçek zamanlı sorunlar vardır.

CTC teknolojisi de geçmiş dönemde çok sıcaktı. Dikkat edilmesi gereken ilk şey, CTC'nin bir model değişikliği değil, optimize edilmiş amaç fonksiyonunda bir değişiklik olmasıdır.DNN, LSTM ve CNN, CTC ile birleştirilebilir.

Geleneksel derin sinir ağı akustik modelinin eğitim süreci, sınıflandırılmış "zor karar" ı elde etmek için eğitim verisi metin dizisinin hizalanmasını gerektirir ve ardından sinir ağı, hedef olarak bu "zor karar" sınıflandırmasıyla eğitilir. Ağ optimizasyonunun amacı nihai değildir. Belirlenecek sonuç. Geleneksel derin sinir ağı akustik modelleriyle karşılaştırıldığında, CTC'nin optimizasyon hedefi bir WYSIWYG optimizasyon hedefidir ve eğitmek istediğiniz hedef, istediğiniz sonuçtur.

Geleneksel derin sinir ağı akustik model modelleme birimi genellikle durum düzeyindeyken, CTC modelleme birimi telefon düzeyinde veya hatta karakterdir. Durum düzeyi iyi değildir. Modelleme parçacılığındaki bu değişiklik bir avantaj sağlar. Ses verilerinin fazlalığı arttı Bitişik ses çerçeveleri çok benzer olacak ve aynı telefondan gelebilir, bu nedenle artık bir cümleyi modellemek için bu kadar çok veri çerçevesine gerek yok.

Çerçeveleme ve aşağı örnekleme yöntemi, toplam veri çerçevesi sayısını azaltabilir ve tanıma doğruluğunu etkilemeden ağ hesaplamasını hızlandırabilir. CTC'nin bir diğer çok önemli katkısı, kolayca karıştırılan çerçevelerin zorla hizalanmasını önleyen boş beyaz alanın tanıtılmasıdır. Ve eğitimden sonra ağ çıktısının bir "sivri uç" durumunu göstermesini sağlar Büyük boşluklar, kod çözme sırasında ışının esnek bir şekilde ayarlanmasını sağlar, bu da kod çözme hızını hızlandırabilir.

Konuşma tanıma alanında pek çok açık kaynak aracı vardır. CMU SPHINX sistemi gibi geleneksel konuşma tanıma açık kaynak araçları, istatistiksel ilkelere dayalı olarak geliştirilen ilk "kişiden bağımsız sürekli konuşma tanıma sistemidir"; Cambridge Konuşma Tanıma Grubu tarafından başlatılan HTK araç seti GMM-HMM dönemindeki en popüler konuşma tanıma aracıdır.Ses tanıma ile ilk temasa geçtiğimde HTK ile başladım.

Birkaç yıl önce piyasaya sürülen Kaldi, tam anlamıyla "geleneksel" değil, aynı zamanda nispeten yeni ve sürekli güncellenen bir açık kaynak aracıdır.Aynı zamanda en yaygın kullanılan ses tanıma açık kaynak aracı olmalıdır.

Geçtiğimiz iki yılda, Theano, CNTK, TensorFlow, vb. Gibi birçok derin öğrenme açık kaynak çerçevesi ortaya çıktı. Daha sonra, geleneksel konuşma tanıma araçları ile yeni derin öğrenme açık kaynak çerçevesi arasında bir karşılaştırma yapacağım, sonra basitçe birkaçını karşılaştıracağım Endişe boyutları için Kaldi, CNTK ve TensorFlow arasındaki benzerlik ve farklılıklara bir göz atalım.

Topolojik temel açısından Kaldi'nin nnet1 ve nnet2'si katman tasarımına dayanmaktadır, yani yeni bir sinir ağı katmanı eklediğinizde, yapısını kendiniz tanımlamanız, değişkenler nelerdir, ileri yönü nasıl hesaplayacağınız ve ters hata Nasıl yayılır ve benzeri ve çok karmaşık bağlantı yöntemlerini desteklemek zordur.

Kaldi'nin nnet3, CNTK ve TensorFlow'unun tamamı grafik yapısına dayalıdır.Ağ bağlantı yönteminin tanımı konfigürasyon dosyası üzerinden gerçekleşir.Veri tanımladığınız ağ grafiğindeki akan su gibidir ve hata tersine çevrilir. Yayılma, avantajı, ağ hesaplamalarının ayrıntıları, özellikle de hataların geri yayılımı hakkında endişelenmeden ağ topolojisinin tasarımına odaklanabilmenizdir.

Ancak bu, özellikle yeni başlayanlar için bir sorun da getiriyor, tasarım sırasında ağın nasıl göründüğüne neden olacak, ancak uygulama detayları net değil. Yeni başlayanlar için daha fazla formül zorlamak en iyisidir, bu da sağlam bir temel oluşturmak için kesinlikle iyidir.

Diğer konuşma tanıma araçlarına destek açısından Kaldi, dekoderler, karar ağacı oluşturma, GMM eğitimi vb. Dahil olmak üzere eksiksiz bir konuşma tanıma araçlarına sahiptir. Ancak, CNTK ve TensorFlow'un bu konuda özel bir desteği yoktur. CNTK'nın sağladığını belirtmekte fayda var. Kaldi verilerini CNTK veri formatı aracına işlemek için Kaldi kullanan kişiler CNTK ile hızlı bir şekilde başlayabilir, siz de deneyebilirsiniz.

Daha çok ilgilendiğim son faktör, birden çok makineyi ve birden çok kartı destekleyip desteklemeyeceğidir, çünkü veri hacmindeki ve model karmaşıklığındaki sürekli artışla birlikte, yalnızca bir GPU ile model eğitiminin ihtiyaçlarını karşılamak zordur ve eğitimi hızlandırmak için birden çok GPU kullanılması gerekir. Bu bağlamda, kaldi, CNTK ve TensorFlow şu anda desteklenmektedir.

Son önerim, konuşma tanıma alanında yeni başlayanlar ve alt düzey lisansüstü öğrenciler için Kaldi tanıtıcı öğrenme algoritmalarını ve pratik teorik bilgileri kullanmanın daha iyi bir seçim olduğudur.Lisans son sınıf öğrencileri ve belirli bir yıla sahip uygulayıcılar için sadece bir bakın. İsterseniz, herkes aynı hedefe farklı yollardan ulaşacaktır.Araçlar belirleyici değil, veriler, algoritmalar ve modeller.

2. Son teknoloji teolojik modellerin teknik gelişimi

Ardından, Deep CNN teknolojisi, Artık / Otoyol ağ teknolojisi ve kaba taneli modelleme birimi teknolojisini tanıtacağız. Geçen yıl, birçok kurum IBM, Microsoft vb. Gibi kendi Deep CNN modellerini piyasaya sürdü. Burada, Deep CNN'in böylesine iyi sonuçlar elde etmesini sağlayan temel faktörleri tartışmak için IBM'in Deep CNN'ini örnek alacağım.

Aslında CNN bir iki gündür konuşma tanımada kullanılmıyor Ossama Abdel-Hamid, CNN'i 12 veya 13 yıl içinde konuşma tanımaya getirdi.

O zaman, evrişimsel katman ve havuzlama katmanı dönüşümlü olarak ortaya çıktı ve evrişim çekirdeğinin ölçeği nispeten büyüktü ve CNN katmanlarının sayısı özellikle büyük değildi. Esas olarak, onu yapmak için özelliklerin daha fazla işlenmesi ve işlenmesi için kullanıldı. DNN sınıflandırması için daha iyi kullanılabilir.

Daha sonra görüntü alanında CNN teknolojisinin gelişmesiyle durum yavaş yavaş değişti.Görüntü alanında yapılan araştırmada insanlar, çok katmanlı evrişimin ardından havuzlama katmanının, evrişim çekirdeğinin boyutunun küçültülmesinin daha derin eğitim yapmamızı sağlayabileceğini keşfetti. , Daha iyi bir CNN modeli. Karşılık gelen yöntem konuşma tanımadan ödünç alındı ve konuşma tanımanın özelliklerine göre daha da optimize edildi.

IBM araştırmacıları, 16 yıl içinde ICASSP hakkında bir makale yayınladılar ve 3x3 küçük evrişimli çekirdek ve çok katmanlı evrişimin ardından havuzlama teknolojisinin kullanılmasının 14 katmanlı (tam bağlı dahil) bir Derin CNN modelini eğitebileceğini iddia etti.

Santral veri setindeki geleneksel CNN kullanım yöntemiyle karşılaştırıldığında, WER'de% 10,6 oranında göreceli bir düşüş sağlayabilir. Küçük boyutlu evrişim çekirdeği ve çok katmanlı evrişimin ardından havuzlama teknolojisi, Deep CNN'in başarısının kilit noktalarıdır.

Ardından, Artık / Otoyol ağlarını ve bunların konuşma tanımadaki mevcut uygulamalarını tanıtacağız.

Artık ağ, MSRAnın 152 katmanlı çılgın derin sinir ağı sayesinde çok ünlüdür. Bununla birlikte, MSRA, 2015 ImageNet Bilgisayar Tanıma Mücadelesinde görüntü sınıflandırması, görüntü konumlandırma ve görüntü algılama elde etme konusunda mutlak bir avantaja sahiptir. Projenin şampiyonu.

Yazar, yayınlanan yazıda "zihinsel yolculuğunu" ayrıntılı olarak anlattı.

Araştırmacılar, "Degrasyon Problemi" nin her zaman derin sinir ağı eğitimi sırasında ortaya çıktığını, yani ağ derinliği belirli bir seviyeye ulaştığında, eğitim hatasının azalmayacağını, ağ derinliği arttıkça artacağını ve buna aşırı uyumdan kaynaklanmadığını bulmuşlardır. nın-nin.

Genel olarak konuşursak, sığ bir A ağının birkaç katman üzerine bindirilerek B ağı haline geldiğini düşünüyoruz. Üst üste binen katmanların ağırlıklarının tümü kimlik matrisleri ise, o zaman B'nin performansı en azından A'nınkinden daha kötü olmayacaktır, ancak durum bu değildir ve ağın kendisini öğrenmesi zordur. Bu dönüşüm.

Öğrenme hedefi işlevi ile karşılaştırıldığında, artığın öğrenilmesi daha kolaydır, bu nedenle katman boyunca kısa bir bağlantı ekleyen bir artık öğrenme yapısı önerilmiştir. Anladığım kadarıyla, bu kısa bağlantı bir yandan ileri hesaplamada doğrusal olmayan dönüşüm tarafından verilerin aşırı işlenmesini önler, diğer yandan hata doğrudan bağlantı yoluyla geri yayıldığında, hata doğrudan yol üzerinden geri iletilebilir ve gradyan bastırılır. dağıtmak.

Yaklaşık bir süre önce Srivastava, Otoban ağı çalışmasını arxiv'e yükledi.Otoban ağında, gizli bir katman düğümünün çıktısı artık yalnızca doğrusal olmayan dönüşüm yoluyla girişin değeri değil, bir çift Dönüşüm kapısı ve Taşıma kapısı haline geliyor. Doğrusal olmayan dönüştürülmüş değer ve girdinin ağırlıklandırılmasının sonucu. Artık ağ, ek parametreler olmaksızın özel bir Karayolu ağı durumu olarak kabul edilebilir.

Artık / Otoyol ağı o kadar etkilidir ki, konuşma tanıma alanındaki araştırmacılar elbette dikkat edecek ve kullanacaktır. Birkaç örnek vereyim: "Uzak Konuşma Tanıma için Karayolu Uzun Kısa Süreli Bellek RNN'lerinde" yazar, Karayolu LSTM yapısını önerir ve bir taşıma geçidi sunar.Taşıma kapısı, mevcut katman hücre durumu hesaplamalarının ne kadarının önceki katmandan geldiğini kontrol eder. Taşıma geçidinin hesaplanması, geçerli katmanın girişine, önceki katmanın hücre durumuna ve önceki katmanın hücre durumuna bağlıdır. Bu model yapısı sayesinde, model içinde daha iyi bir katmanlararası bilgi akışı gerçekleştirilir.

"Akustik Modelleme için Tekrarlayan Sinir Ağlarına Dayalı Çok Boyutlu Artık Öğrenme" de yazar, Kalıntı kavramını LSTM modeline uyguladı ve TIMIT ve HKBTÜ veri setleri üzerindeki deneysel sonuçları doğruladı.

"Renals.Small-footprint Deep Neural Networks with Highway Connections for Speech Recognition" adlı eserinde yazar, Residual DNN ve Highway DNN'nin konuşma tanıma üzerindeki etkilerini karşılaştırdı ve şu sonuca vardı: "Artık ağlar daha derin ağları eğitmek için daha güçlüdür. düz DNN'ler, özellikle optimizasyon zorluğunu azaltan ReLU etkinleştirme işlevleriyle. Ancak, bilgi takibini kontrol eden iki geçit işlevi nedeniyle karayolu ağları etkinleştirme işlevleriyle daha esnektir. "

Aşağıda kaba taneli modelleme birimi teknolojisi yer almaktadır.Düşük kare hızı teknolojisini daha sonra Alibaba'nın akustik model teknolojisi ile birlikte göstereceğim. Önce Chain modeline bir göz atalım. Zincir modeli, kaldi'nin yazarı Daniel Povey tarafından desteklenen yeni bir çalışmadır.Ayrıca DNN-HMM mimarisini kullanır.Tabloda, zincir modeli ile geleneksel sinir ağı akustik modeli arasındaki farkları listeliyorum.

Modelleme birimi açısından, geleneksel sinir ağı akustik modelinin modelleme birimi genellikle 3 durumlu veya 5 durumlu bir CD telefon iken, zincir modelin modelleme birimi 2 durumlu bir modeldir, burada sp en çok CD telefonu karakterize etmek için kullanılır. Durum ve sb, CD telefonun "Boş" boşluğudur Boş kavramı, zincir modelindeki her modelleme biriminin kendi boşluğuna sahip olması dışında aslında CTC'dekine çok benzer.

Eğitim yöntemleri açısından, geleneksel sinir ağı akustik modellerinin önce Cross-Entropy'de eğitilmesi ve ardından ayrımcılık kriterleri konusunda eğitilmesi gerekir. Zincir modeli doğrudan Kafessiz MMI ile eğitilmiştir ve elbette bunu ayrımcı kriter eğitimi izleyebilir, ancak mevcut raporlara göre, iyileştirmenin bu kısmı nispeten küçüktür.

Kod çözme kare hızı açısından, zincir modeli çerçeveleri birleştirme ve ardından alt örnekleme yöntemini kullandığından, kodu çözülen kare hızı, geleneksel sinir ağı akustik modelinin yalnızca üçte biridir ve tanıma doğruluğu, geleneksel modele kıyasla önemli ölçüde iyileştirilecektir. . Özetlemek gerekirse, gelecekte derin sinir ağı akustik modelleri için üç ana geliştirme yönü olduğunu düşünüyorum.

1. Daha derin ve daha karmaşık ağlar

MSRA152 katman ResNet teknolojisine benzer şekilde, gerçek konuşma tanıma uygulamasındaki bu karmaşık ağ yapısının modeli mevcut hesaplama gücüyle uygulanamasa da, sürekli araştırma ve keşif, çabalarımızın yönünü ve yeteneğini netleştirmemize yardımcı olabilir. Ulaşılabilen üst sınır.

2. Uçtan Uca tanıma sistemi

Uçtan Uca tanıma sistemi, son yıllarda CTC, Dikkat, vb. Gibi sıcak bir araştırma yönü olmuştur, bu alanda, hızlı hesaplama hızı ve yüksek tanıma doğruluğu ile bir End oluşturmak için muazzam ölçekte ses verisi üzerinde çok anlamlı bir çalışmadır. Sona Kadar tanıma sistemi gelecekte önemli bir konu olacaktır.

3. Kaba taneli modelleme birimi durumu- > telefon- > karakter

Kaba taneli modelleme birimlerinin teknolojisi, konuşma tanımanın kod çözme hızını hızlandırmak için büyük önem taşır ve kod çözme hızındaki artış, akustik modelleri modellemek için daha derin ve daha karmaşık sinir ağlarının kullanılmasını mümkün kılar.

3. Alibaba'nın ses tanıma akustik model teknolojisi

Son olarak, Alibaba ekibinin konuşma tanıma akustik model teknolojisindeki bazı çalışmalarını paylaşın.

Endüstriyel dünyada veri miktarı çok fazladır. On binlerce saatlik ses verisi normaldir.Bu kadar büyük miktarda veriyle karşı karşıya kaldığınızda, model eğitimi için tek bir GPU veya birden fazla GPU kullanmak mümkün olmaktan çok uzaktır. Talebi karşılamak için, birden çok makinede ve birden çok GPU'da model eğitimi gerçekleştirme yeteneğine sahip olması gerekir.

Middleware tabanlı çok makineli çoklu kart çözümünü kullanıyoruz. GPU Middleware, eğitim araçlarına (kaldi, caffe, vb.) Basit değişiklikler yaparak paralel eğitim uygulamamıza izin veren bir API arabirimi sağlar. Ve görev kuyruklarını, veri dağıtımını, iletişimi, senkronizasyonu vb. Bağımsız olarak yönetebilir, böylece algoritmanın kendisine daha fazla odaklanabiliriz. Master-slave modunu benimseyin, MA / SGD / ASGD vb.

Bu bir Model Ortalama Alma örneğidir:

Tablo, 5000 saat eğitim verisi ile DNN modelinin eğitiminin hızlandırma etkisini göstermektedir. 8 GPU kullanıldığında yaklaşık 7,2 kat hızlanma sağlanabildiği, 16 GPU kullanıldığında yaklaşık 14,3 katına ulaşılabildiği görülmektedir. Hızlanma. Şu anda, BLSTM'den CSC-BLSTM'ye ve LC-BLSTM'ye kadar bir geliştirme geçmişine sahip olan Gecikme kontrolü BLSTM modelini kullanıyoruz.

BLSTM'nin konuşma tanımanın doğruluğunu etkili bir şekilde iyileştirebileceğini biliyoruz. DNN modeli ile karşılaştırıldığında, göreceli performans artışı% 15 -% 20'ye ulaşabilir.

Ancak aynı zamanda BLSTM'nin iki önemli sorunu da vardır:

1. Cümle düzeyinde güncellemeler, modelin yakınsama hızı genellikle yavaştır ve kare kare hesaplamaların çok sayıda olması nedeniyle, GPU gibi paralel hesaplama araçlarının hesaplama gücü etkili bir şekilde kullanılamaz ve eğitim çok zaman alır;

2. Tüm cümlenin, her çerçevenin arka olasılığını yinelemeli olarak hesaplamak için kullanılması gerektiğinden, kod çözme gecikmesi ve gerçek zamanlı oran etkili bir şekilde garanti edilemez ve gerçek hizmetlere uygulanması zordur. Bu iki problem için, eski MSRA baş araştırmacısı ve şimdi Alibaba iDST ses ekibinin başı olan Yan Zhijie ve o sırada Microsoft'taki stajyeri, bunları çözmek için ilk olarak ContextSensitive-Chunk BLSTM (CSC-BLSTM) yöntemini önerdi.

O zamandan beri, literatür (Zhang2015, MIT), bu iki sorunu daha iyi ve daha verimli bir şekilde hafifleten, Gecikme Kontrollü BLSTM'nin (LC-BLSTM) geliştirilmiş bir versiyonunu önermiştir. Bu temelde, akustik modelleme için çok makineli çoklu kart, 16 bit nicemleme ve diğer eğitim ve optimizasyon yöntemleriyle LC-BLSTM-DNN hibrit yapısını kullanıyoruz. Sektörün ilk çevrimiçi BLSTM-DNN hibrit ses tanıma akustik modelini tamamladı.

Bu ikisi, LC-BLSTM'nin şematik diyagramlarıdır.Eğitim sırasında her seferinde güncelleme yapmak için küçük bir veri parçası kullanılır. Veriler, merkez yığın ve sağ ek parçadan oluşur. Sağ ek yığın yalnızca hücrenin ara durumunun hesaplanması için kullanılır ve hata yalnızca merkezdedir. Parçalar üzerinde çoğaltın. Zaman ekseninde ileri doğru hareket eden ağlar için, merkezi yığının sonundaki önceki veri bölümünün hücre ara durumu, sonraki veri bölümünün başlangıç durumu olarak kullanılır ve zaman ekseninde ters yönde hareket eden ağlar için, her veri bölümü başlayacaktır. Hücrenin ara durumu 0 olarak ayarlanmıştır.

Bu yöntem, ağın yakınsama hızını büyük ölçüde hızlandırabilir ve daha iyi performans elde etmeye yardımcı olabilir. Kod çözme aşamasının veri işleme süreci temelde eğitiminkiyle aynıdır Aradaki fark, merkezi parçanın ve doğru ek parçanın boyutlarının gereksinimlere göre ayarlanabilmesi ve eğitimle aynı yapılandırmayı kullanmak zorunda olmamasıdır.

Ayrıca, LC-BLSTM üzerinde iyileştirmeler yaptık. İlk olarak, gelişmiş bir FABDIBLSTM modeli öneriyoruz. LC-BLSTM'den farkı, zaman ekseninde ters yönde hareket eden ağdır. Hücrenin ara durumu ileri beslemeli DNN ile hesaplanır. Orijinal yinelemeli yöntem yerine, bu, model hesaplamalarının miktarını azaltırken, tanıma doğruluğunu mümkün olduğunca sağlar.

Ayrıca, hesaplamanın bu bölümünü hızlandırmak için zaman ekseninde ters yönde hareket eden LSTM'yi değiştirmek için basit bir RNN kullanan gelişmiş bir FABSR-BLSTM yöntemi öneriyoruz.

Deneylerimizin sonuçları tabloda verilmektedir: Santral veri setinde yapılan deneyler, iyileştirilmiş modelimizin standart LC-BLSTM ile karşılaştırıldığında küçük bir doğruluk kaybıyla% 40 -% 60 kod çözme hızına ulaşabildiğini göstermektedir. Çalışmanın bu bölümü ICASSP 2017 tarafından kabul edildi ve bu yıl Mart ayında yayınlanacak.

Düşük kare hızı (LFR), başlattığımız başka bir yeni teknolojidir. LFR, Interspeech 2016 konferansında Google araştırmacıları tarafından önerildi. Araştırmada, araştırmacılar CTC teknolojisinin yalnızca veri miktarı 40.000 saatten fazla olduğunda kullanılabileceğini iddia ettiler. Daha iyi sonuçlar ve LFR, geleneksel sinir ağı tanıma modellerinin tek durumlu CD-Telefon, çerçeveleme ve kare hızı azaltma, yumuşak etiket, CE başlatma ve Çıkış Gecikmesi gibi teknolojileri kullanarak CTC'ye benzer veya daha iyi sonuçlar elde etmesini sağlayabilir.

Makaledeki yöntemi ödünç aldık ve on binlerce saatlik veri görevimiz için LC-BLSTM'ye başarıyla uyguladık.

LFR-LC-BLSTM, LC-BLSTM'ninkine benzer bir tanıma hata oranı elde edebilir ve yaklaşık 3.6 kat kod çözme hızına sahiptir. Bildiğimiz kadarıyla, sektörde LFR teknolojisini uygulayan tek şirketiz.

Modelin sağlamlığı konusunda da çok çalıştık. Modelin sağlamlığı her zaman sektörü ve araştırmacıları rahatsız eden bir sorun olmuştur. Örneğin, sessiz bir ortamda ses verileriyle eğitilmiş bir modelin gürültülü bir ortamda zayıf tanıma doğruluğu ve tutkuyu tanımak için haber yayınlarından gelen ses verileriyle eğitilmiş bir model Spor yorumları, tanıma doğruluk oranı çok zayıf olacaktır.

Peki, akustik modeli daha sağlam hale getirmek için farklı kanallar, sesler ve uygulama senaryolarındaki farklılıkların üstesinden nasıl gelinir? Elbette, en iyi yol gerçek senaryolarda daha fazla ses verisi toplamaktır, ancak bunu bir süre yapamazsanız Ne?

Modelin gürültü sağlamlığını olabildiğince iyileştirmek için mevcut ses verileri nasıl kullanılır? Hedef senaryoya çok benzeyen verileri "oluşturmak" için mevcut verileri kullanabilir miyiz?

Bu çok ilginç bir araştırma konusu. Algoritma seviyesinin iyileştirilmesinden şimdilik burada bahsedilmeyecektir.Veri "oluşturma" konusundaki bazı çalışmalarımızdan bahsedelim.Veri analizi, veri tarama ve veri işleme prosedürlerinin eksiksiz bir setini tasarladık.

Uygulama senaryosu analizinden başlayarak, kanal koşullarını, gürültü koşullarını, bağlam koşullarını vb. Analiz edeceğiz. Ardından, uygulama senaryosunun analizine dayalı olarak uygun eğitim verilerini otomatik olarak filtreleyin. Ardından, farklı sahne koşullarına göre gürültü ekleme ve konuşmayı hızlandırma gibi işlemler gerçekleştirilir. Son olarak, modeli test için eğitin ve ardından sonuçların analizine dayalı olarak uygulama senaryolarımızın analizini geri bildirimde bulunun.

Bu süreç kümesi başlangıçta insanlar tarafından tasarlandı ve şimdi kademeli olarak otomasyon sürecine itiliyor. Ali'nin MaxCompute yüksek verimli bilgi işlem platformuna güvenerek, büyük verilerin işlenmesini hızlı bir şekilde tamamlayabiliriz, bu da algoritma ekibimizi büyük ölçüde özgürleştirir ve herkesin daha fazlasına sahip olmasını sağlar Deneyim, veriler hakkında endişelenmek yerine teknik optimizasyona yatırım yaptı. Son olarak, dahili akıllı kalite denetimi ve akıllı telefon müşteri hizmetleri gibi konuşma tanıma teknolojisi uygulamamızın bazı örnekleri ve gerçek zamanlı konuşma tanıma Alibaba Cloud yıllık toplantısında altın stenograflara meydan okudu.

Son olarak, Alibaba'nın dahili akıllı kalite denetimi ve akıllı telefon müşteri hizmetleri gibi konuşma tanıma teknolojisi uygulamamızın bazı örnekleri var.Alibaba Grubu ve Ant Müşteri Hizmetleri, geçen yıldan bu yana, her çağrı geldiğinde Wind Whisperer adlı bir sistemi hemen etkinleştirecek. Konuşmayı metne dönüştüren otomatik konuşma tanıma teknolojisidir ve manuel örneklemenin üçte biri anında% 100 otomatik kalite denetimine yükseltilebilir. Bu uygulama senaryosuna ek olarak, Ali YunOS, Ali Xiaomi ve Shoutao şimdi Aliyun'un ses tanıma sistemine uygulandı.

Alibaba Cloud, 2016 konferansında gerçek zamanlı konuşma tanıma teknolojisini herkese açık bir şekilde gösterdi ve Dünya Shorthand Yarışması'nın ikinci galibine yerinde meydan okudu. Yerinde yapılan son değerlendirmeye göre robot, 50. Uluslararası Shorthand Yarışması'nın küresel stenografi ikincisi olan Jiang Yi'yi doğrulukta% 0,67'lik küçük bir avantajla yendi. Dış hizmetler açısından, işletmelere çeşitli pratik uygulama senaryolarında "sizi duyabilen, konuşabilen ve anlayabilen" akıllı bir insan-bilgisayar etkileşimi deneyimi sunmak için akıllı ses etkileşimi (data.aliyun.com) yeteneğini açtık. Mahkeme duruşmalarında, mahkeme duruşmasındaki tüm tarafların seslerini doğrudan tüm tarafların mahkeme duruşması sayfasında görebilmesi için metne dönüştürmek için ses tanıma teknolojisini kullanıyoruz. Katip, bunu duruşma kaydı olarak basitçe veya ayarlamadan kullanabilir. Yunqi Konferansı'nın canlı yayın platformunda canlı yayınına şahit olduğunuzda, yukarıdaki gerçek zamanlı altyazıların arkasında kendi ses tanıma teknolojimiz kullanıldı.