CIF: Nöron entegrasyonuna dayalı yeni bir konuşma tanıma mekanizması

Yazar | Otomasyon Enstitüsü, Çin Bilimler Akademisi

Editör | Jia Wei

Klasik dikkat konuşma tanıma modelinin çevrimiçi tanımayı, sınır konumlandırmayı vb. Desteklemediği sorununu çözmek için Çin Bilimler Akademisi Otomasyon Enstitüsü'nden Dr. Linhao Dong ve araştırmacı Xu Bo, nabız sinir ağında entegre dağıtım fikrini sürdürdü ve düşük karmaşıklık ve monotonluk önerdi. Tutarlı sıra dönüştürme mekanizması - Sürekli Tümleştir ve Ateşle (CIF). CIF tabanlı model yalnızca çevrimiçi tanımayı, sınır konumunu ve akustik Gömme çıkarımını etkin bir şekilde desteklemekle kalmaz, aynı zamanda iki Çin kıyaslama konuşma tanıma setinde (HKUST, AISHELL-2) SOTA performansı oluşturur. İlgili sonuçlar ICASSP 2020 tarafından Sözlü bildiri olarak kabul edildi.

Tez başlığı: CIF: Uçtan Uca Konuşma Tanıma için Sürekli Entegrasyon ve Ateşleme

Kağıt adresi: https://arxiv.org/pdf/1905.11235.pdf

Dikkat mekanizmasına dayalı uçtan uca model, konuşma tanıma teknolojisinin gelişimini derinden etkiliyor. Bununla birlikte, klasik dikkat tanıma modeli, "konuşma kodlamasından sonra tüm cümleye dikkat etme" özelliği nedeniyle çevrimiçi (akış) tanımayı destekleyememe ve ses sınırı zaman damgaları sağlayamama gibi sorunlarla karşı karşıyadır.

Çin Bilimler Akademisi Otomasyon Enstitüsü'nden Dr. Linhao Dong ve Araştırmacı Xu Bo, darbeli sinir ağında entegrasyon ve dağıtım fikrini sürdürdüler ve düşük karmaşıklıklı, tekdüze ve tutarlı bir dizi dönüştürme mekanizması önerdiler - Sürekli Bütünleştir ve Ateşle (Sürekli Entegre ve Ateş, CIF). CIF, birbiri ardına gelen akustik bilgileri sıralı olarak entegre edecektir Entegre bilginin miktarı tanımlama eşiğine ulaştığında, entegre bilgi sonraki tanımlama için serbest bırakılacaktır. Onun ve dikkat modeli arasındaki hizalama morfolojisi karşılaştırması aşağıdaki Şekil 1'de gösterilmektedir.

Şekil 1. CIF mekanizması ile dikkat mekanizması arasındaki uyum karşılaştırması

Codec çerçevesine Sürekli Tümleşik Dağıtım (CIF) uygulanır. Her kodlama anında, CIF kodlanmış akustik kodlama temsilini ve buna karşılık gelen ağırlığını alır (içerilen bilgi miktarını karakterize eder). Bundan sonra, CIF sürekli olarak ağırlıkları biriktirir ve akustik kodlama temsilini (ağırlıklı toplama şeklinde) entegre eder.

Birikmiş ağırlık eşiğe ulaştığında, akustik bir sınırın bulunduğu anlamına gelir. Şu anda, CIF, entegre dağıtım modelinin işleme fikrini simüle eder ve mevcut kodlama zamanındaki bilgileri iki bölüme ayırır (Şekil 1'in sağ resminde gösterildiği gibi):

Bir parça, mevcut etiketin akustik bilgilerinin entegrasyonunu tamamlamak için kullanılır (ağırlıklar tam bir dağıtım oluşturabilir).

Diğer kısım, bir sonraki etiketin akustik bilgilerini entegre etmek için kullanılır.

CIF daha sonra ilgili etiketi hemen tahmin etmek için entegre mevcut akustik bilgiyi (Akustik Gömme) kod çözücüye gönderir. Yukarıdaki işlem, kodlanan dizinin sonuna kadar gerçekleştirilir. Sadece bu değil, makale aynı zamanda CIF modelinin performansını daha da iyileştirmek için düzenlileştirme stratejileri ve miktar kaybı gibi bir dizi destekleyici strateji önermektedir.

Araştırma çalışması, CIF modelinin, farklı dilleri ve farklı konuşma türlerini kapsayan çoklu konuşma tanıma karşılaştırma veri kümeleri üzerindeki performansını doğruladı.

Şekil 2'de gösterildiği gibi, Librispeech İngilizce okuma veri setinde, kullanılan çıktı etiketleri net akustik sınırları olmayan alt kelime birimleri olmasına rağmen, CIF tabanlı model hala% 2,86 oranında rekabetçi bir kelime hata oranı elde etmiştir.

Şekil 3'te gösterildiği gibi, Çin okuma veri seti AISHELL-2'de, çıktı etiketleri arasındaki akustik sınır daha net olduğundan, CIF tabanlı model, Chain modelinin performansını önemli ölçüde aşan olağanüstü bir performans elde etti ve bir durum yarattı. son teknoloji kelime hata oranı sonuçları.

Şekil 4'te gösterildiği gibi, Çin telefon veri seti HKBTÜ'de konuşmada birçok gayri resmi sözlü fenomen olmasına ve veri seti nispeten küçük olmasına rağmen, CIF tabanlı model hala iyi bir genelleme göstererek 23.09 % Son teknoloji ürünü kelime hata oranı sonuçları.

CIF modeli yalnızca yüksek doğrulukta dizi dönüştürme sonuçları sağlamakla kalmaz, aynı zamanda konuşma tanımadaki en önemli telaffuz sınırını doğru bir şekilde bulabilir ve çeşitli bilgi modellerini entegre etmek için konuşma tanıma için yeni bir yol ve yol sağlar. CIF, genişletilebilen ve diğer dizi dönüştürme görevlerine uygulanabilen süreklilik fikrini entegre edecek ve dağıtacaktır.

Bu makalenin çalışmasının araştırma ekibinin 10.000 saatlik büyük ölçekli eğitim verilerinin konuşma tanıma alanında olduğu ve ayrıca ekibin CTC ve Transformer gibi mevcut ana modellerinin mevcut sonuçlarını aştığı bildirildi. Büyük ölçekli uygulamalar için büyük potansiyel.

Şekil 2. Librispeech İngilizce okuma veri setinde CIF modeli ile yayınlanmış model arasındaki kelime hata oranlarının karşılaştırılması

Şekil 3. CIF modeli ile Çin okuma veri seti AISHELL-2'de yayınlanan model arasındaki kelime hata oranının karşılaştırılması

Şekil 4. CIF modeli ile Çin telefon veri seti HKUST'ta yayınlanan model arasındaki kelime hata oranının karşılaştırılması

Facebookun yeni araştırması: gelişmiş CNN sürümü, 2D fotoğraflar da 3D efektleri simüle edebilir
önceki
Today Paper | Ortak çok görevli model; 3B insan vücudunun yeniden yapılandırılması; makine çevirisinin görsel olarak anlaşılması; doğrultucuların derinlemesine incelenmesi, vb.
Sonraki
Sahne sapmasını azaltmak için eylemlerin ve sahnelerin sıkı sıkıya bağlanması gerekmez ve dans eden alışveriş merkezlerini kolayca tanımlayabilir
Tsinghua ekibi başka bir atılım gerçekleştirdi! Dünyanın ilk çok dizili memristor depolama ve hesaplama entegre sistemini geliştirdi
Kulak misafiri! Mobil uygulama, yetkilendirme olmadan çağrıları izleyebilir ve başarı oranı% 90'a kadar çıkmaktadır.
Turing'in klasiklerini yeniden okurken, dokuz çürütme düşündürücüdür
Today's Paper | Hastalık durumu tahmini; ağ budama teknolojisi; haber raporları için manşet yapmak vb.
Doğrudan olay yeri Yurtiçi ve yurtdışındaki giriş ve çıkış havalimanlarında vücut sıcaklığı ölçümü, uçaktaki herkes maske takıyor
Virüsler ve hastalıklarla ilgili kitapların listesi: insan uygarlığının tarihi ve direniş değişti
20'den fazla IOU, 8 yıllığına geri ödedi
Yasadışı sokak satıcıları, şehir yönetimi yetkilisinin tepkisiyle yerde ayaklar altına alındı: bu gerçekten de aşırı
Sahte "özel kuvvetler" yaklaşık 200.000 kadını dolandırdı ve onun için çocuk doğurdu
Herkes, yaklaşan Fare Yeni Ay Yılı'nın bir ay daha vardiyası olacak ...
Li Daxiao: Çok naziksiniz! A-hisseleri iyi bir başlangıç yaptı, boşluk bıraktı ve daha yüksek açıldı ve piyasa değeri yarım günde 860 milyar arttı, 3.300'den fazla hisse senedi yükseldi
To Top