g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Tek bir çip tüm sesli etkileşimleri çözer, Baidu endüstriyi değiştiren teknolojik bir yenilik yaptı

Yazar | Jia Wei

Düzenle | Kongun Sonu

Uçtan uca entegre teknoloji bir kez daha güçlü işlevler gösteriyor.

20 Nisan'da Baidu'nun yapay zeka markası Xiaodu, yeni bir ekransız akıllı hoparlör olan Xiaodu Smart Speaker 2 kızılötesi sürümünü piyasaya sürdü. Baidu'nun resmi tanıtımına göre, konuşmacı, Baidu'nun uzak alan ses etkileşimi için geliştirilen ilk Honghu çipi ile donatılmıştır.Performansta üç büyük gelişme vardır: 1) Konuşma tanımanın hata oranı ortalama% 30 azaltılır; 2) Yüksek gürültü altında ilk uyanma oranı iyileştirildi % 10'dan fazla ve evde kullanım için ultra düşük yanlış alarm gereksinimlerini karşılar; 3) Ortalama çalışma gücü tüketimi yalnızca yaklaşık 100 mw'dir ve bekleme güç tüketimi% 90 oranında azalır.

Bu performans gelişimi, sektörde rakipsizdir ve keşfedilmeye değerdir.

AI Technology Review, arkasındaki teknolojinin ayrıntılı bir analizini yaptı ve bunun temel olarak ses etkileşimindeki iki büyük "uçtan uca entegrasyon" yeniliğinden kaynaklandığına inanıyor:

1) Yazılım düzeyinde. Şu anda, akıllı hoparlörler alanındaki popüler ses etkileşim şeması: önce ses geliştirme, ardından ses tanıma. Bu süreç, sesli etkileşimi iki bağımsız sürece ayırır ve hedefler genellikle optimizasyon sürecinde tutarsızdır. Baidu, "karmaşık evrişimli sinir ağlarına dayalı olarak konuşma geliştirme ve akustik modelleme için entegre uçtan uca modelleme teknolojisini" (uzun bir paragraf, anahtar kelimeler: karmaşık evrişim, uçtan uca, geliştirme ve modelleme) doğrudan benimsemiştir. Entegrasyon), tek optimizasyon hedefi olarak kelime tanıma doğruluğu ile.

2) Donanım düzeyinde. Geleneksel olarak, akıllı hoparlörlerin sesli uyandırması genellikle iki seviyeli bir uyandırmadır ve bunu tamamlamak için düşük güçlü bir uyandırma çipi ve yüksek performanslı bir ana çip gerektirir. Bu çerçeve, son derece yüksek ortalama güç tüketimine (1 W'ın üzerinde) yol açar ve ana yonga için son derece yüksek hesaplama gücü gerektirir. Baidu, tüm sesli etkileşim görevlerini düşük güçlü bir ses etkileşim yongasına (Honghu) yerleştiren uçtan uca bir yazılım-donanım entegrasyon çerçevesi önermektedir. Ana yonganın karmaşık ses etkileşimi hesaplama işlevlerini taşıması gerekmez, bu da ses etkileşimi parçalarını önemli ölçüde kurtarır. Genel sistem kaynaklarının mesleği.

Bu, hem yumuşak hem de sert seviyelerde bir yeniliktir ve tüm (uzak alan) ses etkileşimi için yıkıcıdır.

1 Yazılım seviyesi: konuşma geliştirme ve akustik modelleme için entegre uçtan uca modelleme teknolojisi

Öncelikle akıllı hoparlörlerin ses etkileşiminin yazılım seviyesinin neden uçtan uca modelleme işleme yöntemini seçmesi gerektiğini inceleyelim.

Geleneksel olarak, uzak alan konuşma tanımanın doğruluğunu geliştirmek için, bir mikrofon dizisi genellikle bir pikap olarak kullanılır ve çok kanallı konuşma sinyali işleme teknolojisi, hedef sinyali geliştirmek ve konuşma tanımanın doğruluğunu geliştirmek için kullanılır.

Şu anda satışta olan akıllı hoparlör ürün sistemlerinin çoğunda kullanılan çok kanallı konuşma tanıma sistemi, bir ön uç geliştirme modülü ve bir arka uç konuşma tanıma akustik modelleme modülünden oluşur:

Kasım 2019'dan resim, Baidu Voice Engine Forumu

Ön uç geliştirme modülü genellikle varış yönü tahminini (DOA) ve ışın üretimini (BF) içerir. DOA teknolojisi esas olarak hedef ses kaynağının yönünü tahmin etmek için kullanılırken, BF teknolojisi, hedef sinyali geliştirmek ve parazit sinyalini bastırmak için hedef ses kaynağının konum bilgisini kullanır.

Resim internetten geliyor

Arka uç ses tanıma akustik modelleme modülü, bu gelişmiş ses sinyali üzerinde derin öğrenme modellemesi gerçekleştirecektir.

fakat,

1) Işın alanındaki ses alma yönteminin sınırlamaları vardır. Yukarıdaki konuşma geliştirme teknolojileri türlerinin çoğu, ışındaki konuşmayı işitsel algıdan daha net hale getiren MSE tabanlı optimizasyon kriterlerini kullanır ve ışının dışındaki arka plan gürültüsü daha küçüktür. Ancak işitsel algı ve tanıma oranı tam olarak aynı değildir. Dahası, gürültü içeriği de ses içeriği olduğunda (örneğin, TV ve insanlar aynı yönde olduğunda), bu yöntemin performansı keskin bir şekilde düşecektir.

2) Geliştirme ve tanıma modüllerinin optimizasyon hedefleri tutarsızdır. Ön uç konuşma geliştirme modülünün optimizasyon süreci, arka uç tanıma modülünden bağımsızdır. Bu optimizasyon hedefi, arka uç tanıma sisteminin nihai hedefi ile tutarsızdır. Hedeflerin tutarsızlığı, ön uç geliştirme modülünün optimizasyon sonucunun nihai hedefte yetersiz kalmasına neden olabilir.

3) Gerçek ürün ortamı karmaşıktır ve geleneksel yöntemler kullanıcı deneyimini etkileyecektir. Işın alanına dayalı olarak sesi alma yöntemi, büyük ölçüde ses kaynağı konumlandırmasının doğruluğuna dayanır, ancak ilk uyanış için, ses kaynağının konumu henüz bilinmediğinden, ilk uyanma hızı genellikle çok düşüktür.

Bu sorunlara en iyi çözüm, konuşma geliştirme ve konuşma tanıma modellemesini uçtan uca entegre etmek ve bir dizi derin öğrenme modeli tasarlamaktır. Giriş, çok kanallı mikrofon sinyalleridir ve çıktı, hedef dildeki metindir. Modelin optimizasyon hedefi Yalnızca bir kelime doğruluk oranı vardır.

Kasım 2019'dan resim, Baidu Voice Engine Forumu

2017'de, Google ekibi ilk olarak ön uç konuşma geliştirme ve konuşma akustik modellemesinin entegre modelleme problemini çözmek için sinir ağlarının kullanımını önerdi.

Bununla birlikte, Google tarafından önerilen FCLP yapısı (Factored Complex Linear Projection), sinyal ışınını simüle etmek ve yaklaştırmak için bir derin öğrenme ağı kullanan sinyal işleme yöntemine dayanmaktadır, bu nedenle sinyal işleme yönteminin bazı önceki varsayımlarıyla da sınırlı olacaktır. Dijital sinyal işlemeye dayalı geleneksel mikrofon dizisi algoritmasıyla karşılaştırıldığında Google,% 16'lık bir göreceli hata oranında azalma elde etti.

Baidu, "konuşma geliştirme ve konuşma akustik modelleme entegrasyonu" için uçtan uca modelleme yapmak gibi benzer bir fikri benimsiyor, ancak kullandıkları şey "karmaşık tabanlı evrişimli sinir ağı".

Kasım 2019'dan resim, Baidu Voice Engine Forumu

Google'ın yöntemiyle karşılaştırıldığında, bu yöntem, dijital sinyal işleme disiplinlerine ilişkin önceki bilgileri tamamen terk eder ve model yapısı tasarımı, çok katmanlı yapının ve çok kanallı özellik çıkarımının avantajlarından tam anlamıyla CNN ağından yararlanarak dijital sinyal işleme disiplinlerinden tamamen ayrıştırılır.

Orijinal özellik faz bilgisini koruma öncülüğünde, bu model aynı anda ön uç ses kaynağı lokalizasyonu, ışın oluşturma ve gelişmiş özellik çıkarımını gerçekleştirir. Modelin altında CNN tarafından soyutlanan özellikler, doğrudan uçtan uca akışlı çok aşamalı kesik dikkat modeline (SMLTA) gönderilir, böylece orijinal çok kanallı mikrofon sinyalinden tanıma hedef metnine uçtan uca entegre modelleme gerçekleştirilir. .

Tüm ağın optimizasyon kriterleri tamamen konuşma tanıma ağının optimizasyon kriterlerine bağlıdır, yani model parametre ayarı tamamen tanıma oranını iyileştirmeyi amaçlamaktadır.

Jia Lei geçen Kasım ayında "Baidu Beyin · Konuşma Yeteneği Motoru Forumu" nda şöyle demişti: "Modelimiz biyolojik sinyallerin temel özelliklerini çıkarabilir. Karşılaştırma için, Google'ın sistemi iki mikrofon sinyalinin karşılık gelen frekans bantları arasındaki bilgileri varsayar. Bir ilişki var. Bu, frekans bantları arasında bilgi madenciliği yapmaz. Google'ın düşük tanıma oranının da nedeni budur. "

Kasım 2019'dan resim, Baidu Voice Engine Forumu

Daha önce belirtildiği gibi, önceki Baidu akıllı hoparlörlerinde kullanılan geleneksel "dijital sinyal işleme için ön uç geliştirme modülü" + "arka uç konuşma tanıma akustik modelleme süreci" ile karşılaştırıldığında, bu tür karmaşık evrişimli sinir ağı Konuşma güçlendirme ve akustik modellemeye yönelik entegre uçtan uca modelleme teknolojisi, hata oranında% 30'dan fazla azalma sağlamıştır.

% 30'luk azalma, aynı zamanda son derin öğrenme uzak alan tanıma teknolojisindeki en büyük ürün performansı iyileştirmesidir.

Aynı zamanda, bu modelleme yöntemi uçtan-uca entegrasyon olduğundan, ses kaynağını bulmaya gerek yoktur, bu nedenle konumlandırma hatalarının neden olduğu tanıma doğruluğundaki geleneksel keskin düşüşü önler. Özellikle ilk uyanışta (konumlandırma bilgisi olmadan), bu teknolojinin yüksek gürültü altında ilk uyanışının maksimum hızı% 10'dan fazla artırılabilir ve yanlış alarm oranı çok düşükken yüksek hassasiyette uyanma sağlayabilir. Bu, endüstride geleneksel teknoloji ile yapılamayacak bir şeydir.

Bu yöntemin başarısı bir noktayı göstermektedir: "uçtan uca modelleme", uzak alan konuşma tanıma endüstrisi uygulamaları için önemli bir gelişme yönü olacaktır.

Jia Lei, bu araştırmaya dayanarak geçen yıl gazetecilere verdiği demeçte: "Üç yıl içinde uzak alan konuşma teknolojisinin tanınma oranı yakın alan tanıma oranına ulaşacak. Bu teknoloji sayesinde uzak alan tanıma sorunu temelde çözülebilir. Disiplinler arası büyük bir yenilik. "

Bu uçtan uca ağın 200K'dan daha az bellek kapladığı ve bu nedenle çipin içine gömülmek için çok uygun olduğu belirtilmelidir.

2 Donanım seviyesi: Uçtan uca yazılım ve donanımla entegre uzak alan sesli etkileşim çözümü

Baidu'nun akıllı hoparlörlerdeki ikinci gelişimi, uçtan uca yazılım ve donanıma entegre uzak alan sesli etkileşim çözümüne bağlanabilir.

Kasım 2019'dan resim, Baidu Voice Engine Forumu

Hala geleneksel yöntemle başlıyoruz.

Akıllı konuşmacılar için uyanma önemli bir konudur. Şu anda, endüstride yaygın olarak kullanılan düşük güçlü uyandırma şeması iki seviyeli bir uyandırmadır. İlk uyanma seviyesi az miktarda hesaplamaya sahiptir ve esas olarak izleme için kullanılır ve 24 saat boyunca çalışır. İkinci uyanma seviyesi hesaplama açısından yoğundur ve uyanma şüphesi olduğunda kararlar verir. Yaygın olarak kullanılan düşük güçlü çipli uzak alan sesli etkileşim çözümlerinin tümü, yalnızca ilk uyandırma seviyesini taşıyan düşük güçlü çip parçalarıdır, böylece tüm hava koşullarında izleme süreci çok fazla güç tüketmez. Şüpheli bir uyanma meydana gelirse, ikinci seviye uyandırmayı daha güçlü bir ana yonga üzerinde çalıştırın ve sonunda uyanmanın olup olmadığını belirlemek için ikinci bir test yapın. Böyle iki seviyeli bir mekanizma, ana çipin bilgi işlem gücünü ve kaynaklarını ikinci uyandırma seviyesine doğru eğimlendirir.

Dikkat edilmesi gereken bir şey, yukarıdaki iki seviyeli akıllı hoparlör yongalarının ARM yongalarına dayalı olmasıdır.Bu tür yonga, ses uyandırma ve tanıma için kullanılır.Bir yandan, maliyetlidir (daha yüksek bilgi işlem gücü gereksinimleri nedeniyle). Çok yüksek. Genel olarak, ortalama güç tüketimi 1 W'ın üzerindedir.

Bu sorunu çözmek için, 1) bilgi işlem gücünü iyileştirmek için özel bir talimat seti aracılığıyla; 2) daha da önemlisi, orijinal olarak ana yonga üzerinde çalışan tüm ses etkileşimlerini yerleştirerek özel bir sesli etkileşim çipinin tasarlandığı açıktır. Bu yongada, ana yonganın artık karmaşık ses etkileşimi hesaplama işlevlerini taşıması gerekmiyor, bu da sesli etkileşim bölümünün genel kaynak kullanımından önemli ölçüde tasarruf edebiliyor; aynı zamanda ana yonga da nispeten ucuz bir yonga seçebilir.

Resmi tanıtıma göre Baidu tarafından piyasaya sürülen Honghu yongası, çift çekirdekli bir Hifi4 mimarisi özel komut seti, büyük bellek, TSMC 40nm işlemi (daha yüksek işlemler için gerekli değildir) ve aynı anda uzak mesafeleri destekleyebilen yaklaşık 100 mw ortalama işletim gücü tüketimini kullanır. Uyanma için kullanılabilecek alan ses etkileşimi çekirdek dizi sinyal işleme ve derin öğrenme hesaplama yetenekleri. Yonga mimarisine Honghu, yukarıda bahsedilen uçtan uca entegre modelleme algoritmasını yerleştirdi ve bellek yapısı ve hiyerarşik bellek yükleme stratejisinin yanı sıra önbellek, çift çekirdekli iletişim ve derin öğrenmeyi gerçekleştirebilen diğer yapılar üzerinde özelleştirilmiş çalışmalar yaptı. Hesaplama süreci ve veri yükleme oldukça paraleldir.

Burada belirtilmesi gereken şey, Honghu çipinin ses etkileşiminin tüm işlevlerini (uzak alan alma, uyandırma, konumlandırma vb.) Tamamlayabilmesi nedeniyle, bu, Honghu çipi tarafından çıkarılan özelliklerin bulutta yüksek hassasiyetli tanıma için doğrudan buluta aktarılmasına izin vermesidir. , Ana çipin herhangi bir bilgi işlem kaynağını işgal etmeden. Yazılım ve donanımın bu entegre uçtan uca mimarisi, yüksek performanslı ses deneyimi ile son derece düşük maliyetli akıllı donanımın birleşimini gerçekleştirir.

Baidu'nun resmi verilerine göre, yeni piyasaya sürülen akıllı hoparlörlerin ortalama bekleme güç tüketimi, 3C ürünlerinin 0,5 watt bekleme standardını tam olarak karşılayan yaklaşık 100 milivattır, bu da herhangi bir ülke onaylı enerji tasarrufu ve çevre dostu yeşil cihaz anlamına gelir. Tüm ürünler Honghu ses çipi ile donatılabilir. Bu nedenle, Honghu çipinin aynı zamanda endüstrinin bu standardı karşılayan entegre uzak alan ses etkileşimi uç taraf teknolojisine sahip ilk ses çipi ürünü olduğu söylenebilir.

Enerji tüketiminin bu şekilde sıkıştırılması, geleneksel ARM yonga tabanlı mimarinin üstlenemeyeceği bir görevdir.

Ek olarak, uyanma doğruluğu için daha yüksek gereksinimlere ek olarak, ev ortamlarında da son derece düşük yanlış alarmların olması gerekir, aksi takdirde "gece yarısı oturma odasında açıklanamaz şekilde şarkı söylemek" gibi garip bir fenomen olacaktır. Geleneksel düşük güçlü uyandırma düzeninde, uyanmak ana yongaya yerleştirilen karar modeline bağlıdır, bu nedenle uyanmanın yanlış alarm seviyesi de buna bağlıdır. Bununla birlikte, Honghu'nun uçtan-uca şeması seçilirse, çok seviyeli uyanmanın getirdiği hatalar önlenebilir ve böylece yanlış alarm oranı azaltılabilir.

3 Sesli etkileşim alanında uçtan uca yenilik

Geriye dönüp baktığımızda, Baidu tarafından önerilen bu teknoloji setinin getirdiği tanıma hatası oranındaki azalmaya, ilk uyanma oranındaki artışa (yanlış alarm oranı son derece düşükken) ve bekleme güç tüketimindeki azalmaya bakalım. Açıkçası, iyileştirme için yer var. Bu tür bir "yükseltme", yumuşak ve sert seviyelerdeki yeniliklerinden kaynaklanmaktadır.

Her şeyden önce, önerdikleri "uçtan-uca modelleme teknolojisi", iki konuşma geliştirme ve akustik modelleme sürecini doğrudan tek bir süreçte entegre ederek, ilgili süreçlerdeki optimizasyon tutarsızlığından kaynaklanan hata oranındaki düşüşü önler. Genel optimizasyon hedefi yalnızca Biri kelime doğruluğu. Bu fikir, her türlü ön bilgiyi (ve getirdiği hataları) tamamen ortadan kaldırır ve model yapısı tasarımı, çok katmanlı yapının ve CNN ağının çok kanallı özellik çıkarımının avantajlarından tam anlamıyla yararlanarak dijital sinyal işleme disiplininden tamamen bağımsızdır. Yıkıcı bir düşüncenin gelişim için daha fazla alanı olduğu açıktır.

Öte yandan, model çipin içine gömülüdür ve tüm sesli etkileşim problemlerini çözmek için bir çip kullanılır. Yalnızca yüksek uyandırma doğruluğuna sahip olmakla kalmaz, aynı zamanda çok düşük yanlış alarmlara sahiptir. Bu yeni yazılım-donanım entegre mimarisi, ana yongayı doğrudan serbest bırakır ve ana yonganın bilgi işlem performansı gereksinimlerini büyük ölçüde azaltır, böylece hem fiyat hem de güç tüketimi büyük ölçüde optimize edilebilir. Bu yapısal yenilik, tüm akıllı konuşmacı (uzak alan etkileşimli sahne) endüstrisini değiştirecek teknolojik bir yenilik olmaya mahkumdur.

Tek bir yonga, bu kadar düşük güç tüketimiyle tüm sesli etkileşim işlevlerini aynı anda çözebilir Baidu Honghu, şüphesiz küresel endüstri için yeni bir ölçüt oluşturmuştur. Akıllı konuşmacının kendisine geri dönersek, yazılım ve donanım entegrasyonunun geniş ölçekli kullanımı, sektördeki diğer üreticiler için de önemli bir baskı oluşturabilir.