Baidu Voice'un "küçük bir adımı", ses teknolojisinin "aya iniş planı" için büyük bir adım olabilir

Görüntü kaynağı @Visual China

Metin Zhao Saipo

İnsan-bilgisayar etkileşimi için yeni bir giriş olarak ses, son birkaç yılda dünyayı kasıp kavurdu. Ses teknolojisinin ilerlemesi sadece her türlü akıllı cihaza yansımakla kalmaz, aynı zamanda mobil cihaz giriş yöntemlerinin dönüşümünü sürekli olarak güçlendirir.Uygun sesli etkileşim yöntemine dayanarak, giriş yöntemindeki ses girişi de kullanıcılar ve cihazlar arasındaki etkileşimi sessizce değiştiriyor. Desen.

Teknik alanda, bazı geniş kapsamlı teknolojik araştırma ve geliştirme çalışmaları genellikle "aya iniş planları" olarak adlandırılır. Bu hafta Baidu'nun konuşma alanındaki "küçük bir adımı", insan konuşmasının "aya inişinde" de büyük bir adım attı.

Baidu Giriş Yöntemi Konferansı'nda Baidu, konuşma alanında dört önemli teknolojik atılımı duyurdu. Bunların arasında, çevrimiçi konuşma alanında dünyanın ilk akışlı çok düzeyli kesik dikkat modeli (SMLTA, tam adı "Akışla aktarılmış çok katmanlı dikkat") odak noktası haline geldi, bu da akademik dünyada uzun yıllardır tartışılan dikkat modelinin nihayet gerçekleştiği anlamına geliyor. Büyük ölçekli çevrimiçi ticari kullanım.

Bu hareket önemlidir. Bu bir yandan dikkat modeline dayalı sektörün ilk çevrimiçi ses ürünü olup, Baidunun ses teknolojisi araştırma ve geliştirmedeki liderliğini vurgularken, diğer yandan yapay zekanın temel bir işlevi olarak ses teknolojisi Baidunun yapay zeka teknolojisinde ürün yeniliğini güçlendiren bir rol oynamaktadır. Büyüyor ve büyüyor Bu, Baidu'nun yapay zeka stratejisi için de önemli bir gözlem penceresi.

Daha sonra, bu makale duyurulan çok seviyeli kesik dikkat modeliyle başlayacak, bu teknolojinin arkasındaki anlamı ortaya çıkaracak ve şirketin yapay zeka stratejik yönünü daha da keşfetmek için diğer Baidu ürün serilerini güçlendirmek için ses teknolojisiyle birleştirilecek. .

1. Teknolojik atılım: akademide büyük bir sorunun inişi

Son birkaç yılda yapay zekanın eleştirilmesinin ana nedenlerinden biri teknik uygulamanın zorluğudur.Bir laboratuvar teknolojisi ne kadar gelişmiş olursa olsun, ticari senaryolarda uygulanamazsa, az çok çağdaş "ejderha öldürme teknikleri" vardır.

Örneğin, konuşma alanındaki dikkat modeli (Dikkat modeli).

Dikkat modeli, bir cümledeki her hece veya Çince karakterin ses özelliklerine dayanan bir makine öğrenimi modelidir. Makine öğrenimi yöntemi aracılığıyla, ses özellikleri otomatik olarak çıkarılır. Diğer bir deyişle, bu yöntem altındaki konuşma tanıma süreci, kelime kelime yuvarlanan bir nesil süreci haline geldi.

Geleneksel konuşma tanımanın durum modellemesinden ve konuşma çerçevesine göre kod çözme işleminden kurtulduğu için model, konuşma ve metin entegrasyonunun uçtan uca modellemesini doğrudan gerçekleştirebilir ve akademi tarafından tanınan modelleme doğruluğuna sahiptir.

Ancak bu teknoloji uzun zamandır geniş ölçekte uygulanamıyor. Bir yandan, akışlı kod çözme sorunu çözülemez.Geleneksel dikkat modellerinin çoğu tüm cümle modellemesine dayanır.Örneğin, Google'ın LAS modeli temsilcilerden biridir. Tüm modelleme süreci, bulutun / sunucunun kod çözme yeteneğini gerektirir. Bu aynı zamanda, kullanıcılar ses yoluyla etkileşim kurduğunda, sesin buluta yüklenmesi gerektiği anlamına gelir ki bu da mobil cihazların kullanıcı deneyimi üzerinde büyük bir etkiye sahiptir.

Öte yandan, yukarıda bahsedildiği gibi, geleneksel dikkat modelinde, ses bilgisinin tüm cümlesinin genellikle makine öğrenimi yoluyla çıkarılması, yani ses girişinin cümlesinin uzaması, özellik seçiminin gerçekleştirilmesi daha zordur. Hata olasılığı ne kadar yüksekse ve belirli bir bağlantıda bir hata meydana geldiğinde, hata iletimi hata oranını daha da artıracaktır Kullanıcı deneyimindeki son yansıma, kullanıcı bir paragrafı konuştuktan sonra makinenin bunu hiç anlayamamasıdır.

Bu aynı zamanda Baidu'nun çok aşamalı kesilmiş dikkat modeli SMLTA'nın çözeceği sorundur. Temelde iki önemli teknolojik atılım içerir: Birincisi, sürekli konuşmayı otomatik olarak kesmek için CTC konuşma tanıma algoritmasını kullanmak ve ardından bu konuşma segmentleri dizisine dayalı bir dikkat modeli oluşturmaktır. İkinci olarak, aşamalı olarak daha hassas özellik seçimi elde etmek için özel bir çok seviyeli Dikkat mekanizması tanıtıldı.

Baidu'nun resmi açıklamasına göre, tüm hesaplamalar CPU tarafından yapıldığından, ek GPU'ya ihtiyaç duyulmuyor ve tüm bulutun bilgi işlem kaynağı tüketimi önceki ses modeliyle aynı. Giriş yöntemi doğruluğu açısından, çok sayıda veri testi sonucu, göreceli doğruluk oranının önceki modele kıyasla% 15 arttığını göstermektedir.

Daha da önemlisi, bu sadece endüstrinin akışlı çok aşamalı kesilmiş dikkat modeli SMLTA'yı ilk kez önermesi değil, aynı zamanda küresel ölçekte dikkat modeline dayalı çevrimiçi konuşma tanıma hizmetlerinin ilk büyük ölçekli uygulamasıdır. Baidu, bu dikkat modelini Çin'deki yüz milyonlarca kullanıcıya hizmet vererek, tüm ses girişi ürünlerine başarıyla uyguladı. Bu nedenle, bu teknolojik atılım artık sadece laboratuvar teknolojisinin bir gösterimi değil, ortak bir kullanıcı haline geldi. Teknik bonusun tadını çıkarabilirsiniz.

2. Güçlendirme: İçten dışa

Bir yıl önce Baidu giriş yöntemi yükseltmesinde, Deep Peak 2 modeline dayanan ses modeli, farklı senaryolarda ses tanımanın doğruluğunu büyük ölçüde geliştirdi. Bir yıl sonra, giriş yöntemi yükseltmesi, çevrimdışı ses, Çince-İngilizce karışık giriş ve Mandarin lehçesi karışık girişinin yükseltilmesini de getirdi.

Bunların arasında çevrimdışı konuşma tanıma sahnesi en özel olanıdır. Konuşma tanıma ağın desteğine ihtiyaç duyduğundan, ağ olmadığında veya ağ kararlı olduğunda, konuşma tanıma başarı oranı düşüktür ve tanıma hızı yavaştır.

Çevrimdışı ses yoluyla bir deneyim sorunu çözülmüş olsa da, geçmişte çevrimdışı sesin ve çevrimiçi sesin doğruluğu çok farklıdır ve deneyim temelde çözülemez.

Bu senaryoya yanıt olarak, Baidu ses teknolojisi ekibi, çevrimdışı ses tanımanın doğruluğunu büyük ölçüde artıran giriş yöntemine gömülü tanıma için deep peak2 sistemini optimize etti. Baidu tarafından açıklanan rakamlara göre, Baidu Giriş Yöntemi'nin şu anki çevrimdışı ses girişi doğruluk oranı, endüstri ortalamasından% 35 daha yüksek, bu da kullanıcıların bunu internet olmadan senaryolarda sorunsuz ve hızlı bir şekilde kullanmasına olanak tanıyor.

Yukarıda bahsedilen dikkat modeli gibi bir dizi teknolojik yenilik, aynı zamanda Baidu'nun ürün geliştirmeyi teşvik eden ses teknolojisinin bir mikro kozmosudur.

Harita gibi. Haritanın geçen yıl Aralık ayında yeni sürümünde, navigasyon rotaları, konum bulma ve Xiaodu yardımcılarını kapsayan önemli bir interaktif yöntem olarak ses kullanıldı.

Çeviri alanında, geçen yıl Ekim ayında, Baidu, iki dil arasında yüksek kaliteli, düşük gecikmeli çeviri sağlayan, tahmine dayalı yeteneklere ve kontrol edilebilir gecikmeye sahip gerçek zamanlı bir makine çevirisi sistemi geliştirdi. Bunların arasında, bağlamdan bağımsız fonem kombinasyonunun Çince ve İngilizce karma modelleme birimi aracılığıyla, konuşma tanıma yöntemi iyi genelleme performansı, gürültüye karşı sağlam ve karışık Çince ve İngilizce tanıma özelliklerine sahiptir.

Aynı zamanda, Baidu kıdemli başkan yardımcısı ve AI teknoloji platformu sistemi (AIG) başkanı Wang Haifeng'in Baidu Brain Forum'da söylediği gibi, "Baidu Brain, Baidu'nun işlerinin yükseltilmesini desteklemekle kalmıyor, aynı zamanda sosyal zekanın yükseltilmesini de destekliyor." Sektördeki diğer yapay zeka devlerinin mevcut stratejilerine paralel olarak, ses teknolojisi yalnızca Baidu'nun çoklu ürün serisi yeniliklerinin itici gücü olmakla kalmıyor, aynı zamanda Baidu'nun beyni aracılığıyla endüstriyi güçlendiriyor ve güçlendiriyor.

Örnek olarak uzak alan tanıma algoritmasını ele alalım: Mikrofon dizisinin ön uç işleme algoritması sayesinde, hedef konuşmacı 3-5 metrelik bir mesafede konuşarak tanınabilir. Şu anda, sesli uzak alan çözüm teknolojisine dayalı "Xiaodu Robot İnsan-Makine Sesi Etkileşimli Sipariş", Şangay KFC amiral gemisi mağazasında kullanıma sunuldu.

2018'deki Baidu Dünya Konferansı'nda, Baidu Brain ayrıca birden fazla ses teknolojisi güncellemesi getirdi. Örneğin, "tek seferlik uyanma ve sürekli etkileşim" in teknolojik atılımı, kullanıcıların birden fazla diyalog turuna devam etmek için yalnızca bir kez uyanmaları gerekir; makine, kullanıcının tereddütünü doğru bir şekilde tanıyabilir ve konuşurken durabilir ve ilk kez uyanan kullanıcıyı ayırt edip takip edebilir. Kullanıcı deneyimi daha doğaldır ve Akıcılık, ses etkileşimi için daha fazla hayal gücü sağlar.

3. Sonuna yazın

Tek bir yapay zeka becerisi olan ses teknolojisi, ilerleme için hala büyük bir alana sahiptir. Bir yandan, sessiz ortamlarda konuşma tanımanın tanıma oranı ve Mandarin tanıma gerçekten nispeten yüksektir, ancak karmaşık ortamlarda, aksanlarda, lehçelerde ve diğer ortamlarda tanıma oranı hala tatmin edici değildir.

Öte yandan, ses teknolojisi sadece ses ve metin arasında bir dönüşüm sorunu ya da saf bir yazılım veya donanım sorunu değildir.Geleceğe yönelik ses teknolojisi, donanım ve yazılımın entegrasyonu, ses ve dilin entegrasyonu ve tanıma ve etkileşimin entegrasyonudur.

Baidu tarafından bu kez başlatılan çok seviyeli kesilmiş dikkat modeli SMLTA, şüphesiz Çin çevrimiçi konuşma tanıma tarihinde bir başka dönüm noktasıdır.

Gelecekte, Baidu Voice'un önemli odak noktası, düşük kaliteli çiplerin aşağı doğru gelişimi ve ses semantik entegrasyonunun ve etkileşiminin yukarı doğru gelişimi olacaktır. Nihayetinde Baidu Voice, alt donanım yongasından üst düzey akıllı donanım sistemine ve ardından sistem yazılımı, ses istemcisi, ses sunucusu ve arka uç etkileşim entegrasyonuna tam bağlantılı bir sesli etkileşim teknolojisi oluşturacak.

Baidu'nun devasa kullanıcılarına ve zengin ürünlerine dayanan bu teknolojiler, kullanıcıların yapay zekanın avantajlarından yararlanmasına olanak tanıyacak ve Baidu'nun beyni aracılığıyla hayatın her alanını güçlendirmeye devam edecek. (Bu makale ilk olarak Titanium Media'da yayınlandı)

Daha heyecan verici içerik için Titanium Media WeChat ID'yi (ID: taimeiti) takip edin veya Titanium Media Uygulamasını indirin

EVA şıklığını bir kez daha tazeledi, manken olmak bu insanların faulü!
önceki
"Büyük Beklentiler" "Zor Zamanlarda Festivaller" Fragmanını Açıklıyor Tong Liya Guo Caijie bir kadın güzelliğine dönüşüyor
Sonraki
Polis, Liaocheng'deki "sahte ilaç kapısına" karışan doktorla ilgili soruşturmayı sonlandırdı.
"Persona 5" bir ön eleme toplantısı düzenledi, yüksek çözünürlüklü önizleme yayınladı
Geçtiğimiz on yıl içinde Çin tiyatrolarında aynı türden bir film olmamıştır.
Kapsamlı değerlendirme: OPPO R17 Pro ile rüya gibi bir karşılaşma, güzel fotoğraflar, sorunsuz sistem, yeterince sizinle
Film Haritası Viyana Karşılaşması, "Şafaktan Önce Aşk"
Bilet satın almamış arkadaşlar buraya bakın. Sadece biletleri değil, aynı zamanda Yeni Yıl için eve rahatça gidebilirler. Küçük konu
OPPO R17 Pro görünüm deneyimi: son derece güzel ve yenilikçi zirve
Gerçek "aşk oyununu" hatırlıyor musun? Artık daha fazla karakter ekledi
"Animal Attack", ailelerin film izlemek için ilk tercihi olan 51. dosyanın "küçük evcil hayvan istekli" versiyonunun fragmanını ortaya koyuyor
Jishou Şehri: "Çocukların Büyük Görüş Alanı · Meteorolojik Atılım" Meteorolojik Popülerleştirme Faaliyetleri Başladı
Fotoğraf değerlendirme: OPPO R17 pro lensin altındaki tanrıça aurası tamamen açık
En iyi Çin çizgi romanlarından bahsetmeyin ve burada bunun bir kurt olduğunu düşünmeyin, bu sefer doğru
To Top