Ali Dharma Akademisi Aydınlatılıyor! P10 patronu size AIoT akıllı sesli etkileşim teknolojisinin nasıl oluşturulacağını öğretir

[CSDN editörünün notu] Dünyayı değiştiren Öğretmen Ma, Dharma Akademisinin Alibaba'dan daha uzun yaşadığını söyledi. Dharma Akademisi ile ilgilenen geliştirici arkadaşlar, Dharma Akademisi'nin bilinmeyeni keşfetmek için geleceğe bakan bir araştırma enstitüsü olduğunu bilmelidir.Araştırma alanı esas olarak 5 alana bölünmüştür.Bu makalenin yazarı - Alibaba Dharma Akademisi araştırmacısı Dr. Fu Qiang ondan geliyor Makine zekasında çok önemli bir konuşma laboratuvarı Konuşma sinyali işleme araştırma ve uygulama geliştirmede 20 yıldan fazla deneyime sahiptir.

"CSDN Çevrimiçi Zirvesi-Alibaba Bulut Çekirdeği Teknolojisi Rekabeti" nde Dr. Qiang Fu, AIoT odaklı akıllı ses etkileşimi teknolojisi ve uygulamasını derinlemesine paylaştı.Bu makale konuşmanın özünü oluşturuyor.

Dr. Qiang Fu tarafından paylaşılan videoyu ücretsiz olarak izlemek için bağlantıyı kopyalayın veya "Orijinali oku" seçeneğini tıklayın:

https://edu.csdn.net/course/play/28249/388356

Konuşma | Fu Qiang, Alibaba Dharma Akademisi Araştırmacısı

Editör | Tang Xiaoyin

Baş resmi | Oriental IC'den indirilen CSDN

Üretildi | CSDN (ID: CSDNnews)

Ali Dharma Akademisine Yaklaşmak

2017 yılında kurulan Alibaba Dharma Akademisi, bilim ve teknolojinin bilinmeyenlerini keşfetmeye kendini adamıştır ve insan vizyonunun yönlendirdiği temel bilime, yenilikçi teknolojilere ve uygulamalı teknolojilere dayanmaktadır. "Sorunları kar ve eğlence ile çözmek için araştırma" amacına bağlı kalarak Dharma Akademi, "dünyayı teknoloji ile yenilemeyi" hedefliyor.

Dharma Akademisi'nin araştırma alanları

Ali Dharma Akademisi Çin, Amerika Birleşik Devletleri, İsrail ve Singapur'da bulunmaktadır ve esas olarak beş ana araştırma alanını içermektedir: makine zekası, veri hesaplama, robotik, finans teknolojisi ve X Lab. Ses laboratuvarı, makine zekası yönüne aittir.

Makine zekası teknolojisi laboratuvarının araştırma yönü

Makine zekası teknolojisi laboratuvarının araştırma yönü, ses, anlam bilgisi, vizyon ve operasyon araştırmasının optimizasyonunu içerir ve karşılaştığı alanlar hükümet, ulaşım, tarım, medya, endüstri, yeni perakende ve diğer senaryoları içerir.

Konuşma laboratuvarı, tüm Dharma Akademisi'nin akademik alanında hala belirli bir statüye sahip. 2019'da, insan-bilgisayar diyalog sorununu aşmak için denizaşırı devleri ezdi ve DSTC7 Uluslararası Yarışması'nın çifte şampiyonunu kazandı. Ayrıca 2019'da Alibaba Voice AI, "2019'un En İyi On Küresel Çığır Açan Teknolojisinden" biri seçildi.

Dharma Akademisi'nin ses çözümünün teknik avantajları, tanıtmak için aşağıdaki 6 noktaya bölünebilir:

  • Mükemmel teknik yetenekler: Dharma Academy, eksiksiz bir teknik zincire ve dünya lideri teknik yeteneklere sahiptir.

  • Ücretsiz temel yetenekler: temel ses yetenekleri ücretsiz olarak ve diğer politikalar sağlanır.

  • Daha esnek çözümler: katmanlı hizmetler için farklı stratejiler ve farklı satıcıların farklı yeteneklerine dayalı özelleştirilmiş çıktı.

  • Ali ekolojisi ve hizmetleri: Alibaba Group tarafından sağlanan devasa ekoloji.

  • Seri üretimde zengin deneyim: yazılım ve donanım tasarımı, çok cihazlı seri üretim deneyimi.

  • Müşterilere hizmet verme yeteneği: hızlı erişim, tam bağlantı özelleştirme, sürekli yineleme ve BI yetenekleri.

NUI terminal bulutu entegre platform mimarisi

Sesli etkileşim temel olarak ses ayırma / geliştirme, tanıma, anlama, sentez, diyalog vb. İçerir. Dharma Akademisi, Ali'nin ekolojisine dayalı içerik ve hizmetler sağlayan ve Taoxi, Alipay ve diğer uygulamaları destekleyen NUI (Doğal Kullanıcı Arayüzü) adı verilen bir dizi terminal-bulut entegre platform mimarisine sahiptir. NUI, insanlara bilgi sağlayan, ekipmanı kontrol eden veya diğer görevleri doğal etkileşim yoluyla tamamlayan bir ürün formudur.

Akıllı donanım için uçtan buluta entegre ses teknolojisi yetenekleri

Konuşmayla ilgili teknik yeteneklere göre geliştirilmiş, temel işlevlere ve üst düzey işlevlere ayrılabilir. Temel yetenekler arasında ASR: yakın alan + uzak alan konuşma tanıma, TTS: konuşma sentezi, WWV: yerel uzak alan uyandırma, sinyal işleme: anti-gürültü + AEC yankı iptali, uzak alan 2/4 MIC modülü çözümü; ileri teknoloji Dharma Akademisi tarafından bağımsız olarak geliştirilen benzersiz patentli teknoloji, lehçeleri, kısayol komut sözcüklerini, uyandırma sözcük özelleştirmesini, ses izlerine dayalı kişiselleştirilmiş önerileri, kör ayırmaya dayalı ses iyileştirmeyi, 10'dan fazla alanda diyalog anlama işlevlerini ve anında sıcak sözcükleri içerir. İşlev vb.

Aynı zamanda Ali'nin yerel, yaşam, seyahat, turizm, akıllı, ev, alışveriş, eğlence ve diğer yönler dahil olmak üzere Ali'nin ekolojik kaynaklarını da entegre etti.

Uzak alan ses etkileşim teknolojisi

AIoT çağında, sesli etkileşim her yerdedir. İnternetten mobil İnternete olan evrime, donanım terminallerinin yeniliği eşlik ediyor ve her yeniliğe aslında kişilerarası etkileşim yolunun altüst olması eşlik ediyor. Bilgisayarlar, ilk internet döneminden itibaren ofis verimliliğine bir yenilik getirmiştir; mobil internet çağında odak noktası cep telefonlarıdır, kullanım kolaylığı merkezidir; Nesnelerin İnterneti çağında terminaller her şeydir ve bu zamanda iletişim ve doğa merkezdir. Bu nedenle, doğal ses etkileşimi çok önemli bir rol oynayacaktır.

Akıllı cihaz benzeri sesli etkileşim teknolojisi bağlantı uzunluğu

Ses etkileşiminin teknik zinciri çok uzundur.Donanım tarafı devre tasarımı, akustik yapı, ses bağlantısı araştırması ve bağlantısından, bulut konuşma tanıma hizmeti ayarlamasına, diyalog anlama alan modeline ve TTS sentezine kadar tüm zincir çok uzundur. Uzun.

Bu nedenle, uzun yıllardır sesli etkileşim teknolojisinin geliştirilmesinde, tam yığın teknoloji zinciri yeteneklerine sahip hizmet sağlayıcıların rolü gittikçe daha önemli hale geldi. Ardından, akıllı cihaz benzeri sesli etkileşim teknolojisi zincirinde Alibaba Dharma Akademisi'nin teknik birikimini tanıtacağız.

Kör kaynak ayrımına dayalı uzak alan ön uç işleme için birleşik bir çerçeve

Daha önce bahsedildiği gibi, istemci cihaza yakından bağlı olan teknoloji sinyal işlemedir. Terminalin yan tarafındaki çeşitli akustik gürültü ortamları için, Dharma Akademisi, kör kaynak ayrımına dayalı benzersiz bir uzak alan sinyal işleme birleşik çerçevesine sahiptir.

Sözde kör kaynak ayrımı, bir "kör kaynak" içinde olma varsayımına dayanır ve sinyal veya yayılma yoluna aşırı ön gereklilikler empoze etmez. Tek bağımsızlık varsayımı vardır, yani farklı kaynaklardan gelen sinyaller birbirinden bağımsızdır ve çıkışlar arasındaki bağımsızlığı maksimize ederek ayrılma sağlanır.

Ek olarak, yankı, yankılanma ve nokta kaynağı girişimini bağımsız sinyaller olarak ele alan ve bunları birleşik bir şekilde birleştirmek ve işlemek için kör kaynak ayırma teknolojisini kullanan birleşik bir çerçeve uygulanmıştır.Burada yer alan teknolojiler arasında ikili konuşma modeli, entegre öğrenme ve sinyal bulunmaktadır İşleme ve uyandırmanın ortak optimizasyonu, bunlar Ali'nin uzun yıllar boyunca özetlediği ve geliştirdiği endüstri lideri teknolojilerdir.

Ön uç sinyal işleme teknolojisi çözümü

Aşağıdaki şekil, farklı senaryolara karşılık gelen 2 mikrofon, 4 mikrofon ve 8 mikrofon dahil olmak üzere Dharma Akademisi tarafından sağlanan birkaç ön uç sinyal işleme teknik çözümünü göstermektedir. İlk iki şema, televizyonlar ve araçlar gibi sahneler için daha uygundur; sonuncusu, halka açık alanlar, metro bilet satış makineleri ve ticari büyük ekranlar gibi sahneler için uygundur.

Uyandırma teknolojisi

Uyandırma teknolojisi açısından, Dharma Academy Voice Lab, son derece düşük yanlış uyandırma oranıyla; çipte yerleşik düşük güçte uyandırma yetenekleri; yerel cihaz AP'sindeki uyandırma modülleri vb. İle çekirdek, son ve buluta entegre bir uyandırma deneyimi sağlayabilir. Ayrıca uç ve bulutu bütünleştiren bir uyandırma mekanizması sağlar.

Uyanmasız teknoloji

Dharma Academynin uyanmasız teknolojisi, Oneshot ses tanıma, hızlı uyandırma teknolojisi, dinamik uyandırma kelime teknolojisi ve sürekli diyalog sağlar.

Konuşma tanıma / konuşma tanıma kendi kendini özelleştirme yeteneği

Konuşma tanıma açısından, Dharma Academy, Google ve Microsoft dahil olmak üzere dünya ve açık kaynak toplulukları tarafından övülen DFSMN gibi lider akustik model teknolojisine sahiptir. Ek olarak, dil modeli teknolojisi açısından, Dharma Akademisi ayrıca tek geçişli büyük ölçekli bir dil modeli kod çözme teknolojisine sahiptir ve farklı endüstrilerde ve alanlarda tanıma doğruluğu sorununu çözebilecek alan dili modelleri için farklı özelleştirmelere sahiptir. Dakika düzeyinde etkili olun.

Konuşma sentezi

Son iki yılda, Dharma Academy konuşma sentez teknolojisinde büyük ilerleme kaydetti ve doğallığı giderek gelişiyor.Aynı zamanda ultra düşük maliyetli özelleştirilmiş bir çözüme sahip.TTS'ye özel bir çözüm sağlamak için yalnızca 2 saatlik ses verisi gerekiyor.

Ses izi teknolojisi

Ali uzak alan ses izi teknolojisi, Tmall Genie hoparlörlerinin tanımlanması gibi sektörde uygulanan ilk uzak alan ses izi teknolojisidir. Aynı zamanda, Dharma Akademisi ayrıca örtük ses izi portre teknolojisi sağlar.

Doğal dil anlayışı

Dharma Akademi, son iki yılda, kurallara ve istatistiklere dayalı karma bir sistem olan doğal dil anlayışında ortak TV alanlarının NLU anlama yeteneklerini desteklemiş ve müşteri verilerinin ortak derin optimizasyonunu desteklemiştir.

Multimodal füzyon teknolojisi

Sözde çok modalite, ses ve videonun birleşimidir. Geçmişteki ses-video füzyon deneyimi nispeten sığ bir üst üste bindirmede kalmıştır. Bununla birlikte, Dharma Academynin çok modlu füzyon teknolojisi yüz tanıma, yüz algılama ve öznitelikler sağlayabilir. Ek olarak, video temelli nitelikler, kamusal alanlarda yüksek gürültülü sahnelerde ses etkileşimi elde etmek için akustik seviyede ses geliştirme için kullanılabilir.

Modül program tanıtımı

Akustik donanım modülerleştirme

Akustik modül, ses ve video yazılım ve donanım bağlantılarının, uç taraf motorlarının ve bulut protokollerinin kapsüllenmesi dahil olmak üzere uç taraf ses etkileşiminin temel bağlantısıdır. Akustik donanım modülerizasyonu, ürün çözümlerinin platformlaşmasını gerçekleştirebilir ve donanımla ilgili teknoloji ve deneyim hızlandırılır, bu da müşterilerle bağlantı noktasının verimliliğini artırır ve işçilik ve zaman maliyetleri gereksinimlerini azaltır; yazılım ve donanım düzeyinde ikincil geliştirme yapılabilir.

AIoT odaklı sesli etkileşim terminali bulut entegre motoru (NUI-Things)

NUI-Things motoru, düşük kaynak odaklı bir ses motorudur.Altta, AliOS / YoC gibi çok terminalli bir IoT işletim sistemi tarafından desteklenir.Ses kısmı, uç nokta algılama, yankı iptali ve ses geliştirme gibi ön uç işleme modüllerini içerir. Uyan, yerel konuşma tanıma ve yerel anlamsal anlayış. NLS sesli etkileşim hizmeti protokolü aracılığıyla buluta gidin ve bulutta Ali Voice AI bulut platformu, IoT Feiyan platformu ve ilgili içerik kaynak havuzu bulunur.

Akıllı TV, projektör vb. İçin uygun alıcı modülü.

Linux Ses Modülü

Ses modülü, ses motorunu donanım modülüne yerleştirir; çok modlu ses modülü, ses ve video teknolojilerini modüle hızlandırır. Aşağıdaki şekildeki Linux ses modu 2018 gibi erken bir tarihte olgunlaşmıştır. Tüketici sınıfı ses panellerine ve otomat makinelerine uygulanmıştır. 2 ila 8 mikrofon, 360 derecelik ses alma ve bulut ile yüksek performanslı ön uç işleme algoritmalarını destekler Hepsi bir arada yüksek performanslı sesli uyandırma ve "ana mod" ve "alt makine" modlarını vb. Destekler.

RTOS ses modülü

2019'da Dharma Akademi Konuşma Laboratuvarı, RTOS konuşma modüllerinin geliştirilmesine odaklandı. Ev aletleri, elektrikli aydınlatma, hikâye makineleri gibi çok çeşitli sahneler karşısında, düşük maliyet ve düşük güç tüketimi koşullarında yüksek deneyim elde etmek için sektörün beklentilerini karşılar. RTOS ses modülü, 2 ila 4 mikrofon için yüksek performanslı ön uç işleme algoritmalarını, 360 derece alma, uçtan ve buluttan entegre ses uyandırma, çevrimdışı ses tanıma ve hızlı yanıt desteği ve düşük güçlü bekleme sesini destekleyen çok çekirdekli heterojen bir mimariye dayanmaktadır. "Ana mod" ve "alt bilgisayar" modunun yanı sıra uyanın.

Çok modlu etkileşim modülü

Çok modlu etkileşim modülü daha çok akıllı perakende dolapları, büyük bilgi sorgulama ekranları, hizmet robotları, çok modlu eğlence gibi senaryolarda kullanılır. NPU çok çekirdekli heterojen bir mimariye sahiptir, 2 ila 8 mikrofonu destekler ve güçlü bir akustik ortamda sesi alır. , Nesneleri, insan bedenini, davranışları ve kimlikleri algılama ve tanıma becerisine sahiptir.

Dharma Academy, modül düzeyinde veya yonga düzeyinde çözümler sunarken, aynı zamanda akustik donanım Ar-Ge ve kalite kontrol hizmet sistemleri de sağlar. Modül seçiminden genel makine performansına, Ar-Ge performansından üretim hattı kalite kontrolüne, uluslararası standart test ortamından kendi geliştirdiği test yazılımı ve donanım sistemine, çok yönlü kapalı döngüye ek olarak, platform tabanlı akustik ve PCB de sağlar tasarım hizmeti.

Konuşmacıların tanıtımı: Dr. Fu Qiang, Alibaba Dharma Akademisi'nin Makine Zekası Teknoloji Laboratuvarında araştırmacıdır. Çin Bilimler Akademisi Akustik Enstitüsü'nde araştırmacıydı.Konuşma sinyali işleme araştırma ve uygulama geliştirmede 20 yıldan fazla deneyime sahip.IEEE Trans dahil olmak üzere yetkili akademik dergilerde ve konferanslarda yaklaşık 100 makale yayınladı, 10'dan fazla buluş patenti ve 1'in formülasyonuna başkanlık etti. Ulusal bir ses standardı. Çin Ulusal Doğa Bilimi ve Teknoloji Vakfı ve çoğu ilgili bakanlıklarda listelenen il bakanlıkları ve komisyonları da dahil olmak üzere düzinelerce bilimsel araştırma projesine başkanlık etti ve katıldı. Akıllı araba, TV, hoparlör uzak alan sesi ve multi-mode interaktif teknoloji ve çözümleri alanında öncü çalışmalar yapmıştır. Dr. Fu Qiang liderliğindeki ekip, Uluslararası Konuşma Ayırma ve Tanıma Mücadelesi CHiME3 ve 4'te ön uç sinyal işlemede iyi sonuçlar elde etti. 2014'te Çin Bilimler Akademisi'nin Üstün Bilimsel ve Teknolojik Başarı Ödülü'nü kazandı. 2016'da Çin Konuşma Endüstrisi İttifakı'nın Gelişmiş Bireyini kazandı.

Dizi okuma:

Hackerlar "öldürmek için bıçak ödünç alırlar", Ali'nin 14 yıllık deneyimi, güvenlik şefleri size DDoS saldırılarına karşı nasıl savunma yapacağınızı öğretir!

Bir grup Ali, Luoshenyun ağ platformunu 10 yıl boyunca nasıl kendi kendine inceleyebilir? Teknik mimarinin evrimini tam olarak ortaya çıkarın!

Zhu Guangquan ve Li Jiaqi'nin canlı yayını düştü, 120 milyon kişi çevrimiçiydi, vb.

"Anti-salgın" yeni taktikler: DSÖ, IBM, Oracle ve Microsoft ile birlikte bir açık veri blok zinciri projesi oluşturdu!

Hızlı bir şekilde bir diyalog robotu oluşturmak için bu numarayı kullanın!

Bunun çağdaş ineklerin [teknik kanatları] olduğu söyleniyor ...

iPhone 12 serisi amiral gemilerinin toplu olarak piyasaya sürülmesi bekleniyor; ABD, China Telecomun Amerika Birleşik Devletlerindeki işletme lisansını iptal etmekle tehdit ediyor, Dışişleri Bakanlığı sözcüsü yanıt verdi; VS Codeun yeni sürümü yayınlandı | Geek Headlines

Bugünün refahı: yorum alanı seçildi, çevrimiçi 299 yuan değerinde "2020 AI Geliştiricileri Konferansı" nı alabilirsiniz Bir canlı bilet . Parmaklarınızı hareket ettirin ve söylemek istediklerinizi yazın.

Kararlı bir şekilde "bakın"!

@Programmer, programlama yönteminizin modası geçmiş, bulut geliştirme çağı geliyor
önceki
IntelliJ IDEA 2020.1, 15 ana özellik ve resmi Çin desteği ile resmi olarak yayınlandı! | Güç Projesi
Sonraki
Facebook mülakat sorularının tam analizi
onaylamak! Python'u bu şekilde öğrenmek, 10 cadde akranını ortadan kaldırabilir
Hızlı bir şekilde bir diyalog robotu oluşturmak için bu numarayı kullanın
Yeni "anti-salgın" taktikler: DSÖ, IBM, Oracle ve Microsoft ile birlikte bir açık veri blok zinciri projesi oluşturur
Livermore, spekülasyon kralı: Borsada her zaman bir servet kazanabilecek tek bir tür kişi vardır. Bu gerçekten basit, tekrarlanan para kazanımıdır.
Buffy'nin özellikleri Çin borsasını yıkıyor: Bu aşamada 100.000 PetroChina satın alır ve yükseliş ve düşüşü görmezden gelirseniz, bundan 10 yıl sonra nasıl görünecek? Bir yatırımcı olarak ne düşünüyo
Pekin Üniversitesi Finans Profesörü bir kez daha konuştu: Hisse senetlerinde sıkışıp kalmaktan mı korkuyorsunuz? "500'e 5 sent düşüp 500'e 5 sent yükseltir" diyebilirsiniz, borsa defterinde hiç bahse
Çin borsası: Şangay borsa endeksi 2.800 puanın altına düştü. "Bekleyip görelim" mi yoksa "tam avantaj elde etme fırsatını mı değerlendirelim"? Hissedarların baharı burada
Çin borsası: Şangay borsa endeksi 2700'den 2900 puana dalgalanıyor, "U şeklindeki dipten" çıkması mı bekleniyor?
Buffett'in PetroChina satın alma deneyimi size şunu söylüyor: PetroChina 48 yuan'dan yaklaşık 4,6 yuan'a düştükten sonra "iniş ve çıkışları görmezden gelmeye ve düştükçe daha fazla satın almaya" deva
Çinin "para toplama çağı" yaklaşıyor: Borç içinde olduğunuzda ve akrabalarınız sizi ihmal ettiğinde, "Buffett tarzı" bileşik faiz düşüncesini denemenizi öneririm
Çin borsası: Pazar için sırada ne var? 10 günlük hareketli ortalamanın eğilimini anlamak isteyebilirsiniz
To Top