Northwestern Polytechnical University Profesörü Xie Lei: IoT döneminde akıllı ses birçok yeni zorlukla karşı karşıya CCF-GAIR 2018

Leifeng.com'un notu: 2018 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR) Shenzhen'de düzenlendi.Zirve, Çin Bilgisayar Derneği (CCF) ev sahipliğinde, Leifeng.com ve Hong Kong Çin Üniversitesi (Shenzhen) ev sahipliğinde, Shenzhen Baoan Bölge Hükümeti sponsorluğunda gerçekleştirildi. Güçlü rehberlik, yerli yapay zeka alanında en güçlü sınır ötesi değişim ve işbirliği platformunu oluşturmayı amaçlayan, yerli yapay zeka ve robotik, endüstri ve yatırımın üç ana alanında üst düzey bir değişim etkinliğidir.

IOT özel etkinliğinin üçüncü gününde Xiaomi'nin yapay zeka ve bulut platformunun başkan yardımcısı Cui Baoqiu sahneye çıktı ve Xiaomi'nin IOT düzeni ve yapay zeka stratejik düzeni hakkında bir rapor yayınladı.Sonra, konuşma tanıma alanında Xiaomi ile derinlemesine işbirliği yapan Kuzeybatı Politeknik Üniversitesi'nden Xie Lei Profesör, "IoT Çağında Akıllı Sesin Yeni Zorluklarıyla Karşılaşma" temalı harika bir konuşma yaptı.

Xie Lei, şu anda akıllı ses etkileşiminin geliştirilmesinde altın dönem olduğuna inanıyor, ancak piyasada seslendirme yetenekleri için yüksek fiyatlara neden olan ciddi bir ses yeteneklerinde eksiklik var. Aynı zamanda, okulun bilimsel araştırması ileriye dönük olmasına rağmen, "büyük veri" ve "büyük hesaplama gücü" eksik. Bu nedenle, Xie Lei, derinlemesine işbirliğini güçlendirmek ve üretimi, eğitimi ve araştırmayı entegre etmek için okul-işletme önerisini önerdi.

IOT çağının ortaya çıkmasıyla birlikte, konuşma tanıma alanı da birçok yeni zorluğa yol açtı. Örneğin, akustik sahnelerin yakın konuşmadan uzak konuşmaya geçişi, ses etkileşiminin sağlamlığına eşi görülmemiş zorluklar getirir; sesli açıklama çok fazla emek gerektirir, bu da zaman alıcı ve zahmetlidir ve yeni bir sahne için model eğitiminin maliyeti çok yüksektir; ayrıca, Vurgu ve küçük dil tanıma, az miktarda veriye dayalı model uyarlaması için de zorluklar yaratır.

Aşağıda, Profesör Xie Lei'nin CCF-GAIR 2018'deki konferans raporunun içeriği yer almaktadır. Leifeng.com, orijinal amacını değiştirmeden bu raporu düzenledi.

Bugünkü konuşmamın konusu "Nesnelerin İnterneti Çağında Akıllı Sesin Yeni Zorluklarını Karşılamak". Şimdi akıllı sesin altın çağı. Okul-işletme işbirliği ve endüstri-üniversite entegrasyonunda iyi bir iş çıkarmalıyız. Aynı zamanda, IoT çağının ortaya çıkması nedeniyle, akademik topluluk tarafından hala çözülmesi gereken birçok zorluk var. Son olarak, Xiaomi ile yakın zamandaki işbirliğimizin birkaç başarısını tanıtacağım.

Herkes, akıllı evin veya akıllı evin, çeşitli cihazların İnternet'e bağlı olduğu Nesnelerin İnterneti'nin tipik bir senaryosu olduğunu bilir. Örnek olarak Xiaomi'yi ele alalım Akıllı donanımla etkileşime girmemiz gerekiyor Ses çok önemli ve doğal bir giriş - sadece bir cümle hedefe ulaşabilir. Her Şeyin İnterneti ve büyük veri çağında, Xiaomi çok sayıda büyük veriye sahip.

Okul, böylesine büyük bir veri çağı bağlamında araştırmanın nasıl yapılacağı sorunuyla karşı karşıyadır. Okul esas olarak yetenek eğitimi içindir ve ileriye dönük araştırmaları hedeflemektedir, ancak maalesef büyük veri ve büyük bilgi işlem gücüne sahip değiliz. Endüstriyel dünya ile karşılaştırıldığında, hiçbir okul verisi küçük veri olarak kabul edilemez. İnsanlar karpuz, biz susamız. Şirket, güvenilir teknolojiyi hedeflemektedir ve nihai hedef, teknolojiyi ürünlere yerleştirmek ve uygulamaktır. Yalnızca kuruluşlar gerçek büyük verilere ve büyük bilgi işlem gücüne sahiptir.

Bu bağlamda, kolejlerin ve üniversitelerin nasıl araştırma yaptıkları kanımca, okul-işletme işbirliği, endüstri-üniversite entegrasyonu ve kazan-kazan-kazan (girişim, okul ve öğrenciler) elde etmek daha iyi bir yoldur. Şirket, okul-işletme işbirliği yoluyla yetenekleri saklı tutar ve öğrenciler şirket ile işbirliği ve stajlar yoluyla özgünlüklerini kullanır ve kolayca iyi işler bulur. Okullar için, büyük veri ve büyük bilgi işlem gücünün yokluğunda, kurumsal dünyanın yeteneklerinin yardımıyla, teknolojimiz daha güvenilir bir şekilde doğrulanabilir ve kağıt nihayetinde gerçek değere ulaşacaktır. Okul-işletme işbirliğinin çok anlamlı olduğunu düşünüyorum. 2010 yılından bu yana, aralarında Xiaomi gibi devlerin de bulunduğu birçok şirketle iş birliği yaptık.

IoT çağında akıllı sahneler değiştirilir. Cep telefonlarıyla etkileşim kurmadan önce cep telefonu sesi çok önemli bir girişti. IoT çağında, başka bir sesli etkileşim senaryosu ortaya çıktı. Örnek olarak akıllı evi ele alalım: Bu durum ses teknolojisine yeni zorluklar getiriyor.

IoT ses etkileşimi çağında, karşılaştığımız sorun uzak alan konuşma tanımadır ve sağlamlığı çok önemli bir zorluktur. Akustik sahnede akustik yankı, hedef hareketi, oda yankılanması, arka plan gürültüsü ve parazit yapan ses kaynakları dahil olmak üzere, yakından uzağa çeşitli değişiklikler meydana geldi. Başkaları aynı anda konuştuğunda, parazite neden olur ve konuşmacıların değişmesi nedeniyle parazit kaynağı değişecektir. Bunlar, konuşma tanımaya büyük zorluklar getirecektir. Konuşma tanımayı etkileyen oda yankılanması sorununu çözmek için derin öğrenme teknolojisini nasıl kullandığımızı tanıtacağım.

Diğeri, düşük kaynak senaryoları olarak adlandırdığımız veri ve bilgi işlem kaynaklarının eksikliğidir.

Herkes sık sık sektördeki insanların şöyle dediğini duyar: Yapay zeka "insanlar kadar insan, o kadar zeka vardır." Konuşma tanıma dahil olmak üzere çeşitli makine öğrenimi görevlerini tamamlamak için büyük miktarda etiketli veriye ihtiyacımız var. Veri açıklama, zaman alıcıdır ve yoğun emek gerektirir. İş gücünün daha da azaltılıp azaltılamayacağı, model eğitimi için kullanılan ek açıklama verilerinin azaltılıp azaltılamayacağı ve çok fazla iş gücünün önlenip önlenemeyeceği önemli bir konudur.

Öte yandan IoT çağında, sesli uyandırma görevleri gibi birçok işlem buluttan sona değişti, ancak uçtaki kaynaklar çok sınırlı olabilir.Model ne kadar küçükse, o kadar iyi, hesaplama o kadar az, daha iyi ve karşılanması gerekebilir Düşük güç tüketimine duyulan ihtiyaç. Daha sonra hafif bir sesli uyandırma çözümü sunacağım.

Vurgu da bir problemdir Aksan özellikle ağır değilse, ses tanıma etkisi yine de iyidir. Aksan ağırsa, konuşma tanıma etkisi büyük ölçüde azalacaktır. Dil karıştırması da bir sorundur.Makineye "Bugün bir Apple aldım" derseniz, yanlış tanımlanması muhtemeldir. Mevcut teknoloji, bu sorunları büyük miktarda veri kapsamı yoluyla çözmekte ve modelin sağlamlığını artırmaktadır.

Küçük dillerle ilgili başka bir sorun daha var: Xiaomi uluslararası pazara açılmak istiyorsa, konuşma tanıma yapması gereken birçok yabancı dil var, ancak çok fazla ek açıklama verisine sahip olmayabiliriz ve hatta bazı diller fonetik dilbilim konusunda uzman bilgisinden yoksundur.Başlangıçta, telaffuz sözlükleri bile var. Muhtemelen hiç değil. Mevcut modele dayanan bu "düşük kaynak" durumlarında, model uyarlaması az miktarda veriye dayanır ve ayrıca küçük dillerin sesli etkileşimini veri ve uzman bilgisi olmadan çözmek için keşfetmeye değer bir sorundur. Daha sonra, herkes için konuşma tanıma deneyimini geliştirmek için az miktarda konuşmacı verisine dayalı bir model uyarlaması sunacağım. Tabii ki, bu program küçük dillere genişletilebilir.

Aşağıda, yukarıda belirtilen zorlukları aşmak için Xiaomi ile yakın zamanda işbirliği yaptığımız üç araştırma sonucuna odaklanacağım: biri konuşma tanımada yankılanma sorununu çözmek için derin öğrenmeyi kullanmak; diğeri ise hafif dikkat mekanizması. Sesle uyandırma; üçüncüsü, kişiselleştirilmiş ses tanıma oluşturmaktır. Üç çalışmaya dayanan makaleler, konuşma araştırması konulu amiral gemisi konferansı Interspeech2018 tarafından kabul edildi.

İlk önce yankılanmaya gidin. Ses etkileşimi, alana girmekten uzak alana değişiyor ve oda yankılanması, konuşma tanıma performansını etkileyen önemli bir sorun haline geldi.Günümüzde çok popüler olan Generative Adversarial Network (GAN) ile dereverberasyon sorununu çözmeye çalışıyoruz. Ses etkileşimi sürecinde, karşı tarafın kulaklarına ulaşan doğrudan sesin yanı sıra sesimde, üst üste binen ve karşı tarafın kulaklarına iletilen çeşitli yansıtıcı yüzeylerin oluşturduğu yansımalar da vardır. Ses, doğrudan ses, erken yansıma ve geç yankılanmadan oluşur. Ses kaynağından gelen sesin iletimi ve yayılması oda içerisinde uzun süre kalacaktır.Bu animasyondan da anlaşılacağı gibi her küçük nokta bir ses parçacığıdır. Yankılanmanın konuşma tanıma performansı üzerinde ciddi bir etkisi vardır.

Yukarıdaki resim bir spektrogramdır. Biçimlendirici temiz olduğunda çok nettir.Aşağıdaki resim yankılanma ile kirlenmiş bir spektrogramdır. Biçimlendiricinin ciddi kuyruğunu görebilirsiniz. Biçimlendirici konuşma tanıma için çok önemlidir. Bu rezonans Zirve kirliliği, konuşma tanımanın doğruluğunu ciddi şekilde etkileyecektir. Çince bir test setinde çok koşullu eğitim (MCT) kullanılsa bile temiz durumda kelime hata oranının% 7,86 olduğu, yankılanma durumunda kelime hata oranının% 23,85'e çıktığı, yani eğitim verisinin eklendiği görülebilmektedir. Yankılanan bazı konuşmalar için hata oranı% 16.02'ye düşecek, ancak temiz konuşma durumuna kıyasla hala büyük bir boşluk var.

Bugün yankılanma sorununu çözmek için derin öğrenmeyi kullanmaya çalışıyoruz. Yankılanmak için derin öğrenmeyi kullanmak çok sezgisel bir çözümdür. Derin sinir ağı, çok katmanlı doğrusal olmayan öğrenme yeteneği ile karakterizedir.Regresyon görevleri aracılığıyla yankılanma olmadan yankılanma ile konuşma girişinden temiz konuşma çıkışına kadar bir eşleme öğrenebilir. Temiz konuşmadan çok sayıda yankılanan konuşma verisi oluşturarak böyle bir haritalama ağını eğitebiliriz.

Yankılanmak için derin sinir ağlarını kullanma sürecinde, etkiyi iyileştirmek için üretken düşman ağları kullanmaya çalışıyoruz. Üretken yüzleşme ağı genellikle iki ağdan oluşur, biri jeneratör, diğeri ise ayırıcıdır.

Sahte para üreticisi ile polis arasındaki oyun, yüzleşme ağlarının oluşumunu açıklamanın en sezgisel yoludur. Solda sahte para yapmak isteyen sahte bir para kalpazanı (yani bir jeneratör), sağda gerçek veya sahte para birimini yargılamaktan sorumlu bir polis memuru (yani bir ayrımcı) var. Sahte para taklitçisinin ürettiği sahte para polise teslim edilir.Polis, sahte para birimi hakkında kendi deneyimlerine göre bir karar verir ve Kaybı sahte para sahtecisine geri gönderir ve daha sonra onu iyileştirir. Oyunun birçok yinelemesinden sonra, sahte para birimi sonunda giderek daha gerçek hale geldi ve polisi yanıltabilirdi.

Bu tür bir düşünce yoluyla, yankılanma sorunu çözülebilir. Yankılanmak için yankılanan sesi jeneratörden geçirin ve temiz bir ses mi yoksa yankılanan bir ses mi olduğunu belirlemek için ayırıcıya verin Yukarıdakine benzer yinelemeli bir oyun süreci sayesinde, eğitimli jeneratör sonunda çok iyi bir yankılanma etkisi elde eder.

Daha önce ilgili çalışmalar vardı ama daha dikkatli yaptık. Vardığımız sonuç şudur: Her şeyden önce, jeneratör ağı en iyi etkiyle LSTM ağını kullanır, çünkü güçlü bir zamanlama modelleme yeteneğine sahiptir ve yankılanma zamanla çok ilgilidir. Ağ katmanlarının sayısı nispeten daha fazlaysa, artık bir ağ eklemek etkiyi daha da artırabilir.

Buna ek olarak, ağ eğitim sürecinde, iyi sonuçlar elde etmek için iki ağı (G ve D) güncellemek için aynı Mini yığın verilerini kullanmak çok önemlidir. Deneysel veri setindeki konuşma tanıma, GAN'ın bağıl kelime hata oranında saf DNN yankılanmaya göre% 14-19 azalma sağlayabildiğini göstermektedir. Son olarak, MCT çok koşullu eğitim senaryosunda, kelime hata oranı% 16'dan% 13'e düşürüldü.İlgileniyorsanız, daha fazla detay için yazımıza dikkat edebilirsiniz.

İkincisi, her şeyi uyandırın. Örnek olarak "Küçük Ai" yi ele alalım. Artık her yerde. Herkes Xiaomi telefonlarını ve hoparlörlerini uyandırmak için "Küçük Ai" kullanmaya alışmış durumda. Uyandırma görevinde, yanlış alarm oranını düşürürken uyanma oranının çok yüksek olmasını sağlamalıyız. "Öğrenci Xiao Ai" dedim, uyanmamak yanlış bir rettir; "Öğrenci Xiao Ai" demedim, ancak cihaz uyandı, bu yanlış bir alarm. Sesle uyandırma görevinde amacımız, bu göstergeyi olabildiğince düşük yapmaktır.

Aynı zamanda, çoğu kez cihazda ve cihazda uyanırız, bu da genellikle sınırlı bilgi işlem gücü ve sınırlı depolama kapasitesi nedeniyle çok küçük modeller ve az hesaplama gerektirir. Dikkat mekanizmasına dayalı uçtan uca bir sinir ağı ile uyarılma sorununu çözmeye çalışıyoruz.

Bu, bir sorunu çözmek için dikkat mekanizmasına dayalı bir modeli ilk defa kullanmıyoruz. Daha önce Xiaomi TV sesli aramasında çok yüksek bir doğruluk oranı elde etmek için Xiaomi ile işbirliği yaptık.Ayrıca bu modelden dolayı da dikkat edebilirsiniz. ICASSP2018 üzerine kağıt.

Bu sefer uyandırma görevinde dikkat mekanizmasını kullanıyoruz ki bu da çok sezgisel bir fikir. Örneğin, birisinin bizi ismiyle çağırdığını duyduğumuzda, "dikkatimiz" kişinin konuşmasına kayar. Dikkat mekanizması modeli, makine çevirisi, konuşma tanıma ve konuşma sentezinde başarıyla uygulandı. Ses uyandırma görevinde başarıyla kullandık.

Avantajları şunlardır: birincisi, modülerleştirilmiştir ve bir ağ doğrudan uyandırma kararı verir; ikincisi, daha az model parametresi vardır ve aynı zamanda, diğer uyandırma şemalarında karmaşık grafik aramasına gerek yoktur ve hesaplama miktarı daha da azaltılır; üçüncüsü, model eğitimi hizalama gerektirmez. Kodlayıcı, dikkat mekanizması ve Softmax kombinasyonu aracılığıyla dikkat mekanizmasına dayalı sesli uyandırma modelini kullanarak, bir uyandırma kelimesini konuşup konuşmadığımı doğrudan belirleyebilirsiniz.

"Küçük Ai" nin dahili test setinde deneysel doğrulama yapıldı. Kodlayıcı için CRNN ağı, GRU ve LSTM'den daha iyi sonuçlar elde etti. Sonuçta, bir saatte bir yanlış alarm verilmesi durumunda çözümümüz yanlış redleri 6 kat ve hesaplama miktarını 4 kat azaltır.

Üçüncü görev şudur: "Düşük kaynak" senaryosunu deniyoruz ve herkes için kişiselleştirilmiş bir ses tanıma modeli oluşturmak ve herkesin ses tanıma deneyimini iyileştirmek için yalnızca az miktarda veriye ihtiyacımız var. Aşağıdaki şekil, bunun belirli bir test setinde 10 kişinin konuşma seviyesi hata oranı olduğunu gösteriyor.Herkes Mandarin konuşmasına rağmen konuşma tanıma performansının çok dengesiz olduğunu görebiliyoruz. Hata oranı 3 hata ile 100 kelimeye kadar düşebilir.Çok kötü bir durumda hata oranı% 40 hatta% 56 kadar yüksek olabilir.

Bu yüksek hata oranları genellikle aksan sorunlarından kaynaklanır. Ülkemizin farklı bölgeleri farklı lehçelere ve aksanlara sahiptir. Konuşma tanıma için mevcut genel akustik modeller, farklı aksanlardan gelen verileri kapsayarak bu sorunu genellikle hafifletir. Ama sonuçta bu "ortalama bir model" ve herkes üzerinde en iyi konuşma tanıma performansını elde etmek imkansız.

Birkaç farklı konuşmacı uyarlama yöntemini karşılaştırdık ve inceledik. Sinir ağları çok esnektir ve çok sayıda iş yapabilir, ağ üzerinde farklı "ameliyatlar" gerçekleştirebilir ve ortalama model şemasının dönüşümü yoluyla farklı insanlara uyum sağlama yeteneğini elde edebilir.

İlk yöntem LIN'dir. Geleneksel ses seviyesi geniş ağ akustik modelinin öncülüğünde, farklı kişilerin ses girişini belirli bir genel özelliğe dönüştürmek için doğrusal bir dönüşüm ağı eklenebilir ve orijinal büyük ağ parametreleri değiştirilmeyecektir. Yani, bir kişinin doğrusal bir dönüşüm ağı vardır ve bu küçük ağ herkesin cep telefonuna yerleştirilebilir.

İkinci yöntem, geniş ağ akustik modelinin parametrelerinin genliğini ayarlamak için her bir kişi için bir dizi kişiselleştirilmiş parametre öğrenen LHUC'dur.

Üçüncü yöntem, Öğretmen Yu Dong'un makalesinde yer alan ve her kişinin verilerini, büyük ağ akustik modelinin, yani bir kişinin, bir ağın parametrelerini doğrudan güncellemek için kullanan yöntemdir. Aşırı uyum sorununu önlemek için, KLD kriterini model uyarlama sürecinde bir kısıtlama yapmak için kullanıyoruz, böylece uyarlanmış modelin posterior olasılık dağılımı, hoparlörden bağımsız geniş ağ modelindeki arka dağılıma daha yakın.

Her biri model uyarlaması için 5-300 cümle ve test için 100 cümle kullanan Hubei aksanıyla 10 Mandarin konuşmacısı seçtik. Yukarıdaki şekil, hangi yöntem kullanılırsa kullanılsın, konuşma tanıma hata oranının sabit bir düşüşe sahip olduğunu açıkça göstermektedir. Genel olarak, KLD yönteminin en iyisi olduğunu, LHUC'un ise LIN'den daha düşük olduğunu gördük.

Çalışmamızın bir başka özelliği de, farklı yöntemlerin performansını gözlemlemek için aksan seviyelerinin sınıflandırılmasıdır. Şu anda genel modelde olan 10 testçinin konuşma tanıma hata oranına göre, bu üç insan grubunda farklı yöntemlerin nasıl çalıştığını gözlemlemek için aksanları hafif aksanlara, orta aksanlara ve ağır aksanlara ayırdık. Konuşma tanıma performansı.

Diğer iki yöntemin kararsız, bazen iyi ve bazen kötü olduğunu gördük. Bunun nedeni, hafif vurgu ile genel model arasındaki boşluğun özellikle açık olmamasıdır.Genel modeli eğitirken, aslında bazı vurgu verileri tanıtılmaktadır. Bu durumda, ağı "önemli ölçüde" ayarlamak için başka yöntemler kullanılırsa, olumsuz bir etkisi olacaktır. LHUC'nin nispeten "zayıf" parametre ayarlama yöntemi en iyi sonucu verir.

Ağır vurgularda KLD ve LHUC, benzer etkilere sahiptir ve benzer sonuçlar elde edebilir. Depolama veya dahili bellek kullanımı dikkate alınması gereken bir faktörse, daha özlü LHUC yöntemini seçebilirsiniz.Herkes için bir sinir ağı oluşturmaz, ancak büyük ağı ayarlamak için her kişi için küçük bir parametre grubu depolar.

Ağır vurgular için, hedef konuşmacı ile genel model arasında büyük bir boşluk vardır Bu nedenle, hedef konuşmacıya uyan bir model elde etmek için genel modelin parametrelerini ayarlamak için hedef konuşmacının verileri doğrudan kullanılır.Etki en iyisidir. Bu nedenle, RSI ve KLD'yi yeniden eğiten model bu hedefe ulaşabilir ve KLD etkisi daha iyidir, yani grafikteki siyah çizgi aşağıda sabittir ve hata oranı en düşüktür.

Raporumun sonunda size en son bilgilerimizi göstereceğim Konuşma gürültüsünü azaltmak için derin öğrenmeyi kullanma En son sonuçlar.

Konuşma gürültüsü azaltma ve konuşma iyileştirmenin, genellikle sinyal işleme yöntemleriyle çözülen, çok uzun bir araştırma geçmişine sahip araştırma konuları olduğunu biliyoruz. Cep telefonlarında çeşitli gürültü azaltma şemaları ve gürültü azaltma algoritmaları da vardır. Geleneksel istatistiksel sinyal işleme yönteminin avantajı, sorunu sinyalin istatistiksel özelliklerinden çözmektir ve sabit gürültüyü daha iyi bastırma becerisine sahiptir. Ancak sabit olmayan gürültü türleri için - gürültülü bir barda çok sayıda sabit olmayan gürültü gibi - performans istenen etkiye ulaşamaz.

Derin öğrenmeyi konuşma iyileştirmeye uyguluyoruz ve birlikte gürültü azaltma yapmak için sinyal işleme bilgisini birleştiriyoruz. Bu, gürültülü bir barda bir cep telefonuyla konuşan bir sesi kaydettiğimiz ve gürültüyü azaltmak için derin öğrenme ve sinyal işleme kullandığımız zamandır. Herkes ayrıca gürültülü arka plan gürültüsünün temelde silindiğini duymuştur, bu da derin öğrenmenin güçlendirilmiş konuşma gürültüsünü azaltmanın yeni bir seviyesi. (Konuşmanın Sonu)

Toplantıdan sonra Leifeng.com sorduğunda Artık akıllı konuşmacıların karmaşık görevlerin yerine getirilmesinde birçok sorunu var.Teknoloji olgunlaşmamışken teknolojinin hemen piyasaya sürüldüğü bir durum var mı? , Xie Leinin cevabı:

Akıllı hoparlörler önemli bir giriş, IoT'nin girişi ve trafik girişidir.

Bu yüzden herkes konuşmacılar koyuyor ve piyasada "yüz kutu çekişme" durumu var, aslında herkes yeni bir "akış ekonomisi" kuruyor ve girişi kapıyor.

Teknoloji söz konusu olduğunda, akıllı hoparlörler bir şirketin teknik "kapsamlı gücünün" somutlaşmış hali olabilir ve askeri eğitim için en uygun olanıdır çünkü yukarıda mikrofon dizisi teknolojisi, ses geliştirme teknolojisi, uzak alan ses tanıma teknolojisi, ses anlama ve Diyalog teknolojisi, bilgi tabanı, konuşma sentezi vb. Yanı sıra içerik çıktısı alma yeteneği. Her teknoloji, iyileştirilmesi ve optimize edilmesi gereken önemli bir araştırma konusudur. Ancak kullanıcılar için interaktif deneyimin daha iyi olduğunu ve ihtiyaç duydukları içeriğin orada olduğunu düşünüyorlar.

Teknolojik gelişimin bir aşaması var Bu aşamada kazanılan yetenek aslında akıllı hoparlörler de dahil olmak üzere çeşitli akıllı donanımlarda elde edilebiliyor, yani "kullanılabilir" aşamasına ancak mesafeye ulaşmış demektir. "Kullanımı kolay" hala belirli teknolojik gelişmeleri gerektirmektedir.

Akıllı hoparlörlere dayalı uzak alan ses etkileşiminde, ses tanıma doğruluğunun daha da iyileştirilmesi gerekiyor.Bu, ön uç çözümlerin işbirliğini ve ön ve arka uçların ortak optimizasyonunu gerektiriyor.

Konuşma sentezinin de daha doğal ve kişiselleştirilmiş olması gerekir ve herkesin sese olan ihtiyacı farklıdır. Ek olarak, kullanıcıların derinlemesine anlaşılması açısından, bu, anlamsal anlama ve diyalog teknolojisinde daha fazla atılım gerektirir. Anlamsal anlamada birçok belirsizlik vardır. Örneğin, ne kadar giymek istediğiniz ve ne kadar giymek istediğiniz. Bu cümle aslında bağlamla ilgili. Kışın çok üşüdüğünüzde çok giyinmek istiyorsunuz, ancak yazın istediğiniz kadar giyinmek istiyorsunuz. Söyle, o kadar ateşliyim ki artık çıkaramıyorum. Bu nedenle, bu aslında bağlamla ilgilidir, bu nedenle anlamsal anlama zordur.

Sözlü etkileşim daha da zordur, örneğin sohbet sürecinde konuşulan kelimeler hızlı olabilir, daha az kelime ile yutulabilir ve kelime sırası tersine çevrilebilir ve kartlar kurallara göre oynanmaz. Konuştuğumda, kelime sırasını tersine çeviriyorum ve onu anlayabiliyorsunuz ve onu ortasına yerleştirilmiş birçok şeyle anlayabilirsiniz, ancak makine onu anladığında büyük bir problem olabilir. Bu nedenle, bu alan çeşitli teknolojik atılımlar ve çeşitli modüllerin ortak optimizasyonu yoluyla çözülmelidir.

Ancak girişte sesin rolünün şüphe götürmez olduğuna inanıyorum, bu yüzden herkes düzende.

"Spider-Man: Into the Parallel Universe" dünyayı güçlü, süper 9 işaretçi ile fethedin, Yılbaşı dosyalarını patlatın!
önceki
Pixel Wear, Pixel 3 serisi ile aynı alanda piyasaya sürülebilir ve Apple Watch, en güçlü rakibe öncülük edecek!
Sonraki
Romantik 520 günah çıkarma günü, seyahat fotoğrafı eser önerisi
Başkalarının metro istasyonu | Ben işte değilim, bir sergi izliyorum
GODLIE çok eksantrik! JY'nin boynu resmen onarıldı, ancak bu genç bayan sayısız göze çarptı!
Kai Chen'in 2017 yeni araba planı: bir MPV ve sedan
"E-spor oyun telefonu" hilesi olmadan, yeni nesil KPL resmi oyun makinesi haline geldi!
Dell, HPE, Cisco ve Microsoft, bulut BT pazarında lider konum için rekabet ediyor, ancak ODM kârlarının 1 / 3'ünü alıyor
Büyük kısa yönetmen "Silver Guard 3" ten sorumlu olabilir ve ciddi filmlerin yönetmeni de bir komedi dehasıdır.
Gionee S10 davet mektubu ortaya çıktı, dört kameralı fotoğrafçılığın yeni bir dönemi başlamak üzere
İnternet ünlüleri ünlü şovun içine girdi ve sonunda birisi buna dayanamadı ve azarladı
OnePlus 6T McLaren özelleştirilmiş versiyonu: Warp flash şarjı ne kadar hızlı 30
Yu Shuang ikinci kez Guan Zeyuan'dan özür diledi! Netizen: Her gün gösteri şefkat ve itiraz sona erdi!
Pagani Huayra Convertible Önizlemesi Mart 2017'de Çıktı
To Top