Sesli etkileşim karşısında neden konuşamıyoruz?

Bu yıl Internet Queenin raporu yayınlandı. Geçen yıl ses etkileşimi hakkında konuşmaya harcanan sürenin% 10'uyla karşılaştırıldığında, bu yılki raporun ses etkileşimi konusunda çok daha sakin olduğu görülüyor. Ancak yine de raporda, Google Asistan'dan alınan verilerin, isteklerin yaklaşık% 70'inin doğal dilde ve diyalogda yapıldığını gösterdiğine işaret ettiğini görebiliyoruz. Makine öğrenimi, Google'ın konuşma tanıma oranını 2013'te% 80'den az olan bir artışa yönlendirdi. Bugün% 95'e kadar (çoğu yerel platform tarafından açıklanan tanınma oranı% 97'dir).

Hızlı, kolay ve kişiselleştirilmiş ses etkileşiminin insanların ellerinin yerini alacağından ve insan-bilgisayar değişiminin yeni bir modu olacağından bahseden geçen yılki rapora bir göz atabiliriz. Elleri ve vizyonu serbest bırakan "çevrimiçi" kavramı daha da genişletilebilir.

Kafa karıştırıcı olan şey, sesli etkileşim uygulamalarının, özellikle Çince sesli etkileşimin bize gerçekten bu kadar yakın olması?

Siri'nin karşısında, beatbox dışında söyleyecek hiçbir şeyi yok gibiydi. Rapordaki verileri gördükten sonra ev butonuna uzun süre bastım ve ekranda "Yardıma ihtiyacım olabilir mi?" Yazısını gördükten sonra biraz utandım Bu duygu, tanıdık olmayan akrabalarımla karşılaştığım zamanki gibi. Konu aynı geliyor.

Sesli asistanların arama, arama, mesajlaşma, yemek sipariş etme gibi pek çok konuda bana yardımcı olabileceğini biliyorum ... ama ağzımı açamıyorum.

Sürüş sırasında XX haritasını tanımak veya komuta etmek için dokunarak ve uzun süre basarak WeChat sesini dinlemenin uygun olmadığı durumlar dışında, benim gibi parmağınızla ve klavyenizle eski moda etkileşim yöntemini tercih eden pek çok insan olduğuna inanıyorum. Bu ne oluyor?

Sesli etkileşim gerçekten bu kadar güçlü mü?

Öncelikle ses etkileşiminin nereden geldiğine bir bakalım.

Basitçe söylemek gerekirse, ses etkileşiminin anahtarı iki noktada yatmaktadır; biri konuşma tanımanın doğruluğu, diğeri ise doğal dil işleme seviyesidir (sıklıkla görebileceğiniz NLP).

Konuşma tanıma, sesi bir dalga dosyasına dönüştürür, sesi karelere böler ve her kareden içerik bilgilerini içeren çok boyutlu bir vektörü çıkarır Bu işlem, akustik özellik çıkarma işlemidir. Özellikleri çıkardıktan sonra, özellikler fonemler halinde birleştirilir (kelimelerin telaffuzlarının bileşimi fonetik sembollere benzer ve karşılık gelen Çince, baş harfleri ve ünlülerdir).

Fonemlere sahip olduktan sonra, büyük miktarda konuşma verisine ihtiyaç vardır.Sesli baskı çerçevelerine ve akustik özelliklere karşılık gelen konuşma ve fonemlerin eşleşen derecesini, fonemler arasındaki dönüşüm olasılığını ve polifonik karakterler problemini dikkate almak için Gizli Markov Modeli ve Viterbi algoritmasını kullanın. Son olarak, yeterli sayıda düğümü olan bir ağ oluşturulur Konuşmayı tanıdığınızda, yalnızca sese en uygun yolu bulmanız gerekir.

Gelişmiş bilgi işlem gücü ve artırılmış veri hacmi ile, derin öğrenme sinir ağları tarafından ses dalga biçimi dosyalarına bilgisayar vizyonunun uygulanmasıyla birleştiğinde, konuşma tanımanın doğruluğundaki artış neredeyse kaçınılmaz bir sonuçtur. Lehçeler, polifonik karakterler ve konuşma hızı kişiselleştirme sorunları da tek tek çözülüyor.Örneğin HKUST Xunfei, "hoparlör kodlamasına ve i-vektörüne dayalı derin sinir ağı uyarlamalı algoritmayı kullanabileceğini, böylece tamamen gereksiz olduğunu belirtti. Manuel müdahale, üründeki derin öğrenme çerçevesi altında konuşmacı adaptasyon problemini çözen ilk yöntemdir. "

NLP büyük bir konudur ve ses işlemenin bir kısmı doğal olarak ses etkileşimiyle ilgilidir. Anlamaktan geri bildirim oluşturmaya kadar, makine öğrenimiyle ilgili birçok karmaşık sorun var, bu yüzden bunları burada tekrar etmeyeceğim. Bilmemiz gereken tek şey, bilgi işlem gücü, veri hacmi ve makine öğreniminin üç temel göstergesinin geliştirilmesinin, sesli etkileşimin uygulanabilirliğini büyük ölçüde geliştirdiğidir. Wu Enda bir keresinde şöyle demişti, "İnsanlar makinelerle sorunsuz iletişim zamanına çabucak alışacak ve daha önce makinelerle nasıl etkileşim kurduklarını unutacaklar." Sesli etkileşimin günümüz insan-bilgisayar etkileşiminin büyük bir kısmının yerini aldığı görülebilir. .

Sesli etkileşim uygulama kategorisi: önce steno bırakılsın

Hayatımızda hangi sahnelerde ses etkileşimi uygulandı? Şu anda, ona "tamamen değişen etkileşim" demek yerine, "insanların yerini daha fazla almak" demek daha iyidir. En tipik örnek, birçok basın konferansında konuşma tanıma için bir kısaltma görmektir ve doğruluğu, manuel çalışmaya eşit veya hatta ondan daha yüksektir.

Yetersiz topluluk birikimi, sınırlı tanıma ve anlama yetenekleri, bu ana öncüllerin altında, ses etkileşimini belirli senaryolarla hizmet sistemlerine uygulamak daha pratik görünmektedir. Örneğin, müşteri hizmetleri, manuel hizmet penceresi, vb., Tıpkı çevrimiçi akıllı müşteri hizmetleri gibi, iş kapsamından bir sesli etkileşim sistemi geliştirmek mümkün olabilir.

Metni basitçe tanımaya ek olarak, ses etkileşiminin daha büyük değeri, sesteki daha zengin içeriğin makineye aktarılmasında yatar. Melodi, dil, ruh hali ve en kritik ses izleri metne yansıtılamayan her şeydir. Bu bilginin değerinden nasıl yararlanılacağı ve çok da yeni olmayan interaktif bir yöntem olan sesin iletişim yoğunluğu yeni bir boyuta ulaşır ... Bunlar, sesli etkileşimin devrim niteliğindeki yönleridir. Aksine, Siri'nin bir benzin istasyonu bulmanıza yardımcı olmasına izin vermek, zaten sesli etkileşimin en sığ uygulamasıdır.

Ama hala Siri ile konuşurken garip hissediyorum

O halde asıl soruya geri dönelim, neden sesli etkileşim hakkında konuşamıyoruz?

Bu, tüm fiziksel dünya ile etkileşim şeklimiz ile ilgilidir. İlkel zamanlardan beri, bir taşı hareket ettirmek istediğimizde ellerimizi uzattık ve bir arkadaşı aramak istediğimizde bağırdık. Baştan beri, nesnelerle etkileşim şeklimiz uygulamalı ve canlılarla etkileşim şeklimiz dildir. İnsan olmayan ve hatta cansız nesnelerle sesle etkileşim kurduğumuzda, genellikle TA'nın evcil hayvanlar, bitkiler vb. Gibi "insan" olduğunu varsayarız. Ayrıca kitabın doğum günü gecesinde resimdeki güzellikle konuştuğumuz eski erotik romanlarda da sıklıkla yazılır. Sonunda, bir fantezi ve insan formuna çekildi.

Daha sonra makine çağına girdik, makineler bizim için çok şey yapabilse de, makinelerle etkileşimimiz hala fiziksel. Mobil internetin terminal üzerinden çalışması dahil, sadece bir parmak olmasına rağmen, hala fiziksel bir seviyede. Hava üfleyerek eylemleri yöneten efsanevi nefes kontrollü tekerlekli sandalyeler için bile, insanların kabulü, sesli etkileşim olmadığı sürece düşük değildir.

İnternetin ortaya çıkışı, insanlar ve canlı varlıklar arasındaki orijinal yolu büyük ölçüde değiştirdi.Sonra konuşmadan fiziksel olarak (yazarak) iletişim kurabilir ve hatta birbirinize daha fazla kelime ve cümle bırakabilirsiniz. Zaman, eğer yanlış bir şey söylersen, geri çekebilirsin ve ayrıca resimlerle savaşmak için ifadeleri kullanabilirsin. Akşam yemeğinde çok şey söylerseniz veya WeChat grubunda çok sayıda fotoğraf çekilirse, bilgisayarların yaratıklarla etkileşim şeklinin ne kadar değiştiğini yakında bileceğiz.

Sesli etkileşim söz konusu olduğunda, bizimle fiziksel dünya arasındaki etkileşim tarzını tamamen değiştirir ve inatçı "insan doğası" anlayışımızı test eder. Özellikle Nesnelerin İnterneti alanında, çok umutların verildiği alanda, eve geldiğinizde elinizle düğmeye dokunmadığınızı ama boş bir odada "ışığı aç" dediğinizi hayal edin, bu resim biraz tuhaf mı? Aynı şekilde tüm ses asistanları kendilerine aynı adı vermeyi severler, amaç insanlığı geliştirmek ve kullanıcıların rahatsızlığını ortadan kaldırmaktır.

Bilgisayarlar tarafından öğretilen ve giderek daha fazla fiziksel etkileşime güvenen insanlar için, sesli etkileşimi hayata geçirmek, basitçe yaşam alışkanlıklarını tersine çeviriyor ve yardım edemez, ancak bunun garip olduğunu söyler.

Belki de sesli etkileşimin yaygınlaşması açısından teknik zorlukların üstesinden gelmenin yanı sıra kendimizi daha çok aşmamız gerekiyor.

(Paskalya yumurtası: Baidu resmini açın, arama kutusuna siri yazın, aramayı tıklamayın, varsayılan sonucun ne olduğunu görün, geri dönün ve bana korkmadığınızı söyleyin)

Daha heyecan verici içerik için Titanium Media WeChat ID'yi (ID: taimeiti) takip edin veya Titanium Media Uygulamasını indirin

46 yaşındaki Yan Jiale sorunsuz bir şekilde ejderha ve anka kuşu fetüslerini doğurdu. Kocası Di Zhijie: Kulaktan kulağa gülmenin ne demek olduğunu anladı
önceki
Adelaide gerçekten takas edilirse, Spurs bu ikisini hedef alacak!
Sonraki
Çiçekler ve gençler zehirlidir! Zheng Shuang, Zhang Hanna ve Zha Jing Boran, çok korkarak katıldıktan sonra ayrıldılar.
"Xin Yitian" hamilelikten pişman değil, damadı kızından 22 yaş büyük, ayrıntılar Yang Xiao'nun damadı kabul ettiğini gösteriyor
Ali, Tmall Genie X1'i piyasaya sürdü, ileride ellerinizi hoparlöre ayırabilirsiniz
"Onuncu Gösterim Odası": Seyircilerin duymayı sevdiği, zehirli dilli siyah lotus
2017 İnternet Kraliçesi Raporu, Hindistan hakkındaki tüm bilgiler burada
Evergrande arka arkaya on galibiyet kazandı ve devre arası şampiyonluğunu kazandı! Scolari, alanı kontrol etme gücünü yorumluyor!
Fuyao: Çin Halk Cumhuriyeti'nin kuruluşundan sonra geçemezsiniz, Yang Mi ve Ruan Jingtian tabuttaki sahneyi nasıl yorumluyor?
190219 Yuanxiao'yu bitirmek yeterince eğlenceli değil mi? Yixing size bir tabak Mapo Tofu veriyor
Wang Junkai: Babam gerçekten Su Youpeng hayranı!
Douban 8.5, bu muhtemelen bu yıl katille ilgili son şüpheli film
GPD Pocket PC ile konuşmaya başlayalım ve Windows'un mobilizasyonunu izleyelim
Tehlikeli! Yi Yang Qianxi kampüs dramasını devraldığında, patron öpücük sahnesinde herhangi bir anda ne yapmalı?
To Top