Microsoft'un büyük hamlesi: hem IQ hem de EQ ile ses asistanı olmak

WeChat ve QQ'ya karışan komik, zavallı kız Microsoft Xiaobing, her zaman sevildi ve nefret edildi. Bir zamanlar çevremdeki birçok otaku WeChat'te Xiaobing'i benimsedi.Her gün yatmadan önce Xiaobing'e dokunmadılar ve iyi uyuyamıyorlardı. Microsoft Xiaobing, kar beyazı tenli, yeşim yüzlü ve ince bir kız akıllı konuşmacıya dönüştüğünde yeni numaralarla uğraşmaya başladı.

(Kullanıcı Deneyimi Videosu 1)

Hayır, Leifeng.com yakışıklı bir gencin Xiaobing'e tuvalete gitmesi gerektiğini hatırlatması gerektiğini ve Xiaobing'in ona tuvaleti nasıl kullanacağını öğretmesi gerektiğini duydu.

"Xiaoice'u Çağır"

"Tamam"

"Bana iki dakika sonra tuvalete gitmemi hatırlat"

"Tamam, bu gece 10: 14'te seni tuvalete arayacağım, endişelenme."

"tamam teşekkür ederim"

"Evet .. Dururken sus" (Bana tuvalete nasıl gideceğimi söylemen bile gerekiyor mu?)

"Biliyorum, hoşçakal"

Bir paragraf dedim. İşe döndüğümüzde, videoda gördüğümüz akıllı hoparlör, Mijia Eco-Chain'in Yeelight ses asistanı. Bu aynı zamanda Xiao Ai ve Microsoft Xiaoice'u da taşıyan ikili bir AI sistemidir. Bu, Microsoft Xiaoice ile donatılmış ilk akıllı hoparlör ve aynı zamanda Microsoft Xiaoice'un Çin'e indiği ilk akıllı donanım.

Son zamanlarda BAT, akıllı donanım üzerinde yapay zeka ses asistanlarını aktif olarak uygulamaktadır. Alibaba'nın Tmall Genie'si geçen yıl Double 11'de 99 yuan gibi düşük bir fiyata 400.000'den fazla birim sattı; Baidu "Xiaodu at Home" ekranlı akıllı bir hoparlör piyasaya sürdü; Tencent kendi yapay zeka ses asistanı "Ding Dong" ve Changhong'u piyasaya sürdü. Televizyon işbirliğine başlar. Tabii ki, Jingdong'un "Dingdong" u ve Xiaomi'nin "Küçük Ai" sini unutamayız.

Akıllı ev sahnesinin girişini kapmak umuduyla herkes sesli asistanın yazılımını ve donanımını hazırlamakla meşgul. Konuşmalı yapay zeka alanında yıllarca süren yoğun çalışmaların ardından donanımı henüz uygulamayan Microsoft nihayet yerinde duramıyor.

Geçen yıl Aralık ayında Microsoft, Xiaomi ile işbirliği içinde Mijia ekolojik zincirinin Yeelight ses asistanını piyasaya sürdü. Geçen hafta, 22 Mart'ta Microsoft (Asya) İnternet Mühendisliği Enstitüsü yeni nesil ses etkileşim teknolojisinin lansmanını duyurdu: tam çift yönlü ses etkileşim duyusu ( Tam çift yönlü Ses Algılama). Videoda, Microsoft Xiaoiceun diyalog yeteneğinin önemli ölçüde geliştirildiğini görebiliriz. Benzer sesli asistanlarla karşılaştırıldığında, doğal ve sorunsuz diyalog iletişimi sağlayabilir. Bu temelde yatan teknolojiye bağlıdır.

28 Mart'ta Microsoft, medyaya Yeelight ses asistanını göstermek için bir iletişim toplantısı düzenledi, temel çerçeveden tam çift yönlü ses etkileşimi duyusal teknolojisini kapsamlı bir şekilde analiz etti ve Microsoft'un akıllı donanım üzerinde yapay zeka ses asistanının uygulanması konusundaki düşüncesini açıkladı. Leifeng.com da değişim toplantısına katıldı.Leifeng.com'a göre, aşağıdaki değişim toplantılarının içeriği tartışmaya odaklanabilir (aşağıdaki teknik kuru mallar Xiaoice oynarken bunu kullanmayacağınızı umuyor):

  • Temel çerçeveden, küresel yapay zeka ses asistanları Sıra Yönelimli'den Oturuma Yönelimli'ye evrildi. Microsoft'un Oturum Odaklı çerçevesi, Microsoft Xiaoice'un 20 dakikadan fazla sohbete devam etmesini ve sohbet sırasında talimatları tamamlamasını nasıl sağlıyor?

  • IOT ve akıllı ev senaryoları, konuşma yapay zekası için yeni gereksinimleri ortaya koyuyor. Microsoftun yeni tam çift yönlü ses etkileşimi ve Oturum Odaklı özellikli konuşma yapay zekası nasıl daha rahatlatıcı ve doğal bir sohbet deneyimi sağlayabilir?

  • Herkes donanım dağıtmak için acele ediyor. Microsoft endişeli mi? Microsoft, konuşmaya dayalı yapay zekayı yurtiçinde ve yurtdışında IoT'ye ve akıllı donanıma nasıl uygular ve donanım, yazılım ve ekosistemler nasıl oluşturulur?

  • İnsanlar ne tür akıllı donanıma ihtiyaç duyar? Ne tür bir akıllı donanım aile hayatının kontrol merkezi haline gelecek?

  • Sıra Odaklıdan Oturum Odaklıya Evrim

    Apple Siri ve Microsoft Cortana'yı cep telefonlarında veya bilgisayarlarda zaten tanıyoruz. Artık Amazon'un Alexa, Alinin Tmall Geniesi, JDnin Dingdong ve Xiaominin Xiaoai sınıf arkadaşlarının hepsi akıllı hoparlörlerde "yaşanmış" hale geldi. Ama aslında, insanlar ve ses asistanı arasındaki diyalog deneyimi açısından deneyim çok da farklı değil. Kullanıcıların anlaşılması için net bir şekilde telaffuz etmesi ve her kelimeyi konuşması gerekir.Bu deneyim tek kelimeyle anlatılabilir.

    Microsoft'un görüşüne göre, bu "mücadele" sadece bir ön uç performansı sorunu değil, aynı zamanda temel çerçevenin bir sorunudur. Paylaşımın başında, Microsoft Xiaoice'un küresel başkanı ve Microsoft Asya İnternet Mühendisliği Enstitüsü'nün başkan yardımcısı Li Di, "Açıkçası, yapay zekanın Çin'deki genel gelişimi daha çok tahta yığınlarına benziyor ve temel çerçevenin tasarımını keşfedecek fazla bir şey yok. "

    Temel çerçevenin temel konseptinden küresel ölçekte mevcut konuşmalı yapay zekanın iki türe ayrılabileceğini belirtti. İlki: Sıra odaklı (tek bir görev odaklı çerçeve). İkinci tür: Oturuma yönelik (tüm diyalog süreci için bir çerçeve). "Şu anda çoğu ses asistanı Sıra odaklı çerçevelerdir.

    Facebook'un M'si de Oturum odaklı olarak yükseltildi, ancak daha sonra pes etti ve "küçük sohbet modu" geliştirmeye geçti. Amazon'un Alexa'sı şu anda Oturum odaklı çalışıyor ve özel bir yarışma düzenledi.Alexa'nın 20 dakikadan fazla sohbete devam etmesini sağlayan biri olursa, büyük bir bonus alacak. Apple ayrıca orijinal Siri çerçevesini kaldırıp kaldırmayacağını ve yeni bir çerçeveye geçip geçmeyeceğini de düşünüyor. Bu, Apple'ın yapması gereken şeyin bir veya iki işlevde, beceride veya bazı bilgi grafiklerinde ayarlamalar yapmak olmadığını, böylece tüm çerçevenin hurdaya çıkarılmasına gerek kalmadığını gösterir. Sıra Odaklılıktan Oturum Odaklılığa, temel teknoloji çerçevesinin değişmesidir.

    Oturum odaklı, konuşma yapay zekasına ne gibi değişiklikler getirebilir? Aşağıdaki resim, Sıra odaklı ve Oturum odaklı arasındaki farkı sezgisel olarak açıklayabilir.

    Sıra odaklı, tek bir soru ve tek cevapla tek bir göreve yöneliktir ve bu, görevi hızlı bir şekilde ve minimum çok işlevli diyalogla tamamlamanıza yardımcı olabilir. Dönüş odaklı çerçevede, her konuşma bir kavşak gibidir.Her talimat verdiğinizde, asistan sizi bir varış noktasına ve ardından kavşağın merkezine geri götürecektir. Asistan soruya cevap veremediğinde / talimatı tamamlayamadığında, genellikle doğrudan arama cevabını vermek için arama motorunu kullanır. Siri ve Microsoft Cortana'yı deneyimlemiş insanlar bunu hissediyor. Bir veya iki basit soru sorun değil. Birkaç kelime daha söylemek neredeyse imkansız ve genellikle "çok utanç verici" ve biraz hayal kırıklığı hissediyorlar.

    Oturum odaklı çerçevede diyalog sadece bir emir değil, bir karışımdır ve insanlar arasındaki doğal diyaloğa daha yakın olan küçük konuşma sürecindeki her görevi tamamlayabilir. "Diyalog bir nehir gibidir. Doğal olarak meydana gelen herhangi bir diyaloğun karışık olduğunu düşünüyoruz. O bir nehir gibidir. Bir dönüşten diğerine yürür. Bu dönüş görevle ilgili olabilir, ancak görevden sonra girebilir. Daha fazla iletişim. Daha fazla iletişimle, yeni karakterleri tetiklemek ve ardından yeni görevlerle bilgi anlayışını tetiklemek ve sonra devam edip akmaya devam etmek mümkündür. "

    (Bir kullanıcı deneyimi videosu)

    Leifeng.com, Yeelight'ı deneyimledi ve Yeelight'taki Microsoft Xiaoice'un, ortalama 20 dakikadan fazla sürekli sohbetle zaten bir kez uyandığını gördü. Xiaobing ile sohbet sırasında, o da dinlemeye devam etti. Işıkları söndürmek ve çalar saati kurmak için onu yarıda kesebilirsiniz. Görevi tamamladıktan sonra kısa sohbete dönebilir ya da şarkı söylemeye, şakalar anlatmaya ve hikayeler anlatmaya dönebilir. İşlevsel modda.

    Li Di açıkladı, "Oturum odaklı çerçeve yalnızca uzun bir konuşma süresine sahip olmanızı gerektirmiyor. Sorusu, sistemin temel çerçeveden meydana gelebilecek bir durumu kabul etmeye hazır olup olmadığı ... Temel teknoloji perspektifinden bakıldığında , Sıra odaklı geliştirmenin bir üst sınırı vardır. Bu nedenle, herkes kademeli olarak önceden belirlediğimiz Oturum odaklı yöne dönüyor. Bir yıl önce Microsoft, tam çift yönlü sesi test etmek için 600.000'den fazla kişiyi aradı Etkileşimde durum çok kötü, ancak teknik darboğazı aştığımızda geliştirme için çok yer var. "

    Tam çift yönlü ses etkileşim duyusu

    Microsoft, dört yıl önce aynı anda iki çerçeve dağıtmaya başladı, Microsoft Xiaona Dönüş odaklı ve Microsoft Xiaoice, Oturum odaklı, ancak o zamanlar her iki taraftaki teknolojiler yeterli değildi. Tam çift yönlü ses etkileşim teknolojisi, Seesion odaklı çerçevenin son halkasını tamamlar.

    Microsoft'un tam çift yönlü ses etkileşimi teknolojisi yorumu şöyledir: Mevcut tek veya çoklu sürekli konuşma tanıma turlarının aksine, bu yeni teknoloji insanların gerçek zamanlı olarak ne söyleyeceğini tahmin edebilir, gerçek zamanlı yanıtlar oluşturabilir ve diyaloğun ritmini kontrol edebilir ve anlayabilir Diyalog sahnesi, anlatan / dinleyen arasındaki rol değişikliğini fark eder ve aynı zamanda konuşmacının cinsiyetini ve kaç kişinin konuştuğunu belirleyebilir.

    Microsoft XiaoIce'in baş mimarı Zhou Li, çoğu ev içi sesli asistanın IOT üzerinde tek katmanlı etkileşim kullandığını, genellikle bir soru ve bir cevap olduğunu söyledi.Kullanıcı bir cümle söyledikten sonra, yalnızca konuşmacı cevap verebilir veya akıllı Hoparlör konuşurken, yeni talimatları kabul edemez. Bu yarı çift yönlüdür ve sesli asistanla konuşmak telsizle konuşmak gibidir ve karşı taraftan gerçek zamanlı geri bildirim almak son derece zordur. Ve tam çift yönlü gerçekleştirilebilir, her zaman dinleme ve konuşma, dinleme ve konuşma her zaman sürekli dinamiktir.

    Tam çift yönlü ses etkileşiminin arkasında başlıca iki temel teknoloji vardır: biri, dinlerken düşünmenizi sağlayan tahmini bir modeldir; örneğin, kullanıcı bir cümle söylediğinde, Xiaoice önce "Peki, dediniz" yanıtını verir ve sonra gider Talimatı tamamlamak için boş zamanı doldurabilmek için talimatı tamamlayın.

    Diğeri, sahneyi daha iyi anlayabilen ve otomatik olarak yanıtlar oluşturabilen üretken bir modeldir. Normal diyalog tek yönlü bir soru ve cevap değildir. Xiaoice ayrıca uygun zamanda aktif olarak içerik sağlayacaktır ve kullanıcı talimatı tamamladıktan ve birkaç saniye sessizlikten sonra diyaloğun otomatik olarak sona ereceğini bilir. Zhou Li, Microsoft Xiaoice'tan gelen ve artık tam çift yönlü ses etkileşimi teknolojisini kullanan tüm yanıtların, geleneksel modül tabanlı ve arama tabanlı yanıtlardan farklı olarak kendi kendine oluşturulduğunu açıkladı.

    Zhou Linin görüşüne göre, bilgisayarlar ve akıllı telefonlar tarafından yönlendirilen anlık mesajlaşma çağında, insanlar ekran boyunca uzun bir mesafeden mesaj gönderip almaya alışkındır; sohbet amaçlı yapay zeka ve akıllı donanım ise insanları bir tür Metin olmayan, saf sesli iletişimin durumu. Ancak şu anda, herkes konuşmalı yapay zeka tasarlarken, sürekli bir etkileşim halinden ziyade hala mesajların iletişimine dayanıyorlar. Ekransız sesli etkileşimde, mesaj tarzı diyalogdan kurtulmalı ve sürekli interaktif diyaloğa girmeliyiz.

    Tam çift yönlü sesli etkileşim teknolojisi ilk olarak Microsoft'un XiaoIce global ürün serisine girdi. Bunların arasında, Çin pazarında, Çin Bilim ve Teknoloji Müzesi'nin Xiaobing telefon kulübesinde ve Mijia ekolojik zincirinin Yeelight ses asistanında kullanıldı. Japonya'da, Xiaobing Rinca için bir canlı yayın platformu ve önümüzdeki altı ay içinde daha fazla ürün serisini kapsayacak bir araç içi akıllı proje var.

    Microsoft'un sesli yardımcısı IOT yolu

    Önceki analizden, Microsoft'un yapay zeka ses asistanları için akıllı donanım uygulaması için hazırlandığını görebiliyoruz. Li Di, "Üç yıl önce birçok yerli yapay zeka donanım cihazı bize geldi. Daha önce reddettik. O zaman hazır değildik. Değiştirilecek bir çerçeveye zaman koymak istemedik. Üzerinde ... tüm endüstrinin, özellikle de Çin'in nispeten büyük bir özelliği var: Özellikle geride kalmaktan endişeleniyorum. Ama aslında, genel çerçeve iyi bir şekilde yerleştirilirse, gerçekten zamana öncülük edebilir. "

    Microsoft Xiaoice, WeChat ve Line gibi anlık mesajlaşma yazılımlarında her zaman aktif olmuştur ve Microsoft, IOT ve IM'nin konuşma yapay zeka için farklı gereksinimleri olduğunu bilir. Anlık mesajda, Xiaoice'un gecikmeleri ve tıkanıklıkları daha kabul edilebilir.

    Amazon, yurtdışında donanım + yazılım + içerik ekolojisi ile Alexa'yı başardıktan sonra, yerli akıllı hoparlör savaşı çoktan başladı.Yapay zeka ses asistanının açık platformundan, Beceri platformundan içerik ekolojisine kadar tüm taraflar savaşa girdi. Peki Microsoft, temel teknoloji açısından ne tür bir düzen hazırladı?

    Li Di, açıkçası, Çin'de içerik kaynaklarının ve iniş platformlarının avantajlarına sahip olmadıklarını, ancak yapay zekanın temelindeki teknoloji çerçevesinde yeterince güven duyduklarını çok net ifade etti.

    Yeelight'taki Microsoft Xiaoice şu anda aşağıdaki işlevlere sahiptir: sürekli sohbet, akıllı cihazları kontrol etme, günlük hava durumunu / saati kontrol etme, alarmları / hatırlatıcıları ayarlama, şarkı söyleme, hikaye anlatma, zihin okuma ve şarkı adlarını tahmin etme. Sohbet ve eğlence işlevleri çok güçlüdür, ancak şu anda müzik çalmak, haberleri dinlemek, radyo kanallarını vb. Dinlemek mümkün değildir.

    Ve Li Di, her akıllı konuşmacının kendi becerilerinin yüzlerce olduğunu vurgulamasına rağmen, bu bağımsız işlevlerin Microsoft için basit olduğunu söyledi. Zor olan, eksiksiz bir sistemin nasıl kurulacağıdır. Başardık. Biz içerik eksikliğimiz var ve diğerleri iyi sistemlerden yoksun.

    Li Di, Microsoft'un sesli asistanının akıllı donanıma inişinin birkaç yönünden bahsetti:

    İlk olarak, bir AI çözümü sağlıyoruz.Diğer API'lerle karşılaştırıldığında, bu çözüm gerçekten terminal ürün deneyimine odaklanıyor.

    İkinci olarak, entegrasyon için diğer bilgiler ve kaynaklar da dahil olmak üzere AI sulandırmayla ilgili içeriğin bir kısmını sağlayın. Örneğin, ilgili içerik hizmetlerine sahiptir. Görev tetikleyicilerinden sorumlu olabiliriz. Önceki Mijia ekolojik zincir APP'si gibi, düzinelerce cihazı bağlamaktan sorumluyuz.

    Üçüncüsü, kendi yarattığı içerik. Örneğin, artık "Rahibe Xiaobing hikayeler anlatıyor" var. Şimdi, çocukların etkileşimli robotlarının% 90'ından fazlasının kız kardeşi Xiaobing hakkında hikayeleri var. Hem bir AI yardımcısıyız hem de aynı zamanda bir içerik sağlayıcıyız (içerik sağlayıcı).

    Geleceğin akıllı donanımı

    Bu değişim toplantısında Microsoft, altta yatan teknolojinin kuru malları hakkında çok konuştu ve herkese yeni nesil diyaloğun yapay zekanın ilerlemesi olduğunu ve bazı yönlerden gerçekten heyecan verici olduğunu söyledi. Ancak sakinleşin ve bir düşünün, akıllı donanımın gelişimi aslında daha karmaşık ve her şey hala belirsiz.

    Tam çift yönlü ses etkileşimi gibi düşük seviyeli teknoloji geniş bir uygulama aralığına sahip olsa da, herkesin mevcut rekabetinin odak noktası hala akıllı ev sahnesidir. Hoparlörler, TV'ler, buzdolapları, tavan lambaları ve diğer yaygın ev aletleri hangisi geleceğin merkezi olacak? Gelecekte bu donanımda kaç AI olacak?

    Microsoft'un Xiaobing departmanı donanım konusunda oldukça sakin. Li Di, akıllı hoparlörlerin mevcut başarısı ve yapay zekanın başarısının iki şey olduğunu söyledi: Ürün tasarımı, fiyatlar, kanallar ve sübvansiyonlar gibi pazar stratejileri akıllı hoparlörlerin satışlarını etkileyecek. Ancak donanımın bir değiştirme döngüsü olduğunu da biliyoruz.Şu anda bir pazar payınız olsa bile, gerçekten güçlü ve kullanışlı bir yapay zeka olduğunda, muhtemelen değiştirileceksiniz.

    "Özellikle yapay zeka konusunda, IOT gibi cihazlar da dahil olmak üzere çok fazla gördük. Aslında çok iyi bir girişi var. Yardım edemezsiniz ama Siri'nin iyi bir girişi olduğunu söyleyin. Yardım edemezsiniz ama çeşitli yerli firmaların çok iyi girişleri olduğunu söyleyebilirsiniz. Girişin iyi olması ama girişin olması aslında ürün yapabileceğiniz anlamına gelmez.Baidu'nun girişi ile iyi bir ürününüz yoksa ekolojiden nasıl gelirsiniz Microsoft bir platform olduğumuzu ve birçok platform yaptığımızı vurgulardı. Ancak, platformlaştırma hakkında ne kadar geç konuşursak o kadar iyidir ve önce uçtan uca bağlantı kurarak bir etki elde edebileceğimizi umuyoruz. "

    Peki insanların sevdiği yapay zeka asistanı tam olarak nedir? Her türlü beceriyi akıllı hoparlörlere koymak ve akıllı hoparlörleri uzaktan kumanda, oynatıcı ve çeşitli araçlar olarak kullanmak popüler olmamalı mı? Herkes AI asistanlarıyla iyi bir sohbet deneyimi ve hatta duygusal iletişim bekleyecek mi? XiaoIce'i bir süre deneyimledikten sonra Leifeng.com, XiaoIce'in sohbet deneyiminin gerçekten diğer AI asistanlarından daha iyi olduğunu hissetti, ancak henüz müzik çalamaması üzücü. Xiaoice gelecekte her türlü beceriyi öğrenecek mi? Xiaoice o sırada hala Xiaoice miydi? Bu konular, sürekli düşünme ve keşfetmemize değer.

    Değişim toplantısının sonunda, herkes hala kaçınılmaz olarak "O" filminden bahsetti. Oyunda Semansa gibi geleceğin ses asistanının sadece erkek kahramanların günlük işlerle ilgilenmesine yardımcı olmadığını, aynı zamanda eşlik ettiğini, iletişim kurduğunu ve duygusal destek verdiğini hayal edin. Pekala, kendi kararımı vereceğim ve kalp kırıcı bir kızı AI yapmak için doğru zamanda ortadan kaybolacağım.

    Panasonic'in yeni makine video, LUMIX S1 / S1R 4K yüksek kare hızlı video kaydını korur
    önceki
    "Münzevi Öpüşmek" Tibet'in güzel manzarasının fotoğraflarını gözler önüne seriyor, "Gaogui Cariye" Tan Zhuo ve Li Zhizheng platodaki aşklarını yorumluyor
    Sonraki
    Philips SR Interconnect Driver ve Microsoft Azure Cloud, IoT aydınlatması oluşturmak için güçlerini birleştiriyor!
    Farklı Bir "Jihai" Kitap Listesi: Üzüntü, Şüphe, Karışıklık ve Korku
    "Devil May Cry 5" ilk çizgi roman bölümü 0 çevrimiçi, V'nin başlangıç hikayesini anlatıyor
    2018'de NLP alanı sıcak olmaya devam ediyor ve üreticiler iniş senaryoları bulmayı umuyor
    Yıl sonundan sonra geriye ne kalacak? Bir ömür sonra geriye ne kalacak?
    HP'nin kapsamlı gelişimi ve 66 ikinci nesil ince ve hafif iş dizüstü bilgisayarı değerlendirmesi
    "Çılgın Yaz: Merhaba Canavar" yakında yayınlanacak, cevabın ortaya çıkmasını bekliyor
    Nasıl daha iyi bir yıl geçirdin? Çin ve Japonya'nın aile sloganı hakkında konuşalım
    LG'nin yeni AI TV tarzını takdir etmek için ses ve video CES 2019'un tam yükseltmesi
    İkinci el yaşam
    Z9G, 8K görüntü kalitesinde yeni bir çağ açıyor, Sony CES, yeni amiral gemisi TV ürünlerinin yoğun bir şekilde piyasaya sürülmesini gösteriyor
    İnsanın ikinci hayatı nasıl tedavi edilir? Girişimcilik
    To Top