Aniden Bilişsel CEO Dai Shuaixiang: Konuşmalı sesli etkileşim her yerde olacak | CCF-GAIR 2017

Lei Feng Net Notu: 7-9 Temmuz 2017 tarihleri arasında, Çin Bilgisayar Federasyonu (CCF) ev sahipliğinde, Leifeng.com ve Hong Kong Çin Üniversitesi (Shenzhen) ev sahipliğinde, CCF-GAIR Küresel Yapay Zeka ve Robotik Zirvesi, Shenzhen'de planlandığı gibi gerçekleşti. Konferansın ilk gününde, yurtiçi ve yurtdışındaki en iyi akademisyenler ve uygulayıcıların her biri, paylaşmak üzere çok sayıda endüstri kuru ürünü getirdiler. Sonraki iki gün içinde, GAIR'ın robotları, akıllı asistanları, finansal teknoloji, AI +, akıllı sürüş ve çeşitli alanlardaki uygulayıcılar için diğer özel oturumlar sağlandı. Yakın iletişim ve öğrenme için fırsatlar sağlar.

Aniden Bilişsel, son iki yılda doğal dil anlayışında en dikkat çeken şirketlerden biridir.Sağlam anlamsal anlayış teknolojisi Storm TV, SAIC Maxus, VINCI gibi şirketlere olgun sesli asistan çözümleri sağlamıştır. Kurucu ve CEO Dai Shuaixiang, 9 yıldır Baidu'da doğal konuşma anlayışı ile uğraşıyor, Baidu NLP'nin baş mimarı olarak görev yaptı ve ekibin Baidu'nun en yüksek semantik ödülünü kazanmasına öncülük etti.

CCF-GAIR konferansında akıllı asistan özel oturumunda, Dai Shuaixiang "Dialogue is Application" üzerine bir açılış konuşması yaptı. İçeriği Leifeng.com derledi. Konuşmanın tam metni aşağıdadır:

Bugün paylaştığım konu "Diyalog Uygulama" dır.Birçok insan bunun uzak bir gelecek olduğunu düşünür, aslında gözümüzün önünde olabilir.

Gelecek sadece zihnimizde var ve hayalidir, ancak insanlar gelecek için özlem duymak için doğarlar. Bu, genlerimizde yazılı insan doğasıdır.

"İnsanlar hayal gücü için yaşarlar", bence bu cümle yanlış değil, ama "gelecek geldiğinde geçmiş yok" zaman ve mekan boşluğunda, bilişimizi ve hayal gücümüzü nasıl ayarlayabiliriz?

İnternetin gelişimini örnek alırsak, insan-bilgisayar etkileşimi İnternetin gelişiminde çok kritik bir rol oynamıştır. İnsan-bilgisayar etkileşimindeki her yenilik, kaçınılmaz olarak devrimci bir dalga yaratacaktır.

Yirmi yıl önce İnternet yeni yayılmaya başladı.Interneti çalıştırmak için klavye ve fare kullanıyoruz.Bu tür uygulamalar çok basit, web sayfalarından başka bir şey değil.

Yaklaşık 10 yıl sonra, 2007'de, Jobs çığır açan bir ürün çıkardı: birinci nesil iPhone. Önceki klavye operasyonunu tamamen terk etti ve tam bir dokunmatik ekran operasyonu kullandı.Bu değişiklik, doğrudan iki büyük cep telefonu devinin önümüzdeki birkaç yıl içinde pazardan çekilinceye kadar hızla gerilemesine yol açtı.

Bu değişiklik aynı zamanda başvuru formunda bir değişikliği de beraberinde getirdi - önceki Web programı geliştirmeden APP programı geliştirmeye hızlı geçişe kadar, bu değişiklik aynı zamanda önümüzdeki 10 yıl içinde İnternet çağında birkaç devin kademeli olarak gerilemesine yol açtı.

Bir 10 yıl daha geçti ve bugün yeni bir çağ yaklaşıyor. Az önce birkaç kişi de büyük ve küçük şirketlerin artık ses yapmaya başladığını belirtti.Sesin iyi bir ürün olup olmadığı hala belirsiz, ancak çevremizdeki giderek daha fazla donanımın bağlanmaya başladığını hissedebiliyoruz. "Her Şeyin İnterneti" çağı.

"İnsanlığın Kısa Tarihi" nde bir nokta var: İnsanın geniş çaplı işbirliği için genleri yoktur ve bunu telafi etmek için dile ve yazıya ihtiyacı vardır. Bugün çok fazla cihaz üretiyoruz.İnsanlarla büyük ölçekte gerçekten işbirliği yapabilmeleri için, sesli konuşma etkileşimi vazgeçilmezdir ve kesinlikle ana akım haline gelecektir. Gelecekteki IoT çağında ses etkileşiminin yazılım ve donanım arasındaki sınırı aşacağına, farklı senaryolarda farklı uygulama ve hizmetleri sunacağına yani diyaloğun bir uygulama olduğuna inanıyorum.

Henüz pek çok insan bu şey hakkında bir fikre sahip olmasa bile, bir düşünürseniz, bunun harika bir dönem olduğunu göreceksiniz. Bu çağı kaçırmak istemiyoruz, bu yüzden Ani Biliş adında bir şirket kurduk. Makinelerin, temel olarak doğal dil anlayışıyla dünyayı, bilişsel hesaplamayı tanımasına, sinyal işleme, konuşma, anlambilim, hizmet otomatik yerleştirme, tek noktadan otomatik etkileşim çözümleri sunmasına, daha basit bir şekilde anlam bilime dayalı olmasına izin vermeyi taahhüt ediyoruz. Temel karar motoru olarak anlamak, yeni nesil arama motorlarıdır.

Bir başlangıç şirketi olarak, ne yaparsanız yapın, öncelikle doğru bir pazar konumlamasına ve giriş noktasına sahip olmalısınız. Aniden, oluşturduğumuz ve inşa ettiğimiz ilk etkileşimli sahneler ev ve arabadır. Bu iki kategori tam bir bütün halinde birleştirilebilir.

Ev sahnesi: Giriş noktası olarak TV

Neden ev sahnesini seçmelisiniz? Birkaç sebep var:

  • Ev, eğlence ve rahatlama için bir yerdir.Evde geriye dönük hizmetin tadını çıkarmayı umuyoruz, ileri hizmet tarzı değil;

  • Ev, yemek yemek ve hatta alışveriş yapmak için bir yer ... Giderek daha fazla insan evlerini terk etmeden günlük ihtiyaçlarını internetten satın alıyor. Örneğin, yemek yapamayabilirsiniz, ancak yemek pişirme hakkında bilgi almanız gerekebilir ve paket ve grup satın alımları sağlayan restoranlar hakkında bilgi sahibi olmanız gerekebilir. Bu bilgiler daha iyi etkileşimli yöntemlerle sağlanabilir;

  • Evde giderek daha fazla ekipman var.Geleneksel olanlara ek olarak artık hoparlörler, bulaşık makineleri, süpürme robotları vb. Var. Bu ekipmanı daha iyi anlamak ve kullanmak istiyorsanız, merkezi bir etkileşimli girişe ve merkezi kontrole ihtiyacınız var. Ve kullanın, bu çok doğal bir yoldur.

Bu üç nokta ışığında, üç tür etkileşim yöntemi tasarladık:

  • Video içeriğine dayalı etkileşim, esas olarak TV içindir. İlk olarak Storm TV ile işbirliği yaptık, Bay Liu (Baofeng TV CEO'su Liu Yaoping) daha sonra ayrıntılı olarak açıklayacak;

  • Paket servisi olan restoran, kahve, sinema biletleri, tren biletleri, uçak biletleri gibi yaşam hizmetlerine dayalı etkileşimlerin tümü sürekli diyalog yoluyla çözülebilir;

  • Akıllı cihaz kontrolünün etkileşimi, teknolojide nispeten basittir. Asıl sorun, büyük üreticilerin protokollerinin o kadar birleşik olmamasıdır.

Araba sahnesi: sesli etkileşim için en uygun sahne

Sektörün ulaştığı bir fikir birliği, arabanın sesli sesli etkileşim için en uygun senaryo olduğudur. Bunun iki ana nedeni vardır:

  • Bir kişi araba kullandığında elleri ve ayakları meşguldür. Belki de herkes sık sık raporlarda görüyor, kadın sürücüler hakkında nasıl ve neyler ... Çoğu kişi araba kullanmak yerine kolayca araba kullanıyor, bu çok tehlikeli bir davranış;

  • İnsanlar arabada gittikçe daha fazla zaman geçiriyor, bu da trafik sıkışıklığından kaynaklanıyor olabilir veya insanlar özel olarak araba kullanmayı tercih ediyor olabilir. Bu, parçalanmamış, tam ve sürekli bir zamandır.Bu zamanı tam olarak kullanmak ve araçla uygun bir şekilde etkileşim kurmak kullanıcıya bambaşka bir deneyim getirecektir.

Araç içi senaryoda etkileşim tasarımında bazı farklılıklar var.Rota planlama, otomatik navigasyon, anlık mesajlaşma, gerçek zamanlı yol koşulları vb. Sürüş sırasında incelenmesi gerekiyor.Ayrıca etkileşim üzerinde büyük etkisi olacak sürüş amacına daha fazla dikkat edeceğiz. Örneğin, bir restorana giderseniz, size restoran bilgisi sorgulama ve koltuk rezervasyonu hizmetleri vereceğiz.Havaalanına giderseniz, havalimanı uçuş gecikme bilgisi sağlayacağız ve hatta uçak bileti satın alacağız.Bir alışveriş merkezine giderseniz, yakındaki park yerlerini ve park rezervasyon hizmetlerini kontrol edebilirsiniz. Tabii ki, bunlar artık yalnızca birkaç büyük şehirde mevcuttur. Kısaca araç içi etkileşimde varış noktası çok önemlidir.

Bu iki sahne hayattaki iki çok önemli sahnedir, ancak genel sistemimiz aracılığıyla daha büyük bir sahneye entegre edilebilir ve bir alışveriş merkezi haline gelebilir. Böyle çok işlevli bir sahneyi entegre etmek için çeşitli sahneler arasında ücretsiz geçiş gerekir Bu işlemin tamamlanması için çok karmaşık ses etkileşimi veya konuşma ses etkileşimi gerekir.

Konuşma ses etkileşimi, birden çok teknolojinin entegrasyonunun kaçınılmaz sonucudur. Aşağıda diyalog ve sesli etkileşimin tüm yönlerini farklı bakış açılarından açıklayacağım:

VUI ve GUI'nin entegrasyonu

GUI'nin kendisi, sonradan etkisi olmayan, kesin ve basit bir işlemdir; VUI farklıdır, zıplar ve nispeten belirsizdir, ancak karmaşık görevleri tamamlayabilir. GUI, makineye adapte olmamız için, VUI ise makinenin bize adapte olması içindir. Sadece ikisi organik olarak birleştirildiğinde interaktif diyalog sistemi etkili olabilir. En verimli olanı kullanırız.Uzaktan kumanda en verimli ve en uygun sesli arama sestir. Sipariş ve seçim süreci aslında çok entegre bir süreçtir.

Çok sahneli entegrasyon

Çoğu zaman duyduğunuz şey dikey sahneyi derinleştirmek, bence bu temel bir konu değil. Yüksek frekanslı sahneler gerçekten hızlı bir şekilde ele alınabilir, ancak uzun kuyruk sahnesi gerçekten etkilidir. Diyalog sürecinde sadece yüksek frekansı karşılamak anlamsızdır, ancak uzun kuyruk bir araya getirildiğinde, kullanıcılar hizmet ihtiyaçlarının çeşitli yerlerde karşılandığını hissetmeleri için çok etkili bir etkileşim yolu haline gelebilir.

Cihazlar arasında işbirliği

Daha önce de belirtildiği gibi, birden fazla sahnenin tek bir cihazda entegrasyonu olmalı, bu entegrasyon nasıl yapılır? Mesela hava çok sıcak, eve gitmeden önce evdeki klimayı 24 dereceye çevirip koridordaki ışıkları yakmak istiyorum, bu günlük hayatta doğal bir talep. Mevcut birçok çerçeveye göre, bunları uygulamak çok karmaşık olacak, ancak sistemimizi yerleştirdikten sonra, araba makinesi ve ev ekipmanı tıpkı bir cihaz gibi doğal olarak entegre edilebiliyor. Kullanıcılar için farklı cihazlar arasında geçiş, kesintisiz bağlantı ve sarmalama deneyimi yaratmak istiyoruz. Bunu başarmak, çok sahneli füzyondan daha kolaydır.

Bilgi ve hizmetin entegrasyonu

Çok yönlü etkileşimden ve tek aşamalı etkileşimden bahsettiğimizi görüyorsunuz, ancak bence tek aşamalı bir diyalog yok. Sesin ilk uygulamaları kontrol etmeye, ışıkları açmaya, ışıkları kapatmaya ve sesi ayarlamaya odaklandı. Giriş yöntemleri diyalog değil, giriş yöntemleriydi. Gerçekten yararlı diyalog iki yönlüdür.Sistem, uygun eylemleri anlar ve yapar. Eğer anlamazsa, eylemler veya retorik eylemler önerecek ve eylemleri netleştirecektir. Ancak bu şekilde eksiksiz, görev temelli, amaca yönelik ve optimize edilmiş bir diyalog oluşturulabilir. Rastgele.

Örneğin bu gece bir film izlemek istiyorsanız belli bir sinemaya, belli bir filme, belli bir isme gideceğinizi söyleyebilirsiniz ama bunu söyleyen çok az insan var ve sistemin görevi başarıyla tamamlama ihtimali çok düşük. Bir hedefiniz var, ancak bu hedefe nasıl ulaşacağınızdan emin değilsiniz. Şu anda etkileşimli diyalog sizi başka bir adıma götürecektir.Örneğin, film sistemi size en son çıkan filmleri verecek ve ardından kişisel tercihlerinize göre uygun önerilerde bulunacaktır; seçiminizi yapana kadar bekleyin Daha sonra sinemanın nerede, nerede olduğunuza dikkat etmelisiniz, ilişkiniz sinemaya hızlı bir şekilde ulaşmanızı sağlıyor mu? Tüm bunlar tamamlandıktan sonra, kaç kişinin gideceğine karar vermek için bir adımınız daha var.Bu bizim tarafımızdan önceden tanımlanmış değil, özelleştirilmeli. Çoklu diyalog turlarının amacı, amacın aynı kalması, ancak tüm adımların bozulabilmesidir.Bu, bilgi ve hizmetin entegrasyonudur ve yapılabilir. Şimdi iyi gidiyoruz.

Teknoloji yakınsaması

Yapay zeka esasen tek bir model veya tek bir yöntem değil, birden fazla anahtar teknolojinin bir birleşimi olan bir teknoloji koleksiyonudur.

Üç tür karar motoru vardır: Biri, temel olarak bilgi muhakeme modellemesi için olan bilişsel hesaplama modelleridir. Bilgi muhakemesi açısından, makineler hem akademik hem de mühendislik açısından daha iyisini yapabilir. İkincisi doğru anlamaktır .. Anlamsal modelleme için henüz bir sonuç yok, ancak yapılabilir ve şimdi daha iyisini yapıyoruz. Üçüncüsü, herkesin umutsuzca yapmak istediği, derin öğrenme ve çeşitli DNN yapıları olan içerik öğrenmedir.

Konuşma etkileşimleri için çok fazla veriniz olmayabilir ve hatta veri dizisi tanımlanamaz. Veriler nasıl alınır? Öğrenmek çok önemlidir. Küçük veri modelleme problemini çözmek için problemi modellemek ve kendi benzersiz yönteminizi önermek çok önemlidir. Her şey işe yaradığında, derin pekiştirmeli öğrenme benimsenir. Bunun mümkün olduğunu düşünüyorum. AI uzun zamandır pekiştirmeli öğrenmenin özerk öğrenmeyi gerçekleştirmenin etkili bir yolu olduğundan bahsetmiştir.

Tam bir konuşma etkileşimi sistemi oluşturmak, tam bir döngü içerir ve en alt katman ayrıca sinyal işlemeyi içerir. Bay Chen (Shengzhi Technology CEO'su Chen Xiaoliang) uzun bir süre sinyal işleme ile donanım ve yongalar arasındaki ilişkiden bahsetti. Üst katman, konuşma ve metin arasında nasıl dönüştürüleceğidir. Konuşma tanıma artık nispeten olgunlaşmıştır. Üst seviye artık kısaca anlamsal anlama olarak anılıyor, ancak aslında bundan çok daha karmaşık.Bu sistemi kurmak için birçok adım gerekiyor: anlamsal anlama, diyalog sistemi, öğrenme sistemi, otomatik hizmet yerleştirme ... Otomatik hizmet yerleştirmenin amacı, sahnelerin hızlı bir şekilde taşınmasını ve hizmetlerin hızlı bir şekilde çevrimiçi olmasını sağlamaktır.Pratik bir sistem olarak çok önemlidir, ancak nadiren bahsedilir.

Son olarak, dilin nesli.

Şirketimizin ana işi üçüncü kısımdır, ancak çeşitli şirketlerle işbirliği yapıyoruz ve sinyal işlemede Bay Chen ile işbirliği de dahil olmak üzere tüm kapalı döngü için eksiksiz çözümlere sahibiz.

Bu, nispeten ayrıntılı bir teknik çözüm ekranıdır (yukarıda). Sarı kısım, şu anda sağlayabileceğimiz ana kategorilerdir, bulut hizmetleri, anlambilim, ses ve cihaz kontrolü ve daha sonra, kolaylaştırmak için cihaz tarafına farklı programlar yerleştirilecektir. Ekipmanı kullanmak ve insanlarla sorunsuz bir şekilde sohbet etmek için.

Tüm bu entegre teknik çözümlerin tek bir amacı var, bu da diyalog sırasında başvuruyu tamamlamamıza izin vermek.

Uygulamanın varlığını hissetmeyebiliriz ama aslında her yerdedir.

Özet ve görünüm

Uygulama olarak diyalog çağında, onu geçmişten ayıran nedir?

Birincisi, doğal diyalog etkileşime hükmeder ve etkileşimin yolu, süreci ve sonucu bir diyalog biçiminde sunulur.

İkincisi, uygulamanın kurulmasına gerek yoktur, tamamen hizmet odaklıdır, hafiftir ve kullanıcı edinme ve kullanım maliyeti büyük ölçüde azalır.

Üçüncüsü, farklı senaryolarda uygulamaların otomatik olarak entegrasyonudur.Kullanıcıların çok fazla APP kullanmasına veya çok fazla web sayfasını açmasına gerek yoktur, bu da kullanım verimliliğini büyük ölçüde artırır.

Dördüncüsü, hizmetler ücretli hale geldi.İnsan hizmetleri gibi, yüksek kaliteli sanal hizmetler de temelde ticari mallardır ve yüksek fiyatlarla ödüllendirilmeleri gerekir.

Tüm bunlar gerçekleştiği takdirde geliştirme maliyetlerimiz çok düşük seviyeye inecek, kullanım verimliliği büyük ölçüde artacak, makine ve ekipmanların zekası büyük ölçüde yansıtılacaktır. Böyle bir çağ, makinelerin yavaş yavaş öğrendiği, insanları taklit ettiği ve sonunda insanları aştığı bir dönemdir.

"Ruyi'nin Saraydaki Kraliyet Sevgisi" Bu eklenti akıp gidiyor
önceki
Neden kızların en çok sevdiği ilk kız grubu onlar?
Sonraki
Enerji toplama ve şarj için cihazdan cihaza iletişim güç dağıtım şeması
Douyin tam ekran üstün sizi boğuyor mu? Samsung'u yakan bu "her şey yüce olabilir" ateşi ne kadar sıcak?
Astrophotographer, şok edici meteor yağmurunu fotoğraflamak için Nubia X'i kullandı
Kırmızı ağa topluca yürüdüler - gözlem sırasında entegrasyon sürecini hissettiler ve hararetli tartışma sırasında genel sekreterin talimatlarını anladılar.
Tianqin Medical Feng Yuan: AI tıbbın dört ana geliştirme aşaması | CCF-GAIR 2017
"Pazar Analizi" Mikro LED mi OLED mi? AR-VR başlığı nasıl seçilir
Muli'de yangınla mücadele eden 38 köylü 4 gün 3 gece yaşayın
Jüpiter'in 4.6 milyar yıldır dünya üzerindeki koruyuculuğuna saygı duymak için bir kadeh "Lonely Planet" kırmızı şarapla gelin | Titanium Space
"Akademik Belge" Araçların İnterneti için bir kümeleme yöntemi ve küme içinde bir aktarma seçim yöntemi
26 apoleti çıkardıktan sonra Liangshan itfaiyesi son derece sessiz
"Blog Gönderisi" PCIe Okuryazarlığı - PCI Veriyolunun Temel Kavramları
Wang Feng'in "Aynen Böyle" Ulusal Turu, Chongqing Uluslararası Fuar Merkezi yarın sizi bekliyor.
To Top