Xunfei Akıllı Ses Öncüsü: İnsan-bilgisayar etkileşimi insan iletişimi kadar doğal olduğunda, gerçek zeka çağı gelecek

Görüşülen kişi | Liu Cong

Muhabir | Yu Yan

Üretildi | CSDN (ID: CSDNnews)

"AI Teknolojisi Ekoloji Teorisi" karakter röportajı sütunu, CSDN tarafından başlatılan Milyon İnsan Öğrenen Yapay Zeka girişiminin önemli bir parçasıdır. En iyi yapay zeka eko markaları, girişimcileri ve endüstri KOL'leri ile yapılan görüşmeler sayesinde, sektör hakkındaki düşüncelerini, gelecekteki trendler hakkındaki yargılarını, teknik uygulamaları ve büyüme deneyimlerini yansıtıyorlar.

Bu makale, iFLYTEK'in ses ve bilgisayar vizyonunun birlikte çalışma teknolojisini inceleyen ve multi-modalite ve insan-bilgisayar etkileşiminin gelecekteki eğilimlerini tahmin eden "AI Teknolojisinin Ekolojisi" röportaj serisinin on altıncı sayısıdır.

Milyonlarca insan AI öğreniyor ve sizin payınız var! Bugünden itibaren, "2020 AI Geliştirici On Bin Kişi Konferansı" na kaydolmak ve kupon kodunu kullanmak için orijinal metni okumak için tıklayın "AIP211" , Konferansın canlı yayını için 299 yuan değerinde ücretsiz bilet alabilirsiniz. 100 kopya ile sınırlıdır, ilk gelen önce hizmet verir!

Günümüzde ister akademik araştırma ister uygulama olsun, konuşma teknolojisi ve bilgisayarla görme teknolojisi ayrı ayrı ele alınırsa, cep telefonlarındaki çeşitli uygulamalardan havacılık araştırmalarına, ses ve görüntüye kadar görece olgun bir aşamaya geldikleri söylenebilir. Teknoloji, insan hayatının her alanına nüfuz etti. Ama ya ikisini birleştirirseniz? Daha derin insan-bilgisayar etkileşimi için metin, ses, vizyon, hareket, çevre ve diğer formları birleştirmeye ne dersiniz? Bu sözde çok-modlu etkileşimdir.Teknik uzmanların görüşüne göre, çok-modlu etkileşim, insanlar arasındaki etkileşimi ve insanlar ve makineler arasındaki gerçek etkileşimi tam olarak simüle edebilir.

Multimodal etkileşim teknolojisi ve uygulamalarının mevcut araştırma durumu nedir? İnsan ve makine arasındaki engeli aşmak için herkes ne tür çabalar gösteriyor? Bugün, bu sorunların gerçek doğasını keşfetmek için iFLYTEK AI Araştırma Enstitüsü İcra Dekanı Liu Cong'u ve onun teknoloji geliştirme yolunu kullanacağız.

Yüksek Lisans ve Doktora öğrencilerine iFLYTEK Ses Laboratuvarı'na önerildi

Özgeçmiş perspektifinden, Liu Congun kişisel deneyimi ve büyüme yolu çok basittir. 2001 yılında Çin Bilim ve Teknoloji Üniversitesi Elektronik Bilgi Mühendisliği Bölümüne kabul edilmiş ve 2005 yılında Elektronik Bilgi Mühendisliği Bölümüne tavsiye edilmiştir. IFLYTEK'in Konuşma Laboratuvarı (şimdi "Konuşma ve Dil Bilgi İşlem için Ulusal Mühendislik Laboratuvarı"), profesyonel yön "sinyal ve bilgi işlemedir". Burada konuşma tanıma konusunda uzmanlaşmıştır.

Liu Cong, yüksek lisans ve doktora çalışmaları sırasında, Microsoft Research Asia ve Kanada'daki York Üniversitesi'ni altı aylığına ziyaret etme fırsatı buldu. 2010 yılında, denizaşırı öğrenciler çalışmalarını tamamladıktan sonra Çin'e döndüler ve başarılı bir şekilde doktora derecesi aldılar.

Aslında, 2007 gibi erken bir tarihte, Liu Cong, iFLYTEK'e stajyer olarak katılmıştı ve bazı tek noktalı teknoloji araştırmaları yapmanın yanı sıra, bir Çince konuşma tanıma sisteminin inşası üzerinde de çalıştı. 2010 yılında doktorasından mezun olduktan sonra resmi olarak iFLYTEK'e katıldı ve konuşma tanıma araştırma direktörü olarak görev yaptı.

Bu süre zarfında, derin öğrenmeyle temsil edilen üçüncü yapay zeka dalgası tarandı ve temel konuşma tanıma teknolojisi ve gerçek sistemin etkisi, geliştirme için çok yer buldu. Liu Cong, mezuniyetten sonraki birkaç yıl içinde, ekibi sürekli olarak sektör lideri konuşma tanıma temel teknolojileri ve işlevlerini takip etmeye yönlendirdi. Öte yandan, Vietnam'da çeşitli endüstrilerdeki teknolojik boşluğu doldurmak, konuşma tanıma ve diğer ilgili teknolojileri yapmak için işletme departmanı ve ilgili ürün departmanları ile işbirliği yaptı. Giderek daha fazla senaryo mevcuttur ve hatta kullanımı kolaydır. İFLYTEK tarafından uygulamaya konulan en eski ses ürünleri temelde Liu Cong ve ekibine atfedilir.

2014 yılında, HKBTÜ iFlytek Araştırma Enstitüsü'nde tüm konuşma tanıma yönünün araştırma ve geliştirilmesinden sorumlu dekan yardımcısı olarak görev yaptı.Aynı zamanda grafik tanıma, tıbbi görüntüleme ve video analizi gibi bilgisayar vizyonunun kuluçka ve araştırma ve geliştirmesinden sorumlu olmaya başladı.

Derin öğrenme algoritması çerçevesinin konuşma tanıma ve bilgisayar görüşü arasında transferini gerçekleştiren ve "teknolojik yenilikte 35 yaş altı 35 kişi" olarak değerlendirildi

Şu anda, iFLYTEK AI Araştırma Enstitüsü, konuşma sentezi, konuşma tanıma, konuşma değerlendirme, grafik tanıma, tıbbi görüntüleme, makine çevirisi, doğal dil anlama ve diğer alt yönler dahil olmak üzere birçok araştırma yönüne sahiptir.

Liu Cong'un ilk araştırma yönü, derin öğrenme algoritmasını konuşma ve bilgisayar görüşü arasında köprü kurmaktır.

Bunu neden yapmak istiyorsun?

Liu Cong, bu fikirle ekibin asıl niyetinden bahsetti: Teknoloji uygulaması perspektifinden, basit bir ifadeyle, konuşmadan bilgisayar görüşüne, derin öğrenme sadece işlenen verileri tek boyutlu ses verilerinden iki boyutlu görüntülere dönüştürüyor. Veriler, ikisinin teknolojide belirli bir düzeyde birlikte çalışabilirliği var. Çin'de derin sinir ağı konuşma tanıma araştırması yapan ilk şirketlerden biri olarak, bu yönün algısal zeka ve bilişsel zeka alanında derin öğrenme algoritmalarının ilerlemesini destekleyebileceğine inanılmaktadır; diğer yandan aynı algısal zeka kategorisine ait ses ve bilgisayar görüşü olarak, Bir önceki sayfada yer alan derin öğrenme algoritmasının başarısını elde ettikten sonra, derin öğrenme algoritmasının bilgisayarla görmedeki ilerlemesi, ekibin iç cazibesi haline geldi. Son olarak, iFLYTEK'in yapay zeka ürünlerinin kombinasyonu pazarda iyi bir yanıt aldı ve ürünler aynı zamanda çekirdek teknolojiler için daha yüksek gereksinimler ortaya koydu.Sesin yanı sıra, bilgisayarla görmeye olan talep de artıyor, böylece ses ve bilgisayar görüşü arasındaki boşluğu kapatıyor. Derin öğrenme algoritmalarının ürün gereksinimlerini daha iyi karşılaması doğal hale gelir.

(Resim onaylanmıştır, sağ Liu Cong'dur)

Liu Cong, akıllı konuşma işleme alanında belirli sonuçlara ulaştıktan sonra, 2014 yılında ekibin resmi olarak bilgisayar görüşü alanına geçmesine öncülük etti. Konuşma tanıma ve derin öğrenme alanındaki birikimle birlikte makinenin duyuları değişmiş olsa da, "dinlemekten" "görmeye", ikisi arasında teknik düzeyde bir köprü kurmuştur.

2015 yılında Liu Cong ve ekibi, bilgisayar görüşüne dayalı olarak en sık kullanılan evrişimli sinir ağı CNN yapısını yeniden yapılandırmak ve optimize etmek için ses özelliklerini birleştirdi. Makinelere nasıl yapılacağını öğretmek için derin bir tam sıralı evrişimli sinir ağı DFCNN çerçevesi önerdiler. Konuşma tanıma için "spektrograma bakın" yöntemi.

DFCNN çerçevesi

DFCNN, konuşmayı giriş olarak doğrudan bir spektral görüntüye dönüştürür, zaman alanını ve frekans alanını görüntünün iki boyutu olarak alır ve daha sonra tüm cümle konuşma giriş sinyalini, evrişimli katman ve havuz katmanının kombinasyonu yoluyla modeller. Bu yöntem, geleneksel konuşma tanımanın yalnızca kısa vadeli genlik spektrumunu etkili bir şekilde modelleyebileceği sınırlamasını ortadan kaldırır.Uzun vadeli genlik spektrumunun ve zaman alanlı konuşma dalga biçiminin eşzamanlı modellemesini elde etmek için tam sıralı bir evrişimli sinir ağı yapısı tasarlar. Modelleme doğruluğunu iyileştirmeye elverişlidir.

2015 yılında Liu Cong ve ekibi, konuşma tanıma ve bilgisayar görüşü arasında derin öğrenme algoritması çerçevesini entegre eden bu DFCNN'yi önerdi. Bundan sonra, bu teknik rotayı takip ederek, iFLYTEK konuşma tanımanın verimliliğini artırmak için yeni girişimlerde bulundu. Teknoloji araştırma ve geliştirme çalışmalarının yinelenmesi sırasında bazı zorluklarla karşılaşmak ve bazı çukurlara adım atmak kaçınılmazdır.

Liu Cong, mevcut perspektiften bakıldığında, konuşma tanımanın, akustik ve dilin ayrı ayrı modellendiği geleneksel konuşma tanıma ve ortak akustik dil modellemesinde uçtan-uca konuşma tanıma olarak ikiye ayrılabileceğini söyledi. DFCNN önerildiğinde, konuşma tanıma esas olarak akustik dilin ayrı modellemesine dayanıyordu.DFCNN, esas olarak telaffuzu modellemek için kullanılan bir akustik modeldir.

DFCNN'den sonra, uçtan uca modelleme fikirleri yavaş yavaş yeni bir araştırma noktası haline geldi ve yeni nesil konuşma tanıma sistemi olmak için geleneksel konuşma tanıma çerçevesini aştı. Dikkat mekanizmasına dayalı olarak kodlayıcı ve kod çözücünün uçtan uca modellemesiyle temsil edilen uçtan-uca konuşma tanıma çerçevesi, akustik bilginin yüksek seviyeli soyutlamasını gerçekleştiren bir kodlayıcı parçası ve akustik dilin ortak modellemesini gerçekleştiren bir kod çözücü parçası içerir. Geleneksel konuşma tanımadaki akustik modele eşdeğerdir. DFCNN'nin güçlü akustik modelleme yeteneklerinin yardımıyla, Liu Congun ekibi tarafından geliştirilen DFCNN tabanlı uçtan uca konuşma tanıma sistemi, geleneksel konuşma tanımadan daha iyi tanıma sonuçları elde etti. Bu, DFCNNnin Başarıyla genişletildi.

Ancak, yeni sistemin tüm geliştirme süreci bir gecede gerçekleşmedi. Liu Cong, uçtan uca modelleme fikrinin makine çevirisinden kaynaklanmasına ve belirli miktarda teknoloji biriktirmesine rağmen, konu konuşma tanıma söz konusu olduğunda birçok yeni sorunla karşı karşıya olduğunu söyledi. Çoğu konuşma tanıma sisteminin gerektirdiği gerçek zamanlı tanıma sorunu, uçtan uca konuşma tanıma modelinin gerçek ürünü uygulamak için çözmesi gereken bir sorundur Makine çevirisindeki uçtan uca model bu noktayı karşılayamaz.

Bu sorunla karşı karşıya kalan Liu Congun ekibi, modelin tüm cümlenin tanınmasını beklemeden yerel ses verilerini tanımasına izin veren, monoton olarak artan yeni bir dikkat algoritması tasarladı. Teknik olarak, yeni sistemin gerçek ürüne uygulanmasının önündeki son engel çözülür.

Liu Cong, akıllı ses ve bilgisayar vizyonunun yanı sıra ses, görme ve dokunma, ses / makine çevirisi ve diğer sıcak araştırma noktaları gibi insan duyularını birleştiren çok modlu bilgi işlemeyle ilgili olarak CSDN ile bu konulardaki görüşlerini ve görüşlerini paylaştı. Görüşler, hadi bu kıdemli teknik adamın gelecekteki teknik yön tahminini tek tek analiz edelim.

Çok modlu bilgi işleme ve füzyon büyük bir trend olacak

Birincisi, herkesin ilgilendiği çok modlu teknolojidir. Ses ve bilgisayarla görme teknolojisinin olgunlaşmasıyla birlikte, bazı uygulama senaryolarında hala bazı engeller bulunmaktadır.Örneğin, yapay zeka simültane tercümesinin etkisini garanti etmek çevresel faktörler ve profesyonel çevirmenlerin sonuçları nedeniyle zordur, bu nedenle çeviri alanında ortaya çıkmaktadır. Konuşma tanıma sırasında görsel teknolojinin PPT'de kullanılması gibi çok modlu araştırmalar, yalnızca insan alışkanlıklarına uymayan, aynı zamanda doğruluğu tanıyan ve iletilen bilgilerin daha doğru olmasını sağlayan ses ve resmi birleştirir.

Bu ses, görüntü ve dokunma gibi insan duyularını birleştirme fikri, Liu Cong'un konuşma ve bilgisayar görüşü arasında devam eden karşılıklı iletişimiyle aynı mı?

Liu Cong, dar anlamda, aynı şey olmadıklarının ve ikisinin başlangıç noktalarının farklı olduğunun söylenebileceğine inanıyor. İFLYTEK tarafından bilgisayarla görü ve konuşma tanıma arasındaki en eski iç iletişim, derin öğrenme algoritmalarının uygulama senaryolarının doğal bir uzantısı ve ilerlemesiydi. Benzer teknolojiler, konuşma tanımanın başarısından görme alanındaki girişimlere kaymıştır.

Çok-modlu araştırmanın yükselişi, daha çok, birçok pratik problemin geçmişteki saf konuşma veya saf görsel yöntemlerle çözülmesinin zor olmasından kaynaklanmaktadır.Sadece insanların problemle başa çıkma yolu daha yakındır ve daha fazla girdi verilir. Bilgi sorunu çözebilir. Bu, iki başlangıç noktası arasındaki farktır, dolayısıyla ikisinin aynı şey olmadığı söylenebilir.

Ancak geniş anlamda konuşursak, bu ikisinin aynı şey olduğu söylenebilir.Bunun nedeni tam olarak tek bir ses veya vizyonla çözülemeyen birçok pratik problemin olmasıdır.Ürün gereksinimleri, teknolojide daha yüksek gereksinimler ortaya koymaktadır ve bu da araştırmacıları, Çekirdek teknolojileri geliştirmek için, çok-modlu araştırma teknolojik evrim için iyi bir yöndür.Bu açıdan bakıldığında, ikisinin aynı şey olduğu söylenebilir.

Çok modlu teknolojinin gelişiminden bahseden Liu Cong, geçmişte hem akademinin hem de endüstrinin tek modalitelerin araştırılmasına daha çok odaklandığına inanıyor.Son yıllarda, makine algılama yazılım ve donanım teknolojilerinin gelişmesiyle birlikte, İletişim teknolojisinin ve bilgi işlem yeteneklerinin gelişmesiyle birlikte, bazı senaryolarda tek modlu araştırmanın sınırlamaları yavaş yavaş ortaya çıkmıştır. Konuşma tanıma alanındaki meşhur "kokteyl partisi sorunu", Bu senaryolarda, çok modlu teknolojinin tek modlu teknolojiden daha belirgin avantajları vardır ki bu da bizim insan algı özelliklerimizle daha uyumludur. Çok modlu bilgilerin işlenmesi ve birleştirilmesi büyük bir trend olacak.

İFLYTEK şu anda yaptığı şeydir. Çok modlu tanıma teknolojisine dayanarak, yüksek gürültü, çok kişili ve uzak alan gibi karmaşık sahnelerde konuşma tanıma sorunlarına daha iyi bir çözüm getirmiştir. Çok modlu sentez teknolojisine dayalı sanal görüntü şu anda Medya, müşteri hizmetleri ve diğer alanlarda yaygın olarak kullanılmaktadır ve insan-bilgisayar etkileşimi daha iyi bir deneyime sahiptir. Geçmişte, çeşitli alanlarda (konuşma, görme, doğal dil) araştırmalar bazı teknolojilerde ve metodolojilerde geneldir.Yeni bir araştırma alanına başlarken, bu teknolojilerin ve metodolojilerin birikimi hızlı göç için büyük yardım sağlayabilir. Modal araştırmanın kendisi, farklı modal bilgilerin kaynaşmasına daha fazla önem vermektedir.

Liu Cong ayrıca şuna da inanıyor: Çok modlu teknolojinin geliştirilmesi, uygulama katmanına, çekirdek algoritma katmanına ve donanım katmanına odaklanacaktır. Uygulama katmanında nispeten çok sayıda araştırma vardır ve birçok iyi sonuç elde edilmiştir, ancak çekirdek algoritma katmanının ve donanım katmanının keşfi şu anda nispeten yetersizdir ve gelecekte daha fazla araştırmaya değer. Örneğin, farklı modal bilginin birbirini nasıl daha etkili bir şekilde tamamlayabileceği, nasıl daha derin bir şekilde entegre edilebileceği, farklı görevler için hangi modal bilginin gerekli olduğu ve farklı modalitelerin algı bilgilerinin bilişle nasıl daha iyi birleştirilebileceği.

Görsel sunuma dayalı ses etkileşimi gelecekteki yöndür

Yukarıda belirtildiği gibi, çok-modlu araştırma gelecekteki araştırmaların odak noktası olacak ve çok-modlu etkileşim doğal olarak insan-bilgisayar etkileşiminde gelecekteki atılımlar için anahtar nokta haline gelecektir.

Şu anda, görsel sunuma dayalı sesli etkileşim önemli araştırma yönlerinden biridir.Li Cong ayrıca bunun derinlemesine araştırmaya değer bir nokta olduğuna inanıyor.

Büyük bir ekranla, makine tarafından görüntülenen içeriğin ekrandan (görsel) geçtiğine ve girdinin esas olarak sesli etkileşim olduğuna inanıyor. Ancak bu, "görsel sunuma dayalı ses etkileşiminin" tamamen "görsel sunuma dayalı dokunma etkileşimi" nin yerini alacağı anlamına gelmez, ancak ısının büyük bir bölümünü başka yöne çevirecektir. Büyük bir ekranın önünde oturduğumuzda, "görsel sunum tabanlı ses etkileşimi" ile elde ettiğimizin, bir cep telefonuna parmakla işaret etme deneyiminden farklı olduğunu hayal edin. Xunfei, uzak alan tanıma, son derece doğal kişiselleştirilmiş konuşma sentezi, AIUI ve akıllı evler, akıllı ev aletleri ve akıllı oyuncaklar için diğer alanlar gibi insan-bilgisayar etkileşim çözümleri sunan çeşitli senaryolarda akıllı ses teknolojisinin derinlemesine uygulanmasını destekledi. hizmet.

Makine çevirisi ilerlemek istiyorsa, bu yönleri keşfetmeye devam etmesi gerekir

Akıllı konuşma alanında, konuşma / makine çevirisine olan ilgi yalnızca artmıştır. Liu Cong, derin öğrenme teknolojisinin sürekli gelişimi ve sürekli büyük veri birikimi ile ses ve makine çevirisi gibi teknolojilerin birçok senaryoda yararlı bir seviyeye ulaştığına, ancak bir sorunu çözdüğümüzde her şeyin geliştiğine inanıyor. Her zaman çözmemizi bekleyen yeni bir sorun olacaktır. Örnek olarak konuşma tanımayı ele alalım. Derin öğrenme ve büyük veri sayesinde, iFLYTEK'in ses girişi yöntemi sessiz sahnelerde% 98'lik bir tanıma oranına ulaşabilir, ancak yüksek gürültülü sahnelerde ve zorlu ortamlarda etki çok daha kötüdür. Örneğin, "tarihteki en zor konuşma tanıma görevi" olarak bilinen uluslararası konuşma tanıma yarışması CHiME5'te, iFLYTEK'in şampiyon sistemi bile bunu ancak çok kişili konuşma karıştırma, uzak alan yankılanması ve gürültü içeren sert bir konuşma ortamında başarabilir. % 54'lük tanıma oranı, sessiz uyanmanın% 98'inden uzaktır.

İFlytek'in kullanıcı işbirliğindeki ses giriş yönteminin dikte tanıma özelliğini kullanımı kolay hale getirdiği ilk andan itibaren, artık daha zor olan uzak alan konferans sahnesinin transkripsiyon tanımasını kullanımı kolay hale getirdi. Teknoloji her zaman gelişiyor ve sorunlar da artıyor Sürekli fethedilmek.

"Belki bir gün, CHiME oyun sahnesini faydalı hale getirebileceğimizde, gerçek yapay zeka yakında gelecek," Liu Cong hala nispeten iyimser.

Liu Cong'un, insanların sevdiği ve nefret ettiği makine çevirisi üzerine kendi düşünceleri ve görüşleri var.

Makine çevirisi teknolojisinin geliştirilmesinin en eski kural tabanlı yöntemleri, 1990'ların başında istatistiksel makine çevirisine ve en son nöral makine çevirisi teknolojisine kadar deneyimlediği sonucuna varmıştır.Sözlü ve genel senaryolarda makine çevirisinin performansı karşılaştırılabilir olmuştur. İnsan çevirmenlerin çeviri etkisi. Bununla birlikte, makine çevirisi daha fazla ilerleme kaydedecekse, aşağıdaki alanlarda sürekli keşif yapılması gerekir:

  • Çok dilli çeviri Şu anda dünyada 5000'den fazla dil vardır ve çoğu dilin paralel külliyatı yoktur veya çok azdır, bu nedenle, az miktarda veriyle kullanılabilir çok dilli makine çevirisi yetenekleri sağlamak için çalışmak gerekir.

  • Makine yorumu Bunlar arasında konuşma çevirisinde sözlü anlatımların ve aksan ağızlarının neden olduğu konuşma tanıma hatalarının çözülmesi gerekir.Aynı zamanda konferans, konuşma ve diğer sahnelerde aşırı gecikmelerden kaçınmak için çeviri gecikmesi ve etki dengesi de dikkate alınmalıdır. Kullanıcıların gerçek öznel deneyimini büyük ölçüde etkiler.

  • Sektör Çevirisi , Farklı sektörler için daha profesyonel ve doğru çeviriler sağlamak, gelecekte makine çevirisinin gelişimi için bir başka önemli teknoloji olacaktır.

  • Uçtan uca konuşma çevirisi teknolojisi , Konuşma tanıma sistemi ve makine çeviri sisteminin kademesini kullanan geleneksel konuşma çevirisinden farklı olarak, uçtan uca konuşma çevirisi, konuşmadan metne doğrudan modellemek için bir model kullanır. Mevcut uçtan uca konuşma çevirisi, az miktarda veri ve diğer nedenlerden dolayı geleneksel konuşma çevirisi çözümleriyle belirli bir boşluğa sahiptir, ancak daha ileri bir araştırmayı temsil eder ve gelecekte konuşma çevirisi için yeni fikirleri ve yeni yönleri temsil eder. anahtarı.

  • Genel olarak, makine çevirisi uygulama pazarının boyutu yıldan yıla istikrarlı bir şekilde büyüyor, makine çevirisi teknolojisi daha olgun hale geldi ve uygulama senaryoları daha çok hale geldi. Makine çevirisi, konuşma tanıma, görüntü tanıma ve konuşma çevirisi ve fotoğraf çevirisi gibi diğer uygulamaların birleşimi, tüm sektörün canlılığını harekete geçirmeye devam edecek.Gelecekte daha etkili makine çevirisi uygulamalarının ve hizmetlerinin üretileceğine inanılıyor.

    Hayal gücünün uçmasına izin verin, gelecekte insan-bilgisayar etkileşiminin olasılıkları nelerdir?

    Uzun zamandır sayısız insan, insanlar ve makineler arasındaki etkileşimin gizemini keşfetmek için mücadele ediyor.Bilim ve teknolojinin hızlı gelişmesiyle muazzam ilerleme kaydettik, ancak ne kadar derin anlarsak, bu hedeften uzak olduğumuzu o kadar çok anlıyoruz. .

    Gelecekte, görsel sunuma dayalı sesli etkileşimin yanı sıra, başka hangi olası etkileşim yöntemleri olacak? İnsan-bilgisayar etkileşimi alanında teknolojik ekolojide ne gibi değişiklikler olacak?

    Liu Cong, insan-bilgisayar etkileşiminin giderek daha fazla çeşitleneceğine ve birçok farklı yolun kombinasyonunun sunumda gittikçe daha zengin ve kişiselleşeceğine inanıyor. Geleneksel görsel sunum yöntemlerine ek olarak, daha duygusal ve kişisel konuşma sentez teknolojisine dayalı sesli sunum yöntemleri ve sanal görüntülerin daha doğal antropomorfik görsel sunumları da olabilir.

    Sanal görüntünün ifadesi ayrıca dudakların ifadesinden yüz ifadesi ve vücut duruşunun kombinasyonunun duygusal ifadesine kadar değişebilir, böylece etkileşim daha doğal ve insancıl hale gelir.

    "Uzun vadede, ses, görme ve dokunmaya dayalı çoklu modal bilginin birleşimi bir trenddir. Yalnızca içeriği anlamak değil, aynı zamanda kullanıcının duygularını tanımak ve yüz ifadeleri, duygular dahil olmak üzere vizyona dayalı olarak insanlar etrafındaki davranışları analiz etmek ve anlamak da gereklidir. Hareketler, somatosensoriyel, vb. Makineler ve insanlar arasındaki etkileşimi birbirleriyle etkileşime giren insanlar gibi yapar. "Liu Cong'un düşündüğü gibi, insan-bilgisayar etkileşimi insanların birbirleriyle iletişim kurması kadar doğal olduğunda, gerçek zeka çağı gerçekten gelecek.

    Bugünün faydaları

    Lu Qi ile tanışın

    Ayrıca "Milyonlarca Kişi Yapay Zekayı Öğreniyor" un önemli bir parçası olarak, 2020 AIProCon Geliştiriciler Konferansı 3 - 4 Temmuz tarihleri arasında çevrimiçi olarak canlı yayınlanacak ve geliştiricilerin mevcut yapay zeka en son teknolojisini tek noktadan öğrenmelerine olanak tanıyacak Araştırma, temel teknoloji ve uygulamalar ile kurumsal vakalarda pratik deneyim ve ayrıca heyecan verici ve çeşitli geliştirici salonlarına ve programlama projelerine çevrimiçi olarak katılabilirsiniz. Bir dizi ileriye dönük aktiviteye ve çevrimiçi canlı yayın etkileşimlerine katılın. Yalnızca on binlerce geliştiriciyle iletişim kurmakla kalmaz, aynı zamanda özel canlı yayın hediyeleri kazanma ve teknik uzmanlarla bağlantı kurma fırsatına da sahip olursunuz.

    Şirketlerin kendi veri merkezlerini inşa etmek için ihtiyaç duydukları şey, bir dizi Silikon Vadisi metodolojisidir (makalenin sonunda faydalar vardır!)
    önceki
    Yeni taç virüsü kapsamında yerli ve yabancı teknoloji şirketleri tarafından hangi yazılım çözümleri ve teknolojileri öneriliyor?
    Sonraki
    Yapay zeka devinin Google DeepMind'ını derinden ortaya çıkarın
    Redis, kendi sistemine nüfuz etmek için bir numara öğrenir ve N arıza çözüm paketleriyle birlikte gelir | Kuvvet Projesi
    Apple'ın resmi web sitesi tüm iPhone 8 serilerini kaldırıyor; Alibaba "Alibaba Bulut Konferansı" nı başlattı; deepin 20 BETA yayınlandı | Geek Manşet
    İnternetin karşı karşıya olduğu en büyük tehlikelerden biri olarak, mevcut DDoS trendi nedir?
    Yeni bir işlemci oluşturmak neden zordur?
    Platform günlük 700 milyon ziyarete direniyor ve Ar-Ge kalite kontrol süreci tam olarak açıklanıyor
    Derinlemesine kuru ürünler! Derin öğrenme eğitim performansı birkaç kez nasıl geliştirilir?
    Eski Baidu baş mimarı kendi işini kurdu ve iki yılda on milyonlarca dolar topladı. Yeni yapay zeka ilaçlarının geliştirilmesinin altın bir on yılı başlatacağını söyledi.
    Nginx'ten Pandownload'e, programcılar hapishane programlamasından nasıl kaçınabilir?
    "Makine öğrenimini kullanmak hala zor!"
    ABD borsa kargaşasının ve Ruixing'in sahtekarlığının gölgesi altında, ABD'de halka açıldı, Kingsoft Cloud neden bu kadar endişeli?
    Ningbo Demiryolunun Chuanshan Liman İstasyonu resmen açıldı
    To Top