Baidu AI Etkileşim Tasarımı Enstitüsü'nün en son paylaşımı: görsel-işitsel etkileşim deneyimini belirleyen 2 ana faktör

Bu makale şu kaynaktan yeniden üretilmiştir: Baidu Yapay Zeka Etkileşim Tasarımı Enstitüsü

4 ve 5 Temmuz'da Pekin'de 2. Baidu AI Geliştirici Konferansı düzenlendi.Bu konferans aynı zamanda ilk kez AI Tasarım Forumu'na ev sahipliği yaptı.Robot doğal duygu insan-bilgisayar etkileşimi modeli NIRO'nun piyasaya sürülmesine ek olarak forum, etkileşim perspektifinden de yorumlandı Yapay zeka çağında çevre, kullanıcı davranış değişiklikleri ve kullanıcı deneyiminin yeni özellikleri açıklandı.Aynı zamanda, Çin'in yapay zeka döneminin tasarımını keşfetmek için ortak bir inovasyon laboratuvarı ve doktora sonrası üs kurmak için Hunan Üniversitesi ile stratejik bir işbirliği duyurdu.

Forumdan sonra, Baidu AI Etkileşim Tasarım Enstitüsü daha da aralıksız geçti ve hemen "Çok Boyutlu Diyalog-Görsel-İşitsel Entegrasyona Yönelik Yeni Bir Sesli Etkileşim Deneyimi" (aşağıdaki tam metin) ile ilgili yeni bir araştırma raporu yayınlayarak sağlam araştırma güçlerini ve görsel-işitsel entegre seslerini ortaya koydu Ses etkileşiminin eksikliklerini gidermek için işitme temelinde görsel bilgileri birleştiren etkileşim, sesten vizyona uzanan yeni nesil sesli etkileşim paradigmasını keşfetmek için sektörde önemli bir eğilim haline geldi.

Son kırk yılda, insanlar ve makineler arasındaki etkileşim, neredeyse her on yılda bir gerçekleşen büyük yeniliklerle gelişmeye devam etti. Yapay zeka çağında, hayattaki gittikçe daha fazla cihaz sesli etkileşimi desteklemeye başlıyor ve ses etkileşimi, insanların niyetlerini iletmeleri ve cihazlarla iletişim kurmaları için giderek ilk tercih haline geldi (Önce Ses). Geleneksel etkileşimle karşılaştırıldığında, ses etkileşimi hem elleri hem de gözleri özgürleştirir ve insanlar cihazlarla düşük maliyetle etkileşim kurabilir; dahası ses çok boyutludur.Dil, kendi bilgisine ek olarak, insanların cihazla daha tam etkileşime girmesine olanak tanıyan zengin duygular da içerir. etkileşim.

Sesli etkileşim de sınırlamalara sahiptir. Ses etkileşimi görsel değildir, bu da insanların hafıza yükünü kolayca artırabilir.Sesli sorgu bilgilerinin kullanıldığı bir senaryo hayal ederseniz, dinlemeye konsantre olmanız gerekebilir. Dikkat etmezseniz, bazı içerikleri kolayca gözden kaçırabilirsiniz. Bunun ışığında, yapay zeka uzmanı Wu Enda'nın da bahsettiği gibi, insanlar için makinelerle iletişim kurmanın en etkili yolu dildir ve makinelerin insanlarla iletişim kurmasının en etkili yolu dil artı vizyondur, bu da görsel bilginin sesli etkileşimi telafi etmek için işitme temelinde birleştirilmesi gerektiği anlamına gelir. Yetersizlikten. Sesten vizyona uzanan ve görsel bilgileri sesli etkileşime entegre etmek, yeni nesil sesli etkileşim paradigmasını keşfetmek için sektörde önemli bir eğilim haline geldi. Örnek olarak akıllı hoparlörleri ele alalım Ekransız hoparlörlerin yanı sıra ekranlı hoparlörler de piyasada görünmeye başladı.

Baidu Yapay Zeka Etkileşim Tasarım Enstitüsü'nün bu sayısı, sesli etkileşimli geri bildirim ve içerik çıktı bağlantılarının deneyimine odaklanarak, araştırma nesnesi olarak ekranlı akıllı cihazları alıyor. Ekran boyutu farklılıklarının geri bildirim ve içerik çıktı deneyimi üzerindeki olası etkisini göz önünde bulundurarak çalışma, farklı ekran boyutlarına sahip iki cihaz, yani akıllı hoparlörler (7 inç) ve akıllı TV'ler (55 inç) seçti. Bu konudaki ana araştırma soruları şunları içerir:

1) Ekranlı cihazlarda komutların ekran üstü geri bildirim deneyimi, temelde, kullanıcı bir sesli komut girdikten sonra metin komutlarının ekranda görüntülenmesi için gecikme süresi ve metin komutlarının ekranda görünmesi için makul bir süre anlamına gelir;

2) Ekran cihazının içerik çıktısının ses paraziti deneyimi, esas olarak, kullanıcı belirli bir senaryoya (müzik dinlemek / video izlemek gibi) başka görevler (ansiklopediyi sorgulama gibi) eklediğinde makul ses ayarını ifade eder.

1. Taranan cihazların talimat ekranı deneyimi üzerine araştırma

Ekransız cihazlarla karşılaştırıldığında, görüntü ekranının entegrasyonu, sesli etkileşim sürecinin daha zengin geri bildirim formlarına sahip olmasını sağlar. Konuşma tanıma aşamasını örnek olarak alırsak, ekransız bir cihazda, kullanıcı genellikle giriş komutunun tanıma sonucunu doğrudan bilemez. Taranan cihaz, komutun tanıma sonucunu doğrudan ekranda gösterir ve kullanıcı, ekran açıldıktan sonra "Jay Chou'nun mavi ve beyaz porselenini dinlemek istiyorum" komutu gibi tanıma sonucunun doğruluğunu veya hatasını rahatlıkla kontrol edebilir. Ancak, birçok cihaz şu anda ekranda talimatlar görüntülendiğinde belirli bir gecikmeye sahiptir.Bu deney, makul gecikme süresini ve ekrandaki talimatların sunum süresini inceleyecektir.

1. Ekranda gecikme süresi deneyi talimatı

Piyasadaki ekranlı cihazların birçoğu gerçek zamanlı ekran yukarı modunu benimsediğinden, yani kullanıcı bir sesli komut girdiğinde kullanıcı tanıma sonuçlarını ekranda sunmaya başlar, bu nedenle bu deney sadece gerçek zamanlı ekran yukarı çalışmaktadır. Deneyde, gerçek zamanlı kelime kelime ekran kullanıyoruz ve ana değişken olarak ilk kelime ekran gecikme süresini kontrol ediyoruz (Not: ilk kelime ekranı gecikme süresi, kullanıcının ilk kelime ekranına konuşmaya başladığı andan itibaren geçen zaman aralığını ifade eder) , Ekran hızıyla ilgili talimatın kullanıcının memnuniyet değerlendirmesini elde etmek için farklı ilk kelime gecikme süresi belirledik (5 puanlık ölçek: 1-çok memnun değilim, 2-memnun değil, 3-adil, 4-çok memnunum , 5- Çok memnunum). Deneyde, farklı uzunluklarda üç talimat verdik.

Deneysel sonuçlar, ilk kelime gecikme süresi ne kadar kısa olursa kullanıcı memnuniyetinin o kadar yüksek olduğunu göstermektedir. Farklı ekran boyutlarına sahip cihazların ilk kelime gecikme süresi memnuniyeti biraz farklıdır. "4-göreceli olarak memnun" u kullanıcı memnuniyetinin alt sınırı olarak kabul ediyoruz. "3-Genel", kullanıcının kabul edilebilir puanının alt sınırı olarak kabul edilir. Farklı cihazlar arasında tatmin edici ve kabul edilebilir ekran süresi aşağıdaki gibidir:

1) Ekranı olan konuşmacılar için, kullanıcıların memnun olduğu ilk kelime gecikme süresinin alt sınırı yaklaşık 500 ms'dir ve kabul edilebilir ilk kelime gecikme süresinin alt sınırı yaklaşık 1500-1600 ms'dir;

2) Akıllı TV'ler için, kullanıcıların memnun kaldığı ilk kelime gecikme süresinin alt sınırı yaklaşık 600-700 ms'dir ve kabul edilebilir ilk sözcük gecikme süresinin alt sınırı yaklaşık 1100-1200ms'dir;

Piyasadaki diğer cihazlarla ilgili araştırmalarla birleştirildiğinde, bazı cihazların ilk ekran süresinin alt kullanıcı memnuniyeti sınırından önemli ölçüde daha uzun olduğu ve bazılarının da kabul edilebilir alt sınırdan daha uzun olduğu bulundu. Komut ekranı hızı ile ilgili olarak, üründe hala iyileştirme ve optimizasyon için yer vardır.Yani, konuşma tanımanın otomatik konuşma tanıma (ASR) teknolojisi yalnızca tanıma doğruluğunu iyileştirmekle kalmaz, aynı zamanda tanıma hızı indeksinin iyileştirilmesine de dikkat etmesi gerekir.

2. Ekranda sunum zamanı deneyi talimatı

Talimatın gösterim süresine ek olarak, talimat sunum süresinin çok kısa olmasını ve kullanıcının net görememesini önlemek için talimat ekranda görüntülendikten sonra makul sunum süresini veya sunum süresi çok uzun ve tüm etkileşim süreci uzamış ve gereksizdir. Deneyde, farklı sunum süreleri için kullanıcı memnuniyeti derecelendirmelerini elde etmek için ana değişken olarak metin sunum süresini kullanıyoruz (not: metin sunum süresi, bir metin talimatının son kelimesinin ekranda olduğu andan tüm talimatların kaybolduğu zaman aralığını ifade eder). Konuşma tanıma, dil modeli teknolojisini içerdiğinden, ekrandaki asıl talimat kelimesi kelimesine değildir. Bu nedenle, deneyin bu bölümünde, "2010'dan önce Andy Lau'nun oynadığı bir Hong Kong filmini izlemek istiyorum" talimatı vermek için ekran ekran yöntemini de simüle ediyoruz. "Örnek olarak," Andy Lau "bir bütün olarak tanınana kadar gösterilmedi. Deneyde ayrıca farklı uzunluklarda üç talimat verdik.

Deneysel sonuçlar, ekranda optimal bir metin sunum süresinin olduğunu ve farklı ekran boyutlarına sahip cihazlar arasında optimal ekran üstü metin sunum süresinde önemli bir fark olmadığını göstermektedir. Farklı tarama yöntemleri arasında farklılıklar vardır. Ekran kelime ekran ve ekran blok ekran için en uygun sunum süresi aşağıdaki gibidir:

1) Birebir ekran modunda, en uygun komut sunum süresi 200-500 ms arasındadır;

2) Blok-blok ekran modunda, en uygun komut sunum süresi 400-700 ms arasındadır.

Blok-blok ekran yükleme yöntemi, gerçek ürünün ekran yükleme moduna daha yakın olduğu için, esas olarak 400-700 ms'lik sunum süresine başvurulması önerilir. Ekranda gerçek zamanlı yöntem, kullanıcıların sesli komutları girme işlemi sırasında ekranda bulunan metni görüntülemesine izin verdiğinden, bunun genel tanımadan sonra ekrana geçiş yönteminden açıkça farklı olduğu unutulmamalıdır. Bu nedenle, ürün genel tanımayı kullanıyorsa Yükleme yöntemi için deneyin bu bölümünün sonucuna başvurulması tavsiye edilmez.

2. Taranan cihazların hacimsel girişim deneyimi üzerine araştırma

Ekranlı cihazlar, sesli etkileşim için daha zengin geri bildirim sağlamanın yanı sıra, video içeriği tüketimi ve video iletişim yetenekleri gibi cihazların geçmişte sahip olmadığı işlevleri de genişletiyor. Aynı zamanda, ekipman kullanımı geçmişte tek bir görevden birden fazla göreve doğru değişiyor. Bir videoyu izlerken, "Fuyao" dizisini izlerken aktör Yang Mi'nin bilgilerini sorgulamak gibi bilgileri istediğiniz zaman bulmak için görevler ekleyebilirsiniz. Deneyin bu kısmı, temel olarak, kullanıcı görevi ekledikten sonra ön plan içeriği ile arka plan içeriği arasındaki ses seviyesi paraziti deneyimini inceler.Örneğin, mevcut sahne içeriği bilgi yayınlarken, kullanıcıya aşırı arka plan sesini önlemek için arka plan videosunun veya müziğin makul ses seviyesi aralığı. Bilgi karışıyor.

1. Hacim girişim deneyi

Deneyde, kullanıcılardan iki senaryoda bilgi sorgulamaları istendi: video izleme ve müzik dinleme. İki başlangıç ses düzeyi belirledik (not: ilk ses, kullanıcının video izleyen / müzik dinleyen ses düzeyidir): 60 ve 65 desibel, kullanıcı karakter veya ansiklopedi bilgilerini sorguladıktan sonra, farklı arka plan ses düzeyini ayarlayarak (not: ön plandaki içerik artık Ses yayını bilgisi, arka plan içeriği video veya müziktir), arka plan ses düzeyinin kullanıcı memnuniyeti değerlendirmesini elde etmek için. Aynı zamanda, kullanıcının ön plan ve arka plan bilgilerinin görüntülenmesine yönelik tutumunu anlamak için deney sonrası anketle birlikte. Farklı cihazlar arasındaki hacim ölçeği aralığındaki farklılık nedeniyle, deneyde ekran hoparlörünün ve akıllı TV'nin arka plan ses seviyesi ayrı ayrı ayarlandı.

Deneyin sonuçları, kullanıcıların arka planın video veya müzik olmasına bakılmaksızın arka planın tamamen kapatılmasını sevmediklerini buldu (Not: Aşağıdaki şekilde "0", arka planın tamamen sessiz olduğu anlamına gelir). Ekran hoparlörleri ve akıllı TV'ler için, başlangıç ses seviyesi yaklaşık 60 desibel olduğunda, arka plan ses düzeyi konfor aralığı biraz farklıdır. Spesifik sonuçlar aşağıdaki gibidir:

1) Ekranlı hoparlörler için, arka plan video ses seviyesi 36-53 desibel aralığına düşer ve arka plan müziği seviyesi 39-56 desibel aralığına düşer, kullanıcı öznel olarak daha rahat hisseder;

2) Akıllı TV'ler için arka plan video ses seviyesi 39-53 desibel aralığına düştüğünde ve arka plan müziği ses seviyesi 36-53 desibel aralığına düştüğünde, kullanıcı öznel olarak daha rahat hissediyor.

Deneyde, ilk hacim 65 desibel olduğunda arka plan hacminin rahat aralığını da inceledik.Deneysel sonuçlar temelde yukarıdaki eğilimlerle tutarlı olduğundan, alan sınırlıdır, bu yüzden onları birer birer genişletmeyeceğiz.

Ek olarak, deneyden sonra anket anketinin sonuçlarıyla birleştirildiğinde, arka planın oynatma durumuna ilişkin olarak, kullanıcıların arka plan müzik olduğunda oynamaya devam etme eğiliminde oldukları ve arka plan video olduğunda daha fazla kullanıcının videoyu duraklatma eğiliminde olduğu bulunmuştur. Bunun ana nedeni, ekranlı hoparlörün arka plan videosunun tamamen kaplanmış olmasıdır.Bu nedenle kullanıcılar, ilgilendikleri video içeriğini kaçırmamak için arka plan videosunu duraklatmanın daha iyi olacağını düşünüyor.

Ön plandaki içeriğin oynatma durumu ile ilgili olarak, ekran boyutu farklılıklarından ve arka plan ortam türlerinden bağımsız olarak, çoğu kullanıcı, ön plan bilgilerini ekranda yalnızca metin veya grafik biçiminde görüntülemek yerine sesli olarak yayınlayabilmek ister.

Üç, özet

Bu makale, görsel sistemi entegre ettikten sonra etkileşimli geri bildirim ve içerik çıktısı deneyimine odaklanarak, ekran cihazlarının sesli etkileşimli deneyimi üzerine araştırmalara odaklanmaktadır. Araştırma sonuçlarımız ve tasarım önerilerimiz, ekrandaki talimatın gecikme süresi ve talimat sunum süresinin yanı sıra, farklı içerik çıktığında ön plan ve arka planın makul ses ayarları için verilmektedir.

Sesin genişlemesinden vizyona kadar, ses etkileşiminin sınırı ve uzantısı değişmeye devam edecek. Ses etkileşimi ve geleneksel etkileşim yöntemleri birbirini dışlamaz ve bir ya da bir ilişki değildir.Gelecekte, insan-bilgisayar etkileşimi işitme, görme, dokunma, tat ve koku gibi çok modlu etkileşim yöntemlerini içerecektir. Gelecekteki etkileşim paradigması kesinlikle bu etkileşim yöntemlerinin basit bir istiflenmesi ve sıralanması değil, belirli senaryolar, insan faktörleri, çevresel koşullar ve diğer faktörler dikkate alındıktan sonra düzenli ve makul bir kombinasyon ve tasarımdır. Baidu Yapay Zeka Etkileşim Tasarımı Enstitüsü, multimodal etkileşim alanındaki araştırma ve tasarıma da dikkat etmeye ve araştırma sonuçlarımızı ve görüşlerimizi çıkarmaya devam edecek.

Gelecekte, sesli etkileşim, birlikte keşfedecek ve ilerleyeceğiz.

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

400.000 yuan "Ferrari" Mercedes-Benz BMW'yi saniyeler içinde öldürdü ve piyasaya çıktığında 33 saniye içinde soyuldu!
önceki
Bu oyun şirketi hırslı, sadece tavuk yeme dünyasına hükmetmek istemiyor, aynı zamanda Steam ile doğrudan bir ilişkisi var.
Sonraki
Kurşun geçirmez arazi dağ yollarında, yaklaşan araca bakmadan sollama, sahibinin çarpıştığı bir sonraki sahne
Almanya Açık çekilişi: Fan Zhendong ve Zhang Jike aynı üst yarıda, Chen Meng 5 Japon oyuncuyu tek tek çıkardı
Bu Hint takımı, milli futbol takımını neredeyse berabere kesti ve bu gece World Series'e ilk kez çıktı.
Elbette yapay zekanın silahları öldürmemesi iyidir, ancak Oxford bilim adamları Musk'ın konuyu gözden kaçırdığını düşünüyor
Tarihteki en çılgın LOL hayranı! Faker için bir roman yaz, onu anne yap ve ona aşık mı olacaksın?
Bu arabaları ilk aldığımda kapıyı bile açamadım. Terlemekten gerçekten utanıyordum.
Az önce, süperstar Weah'ın oğlu Dünya Kupası'na çıktı.
LOL: Bir analist ve sonra bir koç olun! Tanınmış "Zhong Blow" muhabiri Mo Kaixi bir koça dönüştü!
KaynaklarPyTorch ile Maske R-CNN Uygulaması
Bu Hollanda futbolunun kanatları ve ben 20 yıldır süperstar bir nişancı yetiştirmedim.
Fiyat artışının kralı olduğunda, artık yeni modeller piyasada! Görünüşe göre Honda Almanlarla birlikte ölecek!
Steamin en tuhaf oyunu! Güçlü bir eklenti ile birlikte gelir, ancak zombilerle savaşırken kullanmak için yine de kodu öğrenmeniz mi gerekiyor?
To Top