Çok Boyutlu Diyalog-Görsel-İşitsel Entegrasyona Yönelik Yeni Sesli Etkileşim Deneyimi Üzerine Araştırma

4 ve 5 Temmuz'da Pekin'de ikinci Baidu Yapay Zeka Geliştirici Konferansı düzenlendi Baidu Yapay Zeka Etkileşim Tasarımı Enstitüsü, ilk yapay zeka tasarım alt forumunda "Yapay Zeka Çağında İnsan Faktörleri" başlıklı açılış konuşmasını paylaştı. : AI çağında yepyeni tasarımlar çevremizdeki araçları, üretkenliği, yaşamı ve hatta psikolojiyi yeniden inşa edecek. Yapay zeka çağında insan faktörleri mühendisliği, insan yeteneklerinin, davranışlarının ve sınırlamalarının özellikleri ve ayrıca insan toplumu, kültürü ve psikolojisi ile ilgilidir. Gerçekten insan merkezli bir sistem mühendisliğidir. Ayrıca beyin elektriği, miyoelektrik ve göz hareketi gibi fizyolojik ölçüm yöntemlerini insan faktörleri mühendislik araştırmalarına ve yenilikçi ve yinelenen araştırma yöntemlerine dahil ettiler ve Baidu'nun yapay zeka ürünlerinin "yeniden düzenleme" yapmasına yardımcı olmaya devam ettiler. Baidu Geliştirici Konferansı kısa süre önce sona erdi ve Baidu AI Etkileşim Tasarımı Enstitüsü, yapay zeka etkileşim tasarımı alanındaki sağlam araştırmalarını daha da gösteren en son araştırma raporu olan "Çok Boyutlu Diyalog - Görsel-İşitsel Entegrasyona Yönelik Yeni Bir Sesli Etkileşim Deneyimi" ni hemen başlattı. Profesyonel güç.

Son kırk yılda, insanlar ve makineler arasındaki etkileşim, neredeyse her on yılda bir gerçekleşen büyük yeniliklerle gelişmeye devam etti. Yapay zeka çağında, hayattaki gittikçe daha fazla cihaz sesli etkileşimi desteklemeye başlıyor ve ses etkileşimi, insanların niyetlerini iletmeleri ve cihazlarla iletişim kurmaları için giderek ilk tercih haline geldi (Önce Ses). Geleneksel etkileşimle karşılaştırıldığında, ses etkileşimi hem elleri hem de gözleri özgürleştirir ve insanlar cihazlarla düşük maliyetle etkileşim kurabilir; dahası ses çok boyutludur.Dil, kendi bilgisine ek olarak, insanların cihazla daha tam etkileşime girmesine olanak tanıyan zengin duygular da içerir. etkileşim.

Sesli etkileşim de sınırlamalara sahiptir. Ses etkileşimi görsel değildir, bu da insanların hafıza yükünü kolayca artırabilir.Sesli sorgu bilgilerinin kullanıldığı bir senaryo hayal ederseniz, dinlemeye konsantre olmanız gerekebilir. Dikkat etmezseniz, bazı içerikleri kolayca gözden kaçırabilirsiniz. Bunun ışığında, yapay zeka uzmanı Wu Enda'nın da bahsettiği gibi, insanlar için makinelerle iletişim kurmanın en etkili yolu dildir ve makinelerin insanlarla iletişim kurmasının en etkili yolu dil artı vizyondur, bu da görsel bilginin sesli etkileşimi telafi etmek için işitme temelinde birleştirilmesi gerektiği anlamına gelir. Yetersizlikten. Sesten vizyona uzanan ve görsel bilgileri sesli etkileşime entegre etmek, yeni nesil sesli etkileşim paradigmasını keşfetmek için sektörde önemli bir eğilim haline geldi. Örnek olarak akıllı hoparlörleri ele alalım Ekransız hoparlörlerin yanı sıra ekranlı hoparlörler de piyasada görünmeye başladı.

Baidu Yapay Zeka Etkileşim Tasarım Enstitüsü'nün bu sayısı, sesli etkileşimli geri bildirim ve içerik çıktı bağlantılarının deneyimine odaklanarak, araştırma nesnesi olarak ekranlı akıllı cihazları alıyor. Ekran boyutu farklılıklarının geri bildirim ve içerik çıktı deneyimi üzerindeki olası etkisini göz önünde bulundurarak çalışma, farklı ekran boyutlarına sahip iki cihaz, yani akıllı hoparlörler (7 inç) ve akıllı TV'ler (55 inç) seçti. Bu konudaki ana araştırma soruları şunları içerir:

1) Ekranlı cihazlarda komutların ekran üstü geri bildirim deneyimi, temelde, kullanıcı bir sesli komut girdikten sonra metin komutlarının ekranda görüntülenmesi için gecikme süresi ve metin komutlarının ekranda görünmesi için makul bir süre anlamına gelir;

2) Ekran cihazının içerik çıktısının ses paraziti deneyimi, esas olarak, kullanıcı belirli bir senaryoya (müzik dinlemek / video izlemek gibi) başka görevler (ansiklopediyi sorgulama gibi) eklediğinde makul ses ayarını ifade eder.

1. Taranan cihazların talimat ekranı deneyimi üzerine araştırma

Ekransız cihazlarla karşılaştırıldığında, görüntü ekranının entegrasyonu, sesli etkileşim sürecinin daha zengin geri bildirim formlarına sahip olmasını sağlar. Konuşma tanıma aşamasını örnek olarak alırsak, ekransız bir cihazda, kullanıcı genellikle giriş komutunun tanıma sonucunu doğrudan bilemez. Öte yandan ekranlı cihazlar, talimatların tanınma sonuçlarını direkt olarak ekranda görüntülemekte ve kullanıcılar ekran açıldıktan sonra "Jay Chou'nun mavi beyaz porselenini dinlemek istiyorum" talimatı gibi tanıma sonuçlarının doğruluğunu veya hatasını kolaylıkla kontrol edebilmektedir. Ancak, birçok cihaz şu anda ekranda talimatlar görüntülendiğinde belirli bir gecikmeye sahiptir.Bu deney, makul gecikme süresini ve ekrandaki talimatların sunum süresini inceleyecektir.

1. Ekranda gecikme süresi deneyi talimatı

Piyasadaki ekranlı cihazların birçoğu gerçek zamanlı ekran yukarı modunu benimsediğinden, yani kullanıcı bir sesli komut girdiğinde kullanıcı tanıma sonuçlarını ekranda sunmaya başlar, bu nedenle bu deney sadece gerçek zamanlı ekran yukarı çalışmaktadır. Deneyde, gerçek zamanlı kelime kelime ekran kullanıyoruz ve ana değişken olarak ilk kelime ekran gecikme süresini kontrol ediyoruz (Not: ilk kelime ekranı gecikme süresi, kullanıcının ilk kelime ekranına konuşmaya başladığı andan itibaren geçen zaman aralığını ifade eder) , Ekran hızıyla ilgili talimatın kullanıcının memnuniyet değerlendirmesini elde etmek için farklı ilk kelime gecikme süresi belirledik (5 puanlık ölçek: 1-çok memnun değilim, 2-memnun değil, 3-adil, 4-çok memnunum , 5- Çok memnunum). Deneyde, farklı uzunluklarda üç talimat verdik.

Deneysel sonuçlar, ilk kelime gecikme süresi ne kadar kısa olursa kullanıcı memnuniyetinin o kadar yüksek olduğunu göstermektedir. Farklı ekran boyutlarına sahip cihazların ilk kelime gecikme süresi memnuniyeti biraz farklıdır. "4-göreceli olarak memnun" u kullanıcı memnuniyetinin alt sınırı olarak kabul ediyoruz. "3-Genel", kullanıcının kabul edilebilir puanının alt sınırı olarak kabul edilir. Farklı cihazlar arasında tatmin edici ve kabul edilebilir ekran süresi aşağıdaki gibidir:

1) Ekranı olan konuşmacılar için, kullanıcıların memnun olduğu ilk kelime gecikme süresinin alt sınırı yaklaşık 500 ms'dir ve kabul edilebilir ilk kelime gecikme süresinin alt sınırı yaklaşık 1500-1600 ms'dir;

2) Akıllı TV'ler için, kullanıcıların memnun kaldığı ilk kelime gecikme süresinin alt sınırı yaklaşık 600-700 ms'dir ve kabul edilebilir ilk sözcük gecikme süresinin alt sınırı yaklaşık 1100-1200ms'dir;

Piyasadaki diğer cihazlarla ilgili araştırmalarla birleştirildiğinde, bazı cihazların ilk ekran süresinin alt kullanıcı memnuniyeti sınırından önemli ölçüde daha uzun olduğu ve bazılarının da kabul edilebilir alt sınırdan daha uzun olduğu bulundu. Komut ekranı hızı ile ilgili olarak, üründe hala iyileştirme ve optimizasyon için yer vardır.Yani, konuşma tanımanın otomatik konuşma tanıma (ASR) teknolojisi yalnızca tanıma doğruluğunu iyileştirmekle kalmaz, aynı zamanda tanıma hızı indeksinin iyileştirilmesine de dikkat etmesi gerekir.

2. Ekranda sunum zamanı deneyi talimatı

Talimatın gösterim süresine ek olarak, talimat sunum süresinin çok kısa olmasını ve kullanıcının net görememesini önlemek için talimat ekranda görüntülendikten sonra makul sunum süresini veya sunum süresi çok uzun ve tüm etkileşim süreci uzamış ve gereksizdir. Deneyde, farklı sunum süreleri için kullanıcı memnuniyeti derecelendirmelerini elde etmek için ana değişken olarak metin sunum süresini kullanıyoruz (not: metin sunum süresi, bir metin talimatının son kelimesinin ekranda olduğu andan tüm talimatların kaybolduğu zaman aralığını ifade eder). Konuşma tanıma, dil modeli teknolojisini içerdiğinden, ekrandaki asıl talimat kelime kelime değildir. Bu nedenle, deneyin bu bölümünde, "2010'dan önce Andy Lau'nun oynadığı Hong Kong filmlerini izlemek istiyorum" talimatı vermek için ekran ekran yöntemini de simüle ediyoruz. "Örneğin," Andy Lau "bir bütün olarak tanınana kadar görüntülenmedi. Deneyde ayrıca farklı uzunluklarda üç talimat verdik.

Deneysel sonuçlar, ekranda optimal bir metin sunum süresinin olduğunu ve farklı ekran boyutlarına sahip cihazlar arasında optimal ekran üstü metin sunum süresinde önemli bir fark olmadığını göstermektedir. Farklı tarama yöntemleri arasında farklılıklar vardır. Ekran kelime ekran ve ekran blok ekran için en uygun sunum süresi aşağıdaki gibidir:

1) Birebir ekran modunda, en uygun komut sunum süresi 200-500 ms arasındadır;

2) Blok-blok ekran modunda, en uygun komut sunum süresi 400-700 ms arasındadır.

Blok-blok ekran yükleme yöntemi, gerçek ürünün ekran yükleme moduna daha yakın olduğu için, esas olarak 400-700 ms'lik sunum süresine başvurulması önerilir. Ekranda gerçek zamanlı yöntem, kullanıcıların sesli komutları girme işlemi sırasında ekranda bulunan metni görüntülemesine izin verdiğinden, bunun genel tanımadan sonra ekrana geçiş yönteminden açıkça farklı olduğu unutulmamalıdır. Bu nedenle, ürün genel tanımayı kullanıyorsa Yükleme yöntemi için deneyin bu bölümünün sonucuna başvurulması tavsiye edilmez.

2. Taranan cihazların hacimsel girişim deneyimi üzerine araştırma

Ekranlı cihazlar, sesli etkileşim için daha zengin geri bildirim sağlamanın yanı sıra, video içeriği tüketimi ve video iletişim yetenekleri gibi cihazların geçmişte sahip olmadığı işlevleri de genişletiyor. Aynı zamanda, ekipman kullanımı geçmişte tek bir görevden birden fazla göreve doğru değişiyor. Bir videoyu izlerken, "Fuyao" dizisini izlerken aktör Yang Mi'nin bilgilerini sorgulamak gibi bilgileri istediğiniz zaman bulmak için görevler ekleyebilirsiniz. Deneyin bu kısmı, temel olarak, kullanıcı görevi ekledikten sonra ön plan içeriği ile arka plan içeriği arasındaki ses seviyesi paraziti deneyimini inceler.Örneğin, mevcut sahne içeriği bilgi yayınlarken, kullanıcıya aşırı arka plan sesini önlemek için arka plan videosunun veya müziğin makul ses seviyesi aralığı. Bilgi karışıyor.

1. Hacim girişim deneyi

Deneyde, kullanıcılardan iki senaryoda bilgi sorgulamaları istendi: video izleme ve müzik dinleme. İki başlangıç ses düzeyi belirledik (not: ilk ses, kullanıcının video izleyen / müzik dinleyen ses düzeyidir): 60 ve 65 desibel, kullanıcı karakter veya ansiklopedi bilgilerini sorguladıktan sonra, farklı arka plan ses düzeyini ayarlayarak (not: ön plandaki içerik artık Ses yayını bilgisi, arka plan içeriği video veya müziktir), arka plan ses düzeyinin kullanıcı memnuniyeti değerlendirmesini elde etmek için. Aynı zamanda, kullanıcının ön plan ve arka plan bilgilerinin görüntülenmesine yönelik tutumunu anlamak için deney sonrası anketle birlikte. Farklı cihazlar arasındaki hacim ölçeği aralığındaki farklılık nedeniyle, deneyde ekran hoparlörünün ve akıllı TV'nin arka plan ses seviyesi ayrı ayrı ayarlandı.

Deneyin sonuçları, kullanıcıların arka planın video veya müzik olmasına bakılmaksızın arka planın tamamen kapatılmasını sevmediklerini buldu (Not: Aşağıdaki şekilde "0", arka planın tamamen sessiz olduğu anlamına gelir). Ekran hoparlörleri ve akıllı TV'ler için, başlangıç ses seviyesi yaklaşık 60 desibel olduğunda, arka plan ses düzeyi konfor aralığı biraz farklıdır. Spesifik sonuçlar aşağıdaki gibidir:

1) Ekranlı hoparlörler için, arka plan video ses seviyesi 36-53 desibel aralığına düşer ve arka plan müziği seviyesi 39-56 desibel aralığına düşer, kullanıcı öznel olarak daha rahat hisseder;

2) Akıllı TV'ler için arka plan video ses seviyesi 39-53 desibel aralığına düştüğünde ve arka plan müziği ses seviyesi 36-53 desibel aralığına düştüğünde, kullanıcı öznel olarak daha rahat hissediyor.

Deneyde, ilk hacim 65 desibel olduğunda arka plan hacminin rahat aralığını da inceledik.Deneysel sonuçlar temelde yukarıdaki eğilimlerle tutarlı olduğundan, alan sınırlıdır, bu yüzden onları birer birer genişletmeyeceğiz.

Ek olarak, deneyden sonra anket anketinin sonuçlarıyla birleştirildiğinde, arka planın oynatma durumuna ilişkin olarak, kullanıcıların arka plan müzik olduğunda oynamaya devam etme eğiliminde oldukları ve arka plan video olduğunda daha fazla kullanıcının videoyu duraklatma eğiliminde olduğu bulunmuştur. Bunun ana nedeni, ekranlı hoparlörün arka plan videosunun tamamen kaplanmış olmasıdır.Bu nedenle kullanıcılar, ilgilendikleri video içeriğini kaçırmamak için arka plan videosunu duraklatmanın daha iyi olacağını düşünüyor.

Ön plandaki içeriğin oynatma durumu ile ilgili olarak, ekran boyutu farklılıklarından ve arka plan ortam türlerinden bağımsız olarak, çoğu kullanıcı, ön plan bilgilerini ekranda yalnızca metin veya grafik biçiminde görüntülemek yerine sesli olarak yayınlayabilmek ister.

Üç, özet

Bu makale, görsel sistemi entegre ettikten sonra etkileşimli geri bildirim ve içerik çıktısı deneyimine odaklanarak, ekran cihazlarının sesli etkileşimli deneyimi üzerine araştırmalara odaklanmaktadır. Araştırma sonuçlarımız ve tasarım önerilerimiz, ekrandaki talimatın gecikme süresi ve talimat sunum süresinin yanı sıra, farklı içerik çıktığında ön plan ve arka planın makul ses ayarları için verilmektedir.

Sesin genişlemesinden vizyona kadar, ses etkileşiminin sınırı ve uzantısı değişmeye devam edecek. Ses etkileşimi ve geleneksel etkileşim yöntemleri birbirini dışlamaz ve bir ya da bir ilişki değildir.Gelecekte, insan-bilgisayar etkileşimi işitme, görme, dokunma, tat ve koku gibi çok modlu etkileşim yöntemlerini içerecektir. Gelecekteki etkileşim paradigması kesinlikle bu etkileşim yöntemlerinin basit bir istiflenmesi ve sıralanması değil, belirli senaryolar, insan faktörleri, çevresel koşullar ve diğer faktörler dikkate alındıktan sonra düzenli ve makul bir kombinasyon ve tasarımdır. Baidu Yapay Zeka Etkileşim Tasarımı Enstitüsü, multimodal etkileşim alanındaki araştırma ve tasarıma da dikkat etmeye ve araştırma sonuçlarımızı ve görüşlerimizi çıkarmaya devam edecek.

Gelecekte, sesli etkileşim, birlikte keşfedecek ve ilerleyeceğiz.

Redmi ayrıca orta uç amiral gemisi pazarında konumlanacak ve Xiaomi'nin alanı gittikçe küçülecek!
önceki
Audi'nin yeni S5 üstü açık versiyonu piyasaya sürüldü
Sonraki
Ya kara delikler? İnanıyor musun
Bir depozito 8 çeşit ortak bisiklete binebilir mi? Bu uygulama gerçekten harika
Yıllardır sessiz kalan "Reaper Is Coming" dizisi geri mi dönecek? "Zincir Testere" nin senaristi senaryo üzerinde çalışmaya başladı
2018'in son modelini düzenli olarak ısıtan "Porselen" Xiaomi, performansı ve kamerayı öne çıkarıyor!
Jeep Wrangler Sahara Winter'ın son JK modeli
30. Palm Springs Uluslararası Film Festivali'nin Jüri Ödülü açıklandı, "Hırsız Ailesi" en iyi yabancı film ödülünü kazandı
Toyota'nın yeni nesil Camry'sinin yıl içinde tanıtılması bekleniyor
TC x Dunk SB High yakında satışa sunulacak! What The!
Bir zamanlar Otter kardeşler, şimdi anılar
Di Nike akıllı evi Linyi Global Golden Water Körfezi'ne yerleşti
"Pocahontas" ülke çapında 100 ileri düzey gösterim büyük beğeni topladı, on binlerce aile filmi izlemek için sinemada toplandı
Subaru'nun yeni WRX / WRX STI yayınlandı ve yurtdışında listelenecek
To Top