Dudak dili yorumlama teknolojisinin ortaya çıkması nedeniyle, spor müsabakalarında bu tür görüntüleri giderek daha fazla görüyoruz:
Resim: Ayna
Veya bunun gibi bir şey:
Resim: Goal.com
Aslında, profesyonel bir dudak dili tercümanı bile yalnızca% 20-% 60'lık bir doğruluk oranına sahiptir. Bu nedenle, birçok durumda, çok az bilgiye sahip "uzmanlar", yorumlamaya zorlamak için temelde beyinlerine güvenirler. Uzmanlar tarafından defalarca aldatıldıktan sonra, oyuncular iletişim kurmak için bu utanç verici yolu benimsemek zorunda kaldı ...
Ancak Oxford Üniversitesi tarafından geliştirilen en son yapay zeka sisteminin, dudak dili yorumlamasının doğruluğunu büyük ölçüde artırması bekleniyor.
Şuradan resim: video ekran görüntüsü
Oxford Üniversitesi tarafından yayınlanan yeni bir makaleye göre LipNet adlı bu yapay zeka sistemi, videodaki karakterlerin ağız hareketlerini çizgileriyle% 93,4 doğruluk oranıyla eşleştirebiliyor. Bundan önce, en gelişmiş kelimesi kelimesine karşılaştırma sistemi bile yalnızca% 79,6'lık bir doğruluk oranına sahipti.
Araştırmacılar, yapay zekayı görsel bir fonem (konuşmadaki en küçük çözülemeyen birim) sistemiyle her dudak etkinliğini tanıması için eğitmek yerine, tüm cümleyi aynı anda işlemesine izin verdiklerini söylediler. . Bu, AI'nın harfler ve dudaklardaki ince değişiklikler arasındaki yazışmayı öğrenmesini sağlar.
Eğitim süreci boyunca araştırmacılar, yapay zekaya her biri 3 saniye uzunluğunda doğru metinle yaklaşık 29.000 video gösterdi. Ekip, aynı görev karşısında insan dudak dili tercümanlarının performansını anlamak için üç deneyciyi de işe aldı ve onlardan rastgele 300 video izlemelerini istedi.
Sonuçlar, deneydeki katılımcıların ortalama hata oranının% 47,7 olduğunu, AI'nın yalnızca% 6,6 olduğunu gösterdi.
Ancak bu, AI'nın dudakları doğru bir şekilde okuyabileceği anlamına gelmez. Çünkü eğitim sırasında araştırmacılar tarafından kullanılan videolar özenle planlanmıştır.Video ekranı iyi aydınlatılmış, herkes kameraya dönük, kelimeler net ve telaffuzu standarttır Çizgiler "m1'e hemen maviyi koy" şeklindedir. Komutlar, renkler, edatlar, harfler, sayılar ve diğer biçimleri içeren bir cümle.
AI'dan YouTube'da rastgele seçilen videoları yorumlaması istenirse, etki insanlardan çok daha iyi olmayabilir.
Bu projenin Alphabet'in DeepMind Lab'ından fon aldığını belirtmekte fayda var.
OpenAI'den Jack Clark, LipNet'in aşağıdaki üç alanda, yani gerçek ortamdaki insanların çok sayıda konuşma videosu aracılığıyla, yapay zekanın dudakları birden çok açıdan okuyabilmesi ve cümle türlerini artırabilmesi için hala iyileştirilmesi gerektiğine inanıyor.
Elbette böyle bir yapay zekanın geliştirilmesi, hayranları ve medyayı tatmin eden dedikodu ruhunu anlamak değil, işitme engelli nüfus bu aracın hedefidir.
Dudak yorumlama yapay zekası mükemmelleştirilebilirse, milyonlarca işitme engelli insanın diğer insanların konuşmalarını "anlamasına" yardımcı olacaktır. Ayrıca videoları dinleyerek hızlı bir şekilde doğru altyazılar oluşturmak da olası uygulama alanlarından biridir.
Resim: Taringa