İnsanlar dudak dilini okuyabilir mi? Derin öğrenmeye devredildiğinde, doğruluk% 84.41'e ulaşabilir

Dudak dilini okumak bizim için zor bir sorundur, ortalama olarak çoğu insan bir dudak dilinin sadece onda birini okuyabilir. Yani AI yapabilir mi?

2016 gibi erken bir tarihte, Oxford Üniversitesi Yapay Zeka Laboratuvarı, Google DeepMind ve Kanada İleri Araştırmalar Enstitüsü (CIFAR), derin öğrenme teknolojisiyle birleştirilmiş bir dudak okuma programı olan LipNet'i ortaklaşa geliştirdi. Daha sonra, bilgisayar dudak okuma doğruluğunu geliştirmek bu alanda önemli bir zorluk haline geldi.

Son zamanlarda, Zhejiang Teknoloji Üniversitesi, Çin Bilimler Akademisi Bilgisayar Teknolojisi Enstitüsü Akıllı Bilgi İşlem Temel Laboratuvarı ve Çin Bilimler Akademisi Üniversitesi'nden araştırma ekipleri, dudak özelliklerini ve konuşmayı geliştirmek için yerel özellik katmanı ve küresel sıra katmanına karşılıklı bilgi kısıtlamalarının getirilmesini ortaklaşa önerdiler. İçerik ile bilgisayar dudak okuma doğruluğu arasındaki ilişki% 84.41'e çıkarılmıştır.

13 Mart 2020 yerel saatle, ilgili makale Karşılıklı Etkili Dudak Okumaya Yönelik Mutual Information Maximization kağıt ön baskı web sitesi arXiv'de yayınlandı.

Sözcük düzeyinde dudak okumanın "doğasında var olan" sorunu çözün

Dudak okuma (dudak okuma / konuşma okuma), basit bir ifadeyle, konuşmacının ağız şeklindeki değişiklikleri gözlemlemek ve ifadesinin içeriğini "okumaktır". Aslında dudak okuma süreci, işitsel kanal bilgilerini desteklemek için görsel kanal bilgilerini kullanır; bu, işitmesi zayıf olan gruplar, gürültülü ortamlarda çalışanlar ve kanun uygulayıcı kurumlar için pratik uygulama önemine sahiptir.

Bilgisayarla görme bağlamında, derin öğrenmeye dayalı bir model olarak dudak okuma daha çok videolardaki ses içeriğini çıkarmak için kullanılır ve ses tabanlı ses tanıma ve biyometrik kimlik doğrulamaya yardımcı olabilir.

Makalede, araştırma ekibi "kelime düzeyinde dudak okuma" kavramından bahsetti. Aslında sözcük düzeyinde dudak okuma, dudak okumanın bir dalıdır ve aynı zamanda araştırma ekibinin araştırmasının ana odağıdır ve bazı "kendine özgü" sorunları vardır.

İlk olarak, aynı videoda başka kelimeler olsa bile, her giriş videosuna tek bir kelime etiketiyle açıklama eklenir. Örneğin, aşağıdaki şekilde, toplam 29 kare içeren bir video örneği "HAKKINDA" olarak notlandırılmıştır, ancak "HAKKINDA" kelimesinin gerçek çerçevesi yalnızca T = 1219 zamanındaki kareleri, yani kırmızı kutudaki kısmı içerir. Kırmızı kutudan önceki ve sonraki çerçevelere karşılık gelen sözcükler sırasıyla "JUST" ve "TEN" dir.

Yukarıdaki örnek, kelime düzeyinde dudak okuma ile ilgili bir sorunu yansıtmaktadır. Model, geçerli anahtar karelere tam olarak odaklanamaz, bu nedenle kelime dağarcığı sınırı bölümü doğru değildir .

ikinci, Aynı kelime etiketi altındaki video örnek görselleri sıklıkla değişir . Örneğin aşağıdaki şekildeki resimler "HAKKINDA" etiketli videoya aittir.

Yukarıdaki iki kelime düzeyinde dudak okumanın özellikleri, çeşitli konuşma ortamlarında tutarlı gizli kalıpları yakalamak için dudak okuma modelinin sekanstaki gürültüye direnmesini gerektirir.

Ek olarak, Ağız şeklindeki değişiklikleri doğru bir şekilde yakalamak kolay değil Benzer telaffuza sahip sözcükler ağız şeklinde benzerdir ve sesteş sözcüklerin tanınması da bunu daha da zorlaştırır.

Aslında, iyi bir bilgisayar dudak okuma performansı sağlamak büyük ölçüde iki noktaya bağlıdır:

  • Ağız şeklindeki değişiklikleri etkili bir şekilde yakalayıp yakalayamayacağı;

  • Duruş, ışık ve hoparlör görünümündeki değişikliklerin neden olduğu gürültüye etkili bir şekilde direnip direnemeyeceği.

Farklı seviyelerde "karşılıklı bilgi maksimizasyonu" tanıtın

Leifeng.com karşılıklı bilginin (MI) iki rastgele değişken arasındaki ilişkiyi ölçmek için kullanılan temel bir miktar olduğunu öğrendi.Rastgele bir değişken verildiğinde, her zaman başka bir rastgele değişkenin ne olduğunu hesaplamak için kullanılır. Bilgi hacmi. Buna dayanarak, iki rastgele değişkenin karşılıklı bilgileri her zaman iki değişken arasındaki karşılıklı bağımlılığı ölçmek için kullanılır.

Yukarıdaki problemleri çözmek için, araştırma ekibi temelde iki yönden yola çıkmış, farklı seviyelerde "karşılıklı bilgi maksimizasyonu" (MIM) sunmuş ve modelin aynı zamanda daha iyi ayrımcılık ve sağlamlığa sahip olmasını sağlamayı amaçlamıştır. Dudak okumanın daha etkili olmasını sağlayın.

[Lei Feng Net Notu: Temel Mimari]

bir taraftan Araştırma ekibi, her zaman adımında üretilen özellikleri sınırlandırmak için "yerel karşılıklı bilgi maksimizasyonu" (LMIM) kısıtlamaları koyar, böylece ses içeriği ile güçlü bir ilişki kurabilir, böylece modeli ince dudak değişikliklerini tespit edecek şekilde geliştirebilir. Ve benzer şekilde telaffuz edilen kelimeleri ("harcama" ve "harcama" gibi) ayırt etme yeteneği.

[Lei Feng Net Notu: LMIM Eğitimi Temel Ağı]

diğer yandan , Araştırma ekibi, modelin konuşma içeriğiyle ilgili anahtar çerçevelerin tanınmasına daha fazla dikkat etmesine ve çeşitli olası seslere daha az dikkat etmesine neden olan "küresel karşılıklı bilgi maksimizasyonu" (GMIM) kısıtlamasını getirdi.

[GMIM eğitimi temel ağı]

LRW ve LRW-1000 ile değerlendirme

Bu yöntemi doğrulamak için, araştırma ekibi, onu değerlendirmek için 2 büyük ölçekli kelime düzeyinde veri seti kullandı ve LMIM ve GMIM ve temel dahil olmak üzere diğer ana akım dudak dili tanıma modeli yöntemleriyle ayrıntılı olarak karşılaştırdı. Karşılaştırma, derin öğrenme görselleştirme vb.

Aşağıda 2 veri setinin özel bilgileri yer almaktadır:

  • LRW: 2016'da piyasaya sürülen toplam örneklem boyutu, 1.000'den fazla konuşmacıyı içeren 500 kelime seviyesi dahil 488766'dır ve konuşma ortamı büyük ölçüde değişiklik gösterir. Bu veri seti, yaygın olarak kullanılan dudak okuma metotları tarafından kullanılmaktadır ve zorlu bir veri setidir;

  • LRW-1000: Toplam örnek boyutu 70.000'dir ve toplam süre 1.000 kelime seviyesi dahil olmak üzere yaklaşık 57 saattir. Veri seti, farklı ses modlarını ve resim koşullarını kapsayacak şekilde tasarlanmıştır, böylece pratik uygulamalarda karşılaşılan zorlukları birleştirir.

Araştırma ekibi, değerlendirmeden sonra GMIM'in Doğruluğu% 84,41'e yükseltin Bu, esas olarak, farklı çerçevelerin farklı özelliklerine olan ilgisinden kaynaklanmaktadır. Görsel bilgiye ek olarak harici girdili diğer dudak okuma yöntemleriyle karşılaştırıldığında, araştırma ekibi LRW veri setinde (aşağıdaki şekilde gösterildiği gibi) şimdiye kadarki en iyi performansı elde etti.

Buna ek olarak, LMIM'in tanıtılmasıyla, modelin benzer kulağa sahip sözcükleri tanıması, Makes / yapım ve Politik / siyaset (aşağıdaki şekilde gösterildiği gibi) gibi daha yüksek doğruluk ve bariz gelişmeler gösterir.

Aynı zamanda, araştırma ekibi GMIM'in etkilerini daha fazla keşfetmek için görselleştirmeyi kullandı. Aşağıdaki şekilde gösterildiği gibi, aşağıdaki kelimeler arasındaki farkların aralığı -20'den 20'ye -40'tan 60'a genişlemiştir - bu da GMIM'in tanıtılmasıyla kelimeleri ayırt etmenin daha kolay hale geldiği anlamına gelir.

Ek veri veya ek eğitim öncesi modellerin kullanılmaması öncülüğünde, araştırma ekibinin yukarıdaki yönteminin diğer ana akım dudak okuma modellerinden gerçekten daha üstün olduğu görülebilir.Bu yöntemin diğer modeller için bir referans sağlayacağını umuyorum.

Referans malzemeleri:

https://arxiv.org/abs/2003.06439

https://www.leiphone.com/news/201611/lmrRpn2DdOUoex3E.html

Zhao Zhenjun: "CT ile Yeni Koroner Pnömoninin Erken Teşhisi ve Ayırıcı Teşhisi" nin en eksiksiz grafik yorumu (Bölüm 2)
önceki
Today's Paper | Görsel hedefler; ortak öğrenme; yüzle ilgili aldatma önleme; meta-öğrenme vb.
Sonraki
Yapay zeka bilgisi edinmek için iki dakika, okunması kolay ve anlaşılması kolay ücretsiz kısa video dizileri çevrimiçi
Turing Ödülü 2019, grafik mirasına layık görüldü
Yüksek Kanun, iyi niyet ve medeni yaptırımı güçlendirmek ve avukatların uygulamaya katılmalarını teşvik etmek için iki görüş yayınladı (tam metin ektedir)
"Gerçeği Aramak" Genel Sekreter Xi Jinping'in önemli bir makalesini yayınladı
2019'da hukukun üstünlüğü kapsamında Çin'de halkın geçim kaynağı endişeleri
Göl kırmızıya boyandı, kamu yararı davası başladı!
3 ayda 550 milyon dolar harcadıktan sonra Bloomberg emekli oluyor ve Biden'ı destekliyor
London Epidemic Diary : Johnson bekle, nişanlısı ve doğmamış çocuk seni bekliyor
Çiçek izleme turları, gezi turları, ebeveyn-çocuk turları, dağcılık turları ... Linyi Lanling İlçesindeki tüm doğal noktalar birbiri ardına açılıyor
Seattle bölgesi salgının "salgın dönemi" içindedir! Yeni koroner pnömoniden ölenlerin sayısı 9'a yükseldi
Luo Yonghao utançtan korkmaz
Yeni başlayanlar açısından uluslararası bir akademik makale nasıl yazılır?
To Top