CVPR 2019 Bildiri Yorumu: Ulusal Halk Kongresi ML Araştırma Grubu yeni bir video yalan makinesi algoritması önerdi | CVPR 2019

Leifeng.com AI Teknolojisi İnceleme Basın : Bilgisayarla görme konferansı CVPR 2019, Haziran ayında ABD'de Long Beach'te yapılacak.Bu yıl konferans 5.165'ten fazla bildiri başvurusu aldı ve finalde 1.299 bildiri yer aldı. Konferans yaklaşırken, hem akademi hem de endüstri, CVPR 2019 seçilmiş kağıt yorumlama patlaması dalgasını başlattı.

Bu yılki CVPR 2019'da, Dr. Zhiwu Lu liderliğindeki Çin Renmin Üniversitesi Bilgi Okulu'nun Makine Öğrenimi (ML) grubundan toplam 3 makale kabul edildi. Bu makalelerin konuları, video tanıma, küçük örnek öğrenme ve görsel diyalog gibi sıcak konuları kapsıyor. Bu makalede yorumlanacak makaleler Video tanıma ile ilgili makalelerden biridir: "Videolarda Aldatma Tespiti için Yüz Odaklı Çapraz Akış Ağı".

Makale, eğitim için yalnızca az miktarda video verisi gerektiren ve eğitimden sonra kısa videolar üzerinde test eden yeni bir video yalan makinesi algoritması önermektedir. Deneysel sonuçlar, yalan makinesi algoritmasının doğruluk oranının% 90 kadar yüksek olduğunu ve ses ve word2vec bilgileri birleştirildikten sonra doğruluk oranının% 95'ten daha fazla artırılabileceğini göstermektedir.

1. Giriş

Video poligrafı, videodaki kişinin yalan söylediğini tespit etmek içindir. Şu anda, video yalan makinesi algılama problemi hala iki büyük zorluk ile karşı karşıyadır: (1) Videodaki kişinin yalan söyleyip söylemediğini belirlemek için yüz ve hareket bilgilerini etkili bir şekilde entegre etme; (2) Gerçek video veri setinin ölçeği küçüktür, derin öğrenmenin nasıl uygulanacağı Sınırlı miktarda eğitim verisinde. Bu iki sorunu çözmek için, bu makale yüz odaklı bir çapraz akışlı ağ (FFCSN) modeli önermektedir (Şekil 1).

2. Model yöntemi

Şekil 1: Video yalan makinesi derin öğrenme modeli FFCSN

Video optik akışının dinamik özelliklerini yakalamak için video karelerinin ve zaman akışlarının genel statik uzamsal özelliklerini yakalamak için uzamsal akışları kullanan ortak iki akışlı ağ modelinden farklı olarak, FFCSN modeli, yüzleri yakalamak için uzamsal akışlarda yüz algılama kullanımını dikkate alır. Özellikler ve ortak eğitim için mekansal-zamansal özellikleri birleştirmek için tüm ağdaki ilgili öğrenmeyi kullanın.

Aynı zamanda, tezin yazarı psikolojik bilgi ile birleştirildi (yani yalancının yüz ifadesi ve vücut duruşu genellikle gerginlik nedeniyle tutarsızdır) ve ikili akış yöntemindeki görüntü özelliği ile optik akış özelliğinin kare kare birbirine karşılık geldiğini ve video poligrafı için en uygun çözüm olmadığını buldu. . Bu nedenle yazar, bir çapraz akış ağı (çapraz akış ağı) önermiştir - bu ağ, yüz ifadeleri ve vücut duruşu arasındaki tutarsız ilişkiyi yakalayabilir. Bu ağı kullanarak, videodaki her yüz ifadesi çerçevesi belirli bir aralıkta beş optik akış çerçevesi ile eşleştirilir ve model bu beş çerçeve arasındaki ağırlık ilişkisini otomatik olarak öğrenir. Ek olarak, makalenin yazarı, ResNet zaman akışının bloğunu 3 global bir havuzlama katmanı kullanarak bir vektöre dönüştürdü, böylece model, iki set tamamen bağlı ve bir softmax katmanından sonra beş eylem çerçevesi arasındaki ağırlık ilişkisini öğrenebilir. Bu modülü öğrenerek, model farklı eylem çerçevelerine farklı ağırlıklar atama becerisine sahiptir.

Çapraz çerçeve eşleştirme modelinin spesifik ağ yapısı aşağıdaki gibidir:

Şekil 2: Çapraz akış ağı

Spesifik olarak, bu yöntem her videoyu K segmentlerine ayırır

, Her segment için rastgele bir ifade çerçevesi örnekleyin

Ve beş aksiyon çerçevesi

(Şekil 1'deki turuncu kutuya bakın). Bu şekilde her segment için aşağıdaki veriler elde edilebilir:

onların arasında

Bu beş eylem çerçevesi arasındaki ağırlığı temsil eder,

Toplamı 1'dir. Yapmak

Temsili model çifti

Sınıflandırma olasılığı ve

Bir videonun tüm segmentlerinin ortalama sınıflandırma olasılığını temsil eder, ardından kayıp işlevi aşağıdaki gibi tanımlanır:

Ek olarak, FFCSN modeli aynı zamanda küçük eğitim verisi sorununu çözmek için meta öğrenmeyi ve çatışmalı öğrenmeyi de sunar. Meta öğrenme, veriler arasındaki ilişkiyi öğrenerek modelin genelleme yeteneğini geliştirmek için ilişki fikrini kullanırken, rakip öğrenme, veri miktarını genişletme amacına ulaşmak için eğitim sırasında model sınıflandırıcıya saldırmak için oluşturulan "yanlış" özellik vektörünü kullanır.

Şekil 3: İlişki yapısının şeması

Meta öğrenme modülünün ağ yapısı Şekil 3'te gösterilmektedir. Modelin her bir mini partiden iki çift altılı demet seçtiğini görmek kolaydır.Her altılı demet çiftinde, iki numune aynı kategoriden ve diğer dört numune farklı kategorilerdendir. Çapa ile aynı kategorideki iki örnekten birini alın ve diğer beş çiftle beş çift veri oluşturmasına izin verin, böylece ortaya çıkan yapı aynı kategoride bir çift örnek ve farklı kategorilere sahip dört çift örnek ve ardından eğitimden sonra , Ve sonra evrişimden sonra beş çift veriyi ve tamamen bağlantılı katmanları sınıflandırın, böylece model aynı kategoriden bir çift seçebilir. Bu metrik öğrenme fikrinin küçük veri kümelerinde bariz kazanımları olduğu ortaya çıktı.

Rakip öğrenme modülü Şekil 1'deki mor kutuda gösterilmektedir. Burada, G (Oluşturucu) sanal bir özellik vektörü oluşturmak için kullanılır ve daha sonra modelin sağlamlığını artırmak için ayrımcılık için D (Ayırıcı) kullanılır ve böylelikle küçük örneklemlerin problemi çözülür. Kayıp işlevi, aşağıdaki formülde gösterildiği gibi GAN'a benzer:

Model yukarıda açıklanan üç alt modülden oluştuğu için toplam kayıp fonksiyonu bu üç bölümün toplamıdır. Tezin yazarı bu üç bölümü birlikte eğiterek iyi deneysel sonuçlar elde eder.

3. Deneysel sonuçlar

FFCSN modeli şu anda halka açık gerçek mahkeme duruşması video veri setinde en iyi sonuçları elde etti ve bu da modelin videolu yalan makinesinin tespitinde çok etkili olduğunu kanıtladı Deneysel sonuçlar ayrıca yalancıların ifadelerde ve eylemlerde tutarsızlıklara eğilimli olduğunu gösteriyor. Şekil 4'te gösterildiği gibi, yalancı yüz ifadesi ikinci çerçevenin optik akışıyla eşleştiğinde önemli bir düşüşe sahiptir Bu dalgalanma modelin yalanları yargılaması için bir temel sağlar.

Şekil 4 Yalancının uyumsuz ifadeleri ve eylemleri

Modelin farklı modüllerinin etkili olduğunu doğrulamak için, makalenin yazarı çok sayıda ablasyon deneyi gerçekleştirdi. Tablo 1'den görülebileceği gibi, sadece yüz kullanma veya sadece hareket kullanma ile karşılaştırıldığında, hem yüz hem de hareket bilgisini aynı anda kullanan model daha büyük bir gelişme kaydetmiştir. Çapraz akış eşleştirme (CL) eklendikten sonra, modelin doğruluğu daha da iyileştirildi. Ek olarak, çok az miktarda veri sorununun üstesinden gelmek için, yazar modele, modelin sağlamlığını geliştirmeye çok yardımcı olan meta-öğrenme (ML) ve rakip öğrenme (AL) modülleri ekledi.

Tablo 1: Modelin farklı modüllerinin etkileri

Modelin ölçeklenebilirliğini doğrulamak için yazar ayrıca yüz ifadesi tanıma veri seti üzerinde deneyler yaptı ve şu anda youtube-8 veri setinde en yüksek doğruluğu elde etti. Youtube-8 veri kümesi, 8 ifadeye bölünmüş 1101 video içerir. Tablo 2'deki deneysel sonuçlardan, yazarın yalnızca görsel monomodalite kullanmasına rağmen, doğruluk oranının daha fazla modalite (ses ve nitelik) kullanan diğer yöntemlere göre% 5 daha yüksek olduğu görülmektedir.

Tablo 2: Mikro ifade tanıma sonuçları

4. Takım tanıtımı

Çin Renmin Üniversitesi Bilgi Okulu'nun Makine Öğrenimi (ML) grubu, Dr. Zhiwu Lu ile 20 doktora ve yüksek lisans öğrencisinden oluşur ve Profesör Wen Jirong'un büyük veri analizi ekibine aittir. Şu anda, Ulusal Halk Kongresi ML grubu TPAMI, IJCV, NIPS, CVPR gibi önde gelen uluslararası dergilerde / konferanslarda 40'tan fazla makale yayınladı, NSFC, KJW, vb. Gibi bir dizi ulusal bilimsel araştırma projesine başkanlık etti ve ayrıca Uluslararası Yapay Zeka ImageNet 2015 Videosu Yetkili Değerlendirmesi ödülüne layık görüldü. Algılama görevlerinde ikinci.

Referanslar:

M. Ding, A. Zhao, Z. Lu, T. Xiang ve J.-R. Wen, Videolarda Aldatma Tespiti için Yüz Odaklı Çapraz Akış Ağı, CVPR 2019

Kağıt indirme URL'si: https://arxiv.org/abs/1812.04429

Leifeng.com AI Technology Review ile ilgili bilgileri sağladığı için Dr. Zhiwu Lu'ya özel teşekkürler.

Son olarak, Leifeng.com AI Araştırma Enstitüsü'nün CVPR grubuna (https://ai.yanxishe.com/page/meeting/44) herkesle daha fazla ilgili konuyu tartışmak için katılabilir.

Feng Xiaogang, film endüstrisinin Lanxiang Teknik Okulu'na yalvardı: film ekibinin hepsi göçmen işçiler!
önceki
Yeni marka ve yeni model test sürüşü Yundu 1 Intercity Edition
Sonraki
Shawn Yue şahsen gösteri yaptı! O MADNESS yıldız tek ürün N-3B ceket yakında satışta olacak!
Zhang Ziyi kasabada oturuyor ve yeri Zhang Guoli elinde tutuyor. Neden "Bir Aktörün Doğuşu" çılgınca şikayet ediliyor?
Oyun ihtiyaçlarınızı karşılayın, yeni Ford Wingbo 2.0L ile test sürüşü yapın
Kendall Jenner'dan Clippers evde "erkek arkadaşı" Griffin'i destekliyor! Bu arada, 70.000 yuan ayakkabı sergilendi!
Chery Tiggo 5X resmi olarak piyasaya sürüldü, bu yıl Ekim ayında piyasaya çıkması bekleniyor
Wang Kai, Ma Tianyu, Wang Dalu "Kahramanların Gerçek Renkleri" ni yeniden yazdırıyor mu? Netizen: Küçük annemi mahvetme!
Ünlüler ve haber sunucularının getirdiği trafik ne kadar? Inke 20 milyona bir reklam satıyor
Küçük kalbin iyi mi? Dünyadaki tek Air Force 1 ve görünmeyen Air Jordan 4 bir arada görünüyor!
Changan CS15 EV, Kasım ayında Guangzhou Otomobil Fuarı'nda resmen tanıtılabilir
Yönetmen olarak Jet Li? Bu film 1988'de 15 milyon gişe kazandı, bu kariyerinin "başarısızlığı" dır!
Patta Asya Pop-Up turu Çin'e geri dönüyor! Yerel markalarla ortaklaşa sınırlı özel bir seri başlatın!
Yedi Boyutlu Teknoloji, taşınabilir bir profesyonel panoramik kamera çıkardı, VR videosunu yeniden tanımlayabilir mi?
To Top