Academia | CVPR 2019 Makale Yorumlama: Ulusal Halk Kongresi ML Araştırma Grubu yeni bir video yalan makinesi algoritması önerdi

AI Technology Review Press : Computer Vision Summit CVPR 2019, Haziran ayında ABD'de Long Beach'te yapılacak.Bu yıl konferans 5165'in üzerinde bildiri başvurusu aldı ve dahil edilen son bildiri sayısı 1.299'du. Konferans yaklaşırken, hem akademi hem de endüstri bir CVPR 2019 seçilmiş kağıt yorumlama patlaması dalgasını başlattı.

Bu yılki CVPR 2019'da, Çin Renmin Üniversitesi Bilgi Okulu'nun Makine Öğrenimi (ML) grubunda Dr. Zhiwu Lu liderliğindeki toplam 3 makale kabul edildi. Bu makalelerin konuları, video tanıma, küçük örnek öğrenme ve görsel diyalog gibi sıcak konuları kapsıyor. Bu makalede yorumlanacak makaleler Video tanıma üzerine bir makale: "Videolarda Aldatma Tespiti için Yüz Odaklı Çapraz Akış Ağı".

Bu makale, eğitim için yalnızca az miktarda video verisi gerektiren yeni bir video yalan makinesi algoritması ve eğitimden sonra kısa videolar üzerinde testler önermektedir. Deneysel sonuçlar, yalan makinesi algoritmasının doğruluk oranının% 90'ın üzerinde olduğunu ve doğruluk oranının ses ve word2vec bilgilerini birleştirdikten sonra% 95'in üzerinde daha da geliştirilebileceğini göstermektedir.

1. Giriş

Video poligrafı, videodaki kişinin yalan söylediğini tespit etmek içindir. Şu anda, video yalan makinesi algılama problemi hala iki büyük zorlukla karşı karşıyadır: (1) Videodaki kişi nesnesinin yalan söyleyip söylemediğini belirlemek için yüz ve hareket bilgilerini etkili bir şekilde entegre etme; (2) Gerçek video veri seti küçüktür, derin öğrenmenin nasıl uygulanacağı Sınırlı miktarda eğitim verisinde. Bu iki sorunu çözmek için, bu makale yüz odaklı bir çapraz akışlı ağ (FFCSN) modeli önermektedir (Şekil 1).

2. Model yöntemi

Şekil 1: Video yalan makinesi derin öğrenme modeli FFCSN

Video optik akışının dinamik özelliklerini yakalamak için video karelerinin ve zaman akışlarının genel statik uzamsal özelliklerini yakalamak için uzamsal akışları kullanan ortak iki akışlı ağ modelinden farklı olarak, FFCSN modeli, yüzleri yakalamak için uzamsal akışlarda yüz algılama kullanımını dikkate alır. Özellikler ve ortak eğitim için mekansal-zamansal özellikleri birleştirmek için tüm ağdaki ilgili öğrenmeyi kullanın.

Aynı zamanda, tezin yazarı psikolojik bilgi ile birleştirildi (yani yalancının yüz ifadesi ve vücut duruşu genellikle gerginlik nedeniyle tutarsızdır) ve ikili akış yöntemindeki görüntü özelliği ile optik akış özelliğinin kare kare birbirine karşılık geldiğini ve videolu yalan tespiti için en uygun çözüm olmadığını buldu. . Bu nedenle yazar, bir çapraz akış ağı (çapraz akış ağı) önermiştir - bu ağ, yüz ifadeleri ve vücut duruşu arasındaki tutarsız ilişkiyi yakalayabilir. Bu ağı kullanarak, videodaki her yüz ifadesi çerçevesi belirli bir aralıkta beş optik akış çerçevesi ile eşleştirilir ve model bu beş çerçeve arasındaki ağırlık ilişkisini otomatik olarak öğrenir. Ek olarak, makalenin yazarı, ResNet zaman akışının bloğunu 3 küresel bir havuzlama katmanı kullanarak bir vektöre dönüştürdü, böylece model, iki set tamamen bağlı ve bir softmax katmanından sonra beş eylem çerçevesi arasındaki ağırlık ilişkisini öğrenebilir. Bu modülü öğrenerek, model farklı eylem çerçevelerine farklı ağırlıklar atama becerisine sahiptir.

Çapraz çerçeve eşleştirme modelinin spesifik ağ yapısı aşağıdaki gibidir:

Şekil 2: Çapraz akış ağı

Bu yöntem özellikle her videoyu K segmentine ayırır

, Her segment için rastgele bir ifade çerçevesi örnekleyin

Ve beş aksiyon çerçevesi

(Şekil 1'deki turuncu kutuya bakın). Bu şekilde her segment için aşağıdaki veriler elde edilebilir:

onların arasında

Bu beş eylem çerçevesi arasındaki ağırlığı temsil eder ve toplam 1'dir. Yapmak

Temsilci model çifti

Sınıflandırma olasılığı ve

Bir videonun tüm bölümlerinin ortalama sınıflandırma olasılığını temsil eder, ardından kayıp işlevi aşağıdaki gibi tanımlanır:

Ek olarak, FFCSN modeli aynı zamanda küçük eğitim verisi sorununu çözmek için meta öğrenmeyi ve çatışmalı öğrenmeyi de sunar. Meta öğrenme, veriler arasındaki ilişkiyi öğrenerek modelin genelleme yeteneğini geliştirmek için ilişki fikrini kullanırken, rakip öğrenme, veri miktarını genişletme amacına ulaşmak için eğitim sırasında model sınıflandırıcıya saldırmak için oluşturulan "yanlış" özellik vektörünü kullanır.

Şekil 3: İlişki yapısının şeması

Meta öğrenme modülünün ağ yapısı Şekil 3'te gösterilmektedir. Modelin her bir mini partiden iki çift altılı demet seçtiğini görmek kolaydır.Her altılı demet çiftinde, iki numune aynı kategoriden ve diğer dört numune farklı kategorilerdendir. Çapa ile aynı kategorideki iki örnekten birini alın ve diğer beş çiftle beş çift veri oluşturmasına izin verin, böylece ortaya çıkan yapıda aynı kategoride bir çift örnek ve farklı kategorilere sahip dört çift örnek ve ardından eğitimden sonra , Ve sonra evrişimden sonra beş çift veriyi ve tamamen bağlantılı katmanları sınıflandırın, böylece model aynı kategoriden bir çift seçebilir. Bu metrik öğrenme fikrinin küçük veri kümelerinde bariz kazanımları olduğu ortaya çıktı.

Rakip öğrenme modülü Şekil 1'deki mor kutuda gösterilmektedir, burada G (Oluşturucu) sanal bir özellik vektörü oluşturmak için kullanılır ve daha sonra modelin sağlamlığını artırmak için ayrım yapmak için D (Ayırıcı) kullanılır, böylece küçük örneklemlerin problemi çözülür. Kayıp işlevi, aşağıdaki formülde gösterildiği gibi GAN'a benzer:

Model yukarıda açıklanan üç alt modülden oluştuğu için toplam kayıp fonksiyonu bu üç bölümün toplamıdır. Tezin yazarı bu üç bölümü birlikte eğiterek iyi deneysel sonuçlar elde eder.

3. Deneysel sonuçlar

FFCSN modeli, şu anda halka açık gerçek mahkeme duruşması video veri setinde en iyi sonuçları elde etti ve bu, modelin video yalan makinesinin tespitinde çok etkili olduğunu doğruladı. Deneysel sonuçlar, yalancıların ifadelerde ve eylemlerde tutarsızlıklara eğilimli olduğunu da gösteriyor. Şekil 4'te gösterildiği gibi, yalancı yüz ifadesi ikinci çerçevenin optik akışıyla eşleştiğinde önemli bir düşüşe sahiptir Bu dalgalanma modelin yalanları yargılaması için bir temel sağlar.

Şekil 4 Yalancının uyumsuz ifadeleri ve eylemleri

Modelin farklı modüllerinin etkili olduğunu doğrulamak için, makalenin yazarı çok sayıda ablasyon deneyi gerçekleştirdi. Tablo 1'den görülebileceği gibi, sadece yüz veya sadece hareket kullanımına kıyasla, hem yüz hem de hareket bilgisini aynı anda kullanan model daha büyük bir gelişme kaydetmektedir. Çapraz akış eşleştirme (CL) eklendikten sonra, modelin doğruluğu daha da iyileştirildi. Ek olarak, çok az miktarda veri sorununun üstesinden gelmek için, yazar, modele, modelin sağlamlığını iyileştirmeye büyük yardımcı olan meta-öğrenme (ML) ve rakip öğrenme (AL) modülleri ekledi.

Tablo 1: Modelin farklı modüllerinin etkileri

Modelin ölçeklenebilirliğini doğrulamak için yazar ayrıca yüz ifadesi tanıma veri kümesi üzerinde deneyler yaptı ve şu anda youtube-8 veri kümesinde en yüksek doğruluğu elde etti. Youtube-8 veri kümesi, 8 ifadeye bölünmüş 1101 video içerir. Tablo 2'deki deneysel sonuçlardan, yazarın yalnızca görsel monomodalite kullanmasına rağmen, doğruluk oranının daha fazla modalite (ses ve nitelikler) kullanan diğer yöntemlere göre% 5 daha yüksek olduğu görülmektedir.

Tablo 2: Mikro ifade tanıma sonuçları

4. Takım tanıtımı

Çin Renmin Üniversitesi Bilgi Okulu'nun Makine Öğrenimi (ML) grubu, Dr. Zhiwu Lu ile 20 doktora ve yüksek lisans öğrencisinden oluşuyor ve Profesör Wen Jirong'un büyük veri analizi ekibinin bir parçası. Şu anda, Ulusal Halk Kongresi ML grubu TPAMI, IJCV, NIPS, CVPR gibi önde gelen uluslararası dergilerde / konferanslarda 40'tan fazla makale yayınladı, NSFC, KJW gibi bir dizi ulusal bilimsel araştırma projesine başkanlık etti ve ayrıca Uluslararası Yapay Zeka ImageNet 2015 Videosu Yetkili Değerlendirmesi ödülüne layık görüldü. Algılama görevlerinde ikinci.

Referanslar:

M. Ding, A. Zhao, Z. Lu, T. Xiang ve J.-R. Wen, Videolarda Aldatma Tespiti için Yüz Odaklı Çapraz Akış Ağı, CVPR 2019

Kağıt indirme URL'si: https://arxiv.org/abs/1812.04429

Yapay Zeka Teknolojisi İncelemesiyle ilgili bilgileri sağladığı için Dr. Zhiwu Lu'ya özel teşekkürler.

Tıklamak Orijinali okuyun , CVPR ile ilgili daha fazla konuyu tartışmak için AI Araştırma Enstitüsü'nün CVPR grubuna girin

Sadece bir film izlemek için 580 yuan'a mı ihtiyacınız var? Aksi takdirde içeri bile giremezsin
önceki
Xiaolan Bisikletinin fiyatı saatte 5 sent artıyor ve "pırasa kesmek" mi? Netizen: Önce depozitoyu iade edebilir misiniz?
Sonraki
Yeni Yıl için eve gidin ve size kan görmenin beş yolunu öğretin, böylece yedi teyze ve sekiz teyze sussun
Huawei yöneticileri 256GB NM kartın test sonuçlarını açıkladı: 90MB / s oku, 75MB / s yaz
Heineken x BAPE ortak New York pop-up incelemesi! Ayrıca özel bir gece kafeteryası var!
Akademi | Tsinghua Üniversitesi'nden Öğretmen Liu Zhiyuan: Nitelikli bir NLP kağıdı nasıl yazılır
Yeni Roewe 360 resmi olarak listelendi: 7.79-12.99 milyon yuan satış
Sınırlı sayıda 50 adet Vetements x ADDITION ADELAIDE kazak! Fiyat çok pahalı!
"Naruto" "Three Lives III" ile tanışıyor, rüyalarda nasıl bir "kız kalpli" IP cenneti inşa ediliyor?
Sektör | Makine öğreniminin tanıtımıyla, Google'ın ARCore gerçek zamanlı selfie AR daha gerçekçi
Gözlem | Volvo'nun yıllık rapordaki yeniden canlanma tutkusu: geleneksel güçlü lüks otomobillerin yerini almak için ABB'yi yenmek
Yurtiçi DS7 CROSSBACK, 2017 Guangzhou Otomobil Fuarı'nda görücüye çıkacak
Haberler | "Shi Qingyun Kadın Bilim İnsanı Bilim ve Teknoloji Salonu" başarıyla sonuçlandı ve ilk Şi Qingyun Kadın Bilim İnsanı Ödülünü kazananlar açıklandı
Gözlem | Volvo'nun yıllık rapordaki yeniden canlanma tutkusu: geleneksel güçlü lüks otomobillerin yerini almak için ABB'yi yenmek
To Top