CVPR 2020 | VI-ReID için hiyerarşik modlar arası yaya tanıma

Bu makale, CVPR2020 seçili makalesini tanıtır: "Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification", makalenin yazarı, Korea Academy of Science and Technology'den.

Yazar | Zhang Jingjun

Düzenle | Kongun Sonu

Gece video gözetimi yoluyla çapraz modal yaya tanıma, mevcut ReID yönündeki zorluklardan biridir ve akademik çevreden büyük ilgi görmüştür.

Bu bağlamda yazar, hiyerarşik bir modlar arası yaya tanıma (Hi-CMD) yöntemi önermektedir. Yazar, bu yöntemi gerçekleştirmek için kimliği koruyan görüntü oluşturma ağı ve hiyerarşik özellik öğrenme modülünü tanıttı.Bu ağ yapısı sayesinde, yayaların ReID görevini farklı duruşlar ve aydınlatma koşulları altında etkin bir şekilde çözebilir.

Kağıt adresi: https://arxiv.org/pdf/1912.01230.pdf

1 Göreve genel bakış

Şu anda, akademide ReID gerçekleştirmenin birçok yöntemi var.Ana fikir, RGB-RGB eşleştirme yoluyla insan görünümü ve tek modlu kameralar tarafından yakalanan görüntülerin işlenmesi olarak özetlenebilir. Bununla birlikte, geleneksel görünür ışık kamerasının loş ışıklı koşullarda bir kişinin tüm görünüm özelliklerini yakalayamayacağına dikkat edilmelidir. Bu durumla karşılaşıldığında, çoğu güvenlik kamerası otomatik olarak görünür moddan kızılötesi moda geçecektir, bu nedenle VI-ReID (Görünür kızılötesi kişi tanımlama) çalışması gerekir.

Şekil 1 (a), Hi-CMD olarak kısaltılmış, çapraz modal yaya tanıma görevini çözmek için VI-ReID görevi için yazar tarafından önerilen yeni bir yöntemdir. Şekilde, yöntemin ID-ayırıcı ve ID hariç olmak üzere iki perspektiften başladığı görülebilir.Yazar tarafından kullanılan ağ çerçevesi ID-PIG ağıdır.Çerçeve diyagramı Şekil 1 (b) 'de gösterilmiştir.

2 Çerçeve yapısı

Şekil 2'de X1, görünür görüntüyü ve X2, kızılötesi görüntüyü temsil eder. Algılanacak her resim için bir y etiketine karşılık gelir.X1 ve X2'nin iki öznitelik vektörü arasındaki mesafe, yazar tarafından Öklid mesafesi kullanılarak hesaplanır. ID-PIG ağı için, esas olarak iki aşama içerir.

İlk aşamada yazar bir prototip kodlayıcı ve bir öznitelik kodlayıcı tasarladı, i = 1 olduğunda görünür görüntülere, i = 2 olduğunda kızılötesi görüntülere karşılık gelir. Bunlar arasında, prototip kodlayıcıdaki pi, kıyafetlerin deseni ve vücudun kontur şekli gibi karakterin şeklinin vektörünü temsil ederken, nitelik kodlayıcıdaki ai, giysiler gibi farklı duruş ve ışık durumlarını temsil eder. Stil ve görünüm vektörleri. Görüntü oluşturma sürecinde, yazar ID hariç tutulan kullanarak çapraz modal görüntüleri aynı ID ile iki görüntüyü değiş tokuş ederek sentezler. Görüntü çapraz füzyonuna karşılık gelen kayıp işlevi:

Oluşturma kalitesini en üst düzeye çıkarmak için, bu temelde yazar, Şekil 3'te gösterildiği gibi aynı modalite yeniden yapılandırma kaybı, döngü yeniden yapılandırma kaybı ve kod yeniden yapılandırma kaybı olmak üzere üç yeniden yapılandırma kaybı ekler. Aynı modalite yeniden yapılandırma kaybı, esas olarak düzenlileştirme sorununu çözmek içindir, döngü yeniden yapılandırma kaybı esas olarak denetimsiz görüntü dönüştürme sorunu içindir ve kod yeniden yapılandırma kaybı, esas olarak ID hariç tutulanların yeniden yapılandırılması içindir. Son kayıp fonksiyonu ifadesi aşağıdaki gibidir:

Yukarıdaki süreç, ID-PIG ağının ana işidir Ağ yapısının işlenmesi yoluyla, özellik değerleri, Şekil 2'de gösterildiği gibi, modlar arası yayaların VI-ReID görevini tamamlamak için hiyerarşik özellik öğrenme modeline (HFL) girilir. Gösterildi.

3 Deneysel sonuçlar

Deney, geleneksel VI-ReID veri seti, RegDB ve SYSUMM01'e dayanmaktadır. RegDB veri seti eğitim seti olarak 2060 görünür görüntü ve 206 tipte 2060 uzak kızılötesi görüntüden oluşmaktadır Test seti 206 tür ve 2060 görünür görüntü ve 2060 uzak kızılötesi görüntü içermektedir.

SYSU veri seti eğitim seti olarak 22.258 görünür görüntü ve 395 tipte 11.909 uzak kızılötesi görüntü içerir Test seti 96 tip ve 301 görünür görüntü içeren 3.803 yakın kızılötesi görüntü içerir. Bu makaledeki tüm kodlar Pytorch çerçevesine dayalıdır ve NVIDIA Titan Xp GPU ortamında çalışır Model değerlendirme göstergelerinin yazarı, sektördeki iki ana gösterge kullanır: CMC ve mAP. Yazar, 0,001 öğrenme oranına sahip stokastik bir gradyan ve ID-PIG ağı için 0,0001 öğrenme oranına sahip bir Adam optimizer kullanıyor.

Tablo 1, iki veri seti üzerinde farklı modellerin deneysel sonuçlarını göstermektedir. Yazar, HOG, LOMO, MLBP, GSM, SVDNET, PCB ve diğer yöntemler üzerinde deneyler yapmış ve mAP'lerinin çok düşük, en yüksek olanın 21'den fazla olmadığını ve bu makalede adı geçen Hi-CMD modelinin mAP değerinin RegDB verilerinde olduğunu tespit etmiştir. Set 66.04 kadar yüksek olabilir, etki her şeyi saniyeler içinde öldürür, böylece yöntemin üstünlüğünü teyit eder.

Makalenin yeniliği:

1. Yeni bir VI-ReID yaya çapraz modal tanıma yöntemi: Hi-CMD önerilmiştir.Geleneksel model yöntemiyle karşılaştırıldığında, bu model, görünür kızılötesi görüntülerde kimliği ayırıcı ve kimliği hariç tutmayı ayırt eder. , Çapraz modal ve mod içi farklılıkları etkili bir şekilde azaltmak.

2. Yetersiz eğitim verisinin neden olabileceği sorunları önlemek için ID-PIG ağını kullanın.

Yun Zhisheng ACL 2020'nin üç makalesine seçildi. Ne okudular?
önceki
ICLR 2020 | Artan gürültü, RL ajanlarının genelleme yeteneğini geliştirebilir
Sonraki
ICLR 2020 | Sinirsel tanjant, sonsuz genişlikte bir sinir ağı modeli oluşturmak için 5 satır kod
"Canlı" CVPR 2020 | Açgözlü düşünceye dayalı bir ağ yapısı arama algoritması ve hem CNN hem de GCN ağ yapısı aramasını destekler
Bengio ve diğer birçok bilim insanı ortaklaşa üretti: AI'nın güvenilir olmasını sağlamak için bir sistem nasıl tasarlanır?
IJCAI'den uyarı! En iyi kulüpleri doldurmak gittikçe zorlaşıyor ve AI top kulüplerinin toplam işe alma oranı yıllardır düşüyor.
ICLR 2020 | GAN kullanarak yüksek kaliteli konuşma sentezi
CVPR 2020 | MetaFuse: İnsan poz tahmini için önceden eğitilmiş bilgi füzyon modeli
ICLR 2020 | Pekin Üniversitesi Turing Sınıfı tam puan raporu: Hesaplama kısıtlamaları altında faydalı bilgilere dayalı bilgi teorisi
Tek bir çip tüm sesli etkileşimleri çözer, Baidu endüstriyi değiştiren teknolojik bir yenilik yaptı
ICLR 2020 | Deformable Kernels, deforme olabilen, yaratıcılıkla dolu bir evrişim çekirdeği
Today Paper | Dağıtık temsil; meta-öğrenmeye dayalı; ilçe düzeyinde veri seti; GPS-NET, vb.
Standart yok, işbirliği yok, üretim ilişkilerini değiştiren çok taraflı bir işbirliği | Federe Öğrenme IEEE Uluslararası Standardı yayımlanmak üzere
CVPR 20208 bitlik değerler de modelleri eğitebilir mi? SenseTime, eğitim hızlandırması için yeni bir algoritma öneriyor
To Top