Bu makale, CVPR2020 seçili makalesini tanıtır: "Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification", makalenin yazarı, Korea Academy of Science and Technology'den.
Yazar | Zhang Jingjun
Düzenle | Kongun Sonu
Gece video gözetimi yoluyla çapraz modal yaya tanıma, mevcut ReID yönündeki zorluklardan biridir ve akademik çevreden büyük ilgi görmüştür.
Bu bağlamda yazar, hiyerarşik bir modlar arası yaya tanıma (Hi-CMD) yöntemi önermektedir. Yazar, bu yöntemi gerçekleştirmek için kimliği koruyan görüntü oluşturma ağı ve hiyerarşik özellik öğrenme modülünü tanıttı.Bu ağ yapısı sayesinde, yayaların ReID görevini farklı duruşlar ve aydınlatma koşulları altında etkin bir şekilde çözebilir.
Kağıt adresi: https://arxiv.org/pdf/1912.01230.pdf
1 Göreve genel bakış
Şu anda, akademide ReID gerçekleştirmenin birçok yöntemi var.Ana fikir, RGB-RGB eşleştirme yoluyla insan görünümü ve tek modlu kameralar tarafından yakalanan görüntülerin işlenmesi olarak özetlenebilir. Bununla birlikte, geleneksel görünür ışık kamerasının loş ışıklı koşullarda bir kişinin tüm görünüm özelliklerini yakalayamayacağına dikkat edilmelidir. Bu durumla karşılaşıldığında, çoğu güvenlik kamerası otomatik olarak görünür moddan kızılötesi moda geçecektir, bu nedenle VI-ReID (Görünür kızılötesi kişi tanımlama) çalışması gerekir.
Şekil 1 (a), Hi-CMD olarak kısaltılmış, çapraz modal yaya tanıma görevini çözmek için VI-ReID görevi için yazar tarafından önerilen yeni bir yöntemdir. Şekilde, yöntemin ID-ayırıcı ve ID hariç olmak üzere iki perspektiften başladığı görülebilir.Yazar tarafından kullanılan ağ çerçevesi ID-PIG ağıdır.Çerçeve diyagramı Şekil 1 (b) 'de gösterilmiştir.
2 Çerçeve yapısı
Şekil 2'de X1, görünür görüntüyü ve X2, kızılötesi görüntüyü temsil eder. Algılanacak her resim için bir y etiketine karşılık gelir.X1 ve X2'nin iki öznitelik vektörü arasındaki mesafe, yazar tarafından Öklid mesafesi kullanılarak hesaplanır. ID-PIG ağı için, esas olarak iki aşama içerir.
İlk aşamada yazar bir prototip kodlayıcı ve bir öznitelik kodlayıcı tasarladı, i = 1 olduğunda görünür görüntülere, i = 2 olduğunda kızılötesi görüntülere karşılık gelir. Bunlar arasında, prototip kodlayıcıdaki pi, kıyafetlerin deseni ve vücudun kontur şekli gibi karakterin şeklinin vektörünü temsil ederken, nitelik kodlayıcıdaki ai, giysiler gibi farklı duruş ve ışık durumlarını temsil eder. Stil ve görünüm vektörleri. Görüntü oluşturma sürecinde, yazar ID hariç tutulan kullanarak çapraz modal görüntüleri aynı ID ile iki görüntüyü değiş tokuş ederek sentezler. Görüntü çapraz füzyonuna karşılık gelen kayıp işlevi:
Oluşturma kalitesini en üst düzeye çıkarmak için, bu temelde yazar, Şekil 3'te gösterildiği gibi aynı modalite yeniden yapılandırma kaybı, döngü yeniden yapılandırma kaybı ve kod yeniden yapılandırma kaybı olmak üzere üç yeniden yapılandırma kaybı ekler. Aynı modalite yeniden yapılandırma kaybı, esas olarak düzenlileştirme sorununu çözmek içindir, döngü yeniden yapılandırma kaybı esas olarak denetimsiz görüntü dönüştürme sorunu içindir ve kod yeniden yapılandırma kaybı, esas olarak ID hariç tutulanların yeniden yapılandırılması içindir. Son kayıp fonksiyonu ifadesi aşağıdaki gibidir:
Yukarıdaki süreç, ID-PIG ağının ana işidir Ağ yapısının işlenmesi yoluyla, özellik değerleri, Şekil 2'de gösterildiği gibi, modlar arası yayaların VI-ReID görevini tamamlamak için hiyerarşik özellik öğrenme modeline (HFL) girilir. Gösterildi.
3 Deneysel sonuçlar
Deney, geleneksel VI-ReID veri seti, RegDB ve SYSUMM01'e dayanmaktadır. RegDB veri seti eğitim seti olarak 2060 görünür görüntü ve 206 tipte 2060 uzak kızılötesi görüntüden oluşmaktadır Test seti 206 tür ve 2060 görünür görüntü ve 2060 uzak kızılötesi görüntü içermektedir.
SYSU veri seti eğitim seti olarak 22.258 görünür görüntü ve 395 tipte 11.909 uzak kızılötesi görüntü içerir Test seti 96 tip ve 301 görünür görüntü içeren 3.803 yakın kızılötesi görüntü içerir. Bu makaledeki tüm kodlar Pytorch çerçevesine dayalıdır ve NVIDIA Titan Xp GPU ortamında çalışır Model değerlendirme göstergelerinin yazarı, sektördeki iki ana gösterge kullanır: CMC ve mAP. Yazar, 0,001 öğrenme oranına sahip stokastik bir gradyan ve ID-PIG ağı için 0,0001 öğrenme oranına sahip bir Adam optimizer kullanıyor.
Tablo 1, iki veri seti üzerinde farklı modellerin deneysel sonuçlarını göstermektedir. Yazar, HOG, LOMO, MLBP, GSM, SVDNET, PCB ve diğer yöntemler üzerinde deneyler yapmış ve mAP'lerinin çok düşük, en yüksek olanın 21'den fazla olmadığını ve bu makalede adı geçen Hi-CMD modelinin mAP değerinin RegDB verilerinde olduğunu tespit etmiştir. Set 66.04 kadar yüksek olabilir, etki her şeyi saniyeler içinde öldürür, böylece yöntemin üstünlüğünü teyit eder.
1. Yeni bir VI-ReID yaya çapraz modal tanıma yöntemi: Hi-CMD önerilmiştir.Geleneksel model yöntemiyle karşılaştırıldığında, bu model, görünür kızılötesi görüntülerde kimliği ayırıcı ve kimliği hariç tutmayı ayırt eder. , Çapraz modal ve mod içi farklılıkları etkili bir şekilde azaltmak.
2. Yetersiz eğitim verisinin neden olabileceği sorunları önlemek için ID-PIG ağını kullanın.