g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Bu makale görsel hedef takibini anlamanızı sağlar

Bu makale, görsel hedef izleme problemleri ve klasik yöntemler hakkında bir ön anlayışa sahip olmanıza yardımcı olacaktır.

Yazar: Lincoln iki yüz on üç

Editör: Pita

Görsel Nesne Takibi, bilgisayar görüşü alanında önemli bir konudur. Son yıllarda kapsamlı bir şekilde çalışılmış olmasına rağmen, yüksek zorluk derecesi ve yüksek kaliteli verilerin azlığı nedeniyle, hedef takibine yönelik araştırma ilgisi, hedef tespiti ve anlamsal bölümleme gibi temel görme görevlerinden biraz daha düşüktür. Derin öğrenmenin gelişmesi ve bilgisayar hesaplama gücünün artması görsel algoritmaların performansında hızlı ilerlemeyi beraberinde getirmiş, ancak hedef takibi alanında derin sinir ağlarına dayalı yöntemler ancak son yıllarda ümit verici olarak nitelendirilebilecek şekilde şekillenmeye başlamıştır.

Görsel hedef takibi ile ilgileniyorsanız veya bu alanda acemi iseniz, bu makale görsel hedef takip problemleri ve klasik yöntemler hakkında ön bir anlayışa sahip olmanıza yardımcı olacaktır. Halihazırda belirli bir miktarda ilgili bilgiye sahip bir araştırmacıysanız, tartışmak ve tavsiyelerde bulunmaktan da memnuniyet duyarız.

Tek hedef takibi

Menşe korelasyon filtreleme ve hedef takibi

Ön yüzümün bir fotoğrafını ver (güzelleştirme tedavisi olmadan), beni kalabalığın içinde nasıl bulabilirsin? En sezgisel çözümlerden biri şudur: "En çok görünen kişi, en çok görünen kişidir." Ancak bilgisayarlar için "görünüşün" nasıl ölçüleceği basit bir soru değildir. Bu, temel bir işlem-çapraz korelasyonu içerir. Çapraz korelasyon işlemi, iki sinyal arasındaki benzerliği ölçmek için kullanılabilir. Ayrık görüntü uzayında, matematiksel tanımı şu şekildedir:

h ile f Sırasıyla, aramak istediğimiz hedef şablonu ve aranacak hedefin bulunduğu görüntüyü temsil eden çekirdek ve görüntü. Bu formülü anlamak sizin için biraz zorsa, ayrık görüntü alanı evrişim işleminin tanımını hatırlıyor musunuz:

Oh ~ Formülden ikisi h Yatay ve dikey dönüşler arasındaki ilişki! Aslında, birçok makine öğrenimi kütüphanesinin uygulanmasında, sözde "evrişim" çapraz korelasyon işlemleriyle elde edilir - her halükarda, evrişim çekirdeğindeki tüm parametreler fiziksel anlamı bilinmeyen optimize edilmiş değerlerdir. Tüm yapılması gereken, "evrişim çekirdeğinin uygun konumunda uygun değeri öğrenmektir". Çapraz korelasyon işlemi tarafından öğrenilen çekirdeğe eşdeğer olan evrişim işlemiyle öğrenilen çekirdeği kesinlikle kullanın 180 Derece çevirme. İkisi arasındaki farkı karıştırmak zorunda olmak pek mantıklı değil.

Bunu söyledikten sonra, çapraz korelasyon hesaplaması ölçüm yapmamızı sağlar h karşı f Diğer bir deyişle, çapraz korelasyon ile elde edilen yanıt haritasındaki her pikselin yanıt seviyesi, her bir konumun benzerlik düzeyini temsil eder. Hedefin yeni bir görüntü çerçevesinde var olduğunu varsayarsak f İçinde, sonra içinde h ile f En doğru yer hedefin merkezi olmalıdır!

Ancak o zaman, bu tür düşünmede bazı zorluklar olacaktır: Hedefin şekli, boyutu ve hatta çevresi sürekli değişmektedir. Bu değişkenleri göz önünde bulundururken, doğru bir şekilde konumlandırmak için hedefin değişmemiş özelliklerini nasıl öğrenebilirim? Başka bir deyişle, nasıl nükleer yapılır h Geçebilir ve f En etkili yanıtı almak için çapraz korelasyon hesaplaması? Bu, ana akım tek hedef izleme yönteminin denediği fikirdir. Daha matematiksel bir tanıma göre:

Tanımı, yanıt grafiğinin temel gerçeğidir. Sürekli bir görüntü dizisi ile uğraştığımız için, hala aboneler var ben Yukarıdaki formül aracılığıyla h Tüm görüntü dizisini optimize etmek için, hedef izleme algoritmasının optimal bir korelasyon filtresi öğrenmesine izin verebiliriz. Optimizasyonun hızını artırmak için ekleyebiliriz h ile f Fourier frekans alanına yansıtılır. Uzamsal alandaki çapraz korelasyon işlemi, frekans alanında terimsel bir çarpma haline gelir ve optimizasyon hedefi şu olur:

Şuna eşdeğerdir:

Daha sonra tüm sekans için optimal olanı çözebiliriz:

Ancak bu, her görüntü karesi için mutlaka optimal değildir. Sekans ilerledikçe uyarlamalı olarak güncelleme yapmak için, sürekli güncellenen

Öğrenme oranı parametrelerini ayarlayarak güncelleyin , Algoritmanın son derece sağlam öğrenmesini sağlayabilir ve hedef görünümdeki değişikliklere hızla adapte olabiliriz. Yukarıdaki süreç, tek hedef izleme probleminde korelasyon filtrelemenin ilk kullanımı olan MOSSE'nin (Hata Karesi Minimum Çıktı Toplamı, CVPR10, F. Henriques ve diğerleri) temel fikridir.

Geliştirme - giderek mükemmelleşen CF modeli

Bir göz açıp kapayıncaya kadar, MOSSE'nin önerilmesinden bu yana dokuz yıldan fazla zaman geçti. Tek hedefli görsel takibin durumu nedir? Lütfen aşağıdaki resme bakın:

Son yıllarda hedef izleme yöntemlerinin geliştirilmesi (resim kaynağı: foolwood / benchmark_results, orijinal metni okumak için büyük resim tıklanabilir)

Bu büyük ağaçta, MOSSE, CF (Correlation Filter) hedef izleme algoritmasının yaratıcısı haline geldi. MOSSE'den sonra, ilgili filtreleme fikirlerine dayalı çeşitli hedef izleme yöntemleri gelişti ve daha başarılı hale geldi.Hedef izleme algoritmalarının temel çerçevesi aşağıdaki şekilde gösterilmektedir.

Korelasyon filtrelemeye dayalı hedef izlemenin temel çerçevesi (İnternetten resim)

Genel çerçeve aynı olmasına rağmen, o zaman MOSSE, sonsuz bir akışta çeşitli evrişimli sinir ağları ortaya çıktığında çok geri kalmış görünüyor.MOSSE'nin manuel özellikleri bile kullanmadığını, ancak hesaplamalar için doğrudan piksel gri değerlerini kullandığını hayal edebiliyor musunuz? Mevcut korelasyon filtreleme izleme algoritmalarının genellikle CN (Renk Adları), HOG (Oreinted Gradyanların Histogramı) gibi manuel özellikleri ve filtre öğrenimi için bunları birleştirmek üzere CNN ile çıkarılan özellikleri kullanması gerekir.

Öyleyse, MOSSE'den türetilen filtreleme izlemeyle ilgili bazı klasik çalışmaları kısaca gözden geçirelim:

KCF

KCF (Kernelized Correlation Filter, TPAMI15, F. Henriques ve diğerleri), pozitif ve negatif örnekleri toplamak için döngüsel kayma ile elde edilen döngüsel matrisi kullanır ve matris işlemini şuna dönüştürmek için Fourier uzayındaki döngüsel matrisin köşegenleştirme özelliğini kullanır. Öğelerin nokta çarpımı hesaplama miktarını azaltır ve algoritmanın gerçek zamanlı gereksinimleri karşılamasını sağlar. Aynı zamanda KCF, tek kanallı gri tonlama özellikleri yerine çok kanallı HOG özelliklerini kullanır ve özellikleri çok kanallı doğrusal olmayan özellik alanına genişleterek daha yüksek sağlamlık sağlar. KCF'nin optimizasyon yöntemi, düzenli terimle ridge regresyonudur:

Dolaşım matrisi (resim kaynağı :)

DSST

DSST (Ayrımcı Ölçekli Uzay İzleme, BMVC14, M.Danelljan ve ark.) Dikkat Mesele daha çok nesnenin ölçek tahmini üzerinedir.Hedefin merkez çevirisi ve hedefin ölçek değişikliği iki bağımsız problem olarak kabul edilir.HOG özelliğini kullanarak çeviri ile ilgili KF'yi eğitmenin yanı sıra, başka bir ölçek MOSSE kullanılarak eğitilir. İlgili filtreler, hedef ölçekteki değişiklikleri tahmin etmek için kullanılır. DSST, izleme doğruluğunu ve başarı oranını büyük ölçüde geliştirdi, ancak hız KCF'den daha yavaş.

SRDCF ve DeepSRDCF

SRDCF (Spatially Regularized Discriminative Correlation Filter, ICCV15, M.Danelljan vd.), Modelin ayırt etme yeteneğini artıran KCF optimizasyon hedefine uzamsal düzenleme ekler. Optimizasyon hedefi şu hale gelir:

KCF ile karşılaştırmak için, burada SRDCF'nin orijinal metninden farklı bir gösterim kullanılmıştır. Formülde

karşı w Anlamı aynı değil, w'ye uygulanan uzamsal düzenleme ağırlığıdır. Diğer bir deyişle, belirli yerlerdeki (esas olarak sınırlar) filtre katsayıları cezalandırılacaktır.

Genel DCF (sol) ve SRDCF (sağ) etkisinin karşılaştırması (resim kaynağı :)

CN / HOG özelliklerini derin CNN özellikleriyle değiştirdikten sonra, Danelljan karşılaştırma için birçok deney yaptı ve CNN sığ özelliklerini kullanmanın HOG'un manuel özelliklerinden önemli ölçüde daha iyi olduğunu buldu. Bu yüzden ICCV15'in SRDCF modelini değiştirdim ve DeepSRDCF olan bir ICCV15 Çalıştayı ...... yayınladım.

Farklı özellik türlerinin etkisinin ve farklı CNN katmanlarını kullanmanın etkisinin karşılaştırılması (Resim kaynağı :)

C-COT

C-COT (Continuous Convolution Operator Tracker, ECCV16, M. Danelljan ve diğerleri), modelin öğrenmesini sürekli bir uzamsal alana yansıtmak için örtük bir enterpolasyon yöntemi kullanır ve sürekli uzamsal etki alanında bir hacim önerir. Ürün operatörü. C-COT, birden çok çözünürlük derinliği özelliklerini verimli bir şekilde entegre eder ve bu, her veri setinde modelin performansını büyük ölçüde artırır.

C-COT özellik haritası, evrişim çekirdeği, her katmanın güven haritası ve füzyondan sonra sürekli alanın çıktı güven haritası (resim kaynağı :)

ECO

ECO (Verimli Evrişim Operatörleri, CVPR17, M. Danelljan ve ark. Kaç yaşında?) C-COT üzerinde bir başka gelişmedir. Birincisi, ECO, C-COT parametrelerinin miktarını azaltır ve verimliliği artırmak ve aşırı uyumu önlemek için özellik çıkarımını basitleştirir. İkinci olarak, farklı örnek kombinasyonları oluşturmak için Gauss karışım modelini kullanın, çeşitliliği artırırken eğitim setini basitleştirin Ayrıca hızı artırırken sağlamlığı da artıran verimli bir model güncelleme stratejisi önerilmiştir.

C-COT öğrenmesinden sonra evrişim çekirdeği ve ECO öğrenmesinden sonra evrişim çekirdeği (resim kaynağı :)

Status Quo-Twin Ağları patlama yaşıyor

SiamFC

Hedef izleme alanında, SiameseFC (veya SiamFC) -Tamamen Evrişimli İkiz Ağ (L. Bertinetto) olan C-COT ile aynı zamanda ECCV16 kazanan "Nesne İzleme için Tamamen Evrişimli Siyam Ağları" adlı bir makale de bulunmaktadır. ve diğerleri). SiamFC, hedef izleme alanında bir ikiz ağ kullanan ilk kişi olmasa da (bildiğim kadarıyla, hedef izleme problemini çözmek için ikiz ağ kullanan ilk kişi SINT'dir (Siyam Örneği Arama İzleme, CVPR16, R. Tao ve diğerleri)) Ancak uçtan uca derin öğrenme korelasyon filtreleme yönteminin emsali olduğu söylenebilir ve aynı zamanda derin öğrenme yönteminin korelasyon filtreleme yöntemini aşamalı olarak geçmesi için bir başlangıç yaptı.

Bunu söyledikten sonra, bu "tam evrişimli ikiz ağ" neye benziyor? Lütfen aşağıdaki resme bakın:

SiameseFC (Resim kaynağı :)

(Güzel resim! Sadece çizim göze hoş gelmiyor, aynı zamanda ikiz ağın temel fikrini de açıkça aktarıyor) CNN kodlayıcıdır, üst ve alt dallarda kullanılan CNN sadece yapı olarak aynı değildir, aynı zamanda parametreler de tamamen paylaşılır (açıkça söylemek gerekirse aynı ağdır, ikiz kardeşler gibi bir ayar yoktur). z ile x İzlenecek hedef şablon görüntüsü (127x127 boyutunda) ve yeni bir çerçevede (255x255 boyutunda) arama aralığıdır. İkisi aynı kodlayıcıdan geçtikten sonra, ilgili özellik haritalarını alırlar. İkisi üzerinde çapraz korelasyon hesaplamalarından sonra, bir yanıt haritası (boyut 17x17) de alırlar ve her pikselin değeri, x Orta ve z Eşit büyüklükte karşılık gelen bir alanda hedefi izleme olasılığı.

SiamFC'nin çevrimdışı uçtan uca eğitimi, CNN modelinin ölçmeyi öğrenmesini sağlar x karşı z Aynı zamanda, GPU hesaplama gücünün iyi kullanımı nedeniyle, AlexNet kullanan SiamFC 65FPS hızına ulaşabilir ve izleme etkisi o andaki durumla eşleşemese de iyi bir doğruluk oranını koruyabilir. sanat seviyesi.

Önceki adımın ağaç diyagramında SiamFC, Derin Öğrenme dalının en büyük alt dalının kök düğümü haline geldi. Okuyucular sorabilir: Yukarıda bahsedilen ECO neden CNN kullanıyor, ancak Derin Öğrenme şubesi altında değil? Hepimizin bildiği gibi, derin öğrenme, bir modelin küresel bir optimal çözüm bulmak için orijinal girdiden nihai çıktıya kadar eksiksiz bir eşleştirme öğrenmesine izin vermek için mümkün olduğunca "uçtan uca" bir fikri vurgular. Yalnızca bu şekilde izleme problemleriyle ilgilenen çözümler ağaç diyagramının Derin Öğrenme dalı altında sınıflandırılır. Sol ve sağ dallar (DL ve CF) karşıt değil.DL şubesi altındaki birçok çalışma (SiamFC ve SiamRPN tarafından temsil edilmektedir) ilgili filtreleme fikrini benimsemiştir.CF şubesi altındaki birçok çalışma da özellik çıkarıcı olarak CNN'i kullanır.

SiamRPN ve DaSiamRPN

DSST'den önceki birçok ilgili filtre izleme algoritması gibi, SiamFC'nin nesne ölçeğindeki değişikliklerle baş etmesi zordur. SiamRPN (CVPR18, B. Li ve diğerleri), yeni görüntüdeki hedefin ölçeğini tahmin etmek için hedef tespit alanında yaygın olarak kullanılan RPN'den (Bölge Teklif Ağı) yararlanmaktadır.

İçinde SiamRPN x ile z İkiz CNN'ler ilgili özellik haritalarını elde ettikten sonra, ikisi üzerinde doğrudan çapraz korelasyon işlemleri gerçekleştirmediler, ancak iki özellik haritasını RPN bölümünün iki dalına koydular ve her daldaki iki özellik haritası geçildi Bir CNN daha sonra çapraz korelasyon hesaplamaları gerçekleştirir. RPN bölümünün iki kolu, hedef olasılığını ve hedef çerçevenin gerilemesini tahmin etmek için kullanılır ve ayrıca hedef tespit alanında çapa yöntemini kullanır, böylece hedef çerçeve gerilemesinin eğitim zorluğunu azaltır.

SiamRPN (Resim kaynağı :)

SiamRPN'den sonra, yazar hemen, modelin aynı kategorideki nesnelerden gelen paraziti ayırt etme yeteneğini geliştirmek için eğitim verilerini geliştiren gelişmiş bir DaSiamRPN (ECCV18, Z. Zhu ve diğerleri) sürümünü önerdi (genel modeller genellikle ön plana odaklanır) Arka planla ayrımcılık, benzer nesnelerin ayrımcılığı zayıfken). Ek olarak, DaSiamRPN, çalışma süresi sırasında modelin parametrelerini örneklemek ve güncellemek için Distractor-bilinçli artımlı öğrenme modülünü ekledi. Modelin mevcut video alanına daha iyi taşınmasını sağlar.

DaSiamRPN'nin VOT deneyindeki performansı ECO'yu aşıyor ve aynı zamanda 160FPS'nin üzerinde çalışabilir. Derin öğrenmenin tek hedefli izleme yönteminin "rüzgar ve su" olduğu söylenebilir.

Zorluklar-evrişimli katmanlar zordur

sorun

DaSiamRPN, 2018 yılında ECCV'de yayınlandı. Şu anda, her tür derin CNN'ler yaygındır ve derinlemesine düzinelerce ila yüzlerce katman vardır - ancak DaSiamRPN hala pa olmadan yalnızca 5 katman kullanıyor gg ing's AlexNet. İzleme performansını daha da iyileştirmek için ağ omurgasını daha derin bir artık ağla (ve ardından bir kağıtla) değiştirmeye çalışmak mümkün mü?

Gerçekten denedim ...

Okuyucuların SiamFC ve SiamRPN'deki her özellik haritasının boyutuna dikkat edip etmediğini merak ediyorum. SiamFC'de 127x127 orijinal boyutu z AlexNet'in 5 katmanından sonra, özellik haritası 6x6 kadar küçüktür, çünkü kağıt gg indi ve birkaç havuzdan geçti. Bu devam ederse, bir havuz katmanı ve bir 3x3 evrişimli katman ekleyerek, özellik haritası 1x1 olacaktır. Açıkçası, ağı daha derin yapmak istiyorum, baba gg ing kaçınılmazdır.

Pa eklendi gg ağ gerçekten çok derinleşebilir (örneğin, doğrudan YOLOv3'ün DarkNet-53'üne gittim ve hatta bir özellik piramidi ekledim), ancak yeni bir fırtına yeniden ortaya çıktı - CNN'nin çeviri değişmezliği son derece zayıf hale geldi. Hedefin konumlandırılması genellikle bariz bir sapma gösterir ve modelin hedefi ayırt etme yeteneği, orijinal SiamRPN kadar iyi değildir. Bu sonucun farkına varacağından emin olan yazar, okulu bırakmaya hazır ...

Neyse ki, şu anda yazar yanlışlıkla bir CVPR19 kağıt paylaşım toplantısının çevrimiçi canlı yayınını izledi (canlı yayın, AI Araştırma Enstitüsü'nün CVPR değişim grubunda görüntülenebilir: https: //ai.yan xi o .com / page / meeting / 44), akademik dünyadaki büyük isimlerin de hedef takibi için daha derin CNN'i nasıl kullanacaklarını araştırdıklarını gördüm. Aşağıdaki iki sahne üzerinde yapılan çalışma, hedef takibinde derin kalan ağın zorluğunu farklı şekillerde ele almaktadır.

Program

CIR (SiamDW)

SiamDW'nin yazarı, daha derin bir evrişimli sinir ağının alıcı alanının çok büyük olduğuna ve bu da özelliklerin ayrımını ve konumlamanın doğruluğunu azalttığına inanıyor. Ek olarak, çok katmanlı pa gg ing, ikiz ağın öğrenilmesini değiştirir. Yazarın ağ omurgasının doğası hakkındaki yorumları (pa gg ing, adım, alıcı alan boyutu, vb.) sistematik bir araştırma ve analiz gerçekleştirdi ve aşağıdaki sonuçlara ulaştı: 1) Siyam ağ izleyicileri daha küçük adım olma eğilimindedir; 2) alıcı alan boyutu, hedef şablon görüntüsüne bağlı olmalıdır z Genellikle% 60 ila% 80 arasındaki boyut en iyisidir; 3) adım, alıcı alanın boyutu ve çıktı yanıt grafiğinin boyutu birbirine büyük ölçüde bağlıdır ve birlikte düşünülmelidir; 4) Tam evrişimli ikiz ağ, x ve z'yi mümkün olduğunca ortadan kaldırmalıdır. Algısal tutarsızlık.

Yukarıdaki sonuçlara yanıt olarak yazar, ResNet'teki temel modülü değiştirmek için bir CIR (Kırpma-İç-Rezidans) modülü önerir. Temel yaklaşım, aşağıdaki şekilde her bloğun a'sıdır. gg Mahsul işleminden sonra, etkilenen paçayı çıkarın gg İng'den etkilenen kenar kısmı. Omurga olarak CIResNet-22 kullanan iyileştirilmiş SiamFC ve SiamRPN sürümleri gelişmiş performansa sahip, ancak böyle bir yaklaşım hala ağı derinleştiremiyor gibi görünüyor?

Çeşitli CIR blokları (resim kaynağı :)

SiamRPN ++

SiamRPN ++, SiamRPN'nin yazarına dayanan bir gelişmedir. Ana iyileştirmeler aşağıdaki gibidir: 1) Özelliklerin çıkarılmasını büyük ölçüde optimize eden ResNet-50 omurgasının ince ayarlı versiyonu kullanılır; 2) ResNet-50'nin 3, 4 ve 5 aşamalarının özellikleri sırasıyla çerçeve regresyon ve hedef için kullanılır. Konumlandırma ve üçünün sonuçlarını birleştirmek için ağırlıklı füzyon yöntemini kullanın; 3) Parametrelerin miktarını azaltmak ve RPN parçasının çalışmasını hızlandırmak için derinlemesine çapraz korelasyon işlemini kullanın; 4) En önemlisi, bir uzamsal farkındalık önerilir Hedef izleme ile CNN'e uygulanan katı çeviri değişmezliği kısıtlamasını kıran örnekleme stratejisi.

Yazar, sadece bir pa olmadığını analiz ediyor gg İng ağı katı çeviri değişmezliğine sahiptir ve derinleşen CNN, pa gg İng görünümü. Bununla birlikte, bu katı çeviri değişmezliği kısıtlaması, eğitim örneklerinde tekdüze bir dağılıma uyan rastgele çevirileri manuel olarak ekleyerek bir dereceye kadar kırılabilir. Modelin tahmin sonuçlarından yola çıkarak, eğitim verileri belirli bir aralıkta tekdüze bir dağılıma uyuyorsa, ideal olarak izleyici tarafından tahmin edilen sonuçlar da tekdüze dağılıma daha yakın olmalıdır. Yazar, niceliksel deneyler yoluyla, 32 piksel aralığına sahip rastgele bir kayma ekledikten sonra, nihai hedef konum ısı haritasının tekdüze bir dağılıma daha yakın olduğunu ve tahmin edilen sonucun gerçek test hedefinin dağılımına daha yakın olduğunu gösterdi.

SiamRPN ++ (Resim kaynağı :)

SiamRPN ++ yukarıdaki iyileştirmelerle OTB2015, VOT2018, UAV123, LaSOT ve TrackingNet'te ilk sırada yer aldı.Derin öğrenme tabanlı yöntem, izleme doğruluğunda nihayet bir adım önde.

Not: Son yıllardaki en iyi konferanslarda verilen VOT makalelerinin sayısına bakılırsa, derin öğrenme yöntemi gerçekten bir adım önde ...

PPS: Yukarıdaki yöntemlere ek olarak, MDNet, TCNN, SANet, CREST, VITAL gibi derin öğrenmeye dayalı hedef takibinde bahsetmeye değer birçok makale var. Tek tek Giriş.

PPPS: Yukarıdaki ilgili filtreleme yöntemlerinin çoğu oldukça karmaşık matematiksel türetme içerir, ancak bu makale çok fazla şey kapsamamaktadır.Birincisi, sınırlı yeteneğim var ve ikincisi, makalenin uzunluğu çok uzun olmamalı. Onun türetilmesiyle ilgilenen öğrenciler, lütfen orijinal metne bakın.

Çok hedefli izleme

Problem tanımı

Tek hedefli izleme ile karşılaştırıldığında, çok hedefli izlemenin araştırma ilerlemesi çok daha yavaştır, mevcut veri seti yeterince zengin değildir ve başvurulabilecek daha az açık kaynak kodu vardır. Uygulanması nispeten daha zor olduğu için, çok hedefli izleme daha mühendislik problemidir ve bu problemle ilgili derin öğrenme potansiyeli yeterince kullanılmamıştır.

Genel olarak konuşursak, "görsel hedef izleme" veya "VOT" genellikle tek hedef izlemeyi ifade eder. SOT (Single Object Tracking) ve MOT (Multi Object Tracking) sadece hedef sayısındaki farklılıklar gibi görünse de, ortak yöntemleri aslında oldukça farklıdır. Araştırma nesneleri açısından, tek hedefli izleme algoritmaları genellikle kategorilerle sınırlı değildir, çok hedefli izleme ise genellikle yalnızca belirli nesne kategorilerini hedefler. Süre açısından, tek hedefli izleme, kısa vadeli görüntü dizileri için daha fazla iken, çok hedefli izleme genellikle çeşitli hedeflerin görünümünü, kapanmasını ve ayrılmasını içeren daha uzun videolarla ilgilenir. Gerçekleşme perspektifinden tek hedef takibi daha fazladır Dikkat Hedef nasıl yeniden odaklanır Konumlandırma Ve yaygın çok hedefli izleme yöntemleri, Dikkat Tespit edilen hedefe göre nasıl hareket edilir eşleşme .

Başlatma yöntemine göre, yaygın çok hedefli izleme algoritmaları genellikle algılama tabanlı izleme (Algılama Tabanlı İzleme) ve algılamasız izleme (Algılamasız İzleme) olarak ayrılabilir. DBT, her bir görüntü karesindeki hedefi ilk olarak algılamak için bir hedef algılayıcıya ihtiyaç duyarken, DFT her hedefin konumunun ilk kez bilinmesini ve ardından her hedefin ayrı ayrı izlenmesini gerektirir (bu, aynı video olarak kabul edilebilir) Çoklu tek hedefli izleme). Açıkçası, ilkinin ortamı gerçek uygulama senaryolarına daha yakındır ve aynı zamanda akademik araştırmanın ana akımını oluşturur.

Başlatma yöntemine göre sınıflandırılmıştır. Üst: Algılamaya dayalı izleme; Alt: Algılama olmadan izleme (Resim kaynağı :)

İşleme yöntemine göre, çok hedefli izleme algoritması çevrimiçi izleme (Çevrimiçi İzleme) ve çevrimdışı izleme (Çevrimdışı İzleme) olarak ikiye ayrılabilir. Çevrimiçi izleme her çerçevenin işlenmesini gerektirdiğinde, geçerli çerçevenin izleme sonucunu belirlerken, yalnızca geçerli çerçevedeki ve önceki çerçevedeki bilgiler kullanılabilir ve önceki çerçevenin izleme sonucu, geçerli çerçevenin bilgilerine göre değiştirilemez. Çevrimdışı izleme, global optimal çözümü elde etmek için sonraki çerçevelerin bilgilerinin kullanılmasına izin verir. Açıktır ki, çevrimdışı izleme ayarı gerçek uygulama senaryoları için uygun değildir, ancak bir "toplu iş" biçiminde çevrimdışı izleme (her seferinde bir dizi çerçeve elde edilir ve bu çerçevelerde genel optimum bulunur) da mümkündür, ancak Biraz gecikmeye neden olur.

İşleme yöntemine göre sınıflandırılmıştır. Üst: çevrimiçi izleme; alt: çevrimdışı izleme (resim kaynağı :)

Tipik yöntem

Aşağıdakiler, çok hedefli izleme alanındaki bazı temel ancak tipik işlerdir.

SIRALA ve Derin SIRALA

SIRALAMA (Basit Çevrimiçi ve Gerçek Zamanlı İzleme, ICIP16, A. Bewley ve diğerleri), ana akım Algılama ile İzleme çerçevesinin bir prototipidir (algılama-kodlama-eşleştirme-güncelleme) ve sonraki birçok çalışma benzer çerçevelere sahiptir. SORT'un dört temel bileşeni vardır: hedef algılayıcı, durum tahmini, veri ilişkilendirme ve izleme yönetimi - bunlar aynı zamanda Algılama ile İzleme çerçevesini izleyen birçok çok hedefli izleme algoritmasının temel bileşenleridir.

SORT, hedef dedektör olarak VGG16 omurgasına sahip Daha Hızlı R-CNN kullanır. Hedefin durumuna gelince, SIRALA, herhangi bir görünüm bilgisi kullanmadan hedefi modellemek için (aşağıdaki denklemde gösterildiği gibi) merkez koordinatlarını, alanı, en-boy oranını ve bunların değişim oranını kullanır. SIRALA, hedefin durumunu aktif olarak tahmin etmek için Kalman filtresini kullanır ve tahmin edilen sonucu gerçek tespit edilen hedef çerçeveyle eşleştirir. İzleme ve algılama arasındaki ilişki, iki taraflı bir grafik olarak kabul edilir ve iki taraflı grafiğin her bir kenarının ağırlığı, iki köşesinin IOU'su tarafından tanımlanır (sırasıyla bir izleme ve bir algılama). SORT, bu ikili grafikte en iyi eşleşmeyi bulmak için Macar algoritmasını kullanır ve yanlış eşleşmelerin sayısını azaltmak için eşleşme için minimum bir IOU eşiği belirler.

Parça yönetimi ile ilgili olarak, SORT, başarısız izi koruyacaktır

Çerçeve, eşleşemeyen algılama için yeni bir yol açın ve başlangıç durumunu ayarlayın.

DeepSORT (Deep Association Metric ile Basit Çevrimiçi ve Gerçek Zamanlı İzleme, ICIP17, N. Wojke, vd.) SIRALAMA'ya dayalı SORT yazarlarının geliştirilmiş bir sürümüdür. En büyük katkısı, eşleştirme standardı olarak hedef özellikleri çıkarmak için derin CNN'nin kullanılmasıdır. DeepSORT, hareket özellikleri için benzerlik standardı olarak Mahalanobis mesafesini ve görünüm özelliği kodlaması için benzerlik standardı olarak kosinüs mesafesini kullanır Genel benzerliği elde etmek için iki benzerlik ağırlıklı ortalamadır. Ek olarak, DeepSORT, daha yüksek son etkinliğe sahip parçaların ilk önce eşleştirilmesi için kademeli bir eşleştirme yöntemi tanımlar.

DeepSORT 2017'de zaten bir algoritma olsa da, görünen o ki, MOT16'nın genel tespitler listesinde en üst sıradaki yeri DeepSORT'un yinelenen bir versiyonu ...

IOU Tracker ve V-IOU Tracker

IOU Tracker'ın (AVSS17, E. Bochinski ve diğerleri) temel fikri şudur: kare hızı yeterince yüksekse ve algılama efekti yeterince iyiyse, önceki iki karenin hedef sınırları arasındaki IoU (Kesişim Üzerinden Birleşme) korelasyon olarak kullanılabilir. Güçlü temel. Böyle bir ayar altında, IOU Tracker görünüm bilgilerini dikkate almaz, hareket yörüngelerini tahmin etmez ve karmaşık eşleştirme algoritmaları kullanmaz.İki çerçevenin tüm sınırlarını eşleştirmek için doğrudan açgözlü bir strateji kullanır. Spesifik olarak, her çerçeveyi işlerken, izlenmekte olan her hedef için, tespit edilen çerçeve ile önceki konumu arasında en büyük IOU'ya sahip öğeyi alın IOU eşikten daha büyükse, ikisinin eşleştiği kabul edilir. Aksi takdirde maç başarısız olur. Bir tracklet eşleşemezse, hedefin ayrıldığı kabul edilir (evet, dedektörün yanlışlıkla tespit edememe olasılığı bile) değerlendirilir ve "hayatta kalma" süresi ve güvenine göre "tamamlanmış yola" eklenip eklenmeyeceğine karar verilir. İzleme kutusuyla eşleşmeyen bir algılama kutusu varsa, bu yeni bir hedef olarak kabul edilir ve yeni bir izleme çubuğu oluşturulur.

IOU Tracker (Resim kaynağı :))

fakat! Tüm umutları hedef algılayıcıya bağlamak imkansızdır. Böylece yazar, bir yıl sonra V-IOU Tracker'ı başlattı (AVSS18, E. Bochinski ve diğerleri). Bir yandan, bir izleyici karşılık gelen algılama çerçevesiyle eşleşemediğinde, artık yalnızca hedefin görüş alanını terk ettiğini düşünmez, ancak bu sırada hedefi izlemeye devam etmek için tek bir hedef izleyici başlatır. ttl Zaman geçtikten sonra (Yaşam Süresi). Öte yandan, yeni bir tracklet oluşturulduğunda, denemek için önce tek hedefli bir izleyici başlatılır. ttl Çerçevedeki hedefi arayın. Yeni tracklet ve tamamlanan parça IOU aracılığıyla eşleştirilebiliyorsa, bunlar birleştirilecektir. (Aşağıdaki şekildeki kırmızı ok yönüne dikkat edin)

V-IOU Tracker (Resim kaynağı :))

Tek hedef izleme modülünü ekledikten sonra, V-IOU Tracker'ın basit tasarımı da MOT Challenge sıralamasında iyi sonuçlar elde edebilir.

MOT-RNN

MOT problemini çözmek için derin öğrenmeyi kullanma girişimi olarak Anton Milan ve diğer büyük adamlar, hedef durum tahmini ve veri ilişkilendirmesi için RNN kullanma yöntemini önerdiler - MOT-RNN (RNN kullanarak MOT, AAAI2017, A. Milan ve diğerleri). Bu aynı zamanda çevrimiçi çok hedefli izlemeyi uçtan uca tamamlamaya çalışan ilk makaledir.

Hedefin durum tahmini sürekli bir uzay problemidir ve veri ilişkilendirmesi ayrı bir uzay problemidir.Bu iki problemin sinir ağına nasıl yerleştirileceği gerçekten bir baş ağrısıdır. Özellikle veri ilişkilendirme probleminin, çıktı sonucu için karşılanması gereken bire çok durumu gibi birçok sınırlaması vardır. Yazar, LSTM'nin doğrusal olmayan değişikliklerinin ve güçlü bellek yeteneklerinin bu sınırlamaların öğrenme yoluyla karşılanmasını sağladığına inanmaktadır.

Ne yazık ki, RNN tabanlı yöntem, benzer yöntemlerin çoğundan çok daha hızlı olmasına rağmen, izleme etkisi, gelişmiş yöntemler tarafından küçültülmüştür. Çok önemli hedeflerin görünüm modellemesi ve dedektörün optimize edilebilir parçaya nasıl ekleneceği gibi MOT-RNN'nin daha da geliştirilebileceği birçok nokta vardır.

Sol: Hedef durum tahmini için kullanılan RNN; Sağ: veri ilişkilendirme için kullanılan LSTM (eşleştirme) (resim kaynağı :)

Sonraki çalışmalarda, JDT (kısaltılmış), DMAN, DeepMOT, TBA, TAMA, vb. Gibi çoklu hedef izleme problemini çözmek için sinir ağlarını kullanmaya çalışan bazı yöntemler de olmuştur (hedef tespit için CNN kullanımı hariç). Bekle. Geleneksel algoritmalara dayalı yöntemlerle performansta hala büyük bir boşluk olsa da, yöntemlerinin yeniliği cesaretlendirmeye ve öğrenmeye değer.

Küçük bir dedikodu: Aslında, çok hedefli izleme-Çok Hedefli Çoklu Kamera İzleme (MTMCT) ile ilgili daha karmaşık bir sorun var. Bu yılın Nisan ayında, DukeMTMCT CVPR Workshop Challenge'a hala katılıyordum. Ne yazık ki kontrol edilemeyen bazı etkenler nedeniyle bu oyunun test seti piyasaya çıkamadı ve oyun ancak iptal edilebildi. Sadece bu değil, halka açık DukeMTMC eğitim seti de çevrimdışı ve yazar Ergys Ristani'nin Github'daki DeepCC kodu bile silindi. Tek hedef izleme araştırmasının başarısızlığının gölgesinden yeni çıktım. Ruh yüksek ve hatta yazar modeli eğitmek için DukeMTMC kullanmaya bile başladı. Okulu bırakma fikrim var (yüzümü örtün) ... DukeMTMC bölünmüş olsa bile, sekizden fazla tek kamera. Hedef izleme veri seti de oldukça yüksek kaliteli, geniş ölçekli bir veri setidir. Bunun gibi daha fazla veri seti varsa, veri eklemeli çok hedefli takip araştırmasının durumu ne olacak?

alakalı kaynaklar

Edebiyat

VOT literatürü harmanlama ve model etkisi sıralaması https: // github .com / foolwood / benchmark_results
MOT literatür derlemesi https: // github .com / SpyderXu / çoklu nesne izleme kağıt listesi

proje

SenseTime'ın VOT açık kaynak projesi-PySOT https: // github .com / STVIR / pysot

Veri kümesi ve sıralama

Tek hedef

LaSOT https://cis.temple.edu/lasot/
TrackingNet https://tracking-net.org/
OTB Veri Kümesi
UAV123 https://ivul.kaust.edu.sa/Pages/Dataset-UAV123.aspx
VOT Challenge

Birçok gol

PathTrack
ViDrone http: // aiskyeye .com / views / index
DukeMTMC (kapalı)
UA-DETRAC
MOT Mücadelesi https://motchallenge.net

Sütun

Derin öğrenme ve hedef takibi https: //zhuanlan.zhihu .com / DCF izleme
Çoklu hedef takibi ile başlayın https: //zhuanlan.zhihu .com / c_110221233708740 198 4

Referanslar

Bolme, DS, Beveridge, JR, Draper, BA ve Lui, YM (2010, Haziran) Uyarlanabilir korelasyon filtreleri kullanarak görsel nesne izleme 2010 yılında Bilgisayarla Görme ve Örüntü Tanıma üzerine IEEE Bilgisayar Topluluğu Konferansı (s. 2544-2550). IEEE.

Henriques, J. F., Caseiro, R., Martins, P., ve Batista, J. (2014). Çekirdekli korelasyon filtreleri ile yüksek hızlı izleme. Model analizi ve makine zekası üzerine IEEE işlemleri, 37 (3), 583-596.

Danelljan, Martin, et al. "Sağlam görsel izleme için doğru ölçek tahmini." İngiliz Makine Görme Konferansı, Nottingham, 1-5 Eylül 2014. BMVA Press, 2014.

Danelljan, M., Hager, G., Shahbaz Khan, F., and Felsberg, M. (2015). Görsel izleme için uzamsal olarak düzenlenmiş korelasyon filtrelerini öğrenmek. In Proceedings of the IEEE international Conference on computer vision (pp. 4310-4318) ).

Danelljan, Martin, et al. "Korelasyon filtresi tabanlı görsel izleme için evrişimli özellikler." IEEE Uluslararası Bilgisayar Görme Çalıştayları Konferansı Bildirileri. 2015.

Danelljan, Martin, et al. "Korelasyon filtrelerinin ötesinde: Görsel izleme için sürekli evrişim operatörlerini öğrenme." Avrupa Bilgisayarla Görü Konferansı, Springer, Cham, 2016.

Danelljan, Martin, et al. "Eko: İzleme için verimli evrişim operatörleri." Bilgisayarla görme ve örüntü tanıma üzerine IEEE konferansının bildirileri. 2017.

Bertinetto, L., Valmadre, J., Henriques, JF, Vedaldi, A., ve Torr, PH (2016, Ekim). Nesne izleme için tam evrişimli siyam ağları. Bilgisayar görüşü üzerine Avrupa konferansında (s. 850-865) Springer, Cham.

Tao, Ran, Efstratios Gavves ve Arnold WM Smeulders. "İzleme için Siyam örneği araması." Bilgisayarla görme ve örüntü tanıma üzerine IEEE konferansının bildirileri. 2016.

Li, Bo, et al. "Siyam bölgesi öneri ağı ile yüksek performanslı görsel izleme." IEEE Bilgisayarlı Görü ve Örüntü Tanıma Konferansı Bildirileri. 2018.

Zhu, Zheng ve diğerleri. "Görsel nesne izleme için dikkat dağıtıcıya duyarlı siyam ağları." Avrupa Bilgisayarla Görme Konferansı (ECCV) Bildirileri. 2018.

Zhang, Zhipeng ve Houwen Peng. "Gerçek zamanlı görsel izleme için daha derin ve daha geniş siyam ağları." IEEE Bilgisayarlı Görü ve Örüntü Tanıma Konferansı Bildirileri. 2019.

Li, B., Wu, W., Wang, Q., Zhang, F., Xing, J., and Yan, J. (2018). SiamRPN ++: Evolution of Siamese Visual Tracking with Very Deep Networks. ArXiv preprint arXiv: 181 2.1 1703 .

Nam, Hyeonseob ve Bohyung Han. "Görsel izleme için çok alanlı evrişimli sinir ağlarını öğrenmek." Bilgisayarla görme ve örüntü tanıma üzerine IEEE konferansının bildirileri. 2016.

Nam, Hyeonseob, Mooyeol Baek ve Bohyung Han. "Görsel izleme için bir ağaç yapısında cnn'lerin modellenmesi ve çoğaltılması." ArXiv ön baskı arXiv: 1608.07242 (2016).

Fan, Heng ve Haibin Ling. "Sanet: Görsel izleme için yapıya duyarlı ağ." Bilgisayarlı Görü ve Örüntü Tanıma Çalıştayları üzerine IEEE Konferansı Bildirileri. 2017.

Song, Yibing ve diğerleri. "CREST: Görsel izleme için evrişimli artık öğrenme." IEEE Uluslararası Bilgisayarlı Görü Konferansı Bildirileri. 2017.

Song, Yibing ve diğerleri. "HAYATİ: Düşmanca öğrenme yoluyla görsel izleme." IEEE Bilgisayarlı Görü ve Örüntü Tanıma Konferansı Bildirileri. 2018.

Bewley, Alex, et al. "Basit çevrimiçi ve gerçek zamanlı izleme." 2016 IEEE Uluslararası Görüntü İşleme Konferansı (ICIP). IEEE, 2016.

Wojke, Nicolai, Alex Bewley ve Dietrich Paulus. "Derin bir ilişki metriğiyle basit çevrimiçi ve gerçek zamanlı izleme." 2017 IEEE Uluslararası Görüntü İşleme Konferansı (ICIP). IEEE, 2017.

Bochinski, Erik, Volker Eiselein ve Thomas Sikora. "Görüntü bilgilerini kullanmadan yüksek hızlı algılama yoluyla izleme." 201714. IEEE Uluslararası Gelişmiş Video ve Sinyal Tabanlı Gözetim Konferansı (AVSS). IEEE, 2017.

Bochinski, Erik, Tobias Senst ve Thomas Sikora. "IOU tabanlı çoklu nesne takibinin görsel bilgilerle genişletilmesi." 201815. IEEE Uluslararası Gelişmiş Video ve Sinyal Tabanlı Gözetim (AVSS) Konferansı. IEEE, 2018.

Milan, Anton, et al. "Tekrarlayan sinir ağlarını kullanarak çevrimiçi çok hedefli izleme." Otuz Birinci AAAI Yapay Zeka Konferansı. 2017.

Kieritz, Hilke, Wolfgang Hubner ve Michael Arens. "Ortak algılama ve çevrimiçi çoklu nesne izleme." IEEE Konferansı Bilgisayarlı Görü ve Örüntü Tanıma Çalıştayları Bildirileri. 2018.

Zhu, Ji, ve diğerleri. "İkili eşleşen dikkat ağları ile çevrimiçi çok nesneli izleme." Avrupa Bilgisayarla Görme Konferansı (ECCV) Bildirileri. 2018.

Xu, Yihong ve diğerleri. "DeepMOT: Çoklu Nesne İzleyicilerin Eğitimi için Farklılaştırılabilir Bir Çerçeve." ArXiv ön baskı arXiv: 1906.06618 (2019).

He, Zhen, et al. "Animasyonla İzleme: Çok Nesneli Dikkatli İzleyicilerin Denetimsiz Öğrenimi." IEEE Bilgisayarlı Görü ve Örüntü Tanıma Konferansı Bildirileri. 2019.

Yoon, Young-Chul, et al. Online Multiple Pedestrian Tracking using Deep Temporal Appearance Matching Association. arXiv preprint arXiv:1907.00831 (2019).

Luo, Wenhan, et al. Multiple object tracking: A literature review. arXiv preprint arXiv: 140 9.7618 (2014).

Ristani, Ergys, et al. Performance measures and a data set for multi-target, multi-camera tracking. European Conference on Computer Vision. Springer, Cham, 2016.

İlk on CNN mimarisini gösterin

24 yaşında hoş geldiniz! Kuzma doğum günü fotoğraflarını yayınladı: ailesiyle en güzel doğum günü