g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Bilgisayarla görmede, daha iyi hedef izleme algoritmaları nelerdir? (açık)

Lei Feng Net Not: Bu makalenin yazarı YaqiLYU, bu makale Lei Feng Net tarafından "Computer Vision, mevcut klasik hedef izleme algoritmaları nelerdir? Sorunun altındaki cevap. Leifeng.com yeniden yazdırma yetkisine sahiptir.

Buraya gelen birçok insanın benim buraya ilk kez geldiğim gibi olduğuna inanıyorum, daha iyi bir hedef takip algoritması bulmak istiyorlar veya hedef izleme alanını daha derinlemesine anlamak istiyorlar, bu problem klasik bir hedef takip algoritması olmasına rağmen. Ama aslında, belki de bir zamanlar mükemmel olan ancak sahilde fotoğrafları çekilmiş olan izleyicilere (hedef izleme algoritmaları) ihtiyacımız olmayabilir, ancak klasik hale gelmek üzere olanlara veya kullanım, hız ve performans açısından en iyi olanlara ihtiyacımız olabilir. Geçmiş izci. Hedef takibinde ilgili filtreleme yönüne daha çok dikkat ediyorum.Sonra bildiğim hedef takibi, özellikle ilgili filtreleme yöntemlerini tanıtmanıza, daha iyi olduğunu düşündüğüm bazı algoritmaları paylaşmanıza ve bu arada görüşlerimden bahsetmenize yardımcı olacağım.

1. Bölüm: Hedef izlemeye hızlı bir genel bakış

Önce birkaç SOTA takipçisiyle tanışalım ve muhtemelen hedef izleme yönünün ne olduğunu anlayalım. Her şey 2013 yılında veri tabanıyla başlar. . Başkalarına son yıllarda hangi izleme algoritmalarının daha fazla niubility olduğunu sorarsanız, çoğu insan size Wu Yi'nin bir yazısını atacaktır. OTB50 ve OTB100 (Burada OTB50, OTB-2013'ü, burada OTB100, OTB-2015'i ifade etmektedir; sırasıyla 50 ve 100, bellek için uygun olan video sayısını temsil etmektedir):

Wu Y, Lim J, Yang M H. Çevrimiçi nesne izleme: Bir kıyaslama // CVPR, 2013.

Wu Y, Lim J, Yang M H. Nesne izleme karşılaştırması TPAMI, 2015.

En iyi derginin en önemli sayısının yanı sıra 1480 + 320'den fazla alıntıya ilişkin en iyi işleyiş açıktır. İzleme için çalıştırılması gereken bir veritabanıdır. Test kodu ve dizisi indirilebilir: Visual Tracker Benchmark, OTB50 şunları içerir 50 sıra, tümü manuel olarak etiketlenmiştir:

İki makale veri tabanında karşılaştırılıyor 2012 ve öncesinde en iyi 29 takipçi dahil , Birçoğu en iyi dergilerin başyapıtları olan tanıdık OAB, IVT, MIL, CT, TLD, Struck, vb. Daha önce tanınmış bir veritabanı olmadığı için, makaleler kendi kendine satılıyor ve övünüyor ve herkes hangisinin daha iyi olduğunu bilmiyor. Bu nedenle bu veri tabanının önemi çok önemlidir.İzleme algoritmasının gelişimini doğrudan teşvik eder.Daha sonra OTB100'e genişletildi ve TPAMI'ye gönderildi. Daha zor ve daha otoriter olan 100 sekans var.Buraya bakalım. OTB100 Sonuçlar, her şeyden önce 29 izleyicinin hızı ve yayın süresi (bazı algoritmaları daha iyi performans ve hız ile işaretledi):

Ardından, sonuçlara bakın (daha ayrıntılı bilgi için, makaleyi netlik açısından okumanızı öneririm):

Basit sonuç: ortalama olarak Struck, SCM, ASLA Performans görece yüksek, ilk üçte yer alan, bahsetmeye gerek bile yok, CSK'yı ilk kez dünyaya ilgili filtrelemenin potansiyelini göstermek için vurguluyor, Dördüncü sırada 362FPS Sadece gökyüzüne karşı. İkinci en hızlı klasik algoritmadır CT (64 fps) (SCM, ASLA, vb. O dönemin en sıcak seyrek temsilleridir). Daha önceki algoritmalarla ilgileniyorsanız, başka bir klasik anket tavsiye ederim (ilgilenmiyorum ve yine de okumadım):

Yılmaz A, Javed O, Shah M. Nesne izleme: Bir anket CSUR, 2006.

2012'den önceki algoritma temelde şu şekildedir. 2012'de AlexNet'in ortaya çıkışından bu yana, CV çeşitli alanlarda muazzam değişikliklere uğradı, bu nedenle 2013'ten 2017'ye ne olduğunu hala bilmek istemelisiniz, üzgünüm bilmiyorum (satmama izin verin Bir anahtar), ancak 2013'ten sonraki makalelerin kesinlikle OTB50 kağıdına atıfta bulunacağından emin olabiliriz. Google Akademik'te alıntı sayma işlevi , Aşağıdaki sonuçları alın:

İşte sırayla en iyi alıntılardan sadece birkaçı Çarptı TPAMI'ye göre, üç ilgili filtreleme yöntemi KCF, CN, DSST ve VOT rekabet , İşte sadece bir gösteri, eğer ilgileniyorsanız, kendiniz deneyebilirsiniz. ( Bunun teorik temeli şudur: : Bir makale için, önceki çalışmasına ve sonraki çalışma için kimin alıntı yaptığına bakabilirsiniz; alıntı sayısı hiçbir şeyi açıklamasa da, herkes temelde iyi yöntemlerden alıntı yapacaktır (saygı ve onay) ; Daha sonra sınırlı bir süre ile ilgili makaleleri de belirli bir süre görüntüleyebilirsiniz.Örneğin 2016-2017 yılındaki son makaleleri bulabilirsiniz.Kağıtların kalitesine gelince, dikkatlice taramanız gerekir; diğer yönlerdeki önemli makaleler de bu şekilde kullanılabilir. Daniel'lerin kim olduğunu bilin ve ardından çalışmalarını izlemeye dikkat edin) Bu şekilde, hedef izleme alanındaki en son gelişmenin ilgili filtreleme olması gerektiğini genel olarak biliyoruz ve gelecekte ilgili filtreleme algoritmalarını görebiliriz. SAMF, LCT, HCF, SRDCF ve daha fazlası. Elbette atıf sayısı da zamanla ilgilidir ve her yıl bakılması tavsiye edilir. Ek olarak, OPENCV3.2'nin en son sürümü, TLD'ye ek olarak, çok sayıda yeni izleme algoritması da içerir OpenCV: İzleme API'si:

TrackerKCF arayüzü uygulandı KCF ile CN Etkisi görülebiliyor, derin öğrenmeye dayalı başka bir GOTURN yöntemi var, hız hızlı olmasına rağmen doğruluk biraz daha kötü, kontrol etmeye değer. İzleme yönündeki en son makaleler, üç ana konferans (CVPR / ICCV / ECCV) ve arXiv ile takip edilebilir.

Bölüm 2: Arka Plana Giriş

Ardından, genel olarak hedef takibini tanıtacağız. . Burada bahsedilen hedef takibi genel bir tek hedef takibidir.İlk kare dikdörtgen bir kutuya verilir.Bu kutu veri tabanında manuel olarak işaretlenir.Gerçek durumlarda, çoğunlukla algılama algoritmasının sonucudur.O zaman izleme algoritmasının sonraki çerçeveleri takip etmesi gerekir. Bu kutunun içinde kalarak, izleme algoritmaları için VOT gereksinimleri şunlardır:

Genellikle izleme yüzlerini hedefleyin Birkaç zorluk (Wu Yi VALSE Slaytlar): Görünüm bozulması, ışık değişiklikleri, hızlı hareket ve hareket bulanıklığı, benzer arka plan paraziti:

Düzlem dışı döndürme, düzlem içi döndürme, ölçek değişiklikleri, tıkanma ve görünüm dışı vb.

Tam da bu koşullar nedeniyle izleme zorlaşır. Şu anda, daha yaygın kullanılan veritabanları OTB Ve daha önce bulunanlar OY Yarışma veritabanı (analog ImageNet) dört yıldır tutulmaktadır.Hem VOT2015 hem de VOT201660 sekans içerir ve tüm sekansları indirmek de ücretsizdir. VOT Challenge | Zorluklar:

Kristan M, Pflugfelder R, Leonardis A, ve diğerleri. VOT2013 meydan okuma sonuçlarını izleyen görsel nesne // ICCV, 2013.

Kristan M, Pflugfelder R, Leonardis A, ve diğerleri. Görsel Nesne İzleme VOT2014 Mücadelesi Sonuçları // ECCV, 2014.

Kristan M, Matas J, Leonardis A, ve diğerleri. VIT2015 meydan okuma sonuçlarını izleyen görsel nesne // ICCV, 2015.

Kristan M, Ales L, Jiri M, vd. Görsel Nesne İzleme VOT2016 Mücadelesi Sonuçları // ECCV, 2016.

OTB ve VOT arasındaki fark : OTB,% 25 gri tonlama dizisi içerir, ancak VOT, birçok renk özelliği algoritmasının performans farkının nedeni olan renk dizisidir; iki kitaplığın değerlendirme göstergeleri farklıdır, lütfen ayrıntılar için kağıda bakın; VOT kitaplığının dizi çözünürlüğü genellikle daha yüksektir Yüksek, bu noktadan daha sonra analizde bahsedilecektir. Bir izleyici için, makalenin her iki kitaplıkta da iyi sonuçları varsa (tercihen OTB100 ve VOT2016), çok iyi olmalıdır (iki kitaplığın parametrelerini ayarlayabilirsiniz, alacağım, tanıyacağım ~~), Sadece bir tane koşsaydınız, VOT2016'ya daha yatkın olurdum, çünkü dizilerin tamamı ince bir şekilde etiketlenmiş ve değerlendirme göstergeleri daha iyi (sonuçta bunlar yarışmalardır ve değerlendirme göstergeleri TPAMI'ye gönderilmiştir). En büyük fark OTB'nin rastgele bir çerçeve başlangıcı veya bir dikdörtgen çerçeve artı çalıştırılacak rastgele girişim başlatma özelliği vardır.Yazar, bunun algılama algoritması tarafından verilen çerçeveye daha uygun olduğunu söyledi; VOT, çalıştırılacak ilk çerçeve iken ve her izleme başarısız olur (tahmin çerçevesi ve etiket çerçevesi çakışmaz) ), 5 kareden sonra yeniden başlatma, VOT esas olarak kısa sürelidir ve izleme tespitinin birlikte olması ve ayrılmaması gerektiği ve detektörün izleyiciyi birden çok kez başlatacağı düşünülmektedir.

Ek: OTB 2013 yılında yayınlandı. 2013'ten sonraki algoritmalar şeffaftır ve makaleler, özellikle sadece OTB çalıştıran kağıtlar ayarlanacaktır. Anahtar parametreler doğrudan verilir ve iki ondalık basamağa kadar doğruysa, önce test etmeniz önerilir (Eski değil ~ çok çekirdeksiz). OY Yarışmanın veri tabanı her yıl güncellenmekte ve her seferinde yeniden etiketlenmekte ve değerlendirme indeksi her seferinde değiştirilmektedir.Yılın algoritması için daha zordur, dolayısıyla sonuç nispeten daha güvenilirdir. (Pek çok insanın benim gibi olduğuna inanıyorum. Her makaleyi okumak, bu çalışmanın çok iyi ve önemli olduğunu hissedecek. Bu makale olmadan, dünya patlayacak ve evren yeniden başlayacak ~~ Tıpkı herkesin yıllar boyunca ILSVRC yarışmasının sonuçlarının derinliğini bildiği gibi. Öğrenmenin gelişimi gibi, üçüncü taraf sonuçları daha ikna edicidir, bu nedenle standart olarak rekabet sıralaması + açık kaynak kodu + ölçülen performansı kullanıyorum ve birkaç algoritma analizini tercih ediyorum)

Görsel Nesne Takibi , Genel olarak iki kategoriye ayrıldığı kabul edilmektedir: Nesil (üretken) Model yöntemi ve Ayrımcı Model yöntemi, en popüler olanı, algılama yoluyla izleme olarak da adlandırılan ayrımcı yöntemdir Cevabın bütünlüğünü korumak için, aşağıda kısa bir giriş yer almaktadır.

Sınıf yöntemi oluştur , Geçerli çerçevede hedef alanı modelleyin ve sonraki çerçevede modele en benzer alanı bulun, tahmin edilen konumdur. Daha ünlü olanlar Kalman filtresi, parçacık filtresi, ortalama kayma vb. Örneğin, mevcut çerçeveden hedef alanın% 80'inin kırmızı ve% 20'nin yeşil olduğu biliniyor ve ardından bir sonraki çerçevede, arama algoritması, bu renk oranına en uygun alanı bulmak için her yerde başsız bir sinek gibi, önerilen algoritma ASMSvojirt / asms :

Vojir T, Noskova J, Matas J. İzleme için sağlam, ölçeğe uyarlanabilir ortalama kayma Örüntü Tanıma Mektupları, 2014.

ASMS karşı DAT "Renk ikilisi" olarak da bilinen (telif hakkı kopyası araştırılmalıdır), yalnızca renk özelliklerine sahip algoritmalardır ve çok hızlıdırlar VOT2015'te 20. ve 14. sırada ve VOT2016'da sırasıyla 32 ve 31 (orta seviye) sıradadırlar. ASMS, VOT2015 tarafından resmi olarak önerilen gerçek zamanlı algoritmadır, ortalama kare hızı 125FPS , Klasik ortalama kaydırma çerçevesinde, ölçek tahmini ve klasik renk histogram özellikleri eklenir ve normal terimler olarak iki öncelik (ölçek büyük ölçüde değişmemiş + olası maksimum sapma) ve ters ölçek tutarlılık kontrolü eklenir. Yazar C ++ kodunu verdi.İlgili filtreleme ve derin öğrenme çağında, ortalama kaydırma sıralamasını ve bu kadar yüksek bir maliyet performansını görmek kolay değil.Ölçülen performans fena değil. Üretken yöntemler konusunda zayıf bir noktanız varsa , Bunu denemeniz şiddetle tavsiye edilir.

Ayrımcı yöntem , OTB50'deki yöntemlerin çoğu bu tiptedir, CV'de klasik bir rutin Görüntü özellikleri + makine öğrenimi , Geçerli çerçeve hedef alanı pozitif örnek olarak ve arka plan alanını negatif örnek olarak alır. Makine öğrenimi yöntemi sınıflandırıcıyı eğitir ve sonraki çerçeve, en uygun alanı bulmak için eğitimli sınıflandırıcıyı kullanır:

Oluşturulan sınıf yönteminden en büyük farkı, sınıflandırıcının makine öğrenimini kullanması ve arka plan bilgisinin eğitimde kullanılmasıdır, böylece sınıflandırıcı ön plan ile arka planı ayırt etmeye odaklanabildiğinden, ayrımcı sınıf yöntemi genellikle oluşturulan sınıftan daha iyidir. Örneğin eğitim sırasında izleyiciye hedefin% 80'inin kırmızı ve% 20'nin yeşil olduğunu söyledim.Ayrıca arka planda turuncu olduğunu söyledim. Lütfen hata yapmamaya özellikle dikkat edin.Böyle bir sınıflandırıcı daha fazla bilgi bilir ve etki görece daha iyidir. bu iyi. algılama yoluyla izleme ile Algılama algoritması Klasik yaya algılama için HOG + SVM gibi çok benzer, Çarptı Haar + yapılandırılmış çıktı SVM'si kullanılır ve çok ölçekli çapraz arama, izlemede ölçek uyarlaması için de gereklidir.Tek fark, izleme algoritmasının daha yüksek hızda özellik ve çevrimiçi makine öğrenimi gerektirmesi ve algılama aralığı ve ölçeğinin daha küçük olmasıdır. Bu beklenmedik bir durum değildir. Çoğu durumda, algılama ve tanıma algoritmasının karmaşıklığı nispeten yüksektir ve bunu her karede yapmak imkansızdır. Şu anda, daha düşük karmaşıklığa sahip bir izleme algoritması kullanmak uygundur. Yalnızca izleme başarısız olduğunda (sapma) veya belirli bir aralık olduğunda izlenmesi gerekir. İzleyiciyi gelecekte başlatmak için tekrar kontrol edin. Aslında sadece şunu söylemek istedim: FPS en önemli göstergedir, TMD en önemli göstergedir, yavaş ve ölmekte olan algoritmalar ölebilir (Öğrenciler o kadar aşırı değildir, hız optimize edilebilir). Klasik ayırt edici yöntem önerisi Çarptı ile TLD Gerçek zamanlı performans tamam, Struck 2012'den önceki en iyi yöntemdir, TLD klasik uzun vadenin temsilcisidir, fikir öğrenmeye çok değerdir:

Hare S, Golodetz S, Saffari A ve diğerleri Struck: Çekirdeklerle yapılandırılmış çıktı takibi IEEE TPAMI, 2016.

Kalal Z, Mikolajczyk K, Matas J. İzleme-öğrenme-algılama IEEE TPAMI, 2012.

Yangtze Nehri'nin arka dalgası ön dalgayı iter, ön dalga sahile dizildi, bu arka dalga Korelasyon filtreleme Ve derin öğrenme. Korelasyon filtre yöntemi kısaca CF olarak adlandırılır ve ayırt edici korelasyon filtresi kısaca DCF olarak adlandırılır.Aşağıdaki DCF algoritmasından daha sonra tanıtılacak olan yukarıda belirtilenler de dahil olmak üzere farklı olduğunu unutmayın. Derin öğrenme (Deep ConvNet tabanlı) yöntemi, derin öğrenme şu anda iniş için uygun olmadığından körü körüne tavsiye edilmez.VOT2015 şampiyonu olan birkaç Naiyan Wang-Home of Winsty ve MDNet Learning Multi-Domain Convolutional Neural Networks for Visual Tracking'e başvurabilirsiniz. Ve VOT2016'nın şampiyon TCNN'si, 80FPS SiamFCSiameseFC izci ve 100FPS GOTURNdavheld / GOTURN gibi hız açısından daha öne çıkan, hepsinin GPU'da olduğunu unutmayın. ResNet tabanlı SiamFC-R (ResNet) VOT2016'da iyi performans gösterdi ve takip geliştirme konusunda oldukça iyimser. İlgileniyorsanız, VALSE'ye giderek yazarın VALSE-20160930-LucaBertinetto-Oxford-JackValmadre-Oxford-pu hakkındaki kendi açıklamasını da dinleyebilirsiniz. GOTURN'e gelince, etki nispeten zayıftır. Ancak avantajı, 100FPS'de çok hızlı çalışabilmesidir.Etkisinin gelecekte de artması harika olur. Derin öğrenme, bilimsel araştırma yapan öğrenciler için anahtardır ve hızı hesaba katmak daha iyidir.

Nam H, Han B. Görsel izleme için çok alanlı evrişimli sinir ağlarını öğrenme // CVPR, 2016.
Nam H, Baek M, Han B. Görsel izleme için bir ağaç yapısında cnns modelleme ve yayma . arXiv ön baskı arXiv: 1608.07242, 2016.
Bertinetto L, Valmadre J, Henriques J F, vd. Nesne izleme için tam evrişimli siyam ağları // ECCV, 2016.
Düzenlenen D, Thrun S, Savarese S. Derin regresyon ağları ile 100 fps'de izlemeyi öğrenmek // ECCV, 2016.

Son olarak, derin öğrenmenin güçlü gücü END2END, hedef izleme yönünde kullanılmaktan çok uzaktır ve ilgili filtreleme yöntemlerinden çok da farklı değildir (yavaş hız doğuştan gelir ve sizi suçlamıyorum, ancak etki her zaman iyi olmalıdır, aksi takdirde Varoluşun anlamı nedir? Devrim henüz başarılı olmadı, yoldaşların hala çok çalışması gerekiyor). Dikkat edilmesi gereken bir diğer konu da hedef takip veri tabanının sıkı eğitim ve test setlerine sahip olmamasıdır.Çevrimdışı eğitim gerektiren derin öğrenme yöntemi, eğitim setinin benzer sıralara sahip olup olmadığına çok dikkat etmelidir ve VOT2017 yetkilisi bunun kısıtlanması gerektiğini belirtene kadar değildi. Eğitim seti, modeli eğitmek için benzer sıralar kullanamaz.

Son olarak, iki kaynak şiddetle tavsiye edilir. Wang Qiang tarafından sürdürülen Benchmark_results: OTB kitaplığındaki çok sayıda en iyi yöntemin performans karşılaştırması, her tür kağıt kod, C ++ ve açık kaynak Tanrı tarafından uygulanan CSK, KCF ve DAT ve kendi DCFNet kağıdı artı kaynak kodu, bir yol bulamayan öğrenciler Lütfen takip et.

@H Hakase, ilgili filtreleme kaynaklarını, ayrıntılı sınıflandırmayı ve kağıt kodu kaynaklarını korur, geçtiğinizde kaçırmayın, ilgili filtreleme algoritmaları çok kapsamlı ve çok dikkatli!

Bölüm 3: Korelasyon Filtreleme

En klasik yüksek hızlı korelasyon filtreleme izleme algoritmaları CSK, KCF / DCF, CN'yi tanıtın. Benim gibi KF'yi ilk öğrenen birçok kişi aşağıdaki resimden etkilenir:

Bu, OTB50'deki KCF / DCF algoritmasıdır ( ArVix, Nisan 2014'te bağlandı , O zaman, OTB100 henüz yayınlanmadı.) Deneysel sonuçlar, Precision ve FPS, OTB50'de en iyi Struck'u ezdi, zar zor gerçek zamanlı Struck ve TLD'yi görüyordum ve yüksek hızlı KCF / DCF, insanları aniden inanılmaz hale getirdi. Aslında, KCF / DCF, OTB'de parlayan CSK'nın çok kanallı özelliğinin geliştirilmiş bir sürümüdür. 615FPS'lik ultra yüksek hızda MOSSE'ye dikkat edin (şiddetli hız, biletinizdir) Bu, hedef izleme alanındaki ilk ilgili filtreleme yöntemidir. Bu, aslında ilgili filtrelemenin potansiyelinin ilk kez gösterilmesidir. KCF ile aynı dönemde bir de CN vardı. 2014'CVPR'de şiddetli tepkiye neden olan renk özelliği yöntemi aslında CSK'nın çok kanallı renk özelliği iyileştirme algoritmasıdır. MOSSE'den (615) CSK'ya (362) KCF (172FPS), DCF (292FPS), CN (152FPS), CN2 (202FPS) , Hız gittikçe yavaşlasa da, etki gittikçe daha iyi hale geliyor ve her zaman yüksek hız seviyesinde tutuldu:

Bolme D S, Beveridge J R, Draper B A, ve diğerleri. Uyarlanabilir korelasyon filtreleri kullanarak görsel nesne izleme // CVPR, 2010.
Henriques J F, Caseiro R, Martins P, vd. Çekirdeklerle algılama yoluyla izleme dolaşım yapısını kullanma // ECCV, 2012.
Henriques J F, Rui C, Martins P, vd. Kernelized Correlation Filters ile Yüksek Hızlı İzleme IEEE TPAMI, 2015.
Danelljan M, Shahbaz Khan F, Felsberg M, vd. Gerçek zamanlı görsel izleme için uyarlanabilir renk özellikleri // CVPR, 2014.

Hem CSK hem de KCF, Henriques JF (Oxford Üniversitesi) João F. Henriques'dir. Sırayla iki makalesi vardır ve bunlar, sırt regresyonunun çekirdek kısmı, döngüsel kaymaların yaklaşık yoğun örneklemesi ve tüm korelasyon filtreleme algoritmasının ayrıntıları gibi daha sonraki birçok çalışmayı etkilemiştir. Türetin. Ayrıca mahya regresyonunun kapalı çözümleri artı çekirdek-hileli, çok kanallı HOG özellikleri de vardır.

Martin Danelljan (Linköping Üniversitesi), CSK'yı genişletmek ve iyi sonuçlar almak için çok kanallı renk özelliğini Color Names (CN) kullandı. Algoritma ayrıca CN .

MOSSE, tek kanallı gri özelliklerin korelasyon filtrelemesidir. CSK, MOSSE temelinde yoğun örneklemeyi (artı doldurma) ve çekirdek numarasını genişletir. KCF, CSK temelinde çok kanallı gradyanın HOG özelliğini genişletir. CN, CSK'ya dayanır. Çok kanallı renkler için Renk Adları genişletildi. HOG bir gradyan özelliği iken, CN bir renk özelliğidir.İkisi birbirini tamamlayabilir, bu nedenle HOG + CN, son iki yılın izleme algoritmasında el işçiliğinin standart özelliği haline gelmiştir. Son olarak, KCF / DCF'nin deneysel sonuçlarına dayanarak, iki konu tartışılmaktadır:

1. Yalnızca tek kanallı gri tonlama özelliklerini kullanan KCF ile çok kanallı HOG özelliklerini kullanan KCF arasındaki hız farkı neden çok küçük?

İlk olarak yazar, Piotr'ın Computer Vision Matlab Araç Kutusu, C kodu ve SSE optimizasyonundan HOG'un hızlı algoritması fHOG'u kullanıyor. FHOG hakkında sorularınız varsa, lütfen Ayrımcı Olarak Eğitilmiş Parça Tabanlı Modellerle Kağıt Nesne Algılama'nın 12. sayfasına bakın. İkincisi, HOG özelliklerinin yaygın olarak kullanılan hücre boyutu 4'tür; bu, 100 * 100 görüntü için HOG özellik haritasının boyutunun yalnızca 25 * 25 olduğu, Ham piksellerin gri tonlamalı görüntünün normalleştirilmesi ve boyutun hala 100 * 100 olduğu anlamına gelir. Basit bir hesaplama yapalım: 27 kanallı HOG özelliğinin karmaşıklığı 27 * 625 * log (625) = 47180 ve tek kanallı gri tonlama özelliğinin karmaşıklığı 10000 * log (10000) = 40000'dür, bu teorik olarak benzer ve tabloya uygundur.

Koda baktığınızda, genişlemeden sonra hedef alanın alanı geniş olduğunda yazarın çıkarılan görüntü bloğunu 2 ila 50 * 50 faktörle alt örneklemesini göreceksiniz, böylece karmaşıklık 2500 * log (2500) = 8495 olur. , Çok düştü. Ardından, biraz daha alt örnekleme yaparsanız karmaşıklığın daha düşük olacağını düşünebilirsiniz, ancak bu, izleme doğruluğundan ödün verir.Örneğin, görüntü bloğunun alanı 200 * 200 ise, ilk alt örneklemi 100'e * 100 ve ardından HOG özelliğini çıkarın, çözünürlük 25 * 25'e düşürülür, bu da yanıt haritasının çözünürlüğünün de 25 * 25 olduğu anlamına gelir, yani yanıt haritası her 1 piksel kaydırıldığında, orijinal görüntüdeki izleme çerçevesi hareket etmelidir 8 İzleme doğruluğunu azaltan pikseller. Doğruluk gereksinimleri yüksek olmadığında, kare hızını artırmak için doğruluktan biraz ödün verebilirsiniz (ancak altörnekleme gerçekten imkansız gibi görünüyor).

2. Hangisi daha iyi, HOG özellikli KCF veya DCF?

Çoğu insan KCF etkisinin DCF'yi aştığını ve her bir özelliğin doğruluğunun DCF'den daha yüksek olduğunu düşünür. Bununla birlikte, buna başka bir açıdan bakarsanız, DCF'yi kıyaslama olarak alın ve ardından KCF'ye çekirdek-trick ile bakarsanız, ortalama hassasiyet yalnızca geliştirilir. % 0.4 ve FPS% 41 düştü. Bu şaşırtıcı değil mi? Görüntü bloğundaki toplam piksel sayısına ek olarak, KCF'nin karmaşıklığı esas olarak çekirdek numarasıyla ilgilidir. Bu nedenle, aşağıdaki CF yöntemi Çekirdek numarası yoksa, kısaca DCF'ye dayanır, Kernel-trick eklenirse, kısaca KCF'ye dayalı olacaktır. (Spoiler temelde ikiye bölünmüştür). Tabii ki, buradaki CN'nin de bir çekirdek numarası var, ancak bunun Martin Danelljan'ın ilk kez ve en son kernel-trick'i kullandığını lütfen unutmayın. . .

Bu bir soruya yol açacak, böylesine güçlü bir çekirdek numarası nasıl geliştirilebilir? Burada Winsty'nin başka bir şaheserinden bahsetmeliyim:

Wang N, Shi J, Yeung D Y, et al. Görsel izleme sistemlerini anlama ve teşhis etme // ICCV, 2015.

Bir cümlelik özet, Çeşitli makine öğrenimi yöntemlerinden bağımsız olarak, hepsi sanaldır ve hedef izleme algoritmasındaki özellikler en önemlisidir (Bu makale nedeniyle WIN amca haha hayranıyım), yukarıdakiler en klasik üç yüksek hızlı algoritmadır, CSK, KCF / DCF ve CN önerilir.

Bölüm 4: 14 yıllık ölçek uyarlaması

VOT ve OTB ilk olarak 2013'te ortaya çıktı, ancak VOT2013 dizisi çok azdı ve ilk sıradaki PLT kodu bulunamadı, bu yüzden referans değeri olmadan atladım. Doğrudan VOT2014 yarışmasına ( Bu yıl, özenle seçilmiş 25 sekans ve 38 algoritma vardı. O zamanlar, derin öğrenme savaşı henüz takip etmeye yanmamıştı, bu nedenle kahramanı sadece yeni ortaya çıkan ve partiye hakim olan CF olabilirdi. Aşağıdakiler en iyiler. Detaylar:

İlk üçü birbiriyle ilgili filtreleme CF yöntemleridir ve üçüncü KCF zaten aşinadır.Buradaki küçük fark, çok ölçekli tespit ve alt piksel tepe tahmininin yanı sıra VOT dizisinin daha yüksek çözünürlüğüdür (güncellenmiş görüntülerin tespiti) Bloğun çözünürlüğü nispeten yüksektir), bu da rekabetteki KCF hızının sadece 24.23 (EFO dönüşümü 66.6FPS) olmasına neden olur. Burada hız EFO'dur (Eşdeğer Filtre İşlemleri). Bu parametre aynı zamanda VOT2015 ve VOT2016'daki algoritmanın hızını ölçmek için de kullanılır. Referans için burada listelenmiştir (MATLAB tarafından uygulanan izleyicinin gerçek hızı daha yüksektir):

Aslında, ilk üçün biraz farklı özelliklerine ek olarak, çekirdek, çok ölçekli algılamanın genişlemesine dayanan KCF'dir, özet şu şekildedir:

Ölçek değişikliği Bu, izlemede nispeten temel ve yaygın bir sorundur. Yukarıda bahsedilen KCF / DCF ve CN'nin ölçek güncellemesi yoktur. Hedef küçültülürse, filtre çok sayıda arka plan bilgisi öğrenecektir. Hedef büyütülürse, filtre hedefin yerel dokusunu takip edecektir. Her iki durumda da, beklenmedik sonuçların meydana gelmesi muhtemeldir, bu da sürüklenmeye ve başarısızlığa yol açar.

SAMF , Zhejiang Üniversitesi Yang Linin KCF temelli çalışması, HOG + CNnin yer aldığı çok ölçekli yöntem, çeviri filtresinin çok ölçekli yakınlaştırılmış görüntü bloğunda hedef algılaması yapması ve en büyük yanıtla çeviri konumunu ve ölçeğini almasıdır:

Li Y, Zhu J. Özellik entegrasyonuna sahip bir ölçek uyarlamalı çekirdek korelasyon filtresi izleyici // ECCV, 2014.

Martin Danelljan DSST Yalnızca HOG özelliği kullanılır, DCF, translasyonel konum tespiti için kullanılır ve MOSSE'ye benzer bir ilgili filtre, ölçek değişikliklerini tespit etmek, bir çeviri filtresi + ölçek filtresi oluşturmak ve ardından bir dizi hızlandırılmış sürüm yapmak için TPAMI'ye aktarılmak üzere özel olarak eğitilmiştir. fDSST , Çok + çok + çok önerilir:

Danelljan M, Häger G, Khan F, vd. Sağlam görsel izleme için doğru ölçek tahmini // BMVC, 2014.
Danelljan M, Hager G, Khan F S, vd. Ayrımcı Ölçekli Uzay İzleme IEEE TPAMI, 2017.

Bu iki ölçek uyarlama yönteminin basit bir karşılaştırması:

DSST ve SAMF tarafından benimsenen ölçek algılama yöntemi daha iyidir?

Size bir şaka söyleyeyim: Martin Danelljan'ın DSST'yi önermesinin ardından, takip belgeleri hiç kullanılmadı (en son CVPR ECO-HC hızlanmak için fDSST kullanana kadar).

Hem SAMF hem de DSST ortak hedef ölçeği değişikliklerine ayak uydurabilse de, SAMF'nin nispeten kaba olan yalnızca 7 ölçeği varken, DSST'nin nispeten ince ve doğru olan 33 ölçeği vardır;

DSST önce en iyi çeviriyi algılar ve ardından adım adım en iyi olan en iyi ölçeği tespit ederken, SAMF çeviri ölçeğini birlikte algılar ve çeviri ve ölçek aynı anda optimize edilir ve yerel optimal ve global optimal genellikle farklıdır;

DSST, izlemeyi iki probleme ayırır: çeviri izleme ve ölçek izleme. Farklı yöntemler ve özellikler kullanılabilir, bu daha esnektir, ancak ek bir filtre gereklidir. Her çerçeve ölçeği algılamasının 33 görüntü bloğunu örneklemesi ve ardından özellikleri hesaplaması ve Pencere, FFT vb., Ölçek filtresi çeviri filtresinden çok daha yavaştır; SAMF yalnızca bir filtreye ihtiyaç duyar, ek eğitim ve depolamaya gerek yoktur ve özellik ve FFT, her ölçek algılaması için bir kez çıkarılır, ancak görüntü bloğu büyük olduğunda hesaplama miktarı daha fazladır DSST yüksektir.

Dolayısıyla standart tespit DSST'si her zaman SAMF'den daha iyi değildir, aslında SAMF, VOT2015 ve VOT2016'da DSST'yi aşıyor Tabi bunun sebebi özelliklerin daha iyi olması ama en azından ölçek yönteminin kötü olmadığını gösteriyor. Genel olarak, DSST yaklaşımı çok yeni ve daha hızlıdır ve SAMF eşit derecede iyi ve daha doğrudur.

DSST'nin 33 standardı olması gerekir mi?

DSST'nin standart 33 ölçeği çok hassastır ve ölçek sayısını azaltmak kolaydır.İlgili adım uzunluğunu artırsanız bile, ölçek filtresi ölçek değişikliklerine yetişmeyecektir. Bu noktanın olası açıklaması, eğitim ölçeği filtresinin tek boyutlu örnekler kullanması ve döngüsel bir kayma olmaması, yani bir eğitim güncellemesinde yalnızca 33 örnek olduğu anlamına gelir.Örnek sayısı azalırsa, yetersiz eğitime ve sınıflandırıcıda ciddi ayrımcılıklara neden olur. Çok sayıda vardiya örneğine sahip olan çeviri filtresinden farklı olarak reddedin (kişisel görüşler iletilebilir). Kısacası, lütfen ölçek sayısını büyük ölçüde azaltmaya çalışmayın, eğer 33 ve 1.02 ölçek filtrelerini kullanmanız gerekiyorsa, harika olacaktır.

Yukarıdakiler önerilen iki ölçek tespit yöntemidir. DSST benzeri çok ölçekli ve SAMF benzeri çok ölçekli olarak kısaltılmıştır . Hız daha önemliyse, fDSST'nin hızlandırılmış versiyonu ve sadece 3 standardın SAMF'si (VOT2014 gibi) KCF ) Daha iyi bir seçimdir; Doğruluğa daha fazla vurgu yapılırsa, 33 ölçekli DSST ve 7 ölçekli SAMF daha uygundur.

(Devam edecek)

2018'de Chongqing'i Taşıyan İnsanlarHe Bo: Güzel kırsal alanlar inşa eden "Halk Nehri Şefi"

"Garip Çiçekler" Zhang Ruoyun, Ma Sichun'la dalga geçerek "eski bir sürücü" oluyor, Ouhao bunu biliyor mu?