"ICCV hedef izleme performansı en iyisidir" Kalan öğrenmeyi kullanan ilk derin hedef izleme algoritması

1 Xinzhiyuan raporu

Hedef izleme endüstrisi lideri ve UC Merced'den Profesör Yang Mingxuan'ın rehberliğinde, Hong Kong Şehir Üniversitesi, Adelaide Üniversitesi ve SenseNet'ten araştırmacılar, özellikleri çıkaran ve bunlara yanıt veren derin öğrenme perspektifinden uçtan uca bir izleme modeli önerdi. Derin öğrenme çerçevesinde, yalnızca tek katmanlı bir uçtan uca evrişim yapısını kullanarak füzyon oluşturmak, derin özellikleri kullanarak geleneksel bir işbirliğine dayalı filtrenin etkisini elde eder.

Bu temelde, araştırmacılar aynı zamanda hedef harekette modelin tahmin performansını etkin bir şekilde sürdürmek için artık öğrenmeyi de başlattı.Bu, artık öğrenme kavramının hedef izleme alanında kullanıldığı ilk kez. Deneyler, yeni yöntemin standart bir veri tabanında son teknoloji doğruluğa ulaştığını gösteriyor. Bu çalışma, Ekim ayı sonunda İtalya'nın Venedik kentinde düzenlenen bilgisayarla görme zirvesi ICCV 2017'de dünyanın dört bir yanındaki bilim insanlarına sunulacak. Xinzhiyuan, öncelikle içeriği hakkında özel olarak rapor veriyor.

Nesne izleme, bilgisayarla görmede her zaman yaygın olarak kullanılan ve zorlu bir sorun olmuştur. Basitçe ifade etmek gerekirse, hedef izleme, birinci karedeki hedef nesnenin konum ve boyut bilgileri (kalibrasyon çerçevesi) verildiğinde, izleme algoritmasının, sonraki her çerçevede hedef nesnenin konumunu ve boyutunu tahmin etmesine izin veren bir videodur.

İzleme algoritması, hedef nesnenin durumunu gerçek zamanlı olarak belirler ve bu, daha fazla akıllı analiz için bir ön koşul sağlar. Hedef izleme teknolojisi, güvenlik, insan-bilgisayar etkileşimi ve insansız sürüş gibi bir dizi alanda uygulamalara sahiptir.

Güvenlik izleme senaryolarında yaya izleme ve yörünge tahmini

İnsan-bilgisayar etkileşiminde insan hareketlerinin izlenmesi ve tanınması

İnsansız sürüşte yakındaki araçların izlenmesi ve takip edilmesi

Pratik uygulamalarda, hedef izleme algoritmasının etkisi birçok faktör tarafından sınırlandırılır ve esas, videodaki nesnedeki çeşitli öngörülemeyen değişikliklerden kaynaklanır. Tipik kısıtlamalar şunları içerir:

Nesnenin aydınlatması, videodaki ilk kareden geçerli kareye büyük ölçüde değişir

Videodaki nesnenin duruşu çok değişti

Nesne videoda kısmen veya küresel olarak tıkanmış

Videoda benzer arka planlara sahip nesnelerin karıştırılması (hedef arabanın arka lambaları ve yaklaşan arabanın farları)

Videodaki nesnenin boyutu önemli ölçüde değişti

Gerçekte hedef takibini kısıtlayan birçok faktör vardır. Bu faktörlerin olumsuz etkilerinin üstesinden gelmek için, mevcut ana akım izleme algoritmaları çoğunlukla derin evrişim özelliklerinin ve geleneksel işbirliğine dayalı filtrelemenin bir kombinasyonunu kullanır. Performans iyileştirilmiş olmasına rağmen, derin öğrenmenin mimari avantajları tam olarak kullanılmamıştır (HCFT, DeepSRDCF, C-COT gibi).

Öte yandan, izleme problemini nesne algılama (MDNet) ve doğrulama (SINT) ile başa çıkmanın bir yoluna dönüştüren bazı derin öğrenme modelleri vardır. Ancak bu yöntem, eğitim için ek izleme videoları kullanmadan işbirliğine dayalı filtreleme ile aynı doğruluğa sahip değildir.

Aşağıda derin öğrenme perspektifinden tanıtılacak çalışma, uçtan uca bir izleme modeli önermekte ve hedef harekette modelin tahmin performansını etkin bir şekilde sürdürmek için artık öğrenmeyi kullanmaktadır Durum, standart veri tabanında elde edilmektedir. son teknoloji hassas etki. Kalan öğrenmenin hedef izlemeye ilk uygulaması olan mükemmel performansı ve yenilikçi yöntemi göz önüne alındığında, bu çalışma ICCV 2017 tarafından kabul edildi.

"CREST" (Görsel İzleme için Evrişimli Artık Öğrenme) aynı zamanda zirveye tırmanmak anlamına gelir

İzleme algoritmaları araştırmalarında derin öğrenmenin avantajlarından tam olarak yararlanın ve tahmin için uçtan uca derin bir model oluşturun

Derin öğrenme yöntemleri, nesne algılama ve tanımada mükemmel sonuçlar elde etmesine rağmen, nesne izleme algoritmalarının araştırılmasında ana akım yön, yine de işbirliğine dayalı filtrelerin çeşitli genişletmelerine odaklanmaktadır. Derin öğrenme kullanılsa bile, derin evrişim özellikleri yalnızca izleme doğruluğunu artırmak için geleneksel özelliklerin yerine kullanılır.

İşbirlikçi filtrelemenin avantajı, frekans alanında hızlı hesaplanması ve nesne konumlarının yoğun tahmininde yatmaktadır.Bu avantaj, araştırmacıları her zaman bu çerçevede yeni keşifler yapmaya devam etmeye çekmiştir. Bununla birlikte, işbirliğine dayalı filtreleme yönteminin sınırlamaları vardır. Her şeyden önce, işbirliğine dayalı filtreleme, girdi özellikleriyle ilgili değildir ve böyle bir yapı, özellikle izleme sorununu iyileştirmez. İkinci olarak, işbirlikçi filtrenin çevrimiçi güncelleme yöntemi, insanlar tarafından önceden belirlenir ve nesnenin çevrimiçi değişim süreciyle uyumlu bir ayarlama yoktur.

Peki, yukarıdaki sorunları iyileştirmenin bir yolu var mı? Esasen, işbirliğine dayalı bir filtre, iki boyutlu bir Gauss tepkisi oluşturmak için nesne özellikleriyle bir araya getirme işlemidir. İşbirlikçi filtrenin katsayılarının eğitilmesi, evrişimli yanıtın gerçek Gauss yanıtından ne kadar saptığını ölçen bir işlemdir.

İşbirliğine dayalı filtreleme, nesneyi iki boyutlu bir Gauss çekirdeğine döndürür ve tepe noktası, nesnenin merkez konumudur.

Araştırmacılar, böyle bir eğitim yönteminin, L2 kayıp fonksiyonu ile tek katmanlı bir evrişimli katmanın eğitilmesiyle eşdeğer şekilde değiştirilebileceğini buldular. İşbirliğine dayalı filtreleme yerine tek katmanlı evrişim kullanmanın avantajı, özellik çıkarma ve Gauss yanıt oluşturmanın yakından birleştirilerek uçtan uca eğitim ve tahmin için bir temel oluşturmasıdır. Ek olarak, eğitim evrişimli katmanı degrade iniş optimizasyon yöntemlerini kullanabilir. Tüm çerçeve, görevleri izlemek için optimize edilebilir. Ek olarak, çevrimiçi model güncelleme süreci, ağın nesnelerin değişikliklerine göre uyarlanabilir bir ayarlamasıdır. Kapalı çözümü hesaplamanın geleneksel işbirliğine dayalı filtreleme yöntemi ve sabit güncelleme yönteminin yapay ön ayarı ile karşılaştırıldığında, derin öğrenmenin optimizasyon çerçevesi şüphesiz daha üstündür.

Uçtan uca tahmin ve optimizasyon

Aynı zamanda, ortak filtreyi değiştirmek için tek katmanlı bir evrişimli katman kullanılır ve özelliğin evrişim işlemi de frekans alanından zaman alanına dönüştürülür, bu da Fourier dönüşümünün neden olduğu sınır etkisinin etkin bir şekilde üstesinden gelir.

İlk kez, artık öğrenme, ağ tahmin kalitesini iyileştirmek için hedef izleme için kullanılır.

Uçtan uca modelleme ile araştırmacılar, nesneyi giriş görüntüsünden iki boyutlu bir Gauss yanıt haritasına başarıyla geri çekti ve tepe, nesnenin konumudur. Daha sonra ideal koşullar altında, ağ nesneyi doğru bir şekilde iade edecektir.

Bununla birlikte, mevcut makalede bahsedilen hedef nesnenin aydınlatması ve boyutu gibi kısıtlamalar ciddi değişikliklere uğramıştır.Hedef nesne arka plana benzer olduğunda, ağ doğru bir iki boyutlu Gauss yanıtını tahmin edemeyecektir. Bu zamanda, tepe değeri değişmiş ve nesne konum tahmininin başarısız olmasına neden olmuştur.

Ağ tarafından tahmin edilen Gauss yanıt grafiğinin kalitesini iyileştirmek için, bu makale artık öğrenme kavramını önermektedir. Özellikle, temel haritalama olarak tek katmanlı evrişime dayanarak, artık haritalama paralel olarak tanıtıldı ve bu yöntem, temel haritalama ile gerçek Gauss cevabı arasındaki farkı yakalamak için kullanılır.

Temel haritalama ve artık haritalamadan oluşan artık öğrenmenin çerçevesi

Nesne durağan bir durumda olduğunda, temel haritalamanın çıktısı gerçek değerin Gauss yanıtına çok benzerdir Bu zamanda, artık ağın neredeyse hiç çıkışı yoktur. Nesne kararsız bir durumda olduğunda, artık ağ, temel haritalamanın çıktısı ile Gauss cevabının gerçek değeri arasındaki farkı kolayca yakalayabilir ve temel haritalamanın çıktısını toplama işlemleri yoluyla tamamlayabilir, böylece tüm ağın çıktısı gerçek değere daha yakın olur ve daha fazlası Hedefi iyi konumlandırın.

Uzamsal alanda artık öğrenme

Aynı zamanda, bu makale aynı zamanda ilk çerçevenin ilk bilgilerini kullanır ve temel eşlemenin daha iyi bir Gauss tepkisi oluşturmasına yardımcı olmak için kalıntılarını sonraki çerçevelerin tahminine ekler.

Zaman alanında ve uzaysal alanda artık öğrenme

Aşağıdaki şekil, ağın Gauss tepkisi tahminini iyileştiren artık yapının görsel bir göstergesidir.

Deneysel değerlendirme sonuçları

Deneylerden sonra yazar, yeni yöntemin derinlik özelliklerini kullanarak geleneksel bir işbirliğine dayalı filtrenin etkisini elde etmek için yalnızca tek katmanlı bir evrişim uçtan-uca yapı kullandığını buldu. Sadece bu değil, uzay-zaman alanının artık yapısı da temel haritalamanın doğruluğunu artırır. Diğer izleme yöntemleriyle karşılaştırıldığında, bu yöntem standart veri tabanlarında son teknoloji ürünü doğruluk sonuçları elde etmiştir.

Tek katmanlı evrişim (temel haritalama), derinlik özelliklerini kullanan geleneksel filtrelere benzer

Aynı zamanda, uzay-zaman alanına artık yapının eklenmesinden sonra, izleme etkisi kademeli olarak iyileştirilir.

Buna ek olarak, standart veri tabanı OTB'de, bu yazıda önerilen CREST yöntemi en son teknolojiye sahip etkilere ulaşmıştır. Makalede daha deneysel sonuçlar sunulmaktadır.

İzleme performansı ekranı

Aşağıdaki, izleme efektlerinin sezgisel bir göstergesidir: Yeni yöntem CREST, standart veritabanı OTB üzerindeki Staple, SRDCF, MDNet ve C-COT mevcut ana izleme yöntemleri ile karşılaştırılır. Aşağıda, bu izleme algoritmalarının bazı zorlu senaryolardaki etkileri verilmiştir.

İzleme nesnesi engellendiğinde, CREST (kırmızı çerçeve) nesneyi etkili bir şekilde bulabilir. C-COT (yeşil kutu) da sorun değil.

İzleme hedefine benzer nesneler tarafından müdahale edildiğinde, MDNet (mavi kutu) etkili bir şekilde ayırt edemez, böylece izleme hedefi kaybolur.

İzleme hedefi harekette büyük değişiklikler yarattığında, CREST (kırmızı çerçeve) etkili bir şekilde izleyebilir. MDNet (mavi kutu) da çalışır.

İzleme hedefi arka plana benzer olduğunda, CREST (kırmızı kutu) ve MDNet (mavi kutu) etkili bir şekilde ayırt edilebilir.

Bu makalede önerilen CREST algoritmasının performansının, zorlu senaryolarda mevcut ana akım izleme algoritmasından daha iyi olduğu görülebilir.

Sonuç

Bu makale, küresel olarak optimize ve güncelleme yapabilmek için hedef takibi uçtan uca modellemek için derin öğrenme çerçevesini kullanacaktır. Hedef nesnenin karşılaştığı zorlu sahneleri hedefleyen bu makalede önerilen artık ağ yapısı, Gauss yanıt grafiğinin zaman etki alanı ve uzamsal etki alanındaki eksikliklerini yakalayabilir ve tüm ağdaki tek katmanlı evrişimli ağın sınırlamalarını telafi edebilir. Bu nedenle, standart veri tabanında izleme doğruluğu önemli ölçüde iyileştirilmiştir.

Bu makale açık kaynaktır, lütfen proje adresine bakın:

www.cs.cityu.edu.hk/~yibisong/iccv17/index.html

Referanslar

  • HCFT: Görsel İzleme için Hiyerarşik Evrişimli Özellikler. Chao Ma, Jia-Bin Huang, Xiaokang Yang ve Ming-Hsuan Yang. ICCV 2015.

  • DeepSRDCF: Korelasyon filtresi tabanlı görsel izleme için evrişimli özellikler Martin Danelljan, Gustav Hager, Fahad Shahbaz Khan ve Michael Felsberg. ICCV 2015 atölyeleri.

  • C-COT: Korelasyon filtrelerinin ötesinde: Görsel izleme için sürekli evrişim operatörlerini öğrenme Martin Danelljan, Andreas Robinson, Fahad Shahbaz Khan ve Michael Felsberg. ECCV 2016.

  • MDNet: Görsel İzleme için Çok Alanlı Evrişimli Sinir Ağlarını Öğrenme. Hyeonseob Nam ve Bohyung Han. CVPR 2016.

  • . SINT: İzleme için Siyam Örneği Arama. Ran Tao, Efstratios Gavves ve Arnold W.M. Smeulders. CVPR 2016.

  • OTB: Çevrimiçi Nesne İzleme: Bir kıyaslama. Yi Wu, Jongwoo Lim ve Ming-Hsuan Yang. CVPR 2013.

  • Staple: Gerçek Zamanlı İzleme için Tamamlayıcı Öğrenciler. Luca Bertinetto, Jack Valmadre, Stuart Golodetz, Ondrej Miksik ve Philip Torr. CVPR 2016.

  • SRDCF: Görsel izleme için uzamsal olarak düzenlenmiş korelasyon filtrelerini öğrenmek. Martin Danelljan, Gustav Hager, FahadShahbaz Khan ve Michael Felsberg. ICCV 2015.

İş ayrıntılarını görüntülemek için orijinal metni okumak için tıklayın ve katılmanızı dört gözle bekleyin ~

Fed, Almanya'nın altın inceleme talebini reddediyor ve Almanya "üç kılıç bir arada" teklif ediyor ve işler değişti
önceki
100 klasik vatansever şiir, vatansever özünüz burada!
Sonraki
İsviçre'de neden kayak yapmak isteyen var?
Araba takip etme becerileri çok önemlidir Gereksiz arkadan çarpışmalardan kaçınmak için bu dört durum farklı şekilde ele alınmalıdır.
Hepsi araştırıldı! Bu durumu görürseniz bildirin
"Öğretmenler Günü Hediyeleri" AI öğretmen-öğrenci ilişkisi: Chen Yunji, Xu Li, Li Mu, vb. Akıl hocaları arasındaki anılar ve hikayeler
17,1 milyar dolarlık borçtan 17,6 milyar dolara kadar gelir, satışlar ne olacak?
İşte kış seyahati, yarı alev ve yarı buzul için en eksiksiz yer
Yabancı medya: Çin, Rusya, Hindistan ve diğer BRIC ülkeleri dolar döviz işlemlerini kırmak için bir şeyler yapmak üzere olabilir
Toyota duramayan tek kişi değil Aşağıdaki durumlarda fren sistemini kontrol edin!
"110 Promosyon Günü" Bilmediğiniz 110 geliştirme geçmişinin tam kaydı
"Cep telefonu" kaybolacak mı? Bir sonraki çağa gireceğiz
Tayland'a gitmenize gerek yok! Bu ülkede her gün beş yıldızlı bir otelde aylık 3 bin maaş yaşayabilir
Hararinin bugünkü konuşması: Her 10 yılda bir yeniden eğitilmeniz gerekiyor
To Top