ILSVRC2016 Hedef Tespit Görevi İncelemesi-Video Hedef Tespiti (VID)

Lei Feng Net Not: Bu makalenin yazarı, Çin Bilimler Akademisi Bilgisayar Teknolojisi Enstitüsü Öngörü Araştırma Laboratuvarı Çapraz Medya Hesaplama Grubunda doktora öğrencisi ve bir süpervizör ve araştırmacı Zhang Yongdong'dur. 2016 yılında, yardımcı araştırmacı Tang Sheng'in liderliğinde, Bilgisayar Teknolojisi Enstitüsü'nün MCG-ICT-CAS ekibinin çekirdek ekip üyeleri (Wang Bin, Xiao Junbin), ImageNet Büyük Ölçekli Görsel Tanıma Görevi'nin (ILSVRC) Video Nesnesi Algılama (VID) görevine katıldı. Ve üçüncü oldu. Hedef tespiti ile ilgili çalışma, ECCV 2016 ImageNet ve COCO Yarışması Ortak Çalıştayı'nda (ImageNet ve COCO Görsel Tanıma Zorlukları Ortak Çalıştayı) bir konferans raporu vermek üzere davet edildi.

Bu makalenin kardeş makaleleri: "ILSVRC2016 Hedef Tespit Görevi İncelemesi: Görüntü Hedef Tespiti (DET)"

Görüntü hedef tespiti görevi son üç yılda büyük ilerleme kaydetti ve algılama performansı önemli ölçüde iyileştirildi. Ancak video gözetimi, araç destekli sürüş vb. Alanlarda video tabanlı hedef tespitinin daha kapsamlı ihtiyaçları vardır. Videodaki hareket bulanıklığı, tıkanma, morfolojik değişikliklerin çeşitliliği ve aydınlatma değişikliklerinin çeşitliliği nedeniyle, videodaki hedefi tespit etmek için yalnızca görüntü hedef tespit teknolojisinin kullanılması iyi bir tespit sonucu elde edemez. Videodaki hedef zamanlama bilgisinin ve bağlam bilgisinin nasıl kullanılacağı, video hedef tespit performansının iyileştirilmesinin anahtarı haline gelmiştir.

ILSVRC2015, araştırmacılara iyi veri desteği sağlayan videodan nesne algılama (VID) görevini yeni ekledi. ILSVRC2015'in VID değerlendirme indeksi, tespit penceresinin görüntü hedefi tespit-mAP'nin hesaplanan değerlendirme indeksiyle aynıdır. Bununla birlikte, video hedef tespiti için, iyi bir dedektör sadece her görüntü karesinde doğru tespiti sağlamakla kalmamalı, aynı zamanda tespit sonuçlarının tutarlı / sürekli olmasını sağlamalıdır (yani, belirli bir hedef için, iyi bir dedektör bunu tespit etmeye devam etmelidir Hedefleyin ve diğer hedeflerle karıştırmayın). Bu soruna yanıt olarak ILSVRC2016, VID görevine yeni bir alt görev ekler (bkz. Bölüm 4 - Video Hedef Algılamanın Zamanlama Tutarlılığına Giriş).

ILSVRC2016'da, VID'nin harici verileri kullanmayan iki alt görevinde ilk üç, yerli takımlar tarafından alınır (bkz. Tablo 1 ve Tablo 2). Bu makale, ILSVRC2016'daki video hedefi tespit yöntemini, NUIST, CUVideo, MCG-ICT-CAS ve ITLab-Inha'dan oluşan dört ekip tarafından yayınlanan ilgili materyallere dayanarak özetlemektedir.

Tablo 1. ILSVRC2016 VID sonuçları (harici veri yok)

Tablo 2. ILSVRC2016 VID izleme sonucu (harici veri yok)

Katılan ekiplerin ilgili raporlarının öğrenilmesi ve anlaşılması yoluyla, video hedefi tespit algoritması şu anda esas olarak aşağıdaki çerçeveyi kullanmaktadır:

  • Video karelerini bağımsız görüntüler olarak ele alın ve algılama sonuçları elde etmek için görüntü hedefi algılama algoritmalarını kullanın;

  • Algılama sonuçlarını düzeltmek için videonun zamanlama bilgilerini ve bağlam bilgilerini kullanın;

  • Algılama sonucu, yüksek kaliteli algılama penceresinin izleme yörüngesine dayalı olarak daha da gözden geçirilir.

Bu makale dört bölüme ayrılmıştır: İlk üç bölüm, video hedef tespitinin doğruluğunun nasıl geliştirileceğini ve son olarak video hedef tespitinin tutarlılığının nasıl sağlanacağını açıklamaktadır.

1. Tek kare görüntü hedefi tespiti

Bu aşamada, video genellikle işlenmek üzere bağımsız video karelerine bölünür ve mükemmel bir görüntü hedefi algılama çerçevesi ve görüntü algılama doğruluğunu artırmak için çeşitli teknikler seçilerek daha sağlam bir tek kare algılama sonucu elde edilir. Bu, "ILSVRC2016 Hedef Tespit Görevi İncelemesi (Bölüm 1) - Görüntü Hedef Tespiti" bölümünde ayrıntılı olarak özetlenmiştir ve burada tekrarlanmayacaktır.

Kendi deneylerimizi ve katılan her ekibin ilgili belgelerini birleştirerek, eğitim verilerinin seçiminin ve ağ yapısı seçiminin hedef tespit performansının iyileştirilmesinde hayati bir rol oynadığına inanıyoruz.

  • Eğitim verisi seçimi

İlk olarak, ILSVRC2016 VID eğitim verilerini analiz edin: VID veritabanı 30 kategori içerir, eğitim setinde toplam 3862 video klibi bulunur ve toplam kare sayısı 1,12 milyonu aşar. Sayısal bir bakış açısından, bu kadar büyük miktarda veri, 30 kategorideki dedektörleri eğitmek için yeterli görünmektedir. Ancak, aynı video klibin tek bir arka planı vardır ve bitişik kareler arasındaki görüntü farkı küçüktür. Bu nedenle, mevcut hedef tespit modelini eğitmek için, VID eğitim setinde büyük miktarda veri yedekliliği vardır ve veri çeşitliliği zayıftır, bu nedenle genişletmek gerekir. Yarışma görevinde, genişletme için ILSVRC DET ve ILSVRC LOC verilerinden VID kategorileri içeren resimleri ayıklayabilirsiniz. CUVideo, NUIST ve MCG-ICT-CAS, eğitim seti olarak ILSVRC VID + DET kullanır ve ITLab-Inha, eğitim seti olarak ILSVRC VID + DET, COCO DET, vb. Kullanır. Yeni bir eğitim seti oluştururken, örneklerin dengelenmesine ve fazlalığın kaldırılmasına dikkat edilmesi gerektiği unutulmamalıdır (VID eğitim seti eğitim modelinin CUVideo ve MCG-ICT-CAS ekstresi bölümü, ITLab-Inha, eğitime katılmak için her kategoriden belirli sayıda görüntü seçer, NUIST, VID verilerini filtrelemek için DET üzerinde eğitilen modeli kullanır). Aynı ağ için, genişletilmiş veri kümesinin kullanılması algılama doğruluğunu yaklaşık% 10 artırabilir.

  • Ağ yapısı seçimi

Farklı ağ yapılarının da algılama performansı üzerinde büyük etkisi vardır. VID doğrulama seti üzerinde deneyler yapıyoruz: aynı eğitim verileri, ResNet101'e dayalı Daha Hızlı R-CNN modelinin algılama doğruluğu, VGG16 tabanlı Daha Hızlı R-CNN modelinin algılama doğruluğundan yaklaşık% 12 daha yüksektir. Bu aynı zamanda MSRA'nın 2015 ILSVRC ve COCO yarışmalarındaki zaferinin anahtarıdır. Bu yılki yarışmanın en iyi takımları temelde ResNet / Inception'ın temel ağını kullanıyor ve CUVideo 269 katmanlı GBD-Net kullanıyor.

2. Sınıflandırma kaybını artırın

Hedefin bazı video karelerinde hareket bulanıklığı, düşük çözünürlük, tıkanma vb. Sorunları olacaktır En iyi görüntü hedef algılama algoritması bile şu anda hedefi iyi algılayamaz. Neyse ki, videodaki zamanlama bilgileri ve bağlam bilgileri bu tür sorunları çözmemize yardımcı olabilir. Daha temsili yöntemler, T-CNN'de Hareket Güdümlü Yayılma (MGP) ve Çok bağlamlı bastırmayı (MCS) içerir.

  • MGP

Tek bir çerçevenin tespit sonucunda birçok kaçırılmış hedef vardır ve bitişik çerçevelerin tespit sonuçları bu kaçırılan hedefleri içerebilir. Bu nedenle, mevcut çerçevenin algılama sonucunu ileriye ve geriye doğru yaymak için optik akış bilgisini kullanabiliriz ve hedefin geri çağırma hızı, MGP işleme yoluyla iyileştirilebilir. Şekil 1'de gösterildiği gibi, T zamanındaki algılama penceresi sırasıyla ileri ve geri yayılır ve bu, T-1 ve T + 1 zamanlarında kaçırılan hedefleri iyi doldurabilir.

Şekil 1. MGP'nin şematik diyagramı

  • MCS

Video karelerini bağımsız görüntüler olarak ele almak için görüntü algılama algoritmalarını kullanmak, videonun tamamının bağlam bilgisini tam olarak kullanmaz. Videoda herhangi bir hedef kategorisi görünebilse de, tek bir video klip için yalnızca birkaç kategori görünecek ve bu kategoriler arasında ortak bir oluşum ilişkisi olacaktır (gemilerin göründüğü video bölümü balinaları içerebilir, Ancak zebralar temelde imkansızdır). Bu nedenle, istatistiksel analiz yapmak için tüm video segmentindeki algılama sonuçlarını kullanabilirsiniz: tüm algılama pencerelerini puana göre sıralayın ve daha yüksek puana sahip kategorileri seçin. Daha düşük puana sahip kalan kategorilerin yanlış algılanması ve puanlarının bastırılması gerekir. (Şekil 2). MCS işlemesinden sonraki tespit sonucunda, doğru kategori en üstte ve yanlış kategori arkada yer alır, böylece hedef tespitinin doğruluğunu artırır.

Şekil 2. Çoklu bağlam bastırma şeması

3. Düzeltmek için izleme bilgilerini kullanın

Yukarıda bahsedilen MGP, bazı video karelerinde kaçırılan hedefleri doldurabilir, ancak birden fazla çerçevenin kaçırılan hedefleri için çok etkili değildir.Hedef takibi bu sorunu iyi çözebilir. Katılan dört ekip, CUVideo, NUIST, MCG-ICT-CAS ve ITLab-Inha, video hedef tespitinin geri çağırma oranını daha da iyileştirmek için izleme algoritmalarını kullandı. Hedef diziyi elde etmek için izleme algoritmasını kullanmanın temel süreci aşağıdaki gibidir:

  • Daha iyi tespit sonuçları elde etmek için görüntü hedefi tespit algoritmalarını kullanın;

  • İzleme için başlangıç bağlantı noktası olarak en yüksek tespit puanına sahip hedefi seçin;

  • Bir izleme yörüngesi oluşturmak için seçilen bağlantı noktasına göre tüm video klibi ileri ve geri izleyin;

  • İzleme için kalan hedeflerden en yüksek puana sahip olanı seçin Bu pencere önceki izleme yolunda göründüyse, doğrudan atlayın ve izleme için sonraki hedefi seçin;

  • Algoritma yinelemeli olarak yürütülür ve puan eşiği, sonlandırma koşulu olarak kullanılabilir.

Elde edilen izleme yörüngesi, hedef geri çağırma oranını iyileştirmek için kullanılabilir ve ayrıca sonucu değiştirmek için uzun bir bağlam bilgisi dizisi olarak da kullanılabilir.

Dört, ağ seçimi ve eğitim becerileri

Video hedef tespiti için, her bir görüntü karesinin algılama doğruluğunu sağlamanın yanı sıra, her bir hedefin uzun süre stabil bir şekilde izlenmesini de sağlamalıdır. Bu amaçla, ILSVRC2016, algılama algoritmasının zamanlama tutarlılığını veya izleme sürekliliği performansını değerlendirmek için her bir hedef izleme yörüngesinin (izleme) / tüp (tubelet) eşlemini hesaplayan yeni bir VID alt görevi ekler.

Değerlendirme indeksi: Görüntü hedef algılama mAP değerlendirmesinin amacı, her bir algılama penceresinin doğru olup olmadığıdır ve video zamanlama tutarlılığı değerlendirmesinin amacı, hedef izleme yolunun doğru olup olmadığıdır; algılama penceresi, görüntü hedefi algılamadaki Ground Truth kategorisiyle aynıysa, IoU penceresi 0,5'ten büyüktür. Olumlu bir örnek. Zamanlama tutarlılığını değerlendirirken, tespit edilen izleme yörüngesi ve Yer Gerçeği (hedef gerçek izleme yörüngesi) aynı hedefse (trackId aynıdır) ve tespit edilen pencere ile Zemin Gerçeği penceresi arasında 0,5'ten büyük IoU sayısı bir oranı aşarsa , Daha sonra elde edilen izleme yörüngesinin olumlu bir örnek olduğu kabul edilir; izleme yörünge puanı, dizideki tüm pencerelerin puanlarının ortalamasıdır. Analiz, bir hedefin yörüngesi birden fazla bölüme bölünürse veya bir hedefin izleme yörüngesi diğer hedeflerle karıştırılırsa tutarlılığın azalacağını göstermektedir.

Peki video algılamada hedefin zamanlama tutarlılığı nasıl sağlanır? Bu makale, aşağıdaki üç yönden başlayabileceğimize inanıyor:

  • Görüntü algılama aşamasındaki her görüntü algılama karesinin sonuçlarının olabildiğince doğru olduğundan emin olun;

  • Yüksek kaliteli algılama penceresini izleyin ve izleme kalitesini sağlayın (izleme sırasında sürüklenme olgusunu mümkün olduğunca en aza indirin);

  • Önceki iki adımda elde edilen izleme sonuçları üst üste gelebilir veya bitişik olabilir ve sonradan işlem yapılması gerekir.

ITLab-Inha ekibi, değişim noktası tespitine dayalı çok hedefli bir izleme algoritması önerdi. Algoritma önce hedefi tespit eder, ardından izler ve izleme işlemi sırasında izleme noktalarını analiz ederek izlemeyi daha iyi kolaylaştırabilir. Sürüklenme fenomeni ve yörünge anormal olduğunda zamanında izlemeyi durdurabilir.

Yazarın MCG-ICT-CAS, video hedef tespitinin tutarlılık problemini hedefleyerek, tespit ve izlemeye dayalı bir hedef ardışık düzen oluşturma yöntemi önermektedir.

a. İzlemeye dayalı hedef boru hattı / izleme yörüngesi

b. Algılamaya dayalı hedef boru hattı

c. Algılama ve izlemeye dayalı füzyon boru hattı

Şekil 3. Algılama / izleme / algılama + izleme boru hattına dayalı şematik diyagram

Şekil 3-a, izleme algoritması kullanılarak elde edilen hedef boru hattını (kırmızı sınırlayıcı kutu) gösterir ve yeşil sınırlayıcı kutu, hedefin Zemin Gerçeğini temsil eder. Zaman geçtikçe izleme penceresinin kademeli olarak hedefe kaydığı ve sonunda hedefin kaybolabileceği görülebilir. MCG-ICT-CAS, algılama tabanlı bir hedef boru hattı oluşturma yöntemi önerir.Şekil 3-b'de gösterildiği gibi, algılamaya dayalı boru hattı penceresi (kırmızı sınırlayıcı kutu) nispeten doğrudur, ancak dedektör, hedefin hareket bulanıklığı nedeniyle algılamayı kaçırır. Yukarıdaki analizden, izleme algoritması tarafından oluşturulan hedef boru hattının daha yüksek bir geri çağırma oranına sahip olduğu, ancak konumlandırmanın yanlış olduğu; tespit penceresine göre oluşturulan hedef boru hattı daha doğru iken, ancak geri çağırma oranı nispeten düşük olduğu görülebilir. İkisi arasındaki tamamlayıcılık nedeniyle, MCG-ICT-CAS, ayrıca tespit boru hattını ve izleme boru hattını birleştiren, yinelenen pencereleri birleştiren ve aralıklı boru hatlarını birleştiren bir boru hattı füzyon algoritması önerir.

Şekil 4'te gösterildiği gibi, bireysel algılama veya izleme ile oluşturulan hedef boru hattıyla karşılaştırıldığında, füzyondan sonra hedef boru hattına karşılık gelen algılama penceresinin geri çağırma oranı, IoU eşiğinin artmasıyla birlikte daha yüksek bir değerde tutulur ve bu da füzyon penceresinin her ikisini de yapabileceğini gösterir. Yüksek bir pencere geri çağırma oranını koruyun ve ayrıca daha hassas bir konumlandırmaya sahip olun. Füzyon sonrası hedef boru hattı haritası, VID test setinde% 12.1 arttı.

Şekil 4. Hedef ardışık düzen oluşturmak için farklı yöntemlerin geri çağırma oranı

sonuç olarak

Bu makale esas olarak ILSVRC2016 VID rekabet görevine dayalı video hedefi algılama algoritmasını tanıtmaktadır. Görüntü hedefi tespiti ile karşılaştırıldığında, mevcut video hedefi tespit algoritması süreci daha zahmetlidir ve videonun kendisinde bulunan bilgiler tamamen çıkarılmamıştır. Video hedef tespit sürecini gerçek zamanlı hale getirmek için nasıl düzene sokulacağı, videonun daha yüksek tespit doğruluğuna sahip olması için videonun içerdiği zengin bilgilerin nasıl daha fazla araştırılacağı ve video hedef tespitinin tutarlılığının nasıl sağlanacağı, video hedefi tespitinde çözülmesi gereken bir sonraki sorun olabilir. .

Referanslar

ILSVRC2016 ile ilgili raporlar

CUVideo slayt

NUIST slayt

MCG-ICT-CAS slaydı

ITLab-Inha slayt

He K, Zhang X, Ren S, et al. Görüntü tanıma için derin artık öğrenme. ArXiv ön baskı arXiv: 1512.03385, 2015.

Ren S, He K, Girshick R, ve diğerleri.Daha hızlı R-CNN: Bölge teklif ağları ile gerçek zamanlı nesne algılamaya doğru // Sinir bilgi işleme sistemlerindeki gelişmeler. 2015: 91-99.

Simonyan K, Zisserman A. Büyük ölçekli görüntü tanıma için çok derin evrişimli ağlar arXiv ön baskı arXiv: 1409.1556, 2014.

Zeng X, Ouyang W, Yang B, ve diğerleri.Nesne algılama için kapılı çift yönlü cnn // Bilgisayar Vizyonu Avrupa Konferansı. Springer Uluslararası Yayıncılık, 2016: 354-369.

Kang K, Li H, Yan J, ve diğerleri. T-cnn: Videolardan nesne algılaması için evrişimli sinir ağlarına sahip tüpler. ArXiv ön baskı arXiv: 1604.02532, 2016.

Lee B, Erdenee E, Jin S, et al.Değişme Noktası Algılamasını Kullanarak Çok Sınıflı Çok Nesne İzleme // Bilgisayarla Görme Avrupa Konferansı.

Gratus: Sınırsız beğenileri destekleyin! Bu süper basit uygulama, günlük küçük şansınızı kaydetmenize yardımcı olur #Android
önceki
Li Yutong resmen Xue Zhiqian ile karşılaştı ve "mahkemede görüşürüz" dedi, gerçeğin yakında ortaya çıkacağını mı?
Sonraki
Şimdi telefonunuzu değiştirme konusunda endişelenmeyin, büyük bir 5G telefon dalgası geliyor
İPhone'un su garantisi var mı? Bu Apple satış sonrası tam kılavuzun | yararlı işlevlere sahip olması gerekir
Gundam gerçek iskelet serisi, yüksek savaş yengeci
Yayınlandıktan iki gün sonra gişe 870.000 oldu ve bir başka Çin filmi tamamen sokağa çıktı Netizenler: Uyuyakalmışım!
Bekar, kendi seçimin mi yoksa çaresiz mi?
Mekanik punk tarzı MechatroWeGo robot
2 milyar yuan yatırımla, Yen Zidan ve Jet Li bir kez daha işbirliği yaptılar ve başka bir süper gişe rekorları kıran bir film mi doğdu?
Derin öğrenme uygulaması: Hızlı stil aktarımı sağlamak için Tensorflow nasıl kullanılır?
6000 kişi tam övgü alıyor, bu süper tuhaf fasulye filizi oyununu kaçırmayın AppWall Özellikli 074
Teo ile tam donanımlı mükemmel modellerin takdiri
Ehliyetinizi aldıktan sonra, hala koçla iletişim halinde olacak mısınız?
Kuaquaqun VS Püskürtme Grubu, Tsinghua Üniversitesi Pekin Üniversitesi "Dövüş Perileri"! Kim kazanıyor?
To Top