CVPR büyük ölçekli davranış tanıma yarışması iki yıl üst üste şampiyonluğu kazandı, Shanghai Jiaotong Üniversitesi detaylı teknoloji paylaşımı

Xinzhiyuan önerilir

Kaynak: Şangay Jiaotong Üniversitesi Bilgisayarla Görme Laboratuvarı

Xin Zhiyuan Rehberi Son zamanlarda, video davranışını anlama alanındaki ImageNet yarışması-ActivityNet Challenge 2018, CVPR konferansında sona erdi. Şangay Jiaotong Üniversitesi Bilgisayar Görme Laboratuvarı ekibi (Otomasyon Bölümünden Mezun Lin Tianwei ve Su Haisheng ve Doçent Doktor Zhao Xu), kırpılmamış videoda sıralı eylem konumlandırma görevinin şampiyonunu ve aday gösterilen ardışık eylem görevinde ikinci olanı kazandı. Bu makale, takım tarafından iki yarışma görevinde benimsenen algoritma fikirlerini ve şemalarını paylaşacaktır.

Giriş

Videolarda insanların eylemlerini ve davranışlarını anlamak, bilgisayar görüşü alanında zorlu bir sorundur ve aynı zamanda video içeriğini anlamanın anahtarıdır ve büyük uygulama olanaklarına sahiptir. ActivityNet Challenge, video davranışını anlamak için yeni algoritmalar ve yeni teknolojiler üretmeyi amaçlamaktadır.Şu anda video davranışını anlama alanındaki en büyük ve en etkili teknoloji yarışmasıdır. Yıllık en iyi akademik CVPR konferansı ile birlikte düzenlenmektedir ve üç oturumda başarıyla gerçekleştirilmiştir. Bu yılki ActivityNet Challenge, küresel bilgisayar görüşü alanında akademi ve endüstriden birçok takımı aktif olarak katılmaya çeken 6 yarışma düzenledi.

ActivityNet Challenge, geçtiğimiz günlerde CVPR konferansında 2018 yarışma sonuçlarını açıkladı. Şangay Jiaotong Üniversitesi Bilgisayarla Görme Laboratuvarı ekibi (Otomasyon Bölümünden Mezun Lin Tianwei ve Su Haisheng ve danışman Doçent Zhao Xu), Sıralı eylem konumlandırma görevlerinin şampiyonu ,Hem de Sıralı eylem aday gösterilen üretim görevinin ikincisi .

Bu makale, iki yarışma görevinde Şangay Jiaotong Üniversitesi ekibinin algoritma fikirlerini ve planlarını paylaşacaktır. Bu yarışmada, başvuru ekibi esas olarak, ECCV 2018 konferansında yakın zamanda sunulan sıralı eylemler için adaylar oluşturmak için yeni bir yöntem olan Sınır Duyarlı Ağı'nı (BSN) kullandı.

ActivityNet Mücadelesi

ActivityNet Challenge, video eylem sınıflandırması, sıralı eylem konumlandırma ve video metni oluşturma gibi birçok yönü kapsayan şu anda video eylemi anlayış alanındaki en büyük rekabettir. Bu yılki ActivityNet Mücadelesi, önceki yıllara kıyasla ölçek, çeşitlilik ve doğallıkta önemli ölçüde iyileştirildi.Toplam 6 yarışma görevi gerçekleştirildi. Görevler 1-3 ActivityNet veri setine dayalıdır, görevler A, B ve C diğer video anlama alanlarıdır. İçinde önemli veri kümesi. ActivityNet veri setinin şu anki sürümü 1.3'tür, toplamda yaklaşık 700 saat olan 20.000 Youtube videosu ve her videoda ortalama 1.5 eylem klibi olmak üzere toplam 200 eylem kategorisini kapsar. Bu yarışma etkinlikleri özellikle şunları içerir:

Görev 1: Sıralı eylemlerin atanması;

Görev 2: Sıralı eylem konumlandırma;

Görev 3: Video yoğun açıklama oluşturma;

Görev A: video eylem sınıflandırması (Kinetik veri seti);

Görev B: Uzamsal-zamansal eylem konumlandırma (AVA veri seti);

Görev C: Video olay sınıflandırması (Moments-in-time veri seti)

Yukarıdaki 6 yarışma görevine odaklanan bu yılki zorluk, Şanghay Jiaotong Üniversitesi, Tsinghua Üniversitesi, Çin Bilim ve Teknoloji Üniversitesi gibi yerel üniversiteleri, CMU, UMD, UCSB, Washington Üniversitesi ve DeepMind, Baidu, Megvii Teknolojisi, Qiniu Cloud gibi yabancı üniversitelerin ilgisini çekti. , Iqiyi ve diğer kurumsal ekipler katıldı. Yarışma, Kral Abdullah Bilim ve Teknoloji Üniversitesi Görsel Hesaplama Merkezi tarafından CVPR 2018 konferansında düzenlendi ve Google, DeepMind ve Facebook gibi şirketler sponsor oldu.

Yarışma görevleri ve değerlendirme yöntemleri

Bu yarışmada, devir teslim ekibi görev 1: zaman dizisi eylem adaylığı oluşturma ve görev 2: zaman dizisi eylem konumlandırma yarışmasına katıldı. Bunların arasında Görev 2, video dizisindeki zaman aralığını (başlangıç zamanı ve bitiş zamanı dahil) ve eylemin türünü belirlemeyi gerektirir. Bu problemin iki boyutlu görüntülerde nesne algılama problemiyle pek çok benzerliği vardır. İlgili algoritmalar genel olarak iki kısma ayrılabilir: (1) RPN ağının Faster-RCNN'deki rolüne benzer şekilde, aday video zaman dizisi segmentleri oluşturmak için zaman dizisi eylem adaylığı oluşturma; (2) Eylem sınıflandırması: yani, aday video zaman dizisi segmentlerinin eylemlerini belirlemek için kategori. Videoda sıralı hareket algılamayı gerçekleştirmek için iki bölüm birleştirilir. Geçen yıldan beri, sıralı eylemler için adaylıklar, ayrı yarışma görevleri olarak ayrı ayrı listelenmiştir (görev 1).

Sıralı eylem konumlandırma probleminde, Ortalama Hassasiyet (mAP) en yaygın kullanılan değerlendirme göstergesidir. Bu yarışma, haritayı, nihai değerlendirme ve sıralama göstergesi olarak Ortalama harita adı verilen 0,05'lik adımlarla 0,5'ten 0,95'e kadar çoklu IoU eşikleri altında hesaplar. Değerlendirme indeksi olarak mAP@0.5 kullanımıyla karşılaştırıldığında, Ortalama mAP, daha katı IoU eşiği altında algılama doğruluğuna daha fazla önem verir. Sıralı eylem atama görevinin sıra segmentini sınıflandırması gerekmediğinden, ortalama geri çağırma (AR) genellikle değerlendirme için kullanılır. Bu yarışmada, Ortalama Geri Çağırma ve Video Başına Ortalama Teklif Sayısı (AR-AN) eğrisinin altındaki alan son değerlendirme göstergesi olarak kullanılır. Örneğin, AN = 50 durumundaki AR puanı, her video için teklif kümesindeki en yüksek puanlara sahip ilk 50 teklif kullanıldığında elde edilebilecek hatırlama oranı olarak anlaşılabilir.

Yarışma planı tanıtımı

Bu yarışmada, esas olarak ECCV 2018 konferansına sunduğumuz sıralı eylem adaylık oluşturma algoritması olan BSN modelini (Sınıra Duyarlı Ağ) optimize ettik ve geliştirdik. Aşağıda ilk olarak BSN yöntemi tanıtılmakta ve ardından bu yarışmada yapılan bazı iyileştirmeler sunulmaktadır.

Zaman dizisi eylem adaylığı oluşturmak için kullanılan BSN-Sınır duyarlı ağ

Sıralı hareket algılama genellikle iki bağlantı içerir - adaylık ve sınıflandırma. Şu anda, davranış sınıflandırmasının doğruluğu aslında nispeten yüksektir, ancak zaman serisi eylem algılamasının doğruluğu hala nispeten düşüktür, bu nedenle darboğazın zaman serisi eylem adaylığı oluşturma aşamasında olduğuna inanıyoruz. Yüksek kaliteli sıra eylemi adaylığı (1) esnek sıra uzunluğuna; (2) kesin dizi sınırına; (3) güvenilir güven puanına sahip olmalıdır. Kayan pencere veya çapa veya kümelemeye dayalı mevcut yöntemler aynı zamanda bu açıdan iyi sonuç veremez. Bu nedenle, Sınır Duyarlı Ağında (BSN) yeni bir zamanlama adaylığı oluşturma algoritması öneriyoruz. BSN'de, önce dizi eylem segmentinin (başlangıç düğümü ve bitiş düğümü) sınırını buluruz, ardından sınır düğümlerini doğrudan bir dizi adaylığında birleştiririz ve son olarak, tasarlanan teklif düzeyi özelliğine dayalı olarak her bir teklifin güvenirliğini gerçekleştiririz. Değerlendirme. Algoritmanın genel çerçevesi aşağıdaki şekilde gösterilmektedir ve her adım adım adım tanıtılacaktır.

1. Özellik çıkarma

Özellik çıkarma aşamasında, videoyu esas olarak 16 örtüşmeyen birime böldük ve ardından özellikleri çıkarmak için iki akışlı ağı kullanıyoruz. Uzamsal ağ için, özellikleri çıkarmak için her bir birimin merkezi çerçevesini kullanırız; geçici ağ için, özellikleri çıkarmak için her birimin merkezi 6 çerçevesinden hesaplanan optik akış görüntüsünü kullanırız. Son olarak, video görüntü dizisi bir özellik dizisine dönüştürülür.

2. BSN-Zamanlama Değerlendirme Modülü

Çıkarılan görüntü özelliği dizisine bağlı olarak, BSN'deki zamanlama değerlendirme modülü, eylemin başlama olasılığını, eylemin bitme olasılığını ve video dizisindeki her konumda eylem kategorisinin olasılığını eşzamanlı olarak modellemek için 3 katmanlı bir zamanlama evrişimli katman kullanır ve böylece eylemler oluşturur. Başlangıç olasılık dizisi, eylem sonu olasılık dizisi ve eylem kategorisi olasılık dizisi.

3. BSN-Aday Oluşturma Modülü

Daha sonra, yukarıda bahsedilen olasılık dizilerine dayalı olarak, aday oluşturma modülünün, aday sıralı eylem adaylıkları oluşturması ve her eylem adaylığı için karşılık gelen özellik tanımlarını üretmesi gerekir.

Aday zaman dizisi eylem adaylıkları oluşturmak için, ilk olarak, aday zaman dizisi sınır düğümleri olarak aşağıdaki iki koşuldan birini karşılayan eylem başlangıcı ve eylem bitiş olasılığı dizisindeki zaman düğümlerini seçeriz: (1) olasılık bir eşikten yüksek veya (2) zaman düğümü Olasılık, bir önceki an ve bir sonraki anın olasılığından daha yüksektir. Daha sonra, aday başlangıç zamanı düğümünü ve aday bitiş zamanı düğümünü çiftler halinde birleştiririz ve süresi, aday zaman dizisi eylem adaylığı olarak gereksinimleri karşılayan başlangıç düğümü-uç düğüm kombinasyonunu ayırırız. Algoritma diyagramı aşağıdaki şekilde gösterilmektedir.

Daha sonra, Sınır Duyarlı Teklif (BSP) özelliği olarak adlandırdığımız her bir aday zaman dizisi eylem adaylığı için karşılık gelen bir özellik açıklaması oluşturmamız gerekir. Her bir adaylık için, merkez bölge olarak kendi zamanlama aralığını alırız ve ardından başlangıç ve bitiş bölgesi olarak başlangıç düğümü ile bitiş düğümü arasındaki aralığı alırız. Her bölge için, eylem olasılığı dizisindeki karşılık gelen konumda N nokta örnekliyoruz ve birleştirme işleminden sonra, çok kısa bir aday özellik elde ediyoruz. BSP özelliklerinin yapı şeması aşağıdaki şekilde gösterilmektedir.

4. BSN-Adaylık Değerlendirme Modülü

Aday zaman dizisi eylem adaylıklarını ve karşılık gelen adaylık özelliklerini oluşturduktan sonra, her bir adaylığın güven puanını tahmin etmek için basit bir MLP (Çok Katmanlı Algılayıcı) modeli olan adaylık değerlendirme modülünü kullanırız. Güven puanı ne kadar yüksekse, zaman serisi adaylığı ile gerçek değer arasındaki örtüşme IoU o kadar yüksek olur.

5. Sonuçların sonradan işlenmesi

Son olarak, çakışan sonuçları ortadan kaldırmak için sonuçlar üzerinde maksimizasyon dışı bastırma yapmamız gerekir. Spesifik olarak, skoru düşürerek çakışan sonuçları bastırmak için soft-nms algoritmasını kullandık. İşlenen sonuç, nihayet BSN algoritması tarafından üretilen sekans eylemi adaylığıdır.

6. Sıralı hareket algılama

Sıralı eylem tespit sonuçlarını elde etmek için BSN tarafından oluşturulan sıralı eylem adaylıklarına dayanarak, adaylıkları da sınıflandırmamız gerekir. Burada nispeten basit bir yöntem kullanıyoruz, yani, eylem sınıflandırma ağı tarafından oluşturulan video düzeyinde eylem kategorisini doğrudan aday eylem kategorisi olarak kullanıyoruz.

BSN model iyileştirmesi

Yarışmada daha iyi sonuçlar alabilmek için BSN algoritması için çeşitli iyileştirme teknikleri denedik. Sıralı eylemin adaylık görevi için, ana iyileştirme yöntemleri, aşağıdakiler dahil olmak üzere temel olarak beş noktayı içerir:

  • İyileştirme A: Aday oluşturma modülündeki olasılık eşiğini 0,9'dan 0,5 * maks. Puana değiştirin; burada max_score, videodaki maksimum olasılıktır.

  • İyileştirme B: Özellikleri çıkarmak için ActivityNet veri setinde önceden eğitilmiş TSN ağını kullanmanın yanı sıra, yarışmada video özelliklerini çıkarmak için Kinetics veri setinde önceden eğitilmiş TSN ve P3D ağını da kullandık.

  • İyileştirme C: Daha iyi bir güven puanı elde etmek için, daha önce önerdiğimiz SSAD algoritmasının ürettiği sonuçlarla da birleştirdik.

  • İyileştirme D: ActivityNet veri setinde, kolaylık sağlamak için ilk BSN'de, tüm videoların özellik sırasını belirli bir uzunlukta ölçekleyeceğiz. Yarışmada, orijinal uzunluk tahmin sonuçlarını kullanmanın daha iyi sonuçlar alacağını gördük.

  • İyileştirme E: Daha fazla analizde, orijinal uzunluğa dayalı tahmin sonuçlarının esas olarak daha kısa zaman serisi segmentleri için tahmin sonuçlarını iyileştirdiğini, ancak daha uzun zaman serisi segmentlerinin tahmin etkisine zarar verdiğini bulduk. Bu nedenle, orijinal uzunluğa göre tahmin edilen sonuçları, verilen uzunluğa göre tahmin edilen sonuçlarla birleştirdik ve daha iyi sonuçlar elde ettik.

Sıralı eylem algılama görevleri için yukarıdaki iyileştirmeleri de uyguladık, ancak iki fark var:

  • Zaman sıralı eylem algılamada, sabit uzunlukta özellik dizisi tahmin sonuçlarını kullanırız

  • Daha katı Soft-NMS eşiği kullanın

Sıralı eylem adaylığı ve sıralı eylem konumlandırması için biraz farklı bir stratejinin benimsenmesinin nedeni, temelde sıralı eylem tespitinin sonucunun esas olarak önceki birkaç teklife bağlı olması, sıralı eylem adaylıkları için mevcut değerlendirme yöntemlerinin tekliflere daha fazla önem vermesidir. O anda ulaşılabilen hatırlayın. Bu aynı zamanda mevcut sıralı eylem adaylığı değerlendirme yönteminin mantıksızlığını da yansıtır.

Deneysel sonuçlar

Burada esas olarak bu yarışmada yaptığımız deneyleri tanıtıyoruz BSN algoritmasıyla ilgili daha fazla deney için, bakınız.

Sıralı eylem adaylığı oluşturma görevi

Sıralı eylem adaylığı oluşturma görevinin deneysel sonuçları aşağıdaki tabloda gösterilmektedir. BSN yönteminin önceki son teknoloji yöntemine göre önemli bir etki geliştirmesine sahip olduğu ve bu yarışmada uygulanan çeşitli iyileştirmelerin önemli bir etki iyileştirmesi sağladığı görülmektedir. Sonunda bu projede ikinciliği kazandık.

Sıralı eylem konumlandırma görevi

Sıralı eylem konumlandırma görevindeki deneysel sonuçlar aşağıdaki tabloda gösterilmektedir. BSN yönteminin çok iyi sonuçlar elde ettiği ve yarışmada uygulanan iyileştirmelerin de oldukça etkili olduğu görülmektedir. Sonuçta bu projede daha büyük bir avantajla şampiyonluğu kazandık.

Diğer deneyler

BSN algoritmasının etkinliğini doğrulamak için, bu yazıda birçok karşılaştırmalı deney yaptık, bu da BSN algoritmasının üstün etkisinin model yapısının kendisinden geldiğini kanıtlıyor. Ek olarak, deneyler aracılığıyla BSN algoritmasının iyi bir genelleme yeteneğine sahip olduğunu ve eğitim sırasında görülmeyen eylem kategorileri için yüksek kaliteli sıralı eylem adaylıkları oluşturabildiğini de gösteriyoruz. Spesifik deneysel sonuçlar ve içerik için makaleye bakın.

sonuç olarak

Sıralı eylem adaylığı oluşturma ve sıralı eylem konumlandırma görevleri üzerine yaptığımız araştırmayla aşağıdaki ana kazanımlara sahibiz:

1. Eylem atamasının kalitesi, müteakip eylem konumlandırmasının etkisi üzerinde büyük bir etkiye sahiptir Şu anda, eylem konumlandırmasını iyileştirmenin odak noktası, adaylık setinin kalitesini iyileştirmektir;

2. Adaylık setindeki aday bölümün en üstteki küçük kısmı, konumlandırma haritasının çoğuna katkıda bulunur;

3. Yüksek kaliteli sıralı eylemlerin adaylıkları (1) esnek süreye (2) doğru sınırlara (3) güvenilir güven puanlarına sahip olmalıdır.

Takip çalışmasında, araştırmacıların kullanması için BSN modelini açık kaynak kodlu olarak planlıyoruz. İlgili ilerleme wzmsltw.github.io adresinde güncellenecektir, umarım çalışmalarımıza dikkat etmeye devam edersiniz.

T. Lin, X. Zhao ve diğerleri BSN: Geçici Eylem Önerisi Üretimi için Sınır Duyarlı Ağı. ArXiv: 1806.02964, 2018.

T. Lin, X. Zhao ve Z. Shou. Tek seferlik zamansal eylem algılama. 25. ACM uluslararası multimedya konferansı, 2017.

Topluluğa katıl

Xinzhiyuan AI teknolojisi + endüstri topluluğunun işe alımında, AI teknolojisi + endüstrisiyle ilgilenen öğrenciler küçük bir WeChat asistanı hesabı ekleyebilirler: aiera2015_3 Gruba katılın; incelemeyi geçtikten sonra sizi gruba katılmaya davet edeceğiz. Topluluğa katıldıktan sonra, grup açıklamalarını değiştirmelisiniz (isim-şirket-pozisyon; profesyonel grup incelemesi katıdır, lütfen anlayın).

Hangi kırmızı şarap 3.86 milyon değerindedir!
önceki
Bu tür mantarlar, çiftçiler buna "sağlıklı ot" diyorlar, yiyebilir, hastalıkları tedavi edebilir ve geniş bir pazar beklentisine sahiptir.
Sonraki
Daha önce bir BMW alacak para yoktu, ama şimdi bir BMW alacak para yok mu?
İyi bir seyahat arkadaşı olmak için lütfen bu görgü kuralları ipuçlarını aklınızda bulundurun
Büro Partisi Sekreteri ve Direktörü Chen Kedong, sağlık ve aile planlaması çalışmalarını araştırmak ve denetlemek için bazı ilçelere gitti.
7 Silikon Vadisi yapay zeka yeteneği maaş dönemini başlattı ve Oracle'ın yapay zeka uzmanları kazmak için yıllık 6 milyon dolarlık maaşı var
Tibet Lhasa'da değil, Potala Sarayı'nda değil, gerçek Tibet yolda!
En güçlü şarabı iç ve en vahşi köpeği kovala Dün gece tarihin seçtiği erkek ve kadınların hepsi hikayeli kız ve erkek öğrencilerdi.
Ağır! Pan Jianwei'nin ekibi 18 kübit dolanma elde ederek dünya rekorunu yeniden kırdı!
Guoan ön saha pitoresktir! Üç süper yabancı silaha ek olarak, bu üç yerli oyuncu da Luneng'e baş ağrısı verdi.
2018 ulusal otomobil satış şampiyonu açıklandı! Çin, Amerika Birleşik Devletleri ve Almanya konusunda hiçbir şüphe yok.
Yeni Haval H6 hakkında konuşmak: lüks ve miras çağı
Sincanın 30.000 dönümlük Xinghua Vadisinin denize açılmak üzere olan havadan çekilmiş fotoğrafları ülkeyi büyülüyor ~
ResNet'in güçlü teorik kanıtı "bir nöron her şeyi yönetir"
To Top