g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Videoyu anlamak ve yeniden üretmek zor mu? FAIR şampiyon algoritmasının açık kaynak kodu PySlowFast'ın ayrıntılı açıklaması

Yazar | Kyomi

Editör | Camel

Son yıllarda video anlama araştırmalarında, Facebook AI Research birçok harika çalışmaya katkıda bulundu. Video ekibi sadece CVPR, ICCV vb. toplantı Birkaç video araştırma çalışması yayınladı ve ayrıca büyük veri kümelerinde birinci oldu ve 2019 CVPR Davranış Tespiti Yarışmasını kazandı. Şimdi ekibi, ICCV seminerinde video tanıma algılama kodu kitaplığını açık kaynaklı hale getirdi: PySlowFast ve aynı zamanda önceden eğitilmiş bir model kitaplığı yayınladı. Ekip, video anlama alanındaki araştırmaları desteklemeyi hedeflerken, aynı zamanda en yeni çalışmalarını kod tabanına gerçek zamanlı olarak eklediklerini söyledi.

https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19

Video ve eylem anlayışı günümüzün en sıcak araştırma yönlerinden biri haline geldi.Ancak, açık kaynak topluluğunda kısa, verimli ve kırılması kolay bir video anlama kod tabanı bulmak kolay değil. şey.

Daha da önemlisi, bugünün en son teknolojisini (devlet- nın-nin - -art) 'ın derin öğrenme modeli (videonun omurgasını anlama) her zaman araştırmacılar için bir baş ağrısı olmuştur. Video anlama modeli genellikle düzinelerce GFlop alır ve birkaç günlük eğitim gerektirir. Bir modeli yeniden üretmek için tekrarlanan deneyler gerekir. Her detay doğrudur. Bu genellikle çok fazla zaman ve kaynak tüketir ve bu da birçok araştırmacının cesaretini kırar.

2019'da Facebook AI Research (FAIR), CVPR üzerine bir dizi araştırma çalışması yayınladı ve CVPR 2019 Davranış Tespit Yarışması'nı kazandı.

FAIR, ICCV 2019'da bir video anlama kod kitaplığı başlattı: PySlowFast.

PySlowfast, PyTorch'a dayalı bir kod kitaplığıdır ve araştırmacıların video sınıflandırmasını ve eylem algılama algoritmalarını basitten son teknolojiye kolayca yeniden üretmesine olanak tanır.

Sadece bu değil, PySlowFast kod tabanı, araştırmacıların modelleri tekrar tekrar eğitme sıkıntısından kurtarmasına ve FAIR'in en son performans modellerini doğrudan kullanmasına olanak tanıyan çok sayıda ön eğitim modelini de açık kaynak haline getiriyor.

Açık kaynaktan beri, PySlowFast bir kez daha GitHub trend listesinde ilk ona girdi.

Semineri tarafından sağlanan öğreticilere ve açık kaynak kod tabanına ilişkin bilgilere göre, PySlowFast yalnızca temel bir video anlayış modeli sağlamakla kalmaz, aynı zamanda günümüzün en son video anlama algoritmalarının yeniden üretimini de sağlar.

Algoritması yalnızca video sınıflandırmasını (video sınıflandırması) değil, aynı zamanda eylem algılama (Eylem Sınıflandırması) algoritmasını da içerir. Açık kaynak topluluğundaki çeşitli video tanıma kitaplıklarının eşit olmayan performansıyla karşılaştırıldığında, PySlowFast kullanarak günümüzün en yeni modellerini kolayca yeniden üretebilirsiniz.

Video tanıma (Kinetik)

Davranış Algılama (AVA)

(Tablo 1: PySlowFast'ın video sınıflandırma veritabanı Kinetics 400 üzerindeki performansı) (Alıntı: https: // github .com /facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)

PySlowFast yalnızca video sınıflandırması için değil, aynı zamanda videoyu anlamak için de kullanılabilir ve 2019 CVPR ActivityNet Challenge Winner'ı kazanan bir video algılama modeli sağlar.

PySlowFast ayrıca, çok modlu video anlama ve basit düzenleme yoluyla videonun kendi kendini denetleyen öğrenimi gibi görevleri desteklemek için bir arabirim de ayırır. FAIR araştırma ekibine göre, PySlowFast, ekibini ve sektörün en son algoritmalarını gerçek zamanlı olarak güncellemek için aktif bir şekilde korunacak. Aynı zamanda, eğitim öncesi modeli açık kaynaklı olacak ve kod tabanını video anlama alanında temel bir kriter haline getirecek.

Yazar, eğitime referansla PySlowFast kod tabanını kısaca denedi. Kurulumu tamamladıktan sonra geçiş indir MODEL_ZOO tarafından sağlanan ön eğitim modeli ve ilgili yapılandırma dosyaları, aşağıdaki kodu çalıştırın, (Test) modelinin performansını farklı video veritabanlarında test edebilirsiniz:

python araçları / run_net.py \ --cfg configs / Kinetics / C2D_8x8_R50.yaml \ DATA.PATH_TO_DATA_DIR veri kümenize_ giden_ yol \ NUM_GPUS 2 \

Yazar, kod tabanı aracılığıyla en yeni yüksek performanslı modelleri kolayca yeniden üretebilir.Aynı zamanda, basit modifikasyonlarla kendi modelimi uygulamaya çalışıyorum ve en son performansı elde etmek için eğitim için birden fazla GPU kullanıyorum.

Yazar daha karmaşık görevleri denemedi, ilgilenen okuyucular doğrudan Github sayfasına giderek şunları öğrenebilir:

https: // github .com / facebookresearch / SlowFast

Today's Paper | Streamline BERT; yüz değişimi; 3D nokta bulutu; DeepFakes ve 5G vb.

AAAI 2020 | Nanjing Üniversitesi: Farklı çeviriler oluşturmak için çok başlı dikkat mekanizmasını kullanma

: ImageNet'in yüz bin etiket hatası olduğunu biliyor muydunuz?

: Tushen genellikle diferansiyel denklemler, GNN'nin becerilerini sürekli derinlik alanında göstermesi nasıl sağlanır?

: Bitkiler kitlesel yok olma döneminde nasıl hayatta kaldı?

: AAAI 2020 | Multimodal kıyaslamalar tarafından yönlendirilen üretken çok modlu otomatik özetler

: En üst düzey konferans raporu teklif için nasıl gerekli bir koşul haline geldi?

: En gelişmiş nesne dedektörü fillere göz yumuyor

: "duman" mı? Bekle, bir düşün

: 2019'da uzayda hangi uzay çevre olayları oldu?Arama Alanı

: Kum sabitleyen çalılardan kurtulmanın yolu

: 90'larda doğan on milyonlarca insan olan Ningbo evlendi ve sadece 4 sofra şarabı vardı! Tören bir saatten az sürdü ve nedimeler yoktu! Gelin dedi ki ...

: Evdeki tuvalet bakıma muhtaç ve adam yarım ay boyunca alt kata dışkı atıyor.

: Adam banyo yaparken trafik kazasında yakalandı ama iki kilometre uzakta öldü mü?

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Videoyu anlamak ve yeniden üretmek zor mu? FAIR şampiyon algoritmasının açık kaynak kodu PySlowFast'ın ayrıntılı açıklaması

İlgili bilgi

Today Paper | Yüksek boyutlu duyusal uzay robotu; aktif insan pozu tahmini; derin video süper çözünürlüğü; yaya yeniden tanıma vb.

ICLR 2020 | Bu kadar çok model parametresi varken, genelleme yeteneği neden bu kadar güçlü?

AAAI 2020 | Shanghai Jiaotong Üniversitesi: Görüntü sorgusuna dayalı video alma, kod açık kaynak kodludur

ICLR 2020 Tam Puan Kağıt Yorumlama | Bir Ayna Üreten Makine Çeviri Modeli: MGNMT

"AI En İyi İşveren" oylamasına katılın ve iPad mini dahil 5 harika hediyeyi ücretsiz olarak kazanın

Today Paper | 3B hareket tahmini; kendi kendine öğrenen robot; sağlam anlamsal bölümleme; evrişimli sinir ağı; karışık Gauss süreci, vb.

Microsoft ve Pekin Üniversitesi ortaklaşa "mızrak ve kalkan" ın gerçekçi versiyonunu yorumlamak için yüzü değiştiren bir yapay zeka ve yüz sahteciliği dedektörü önerdi.

Today Paper | Tıbbi görüntülerde derin öğrenme; meta-pekiştirmeli öğrenme; derin sinir ağlarının kayıpsız sıkıştırılması vb.

Model budama, "kesik" nedir?

Kayıt | Tsinghua-Chinese Academy of Engineering Knowledge Intelligence Joint Research Center Annual Conference and AI 2000AI TIME10