"Kaggle Gerçek Savaş Paylaşımı" Google YouTube-8M Büyük Ölçekli Video, Rekabet Teknolojisi Analizini Anlama

1 Xinzhiyuan Orijinal

  • Kağıt adresi: https://arxiv.org/abs/1706.05150

  • Kod adresi: https://github.com/wangheda/youtube-8m

Video içeriğini anlamak ve tanımak, bilgisayar görüşünde büyük bir zorluktur. Videoyu anlama, güvenlik izleme, akıllı ev, otonom sürüşün yanı sıra video görüntüsü arama ve spor video analizi gibi birçok uygulamaya da sahiptir. Bu yılın Şubat ayında Google, önceden açık kaynaklı büyük ölçekli video veri kümesi YouTube-8M'yi güncelledi. Yeni veri kümesi, etiket yükseltmesine ek olarak önceden hesaplanmış ses özellikleri de içeriyor. Ses ve görsel özellikler, 1 saniyelik bir zaman ayrıntı düzeyinde senkronize edildiğinden Ortak görsel-işitsel (zaman) modelleme için.

Google ayrıca, Kaggle platformuyla ortak bir video anlama yarışmasını duyurdu ve katılımcıları, görsel-işitsel içerik sınıflandırma modeli oluşturmak için Google Cloud makine öğrenimini kullanarak Youtube-8M'yi eğitim verileri olarak kullanmaya davet etti. En iyi performans gösteren takım 100.000 $ ödül alacak.

Güncellenen YouTube-8M veri kümesinin ağaç haritası görselleştirmesi, en yaygın 200 varlık ve her kategorideki ilk 5 varlık dahil olmak üzere 24 gelişmiş dikey kategoriye ayrılmıştır.

YouTube-8M veri kümesindeki ilk 18 gelişmiş kategorideki videolara örnekler.

30 Haziran'da oyun sonuçları açıkladı. Henüz tamamlanan CVPR 2017 YouTube-8M Büyük Ölçekli Video Anlama Zorluğu Atölyesi'nde, organizatör ve katılan her ekip kendi yöntemleri hakkında fikir alışverişinde bulundu.

Aşağıdaki, ikinci sırayı kazanan maymun tipleme ekibinin maç sonrası özetidir. Ekip üyeleri Wang Heda ve Zhang Teng, Tsinghua Üniversitesi, Elektronik Bölümü, Multimedya Sinyal ve Bilgi İşleme Laboratuvarındandır ve onların süpervizörleri Doçent Wu Ji'dir. Zhang Teng şu anda multimedya olay tespiti alanında doktora için çalışıyor; Wang Heda bu yıl Temmuz ayında yüksek lisans derecesi ile mezun oldu.Araştırma ilgi alanları öneri sistemleri, doğal dil işleme ve bilgisayar vizyonudur.

Yarışma sonuçları: Fransa birinci, Çin takımı ikinci, üçüncü ve dördüncü oldu

Youtube-8M büyük ölçekli video anlama yarışması, Google Cloud ve veri bilimi yarışması web sitesi Kaggle tarafından ortaklaşa düzenleniyor. Bu yıl Şubat ayında başladı ve Haziran başında sona erdi. Dört ay içinde 600'den fazla ekibin yarışmaya katılmasını sağladı. en sonunda, Fransız Ulusal Bilgisayar ve Otomasyon Enstitüsü'nden (INRIA) WILLOW ekibi birinci oldu, ikinci maymun tipleme ekibi Tsinghua Üniversitesi Elektronik Bölümünden ve üçüncü çevrimdışı ekip Baidu Derin Öğrenme Laboratuvarı ve Tsinghua Üniversitesi'nden geldi. Dördüncü sıradaki FDT ekibi Fudan Üniversitesi, Sun Yat-sen Üniversitesi ve Wuhan Üniversitesi'nden geliyor.

Google YouTube-8M büyük ölçekli video anlama yarışması sonuçları: Fransız Ulusal Bilgisayar ve Otomasyon Enstitüsü'nden (INRIA) WILLOW ekibi birinci, Tsinghua Üniversitesi Elektronik Bölümü'nden ikinci maymun tipleme ekibi ve üçüncü çevrimdışı ekip kazandı Baidu'nun Derin Öğrenme Laboratuvarı ve Tsinghua Üniversitesi'nden dördüncü FDT ekibi, Fudan Üniversitesi, Sun Yat-sen Üniversitesi ve Wuhan Üniversitesi'nden.

Yarışmada kullanılan veri seti, Google'ın geçtiğimiz yıl yayınladığı Youtube-8M çok etiketli video sınıflandırma veri setidir. Bu veri seti, şimdiye kadarki en büyük video sınıflandırma veri seti olan 7 milyon örneğe sahiptir ve önceden yaygın olarak kullanılan ActivityNet ve UCF101 veri setlerini çok aşmaktadır. Ek olarak, bu yeni veri setinin alanı da toplam 4716 farklı sınıflandırma etiketi ile daha çeşitlidir ve video başına ortalama etiket sayısı 3-4'tür. Bu etiketler, videonun metin ve görsel bilgilerine göre etiketleme programı tarafından ek açıklama eklenen ve ardından manuel olarak kontrol edilip filtrelenen Bilgi Grafiğindeki varlıklardan alınır.

Çeşitlilik ve veri ölçeğindeki avantajlarına rağmen Youtube-8M veri setinin de bazı sınırlamaları vardır. İlk olarak, hesaplama eşiğini azaltmak için Google, video verilerini saniyede 1 kare olarak örnekler ve her bir görüntü karesinden özellikler çıkarmak için ImageNet üzerinde önceden eğitilmiş bir ağ kullanır. Veri seti yalnızca önceden alınmış özellikleri içerdiğinden, bu, araçları yarışmacılar için daha sınırlı hale getirir. İkinci olarak, veri kümesi yalnızca video düzeyinde kategori ek açıklamalarını içerir ve ayrıntılı ek açıklama türlerini içermez, bu da veri kümesinin uygulama senaryolarını sınırlar. Üçüncüsü, veri setindeki etiketler, geri çağırma açısından belirli kusurları olan makineler tarafından üretilir.

Gönderdiğimiz nihai sonuç, 74 modelden oluşan bir Ensemble idi ve son test setinde küresel ortalama 0.8459 doğruluk elde etti. Videoyu esas olarak üç yönden modelleriz: etiket korelasyonu, videonun çok seviyeli bilgisi ve zamansal dikkat modeli. Etiket korelasyon modellemesinde, sınıflandırma sonuçlarının boyutsallığını sürekli olarak azaltan ve sonraki tahmin için kullanan bir ağ yapısı benimsiyoruz.Bu yapı, birden çok modelin sınıflandırma performansını etkin bir şekilde iyileştirebilir. Videonun çerçeve özelliği dizisini birden çok zaman ölçeğinde modellemek için tekrarlayan bir sinir ağı yapısıyla birleştirilmiş derin bir evrişimli sinir ağı kullanıyoruz. Ayrıca sıra modelinin çıktısı üzerinde Dikkat havuzlaması yapmak için dikkat modelini benimsedik ve iyi sonuçlar elde ettik.

Yöntemimiz: etiket korelasyonu + çok ölçekli zaman bilgisi + dikkat modeli

1. Etiket alaka düzeyi

Bir öneriyoruz Çok etiketli sınıflandırmada etiket korelasyonunu modellemek için zincirlenmiş sinir ağı yapısı . Aşağıdaki şekilde gösterildiği gibi, girdi video düzeyinde bir özellik olduğunda, yapı tek bir ağın tahmin çıktısının boyutsallığını azaltır ve boyut azaltma sonucunu video sunum katmanıyla bir temsilde birleştirir ve ardından tahmin için bir ağdan geçer. Ağdaki son seviyenin tahmin sonucu nihai sınıflandırma sonucudur ve orta seviyelerin tahmin sonuçları da kayıp fonksiyonunun bir parçası olarak kullanılacaktır. Zincir yapısı birkaç seviyede tekrarlanabilir Video seviyesi özelliği ve uzman hibrit ağ üzerinde yapılan deneyler, aynı sayıda kontrol parametresi altında, zincir yapısının ne kadar fazla seviyesi olursa, sınıflandırma performansının o kadar iyi olduğunu göstermektedir.

Yalnızca video düzeyindeki özellikler, LSTM, CNN ve dikkat ağları gibi video temsil ağları aracılığıyla bir zincir yapısını değil, aynı zamanda çerçeve düzeyi özellikler için bir zincir yapı ağı da kullanabilir. Ağ ile deney yaparken, farklı video gösterim ağı seviyeleri için paylaşılmayan ağırlıkların kullanılmasının daha iyi performans sağlayabileceğini gördük.

2. Zamanla ilgili çok ölçekli bilgileri kullanın

Videoda farklı anlamsal bilgiler farklı zaman aralıklarını kapladığından, zaman ölçeğinde modelleme bazı sınıflandırmalar için dezavantajlı olabilir. Bu nedenle, anlamsal bilgiyi daha geniş bir zaman ölçeğinde kullanmak için zaman içinde bir havuzlama yöntemi benimsiyoruz. Çerçeve dizisinin özelliklerini çıkarmak, özellik dizisinin uzunluğunu zaman havuzlaması yoluyla azaltmak ve ardından özellikleri tekrar 1D-CNN aracılığıyla çıkarmak ve tekrar tekrar farklı uzunluklarda birden fazla özellik dizisi elde etmek için 1D-CNN kullanıyoruz. Her özellik dizisi için kullanıyoruz Modelleme için bir LSTM modeli kullanılır ve nihai tahmin sonuçları birleştirilir. Bu sayede farklı zaman ölçeklerinde birden fazla bilgiyi kullanıyoruz ve bu model aynı zamanda en iyi performansa sahip tek modelimiz.

3. Dikkat modeli

Kullandığımız diğer model, çerçeve dizisinin temsilini toplamak için Dikkat Havuzunu kullanmaktır. Orijinal sıra yalnızca her çerçevenin yerel bilgilerini yansıttığından ve bilgileri belirli bir sıra semantiğiyle birleştirmeyi umduğumuz için, LSTM modelinin çıktısına sahibiz Sıra, Dikkat Havuzu Oluşturmadır. Deneyler, bu Dikkat Havuzlama yönteminin modelin tahmin etkisini iyileştirebileceğini göstermektedir. Ek olarak, dikkat ağına Konum Gömme özelliğini kullanmak model performansını daha da artırabilir.

Dikkat ağı çıktısının ağırlığını görselleştirdik ve dikkat ağının, tam ve görünür nesneler sunan resme daha fazla ağırlık verme eğiliminde olduğunu, ön planı olmayan daha koyu veya altyazılarda ise daha fazla ağırlık verdiğini gördük. Daha düşük ağırlık düşünün.

Düşünme: Büyük ölçekli derin öğrenmede donanım mimarisi ve video analizinde algoritma verimliliği çok önemlidir

Bu yarışmada, donanım mimarisinin büyük ölçekli derin öğrenmedeki önemi hakkında çok derinden hissettik. Sunucularımız yalnızca bir gigabit ağıyla bağlı olduğundan, verimli gradyan senkronizasyonu sağlayamıyoruz ve bu nedenle işlemleri hızlandırmak için çok makineli kümeleri kullanamıyoruz. Algoritmalarımızın tamamı tek bir kart üzerinde çalıştırılır.Sonuç olarak, doğrulayıcı deneyinin yinelemeli döngüsü uzadı ve birçok belirsiz keşif gerçekleştirildi. Endüstrideki derin öğrenme kümelerinde, 10 Gigabit'ten fazla bilgisayar odası ağları zaten ana akımdır ve geriye dönük mimari bize birçok zorluk getirdi.

Ayrıca, video analizinde algoritma verimliliğinin önemini de kabul ediyoruz. Youtube-8M veri setinde, ön işleme aşaması binlerce saat GPU süresi gerektirir ve her ekibin sunduğu çözümler eğitim için 1.000 ila binlerce saat GPU süresi gerektirir. Pratik uygulamalarda, bu tür işletim verimliliği genellikle kabul edilemezdir, bu nedenle Dikkat Havuzu ile ilgili yöntemlerin daha popüler olacağına inanıyoruz.

Diğer katılan takımlardan önemli anların özeti

1. WILLOW ekibi: Öğrenmek için Havuzlama + Bağlam Geçişi

INRIA'dan WILLOW ekibi, özellikleri havuzda toplamak için küme tabanlı NetVLAD ağını kullandı. Ayrıca NetVLAD ağını dönüştürdüler ve ikinci dereceden istatistiksel özelliklerin modellemesini dahil ettiler, böylece ağ Fisher Vector temsilini öğrenebilir ve buna NetFV diyebilir. Bu iki ağın avantajı, hesaplama miktarının küçük olması, çerçeve örneklemesinin kullanılabilmesi ve paralelleştirilmesinin kolay olmasıdır. Geçitli doğrusal birim GLU'yu basitleştirdiler, basitleştirilmiş modül Context Gating'i çağırdılar ve bu geçitleme birimi aracılığıyla özellikler arasındaki korelasyonu yakaladılar. Geçitli NetVLAD aynı zamanda bu yarışmada en iyi tek model performansına sahip çerçeve düzeyinde sınıflandırma ağıdır.

  • Rapor: https://arxiv.org/abs/1706.06905

  • Kod: https://github.com/antoine77340/Youtube-8M-WILLOW

2. Çevrimdışı ekip: İleri sarma dizisi modeli

Baidu IDL ve Tsinghua Üniversitesi'nden çevrimdışı ekip, videonun zaman serisi modelini keşfetti. Video özelliklerini modellemek için 7 adede kadar katman içeren bir LSTM / GRU ağı kullandılar. Böylesine derin, tekrarlayan bir sinir ağının eğitilmesi genellikle zordur. Hızlı İleri bağlantı, eğitimin zorluğunu etkili bir şekilde azaltır. Bu model, bu yarışmada en iyi tek model performansına sahip zaman serisi modelidir.

  • Rapor: https://arxiv.org/abs/1707.04555

  • Kod: https://github.com/baidu/Youtube-8M

İş ayrıntılarını görüntülemek için orijinal metni okumak için tıklayın ve katılmanızı dört gözle bekleyin ~

Araba satın aldıktan sonra pişmanlık duyuyor musunuz? Bunun nedeni, araba satın almadan önce bu gizli sorunlara dikkat etmemenizdir!
önceki
Jiangxi'deki bu 5 "çarpıcı" Danxia manzarasını kesinlikle bilmiyorsunuz!
Sonraki
Lao Jia A stadyumunda çok sayıda peri topu var.Aktif uluslararası kaç kişi bu hedefe ulaşabilir?
"Teknoloji söylentileri yalanlıyor" Facebook robotu dil yanlış anlaşılmasını icat ediyor, uzman görüşmeleri gerçeği geri getiriyor
Sizi sonbaharın sonlarında Shandong kampüsüne götürün ve parlak manzaraya bir göz atın
Bu 4 güçlü modeli sürüş yardım sistemleri ile sürün ve sevdiklerinizden uzak durun
Mobil ödeme bu kadar uygun, üniversite yemekhanelerinin kullanımı neden yasak?
En büyük sorumluluk sonuç almaktır
MeiMadai ve Hainan'dan daha ucuz bir ada ülkesi var, uçak biletleri 500'den başlıyor!
"Tam otomatik makine öğrenimi" ejderha silahını öldüren makine öğrenimi mühendisi, eğitimli modeller almak için tek tıkla
Eğitim başladı, savaş davulları kuzeyden güneye dövüldü, eğitim sahasında barut içildi.
Soldaki ve sağdaki araç yakıt deposu arasındaki fark nedir? Çoğu insan söyleyemez
Yerel oyuncuların rolü ciddi şekilde zayıfladı ve Luneng'in sezondaki gerilemesi yabancı yardımların geri gelmesine izin veremez!
veda! "Şeker hapı" nı icat etti ve Çin çocuk felcini ortadan kaldırdı!
To Top