Amazon, web video sınıflandırması için yeni bir çerçeve yayınladı: 1/100 veri hacmi, optimum modeli yakalayan doğruluk

Leifeng.com AI Kaynağı Chuang yorumu: Son zamanlarda, akıllı bir başlangıç şirketi olan Amazon, SenseTime ve Hong Kong Çin Üniversitesi'nden araştırmacılar ortaklaşa, Web verilerini kullanan yeni bir çerçeve geliştirdiler: Video tanıma alanında yeni bir çerçeve oluşturan OmniSource. kayıt.

OmniSource, görüntüler, kısa videolar ve düzenlenmemiş videolar gibi veri formatları arasındaki uyumsuzluğu çözerek ve veri dengeleme gibi yöntemleri benimseyerek, videoları en gelişmiş modellere göre daha doğru bir şekilde sınıflandırabilir, ancak kullanır Veriler 100 kat daha azdır.

OmniSource nasıl çalışır?

Araştırmacılar, genellikle video sınıflandırma algoritmalarını eğitmek için gereken verileri toplamanın pahalı ve zaman alıcı olduğunu, çünkü videolar genellikle bir veya daha fazla konunun birden çok çekimini içerdiğinden, bunları sınıflandırırken tam olarak izlemeniz ve ardından manuel olarak kesmeniz gerektiğini belirtti. Bir paragrafa dikkatlice ek açıklamalar ekleyin.

OmniSource'un mimari diyagramı

OmniSource görüntüler, kırpılmış videolar ve düzenlenmemiş videolar gibi çeşitli kaynaklardan (arama motorları, sosyal medya) çeşitli Web verilerini entegre bir şekilde kullanır. Daha sonra, AI sistemi düşük kaliteli veri örneklerini filtreler ve koleksiyonundan geçen veri örneklerini işaretler (ortalama% 70 ila% 80) ve her örneği hedef göreve uygun hale getirmek için dönüştürür. Sınıflandırma modeli eğitiminin sağlamlığını artırın.

Belirli bir tanıma görevinden sonra OmniSource, tüm kategorilerdeki her bir kategori adının anahtar kelimelerini alacak, yukarıdaki kaynaklardan web verilerini alacak ve yinelenen verileri otomatik olarak silecektir. Statik görüntüler için, bu görüntüler ortak eğitim sırasında kullanılmak üzere önceden hazırlanmalıdır ve bunları "sözde" videolar haline getirmek için mobil kameralar kullanacaktır.

Ortak eğitim aşamasında, veriler filtrelendikten ve hedef veri kümesiyle aynı formata dönüştürüldükten sonra, OmniSource Web'i ve hedef derlemeyi tartacak ve ardından dahil edilen örnek çiftleri ve etiketlerini birleştirmek için bir çapraz veri kümesi hibrit yöntemi uygulayacaktır. Eğitim için kullanılır.

Daha az veri, daha yüksek doğruluk

Ortak eğitimin bu aşamasında, bir araştırmacının raporuna göre, OmniSource bir video tanıma modelini sıfırdan eğitmek için kullanıldığında, ince ayar etkisi iyi olmasa da, çapraz veri karıştırmanın etkisi çok iyidir.

Testte ekip üç hedef veri seti kullandı:

  • 400 kategori içeren Kinematik-400, her kategori 10 dakikalık 400 video içerir;

  • 196 farklı otomobil türünü gösteren binlerce video içeren YouTube-car;

  • UCF101, 100 klip ve 101 kategoride video tanıma veri seti içerir;

Web veri seti dağıtımı. (a) - (c) filtrelemeden önce ve sonra her kategorinin veri dağıtımında üç Web veri setinin görselleştirildiğini gösterir. (D) GG-K400 (camgöbeği kutusu) ile filtrelenmiş bir görüntü örneği ve kalan görüntü (mavi kutu) verilmiştir. Birçok uygunsuz veriyi başarılı bir şekilde filtrelemiş olsak da, her bir kategorinin veri dağılımını daha dengesiz hale getirdi

Web sitesi kaynaklarıyla ilgili olarak, araştırmacılar Google Görsel Arama'dan 2 milyon resim, Instagram'dan 1,5 milyon resim ve 500.000 video ve YouTube'dan 17.000'den fazla video topladı. Hedef veri setiyle birleştirildiğinde, bunların tümü bazı video sınıflandırma modellerine girilir.

Rapora göre eğitim olmadığında internetten sadece 3,5 milyon görüntü ve 800.000 dakikalık video taranabiliyor ve sonuç önceki çalışmanın% 2'sinden az. Kinetics-400 veri setinde, eğitimli model% 83.6 doğrulukla en az% 3.0 doğruluk artışı gösterdi. Aynı zamanda, bu çerçeve altında sıfırdan eğitilen en iyi model, Kinetics-400 veri setinde% 80.4 doğruluğa ulaştı.

Ölçeklenebilir video tanıma teknolojisi

OmniSource tartışmasının yazarı, en gelişmiş teknolojinin aksine, çerçevenin daha basit (ve daha hafif) bir ana tasarım ve daha küçük bir girdi hacmi ile daha da iyi performans elde edebileceğini belirtti. OmniSource, göreve özgü veri setlerini kullanır ve daha verimli veri sağlar.Önceki yöntemlerle karşılaştırıldığında, gerekli veri miktarını büyük ölçüde azaltır. Ek olarak, çerçeve, video tanıma ve ayrıntılı sınıflandırma gibi çeşitli video görevlerine itilebilir.

Resim kaynağı: Reuters / Thomas Peter

OmniSource, gelecekte özel ve halka açık yerlerdeki güvenlik kameralarına da uygulanabilir. Veya Facebook gibi sosyal ağ sitelerine video inceleme algoritmaları için gereken tasarım bilgisi ve teknolojiyi sağlayabilir.

Orijinal adres:

https://venturebeat.com/2020/04/02/amazon-sensetime-omnisource-framework-web-data-video-recognition/

OmniSource kağıt adresi:

https://arxiv.org/pdf/2003.13042.pdf

Leifeng.com AI Kaynak Oluşturma İncelemesi Leifeng.com

Facebook sadece 299 $ 'a Rift CV1'in yenilenmiş sürümünü piyasaya sürdü
önceki
İşten çıkarmalar, maaş kesintileri, proje gecikmeleri ve salgının etkisi altında hangi sektörler trende karşı büyüyor?
Sonraki
600 sayfadan fazla "Cennet Kitabı" resmi olarak yakında yayınlanacak! En efsanevi problem dahi bir matematikçi tarafından mı çözüldü?
Köpek yavrusu bir köpektir! Gözetimsiz makine çevirisi yapmak için bir araç olarak vizyonu kullanan DeepMind'ın büyük hareketi, etkisi mükemmel
ACL 2020 kabul sonuçları açıklandı ve başvuru sayısı 3.000'i aştı.Tarihteki en popüler NLP'yi kazandınız mı?
Tianjin Yüksek Halk Mahkemesi İflas Yöneticilerinin Hiyerarşik İdaresi için Önlemler
Xi Jinping'in savaş anı
Gao Xinxing: Yeni dijital altyapı altında 5G Araçların İnterneti, yenilikler otonom sürüş ve akıllı ulaşım sağlıyor
Karmaşık senaryolarda çok hedefli konumlandırma - derin öğrenme algoritmalarının gözden geçirilmesi
Görsel algı ve akıllı kokpitlerin bir araya gelmesi ile ADI, otonom sürüş fırsatını yakalayabilir mi?
LSTM neden bu kadar etkilidir? Bilmen gereken bu beş sır
Sert kulak misafiri önleme! Mac'e özel özellikler iPad'e geliyor: T2 çipine dayalı, sektörün en katı koruma mekanizması
En son Linux Mint 20 açıklaması: kod adı "Ulyana", 32 bit sistemleri terk ediyor
300 milyon ABD Doları değerindeki "Japonya'da İnternetin Babası" 14 milyon IPv4 adresi sattı
To Top