"ECCV 2018" Google AI hiper ölçekli görüntü yarışması, Çin ekibi hedef tespit şampiyonunu kazandı

Gözler, insanların dış dünyayla ilk temas duygusudur. Makineler için bilgisayarla görme teknolojisi onların "gözleri" dir. son günlerde, Baidu Vision Ekibi Dünyanın en büyük hedef tespit yarışması Google AI Open Images-Object Detection Track'de dünya çapında 450'den fazla katılımcı ekip arasından sıyrıldı, dünya birinciliği kazandı ve ECCV 2018'de paylaştı.

Google AI Open Images-Object Detection Track, büyük ölçekli hedef tespit görevleri için yetkili bir meydan okuma etkinliğidir. Google AI Research tarafından düzenlenmiştir. Etkinlik, PASCAL VOC, ImageNet ve COCO geleneklerini takip eder, ancak veri ölçeği bu olaylardan çok daha büyüktür.

Görseller V4 veri kümesini aç

Raporlara göre yarışma, eğitim veri seti olarak Google tarafından bu yıl Mayıs ayında yayınlanan Open Images V4 veri setini kullanıyor. 1,7 milyondan fazla görüntü verisi, 500 kategori ve 12 milyondan fazla nesne çerçevesi içeriyor. Veriler tam olarak etiketlenmemiş ve zayıf bir denetim görevine ait. Çerçeve seçim kategorilerinin sayısı eşit değildir ve çok geniş bir kategori dağılımı vardır.Bu, gerçek duruma daha çok uygundur.Ayrıca, yarışmaya katılan takımların kategori dağılımını dikkate almaları gerektiği ve tüm kategorileri tek tip olarak ele alamayacakları anlamına gelir, bu nedenle daha zordur. Bu olay, karmaşık modellerin araştırılması için yararlıdır ve aynı zamanda farklı algılama modellerinin performansının değerlendirilmesinde olumlu bir role sahiptir. Aşağıdaki şekil Open Image V4, MS COCO ve ImageNet inceleme görevi verilerinin karşılaştırmasını göstermektedir.

Open Image V4 ile MS COCO ve ImageNet algılama verilerinin karşılaştırılması

Geleneksel tespit verisi toplama ile karşılaştırıldığında, bu olay, büyük ölçekli ve daha gerçekçi verilere ek olarak bir dizi zorluğa sahiptir. Spesifik olarak, esas olarak aşağıdaki üç konuya odaklanır:

  • Dengesiz veri dağıtımı: En küçük kutu seçimine sahip yalnızca 14 kategori vardır ve en büyük kategori kutusu seçimi 140w'yi aşar ve veri dağıtımı ciddi şekilde eşitsizdir.

  • Eksik işaret çerçevesi: Çoğu resim yalnızca konu kategorisini işaretler ve diğer küçük nesneler veya hedef olmayan nesneler işaretlenmez.

Eksik resim örnekleri

  • Büyük ölçekli değişiklikler: çoğu nesne çerçevesi, tüm resmin yalnızca 0,1'inden daha azını kaplarken, bazı çerçeve seçimleri tüm resim alanını kaplar. Şekilde gösterildiği gibi, Open Image V4 koleksiyonunda daha küçük nesneler var ve yarışmacılar ayrıca tespit verilerinde daha büyük zorluklarla karşılaşacaklar.

Çerçeve boyutu dağılım karşılaştırması

çözüm

Yarışma sırasında Baidu Vision ekibi, modelleri eğitmek ve bu modelleri birleştirmek için farklı karmaşıklıklar ve farklı iskelet ağları kullandı. Genel program çerçevesi perspektifinden, iki farklı eğitim moduna, Hızlı R-CNN ve Daha Hızlı R-CNN'ye ayrılabilir. Fast R-CNN versiyonu, ekip tarafından geliştirilen bir PaddlePaddle versiyonudur.Bu temelde Faster R-CNN, FPN, Deformable ve Cascade gibi en son algılama algoritmalarını ekledi ve modelin performansı büyük ölçüde iyileştirildi.

Genel şema çerçeve akış şeması

  • İskelet ağı, model yakınlaştıktan sonra 0,481'e ulaşabilen ResNet-101'in Hızlı R-CNN'sidir ve test aşamasında Yumuşak NMS ve Çok Ölçekli Test stratejileri ekleyerek 0,508'e ulaşabilir. Araştırmacılar ayrıca diğer iskelet ağlarını (dpn98, Inception-v4, Se-ResNext101) denedi ve farklı iskelet ağlarının algılama algoritmalarını birleştirdi ve son harita 0,546'ya ulaşabilir. Teklif örnekleme aşamasında, ekip oluşturmak için farklı konumlarda farklı aday çerçeve ölçekleri kullanır ve ardından bu çerçeve seçimlerini sınıflandırır ve konumlarını ayarlar.

  • Daha Hızlı R-CNN: Bu çerçeveyi kullanmak, Hızlı R-CNN'den biraz daha fazlasını elde edebilir, mAP 0,495'tir. Test aşamasında Soft NMS ve Çok Ölçekli Test stratejisini kullandıktan sonra performans 0,525'e ulaştı.

  • Deforme Edilebilir Evrişimli Ağların Yumuşak NMS ve Çok Ölçekli Test stratejilerini kullanmasından önce ve sonra, performans sırasıyla 0,528 ve 0,559'a ulaştı.

  • Deforme Edilebilir Kaskad R-CNN: Yumuşak NMS ve Çok Ölçekli Test stratejilerini kullanmadan önce ve sonra, performans sırasıyla 0,581 ve 0,590'a ulaşabilir.

Kısacası, Hızlı R-CNN çerçevesi altında, ekip eğitim için farklı iskelet ağları kullanırken, Daha Hızlı R-CNN çerçevesi altında eğitim için yalnızca ResNet101 kullanıldı. Eğitim sürecinde çeşitli teknik sorunlar farklı stratejilerle etkin bir şekilde çözüldü. Detaylar aşağıdaki gibidir:

Dinamik örnekleme

Google Open Images V4 veri kümesinde yaklaşık 170w görüntü, 1220w çerçeve seçimi ve 500 kategori bilgisi bulunur. En büyük kategori çerçeve seçimi 140w'yi aşıyor ve en küçük kategoride yalnızca 14 çerçeve seçimi var.Sadece tüm resimleri ve çerçeve seçimlerini kullanırsanız, modeli eğitmek onlarca gün sürer ve tarafsız bir model eğitmek zordur. Bu nedenle eğitim sürecinde dinamik örnekleme yapılması gerekmektedir.Örnek sayısı fazla ise örnekleme olasılığı azalacak, örnek sayısı az ise örnekleme olasılığı artacaktır. Araştırmacılar üç strateji uyguladılar: tam veri eğitimi, sabit çerçeve seçimi alt kümesi eğitimi ve dinamik örnekleme modeli eğitimi.

  • Tam veri eğitimi seti: organizatör tarafından sağlanan verilere göre eğitim, mAP 0,50'ye ulaşır.

  • Sabit çerçeve seçimi alt kümesi eğitimi: Her kategori için 1000 kareye kadar çevrimdışı sabit seçim, mAP 0,53'e ulaşır.

  • Dinamik örnekleme modeli eğitimi: Her GPU ve her Epoch için çevrimiçi dinamik örnekleme kullanılır.Her seferinde toplanan veriler farklıdır. Tur sayısı belirli bir sayıya ulaştığında, tüm veri seti genel eğitime katılabilir. Sonunda mAp 0.56'ya ulaştı.

Dinamik örnekleme stratejisi

FPN

Araştırmacılar, eğitim veri setinin analizine dayanarak, 500 kategorinin ölçeklerinin oldukça farklı olduğunu buldular. Bu nedenle, bir özellik piramidi ağı oluşturmak için çok ölçekli ve çok seviyeli bir piramit yapısı kullanan tespit modeline FPN'yi tanıttılar. Deneyde, omurga ağı olarak ResNet101'i kullandılar ve farklı aşamaların son katmanına yukarıdan aşağıya yan bağlantılar eklediler. Yukarıdan aşağıya süreç yukarıdan örneklemedir ve yatay bağlantı, yukarı örnekleme sonucunu aşağıdan yukarıya oluşturulan aynı boyuttaki özellik haritasıyla birleştirmektir. Füzyondan sonra, yukarı örneklemenin örtüşme etkisini ortadan kaldırmak için her bir füzyon sonucu üzerinde 3 * 3 evrişim gerçekleştirilir. Farklı ölçek özellikleri oluşturmak ve bunları RPN ağının girişi olarak entegre etmek için FPN'nin RPN ağına gömülmesi gerektiğini belirtmek gerekir. Son olarak, FPN'nin tanıtımından sonraki harita 0,528'e ulaşabilir.

Deforme Edilebilir Evrişim Ağları

Ekip, CNN'lerin modelleme yeteneklerini geliştirmek için deforme olabilen evrişimli sinir ağları kullandı. Deforme edilebilir evrişimli ağ fikri, ek denetim olmaksızın hedef görevin öğrenilmesi yoluyla uzaysal örnekleme noktasına ek bir ofset modülü eklemektir. Aynı zamanda, deforme olabilen evrişimli ağ, iskelet ağı olarak ResNet101 ile Daha Hızlı R-CNN mimarisine uygulanır ve deforme olabilen evrişimli katman, ResNet101'in res5a, 5b ve 5c katmanlarından sonra uygulanır ve ROI Havuzlama katmanı, deforme olabilir ve konuma duyarlı olacak şekilde geliştirilir. ROI Havuzlama katmanı. Deforme olabilen evrişimli ağın haritalama performansı 0.552'dir.

Basamaklı R-CNN

Yarışma sırasında ekip, algılama modelini eğitmek için kademeli R-CNN kullandı. Temel model eğitimine ek olarak, beş ölçekli özellik piramit ağları (FPN) ve üç ölçekli çapalar içeren bir RPN ağı da kullanılır. Ayrıca, tüm sınıftaki en kötü performans gösteren 150 model için küçük bir sınıf modeli eğittiler ve bu 150 model sınıfını değerlendirdiler. Sonuç, 500 kategorili modelin MAP'sinin 0.477 olduğu ve 150 kategorili tek model eğitim sonucunun 500 kategorili 150 kategorili sonuçların yerine kullanıldığı ve modelin MAP'sinin 0.498'e yükseltildiği şeklindedir. Yukarıdaki yöntem kullanılarak eğitilen tek ölçekli modelin performansı 0,573'tür.

Test Hileleri

İşlem sonrası aşamada ekip, Soft NMS ve çok ölçekli test yöntemlerini kullanır. NMS'yi Soft NMS ile değiştirdikten sonra, farklı modellerde 0,5-1,3 puanlık bir gelişme olurken, Çok Ölçekli Test, farklı modellerde 0,6-2 puanlık bir iyileştirmeye sahip.

Model füzyonu

Ekip, her model için NMS'den sonra sınırlayıcı kutuları tahmin etti. Farklı modellerden tahmin kutuları, aşağıdaki gibi NMS'nin geliştirilmiş bir sürümü kullanılarak birleştirilir:

  • Her modele 0 ile 1 arasında bir skaler ağırlık verin. Tüm ağırlıkların toplamı 1'dir;

  • Her modelden sınırlayıcı kutunun güven puanını karşılık gelen ağırlığıyla çarpın;

  • Tüm modellerden elde edilen tahmin kutularını birleştirin ve NMS'yi kullanın.Ayrıca, araştırmacılar sadece en yüksek puan modelini korumak yerine farklı modellerin puanlarını üst üste bindirme yöntemini kullandılar.Bu adımda IOU eşiği 0,5'tir.

Aslında, büyük ölçekli hedef tespiti, ister akademi ister endüstride olsun, bilgisayar görüşü için son derece önemli bir temel teknolojidir. Bu teknoloji sayesinde, yazılım ve donanım uygulama ürünleri, resimdeki nesnelerin konumunu ve kategorisini derinlemesine bulabilir ve yeni perakende ve genel çok parçalı tanıma gibi senaryolarda kullanılabilir.

Xinzhiyuan AI WORLD 2018 Dünya Yapay Zeka Zirvesi

Range Rover Star Pulse: Land Rover'ın 50 yıldaki görünümünün zirvesi olduğunuzu duydum?
önceki
Başlık: Tren biletlerindeki değişiklikler
Sonraki
Sichuanın ziyaret edilebilecek en değerli 20 yeni yeri, oraya gidenlerin yalnızca% 1'i, kaçını ziyaret ettiniz
SAIC Maxus G10'u 3000 kilometre sürmek, insanları mutlu ve endişelendiriyor
Kadın yılbaşı selamlarını ödemek için erkek arkadaşının evine gitti ve metro istasyonunda böyle bir şey yaptı.
Saniyede 20 milyon AI hesaplaması sağlayan Çin'in en güçlü AI süper sunucusu çıkıyor
Yeni Camry, deklarasyon haritasında ne ortaya çıkardı?
Kuzeydoğu mutfağı güneylilerin vatan hasreti haline geldi
İpek Yolu Üzerine Seyahat Notları: Hümanist Duyguları ve Doğanın Gücünü Hissetmek
Bayesian, Occam ve Shannon makine öğrenimini tanımlamak için bir araya geldiğinde
Wuling'den "yukarı çıkmasını" istemekle KTV'ye kendi erhu'nuzu getirmek arasındaki fark nedir?
Google Cloud AI'nın yeni başkanı orduya maruz kaldı. 4000 çalışan boşuna mı protesto etti? AI WORLD zirvesi gündemi ortaya çıktı
Kuzeybatı seyahati için ziyaret edilmesi gereken 50 çekim yeri. Kaç tane gördünüz mü?
Polise şiddetli saldırı mı? Onu cezalandır!
To Top