Kuru ürünler Baidu Vision ekibi ECCV Google AI hedef tespit yarışması şampiyonunu kazandı, kazanan planın tam yorumu ECCV 2018

AI Technology Review News Son zamanlarda, Baidu Vision ekibi Google AI Open Images-Object Detection Track hedef tespit görevinde birinciliği kazandı ve bunu bilgisayarla görü ile ilgili en iyi akademik konferans olan ECCV 2018'de paylaşmaya davet edildi. Yarışma, Leifeng.com'un akademik kanal AI teknolojisi inceleme veritabanı ürününde ödüllendirildi. "AI Etki Faktörü" Karşılık gelen bonus puanları vardır.

Google AI Open Images-Object Detection Track, Google AI Research tarafından organize edildi ve bu yıl dünyanın dört bir yanından 450'den fazla ekibin ilgisini çekti.

Yarışma, 1,7 milyondan fazla görüntü verisi, 500 kategori ve 12 milyondan fazla nesne çerçevesi içeren eğitim veri kümesi olarak bu yıl Mayıs ayında Google'ın yayınladığı Open Images V4 veri kümesini kullanıyor. Veriler tam olarak etiketlenmemiş ve zayıf bir denetim görevine ait. Kategorileri seçin. Sayı eşit değil ve çok geniş bir kategori dağılımı var ki bu gerçek durumla daha uyumlu.Aynı zamanda yarışmaya katılan takımların kategorilerin dağılımını dikkate alması gerektiği ve tüm kategorilerle aynı şekilde başa çıkamayacağı anlamına geliyor, bu yüzden daha zorlu.

Bu olay, karmaşık modellerin araştırılması için yararlıdır ve aynı zamanda farklı tespit modellerinin performansının değerlendirilmesinde olumlu bir role sahiptir. Aşağıdaki şekil Open Image V4 ile MS COCO ve ImageNet inceleme görevi verilerinin karşılaştırmasını göstermektedir.Açık Image V4'ün veri ölçeğinin MS COCO ve ImageNet'inkinden çok daha büyük olduğu görülebilir.

Open Image V4 ile MS COCO ve ImageNet algılama verilerinin karşılaştırılması

Aşağıdakiler, Baidu Vision ekibinin teknik çözümlerinin bir yorumudur:

Zorluklar var

Geleneksel tespit veri toplama ile karşılaştırıldığında, bu olayın büyük ölçekli ve daha gerçekçi verilere ek olarak bir dizi zorluğu vardır. Spesifik olarak, esas olarak aşağıdaki üç konuya odaklanır:

  • Dengesiz veri dağıtımı: En az kutu seçimine sahip yalnızca 14 kategori vardır ve en büyük kategori kutusu seçimi 140w'yi aşar ve veri dağıtımı ciddi şekilde dengesizdir.

  • Eksik işaret çerçevesi: Çoğu resim yalnızca konu kategorisini işaretler ve diğer küçük nesneler veya hedef olmayan nesneler işaretlenmez.

Eksik resim örnekleri

  • Büyük ölçekli değişiklikler: çoğu nesne çerçevesi, tüm resmin yalnızca 0,1'inden daha azını kaplarken, bazı çerçeve seçimleri tüm resim alanını kaplar. Şekilde gösterildiği gibi, Open Image V4 koleksiyonunda daha küçük nesneler var ve yarışmacılar ayrıca verileri tespit etmede daha büyük zorluklarla karşılaşacak.

Çerçeve boyutu dağılım karşılaştırması

çözüm

Yarışma sırasında Baidu Vision ekibi, modelleri eğitmek ve bu modelleri birleştirmek için farklı karmaşıklıklar ve farklı çerçeve ağları kullandı. Genel program çerçevesi perspektifinden, iki farklı eğitim moduna, Hızlı R-CNN ve Daha Hızlı R-CNN'ye ayrılabilir. Fast R-CNN sürümü, Baidu görüntü ekibi tarafından geliştirilen bir PaddlePaddle sürümüdür.Bu temelde Faster R-CNN, FPN, Deformable ve Cascade gibi en son algılama algoritmalarını ekledi ve model performansı büyük ölçüde iyileştirildi.

Genel şema çerçeve akış şeması

  • Ağ, ResNet-101'in Hızlı R-CNN'sidir.Model birleştikten sonra 0,481'e ulaşabilir Test aşamasında Soft NMS ve Çok Ölçekli Test stratejileri eklemek 0,508'e ulaşabilir. Baidu ayrıca diğer ağları (dpn98, Inception-v4, Se-ResNext101) denedi ve farklı ağların algılama algoritmalarını birleştirdi ve sonunda mAP 0.546'ya ulaşabilir. Teklif örnekleme aşamasında, Baidu farklı yerlerde farklı ölçeklerde aday çerçeveler oluşturur ve ardından bu çerçeve seçimlerini sınıflandırır ve konumlarını ayarlar.

  • Daha Hızlı R-CNN: Bu çerçeveyi kullanmak, 0,495'lik bir mAP ile Hızlı R-CNN'den biraz daha yüksek bir etki sağlayabilir. Test aşamasında Soft NMS ve Multi-Scale Testing stratejisini kullandıktan sonra performans 0,525'e ulaştı.

  • Deforme Edilebilir Evrişimli Ağlar: Yumuşak NMS ve Çok Ölçekli Test stratejilerini kullanmadan önce ve sonra, performans sırasıyla 0,528 ve 0,559'a ulaştı.

  • Deforme Edilebilir Kaskad R-CNN: Yumuşak NMS ve Çok Ölçekli Test stratejilerini kullanmadan önce ve sonra, performans sırasıyla 0,581 ve 0,590'a ulaşabilir.

Hızlı R-CNN çerçevesi altında, Baidu Vision ekibi eğitim için farklı ağlar kullanırken, Daha Hızlı R-CNN çerçevesi altında eğitim için yalnızca ResNet101 kullanıldı. Eğitim süreci boyunca, Baidu Vision ekibi ayrıca farklı stratejiler aracılığıyla çeşitli teknik sorunları etkili bir şekilde çözdü. Detaylar aşağıdaki gibidir:

Dinamik örnekleme

Google Open Images V4 veri kümesinde yaklaşık 170w görüntü, 1220w çerçeve seçimi ve 500 kategori bilgisi bulunur. En büyük kategori çerçeve seçimi 140w'yi aşıyor ve en küçük kategoride yalnızca 14 çerçeve seçimi var.Sadece tüm resimleri ve çerçeve seçimlerini kullanırsanız, modeli eğitmek onlarca gün sürer ve tarafsız bir model eğitmek zordur. Bu nedenle eğitim sürecinde dinamik örnekleme yapılması gerekmektedir.Örnek sayısı fazla ise örnekleme olasılığı azalacak, örnek sayısı az ise örnekleme olasılığı artacaktır. Baidu Vision ekibi üç strateji uyguladı: tam set veri eğitimi, sabit çerçeve seçimi alt seti eğitimi ve dinamik örnekleme modeli eğitimi.

  • Tam veri eğitimi seti: Organizatör tarafından eğitim için sağlanan verilere göre, mAP 0,50'ye ulaştı.

  • Sabit çerçeve seçimi alt kümesi eğitimi: her kategori için maksimum 1000 çerçevenin çevrimdışı sabit seçimi, mAP 0,53'e ulaşır.

  • Dinamik örnekleme modeli eğitimi: Her GPU ve her Epoch için çevrimiçi dinamik örnekleme kullanılır.Her seferinde toplanan veriler farklıdır. Tur sayısı belirli bir sayıya ulaştıktan sonra, tüm veri seti genel eğitime katılabilir. Sonunda mAp 0,56'ya ulaşır.

Dinamik örnekleme stratejisi

FPN

Baidu Vision ekibi, eğitim veri setinin analizine dayanarak, 500 kategorinin ölçeklerinin oldukça farklı olduğunu buldu. Bu nedenle, bir özellik piramidi ağı oluşturmak için çok ölçekli ve çok seviyeli bir piramit yapısı kullanan tespit modeline FPN'yi tanıttılar. Deneyde Baidu Vision ekibi, omurga ağı olarak ResNet101'i kullandı ve farklı aşamalarda son katmana yukarıdan aşağıya yan bağlantılar ekledi. Yukarıdan aşağıya işlem, yukarı örnekleme ile gerçekleştirilir ve yatay bağlantı, yukarı örneklemenin sonucunu aşağıdan yukarıya oluşturulan aynı boyuttaki özellik haritası ile birleştirmektir. Füzyondan sonra, yukarı örneklemenin örtüşme etkisini ortadan kaldırmak için her bir füzyon sonucu üzerinde 3 * 3 evrişim gerçekleştirilir. Farklı ölçek özellikleri oluşturmak ve bunları RPN ağının girişi olarak entegre etmek için FPN'nin RPN ağına gömülmesi gerektiğini belirtmek gerekir. Son olarak, FPN'nin kullanıma sunulmasından sonraki harita 0,528'e ulaşabilir.

Deforme Edilebilir Evrişim Ağları

Baidu Vision ekibi, CNN'lerin modelleme yeteneklerini geliştirmek için deforme olabilen evrişimli sinir ağları kullandı. Deforme edilebilir evrişimli ağ fikri, ek denetim olmaksızın hedef görevin öğrenilmesi yoluyla uzaysal örnekleme noktasına ek bir ofset modülü eklemektir. Aynı zamanda, deforme olabilen evrişimli ağ, iskelet ağı olarak ResNet101 ile Daha Hızlı R-CNN mimarisine uygulanır ve deforme olabilen evrişimli katman, ResNet101'in res5a, 5b ve 5c katmanlarından sonra uygulanır ve ROI Havuzlama katmanı, deforme olabilir ve konuma duyarlı olacak şekilde geliştirilir. ROI Havuzlama katmanı. Deforme olabilen evrişimli ağın haritalama performansı 0.552'dir.

Basamaklı R-CNN

Yarışmada, Baidu Vision ekibi algılama modelini eğitmek için kademeli R-CNN kullandı. Temel modeli eğitmenin yanı sıra, beş ölçekli özellikli piramit ağına (FPN) ve üç ölçekli çapaya sahip bir RPN ağı da kullanılır. Ayrıca, tüm sınıftaki en kötü performans gösteren 150 model için küçük sınıf bir model eğitmişler ve 150 sınıf modelleri ayrı ayrı değerlendirmişlerdir. Sonuç olarak, 500 tipi modelin mAP değeri 0,477, son 150 tipin 500 tipi sonuçlarının yerine 150 tip tek model eğitim sonucu kullanılmış ve modelin mAP değeri 0,498'e çıkarılmıştır. Yukarıdaki yöntem kullanılarak eğitilen tek ölçekli modelin performansı 0,573'tür.

Test Hileleri

İşlem sonrası aşamada, Baidu Vision ekibi Soft NMS ve çok ölçekli test yöntemlerini kullandı. NMS'yi Yumuşak NMS ile değiştirdikten sonra, farklı modellerde 0,5-1,3 puanlık iyileştirme vardır, Çok Ölçekli Test ise farklı modellerde 0,6-2 puan iyileştirme içerir.

Model füzyonu

Baidu Vision ekibi, her model için NMS'den sonra sınırlayıcı kutuyu tahmin ediyor. Farklı modellerden tahmin kutuları, aşağıdaki gibi NMS'nin geliştirilmiş bir sürümü kullanılarak birleştirilir:

  • Her modele 0 ile 1 arasında bir skaler ağırlık verin. Tüm ağırlıkların toplamı 1'dir;

  • Her modelden gelen sınırlayıcı kutunun güven puanını karşılık gelen ağırlığıyla çarpın;

  • Tüm modellerden elde edilen tahmin kutularını birleştirin ve NMS'yi kullanın.Ayrıca Baidu, yalnızca en yüksek puan modelini korumak yerine farklı modellerin puanlarının üst üste konulmasını kullanır.Bu adımda IOU eşiği 0,5'tir.

(Bitiş)

Di Lieba'nın gurmelerinin paketlenmesi mi gerekiyor? Yüzün kafanı karıştırmasın
önceki
Acele et ve büyükannenin küçük kırık çiçeklerini topla! sacai 2018 ilkbahar ve yaz özel koleksiyonu gelecek yıl ne giyeceğinizi anlatıyor!
Sonraki
Audi A8, S-Serisi ve 7 serisi ile eşleşmek için neye güveniyor?
Lenovo Z6 Pro, Buddha'yı yenmek için Snapdragon 855+ milyar piksel, kod adı savaşı ile dolu bir randevu almaya başladı
Haberler AI alanında dünyadaki en etkili 100 kuruluş Listede hangi altı Çinli kuruluş var?
"Dallas Buyers Club": Mücadele, kendini çamurdan kurtarmanın en etkili yoludur
Deneyimli bir film imparatorluğundan "çocuk ve kadın satmak" a: on yıllık Jiahe Anakarası yolculuğu
Nadir bir eşya giyemez misin? VETEMENTS, Raf Simons, Moncler maç modelleri burada!
MT Great White Bulaşık Makinesi Değerlendirmesi: Kullandıktan sonra geri dönemezsiniz
Nihayet sizi bekliyor, Honor 20 resmi duyurusu: 21 Mayıs'ta Londra'da 48 milyon piksel arka planda yayınlandı
"Yaşama Özlemi" 6 köpek misafir olur, He Jiong için "köpek besleme yardımcısı" olmak ister misiniz?
OPPO R17 Pro performans, yeni sezonda sabit 60 kare test ediyor
Doku dolu örgü serisi, A BATHING APE® size samimi bir şekilde sunar!
Yulu EV2 resmi resmi yayınlandı, kompakt boyut / 18 Ekim
To Top