YOLO 2 ve YOLO 9000 hedef tespit sisteminin ayrıntılı açıklaması | Paylaşım özeti

Lei Feng.com AI teknolojisi yorumu: YOLO, 2015 yılında Joseph Redmon ve Ali Farhadi tarafından önerilen tek bir sinir ağına dayalı ilk hedef tespit sistemidir. Bu yılki CVPR'de Joseph Redmon ve Ali Farhadi, saptamanın doğruluğunu ve hızını daha da artırmak için YOLO 2'yi yayınladı. Bu konferansın konuşmacısı, Silikon Vadisi'nin eski kıdemli mühendisi Wang Dong'dur.

Açıklama sekansı kağıt yapısına benzer.İlk olarak, hedef çerçevenin nasıl üretileceğine ve sınıflandırmaya ve ilgili kayıp fonksiyonuna odaklanarak YOLO 2'nin ağ yapısından bahsedeceğim. YOLO 2 eğitiminin ilk adımı, ImageNet üzerinde darknet-19'u önceden öğrenmektir. 224x224 görüntülerde, sadece 5.58 G-op gerektirir. Ek olarak, YOLO 2, VOC2007, VOC2012 ve COCO algılama veri setlerinde iyi bir performansa sahiptir.

YOLO 2 temelinde, makale ayrıca 9,418 hedef tespit üretebilen YOLO 9000'i önerdi. Birincisi, wordNet yapısına dayalı bir wordTree oluşturmaktır. Bu ağaç, imagenet'teki en popüler 9000 kategorinin yanı sıra 80 ana COCO kategorisini içerir. YOLO 9000'in son katmanı, 400'den fazla koşullu olasılığı hesaplamak için hiyerarşik bir sınıflandırma yöntemi kullanır ve bunu hedefin son sınıflandırmasını oluşturmak için kullanır.

Hedef Tespiti

Birincisi hedef tespiti Hedef tespiti ile görüntü sınıflandırması arasındaki fark, görüntü sınıflandırmasının sadece resimdeki nesneyi tanımlaması gerektiğidir, hedef tespitinin ise resimdeki nesnenin konumunu doğru bir şekilde bulması ve nesnenin türünü işaretlemesi gerekir. Nesnenin konumu genellikle bir sınırlayıcı kutuyla işaretlenir.Bir görüntüde birkaç sınırlayıcı kutu olabilir.Hedef tespiti, sınırlayıcı kutudaki nesnenin kategorisini ve olasılığını vermelidir.

YOLO2 hakkında

YOLO2 yapısı

YOLO 2, 32 katmanlı bir sinir ağı yapısı kullanır. Yapı, GoogLeNet'in bazı mikroskobik yapılarını kullanan, bazıları 1 * 1 konvolüsyon olan bazı kıvrımlar ve maksimum havuzlama dahil olmak üzere daha gelenekseldir. Unutulmaması gereken bir nokta, 25. ve 28. katlarda bir rota olduğudur. Örneğin 28. katmanın rotası 27 ve 24'tür, yani 27. ve 24. katmanlar birleştirilir ve bir sonraki katmana çıkarılır.Rota katmanının işlevi katmanları birleştirmektir. 30 katmanın çıktı boyutu 13 * 13'tür, bu da görüntünün katlandığı veya havuzlandığı ve sonunda 13 * 13 boyutunda bir ızgaraya indirgendiği anlamına gelir. Her ızgaranın çıktı miktarı 125'tir (5 * 25), 5, her 13 * 13 küçük ızgaranın 5 kare ile donatıldığı anlamına gelir ve 25, her karenin 25 kayan noktalı sayı çıktısı verdiği anlamına gelir. 25, YOLO 2 ila VOC'nin yapısıdır. Toplam 20 VOC sınıfı vardır. 25 sayı arasından 20'si sınıf olasılığıdır. Kalan 5'ten dördü stx, arpacık, tw ve th'yi temsil eder.Bu 4'ü sınırın konumunu ve boyutunu belirlemek için kullanılır , Ve bir başka sayı da, çerçeve tahmininde gerçek nesnelerin olma olasılığını gösteren güvendir. Yani toplamda 13 * 13 * 125 sayı var.

YOLO2 İleri hesaplama çerçevesi

Şimdi stx, sty, tw ve th'yi çıktı sınırlarına nasıl dönüştürebileceğimiz hakkında konuşmama izin verin. Sağdaki şekilde gösterildiği gibi, iç (tx) stx olarak anlaşılabilir ve (ty) arpacık olarak anlaşılabilir. Her bir çıktı bbox'ı belirli bir tutturucu içindir. Tutturucu aslında bbox'ın genişliğini ve yüksekliğini ifade eder. VOC için 5 sabit referans oluşturulur.

Şekilde gösterildiği gibi stx, arpacık, tw ve th verildikten sonra, son çıktı çerçevesinin konumu ve boyutu basit bir formülle hesaplanabilir. Geçerli çerçevenin çıktısını alıp almayacağı, olasılığı ve oluşturulan nesnenin kategorisi olasılık ve güvene bağlıdır. Güven, bir nesnenin olup olmadığını, olasılık bir nesnenin var olduğunu varsaydıktan sonra nesnenin olasılığını belirtir.

YOLO ileri sınıflandırması

Olası en büyük çıktı sınıfının güvenirlik ve olasılığını çarptıktan sonra, sonuç 0.24 eşik değerinden büyükse, o anda hesaplanan bbox'ın boyutu ve konumu ile bunun hangi sınıf olduğu ve olasılık büyüklüğünün ne olduğu çıktı olacaktır. Toplam 13 * 13 * 5 bbox üretilecek ve daha sonra olasılığa göre filtre aracılığıyla nihai tahmin edilen nesne ve çerçevesi üretilecektir.

YOLO2 örneği

Örneğin ön taraftaki köpek, araba ve bisiklet resmi son üç satır karşılaştırılarak görülebilir.İçeride arabalar, köpekler ve bisikletler var.Olasılık ve bbox'ın ne olduğunu da görebilirsiniz. Sırasıyla olasılık, boyut ve konumu temsil ederler. Spesifik olarak, ilk satırdan, arabanın class_id'sinin 6 olduğunu ve yaklaşık konumun satır ve sütun aracılığıyla görülebildiğini ve anchor_id'nin de verildiğini görebilirsiniz. İkinci satırda arabanın güvenini ve stx'ini görebilirsiniz.

YOLO2 kaybı işlevi

Daha önce bahsettiğim şey ileriye dönük süreç, yani bir görüntü ve sinir ağı verildiğinde, tanınan nesnenin olasılığının ve pozisyonunun nasıl elde edileceği. Öyleyse spesifik eğitim süreci nedir ve nasıl devam edilir? Makalede bir kayıp fonksiyonu verilmiştir. Uygun bir kayıp işlevi verilirse ve eğitilmesi için belirli veriler verilirse, sinir ağı iyi bir performans elde edecektir.

Eğitim için dört tür kayıp vardır ve farklı ağırlıkları vardır: nesne, nesne, sınıf ve koordinat. Toplam kayıp, dört parçanın karelerinin toplamıdır. Spesifik hesaplama adımları ve işlemin nasıl seçileceği PPT'de gösterilir.

Darknet-19 hesaplama

Eğitim işlevi ve eğitim nesnesi yukarıda açıklanmıştır ve herkesin önce eğitim öncesi işlevini seçmesi gerekir. Ek olarak, YOLO 2 için ana hedef doğruluğu ve hızı artırmaktır ve odak noktası daha iyi temel ağdır. YOLO 2, Darknet-19 önceden eğitilmiş modeli kullanır. Sağdaki şekil ImageNet'te kullanılan bazı modellerdir ve bunların hesaplama miktarı ve doğruluğu sırasıyla verilmiştir. 224x224 boyutundaki resimde, resimdeki VGG16 için 30,69 G-op gerekir ve GoogLeNet tabanlı YOLO, 8,52 G-op gerektirir. Darknet-195.58 G-ops ile daha da küçüktür.

VOC 2007 doğruluğu ve hızı

Kağıt standart hedef tespit setinde YOLO 2'nin performansının bir kısmını listeler.YOLO 2 ağı sadece bir evrişimli katman ve bir havuz katmanı içerdiğinden, herhangi bir boyutta görüntü girişini kabul edebilir. R-CNN ve SSD'nin doğruluğunun da nispeten yüksek olduğu, ancak SSD'nin VCC-16'ya göre önceden eğitildiği ve fps'nin nispeten yavaş olduğu şekilden görülebilir. YOLO 2'nin doğruluğu YOLO'nunkinden çok daha yüksektir ve hız da buna göre geliştirilir. YOLO 2 için, farklı görüntü boyutları da farklı haritalar üretecektir.

VOC 2012 ve COCO'da doğruluk

Sonraki ikisi VOC 2012 ve COCO'daki doğruluktur. COCO, VOC'den daha zor olan hedef tespiti için bir kriterdir.COO'da 80 ve VOC'de 20 kategori vardır. Şekilden SSD'nin doğruluğunun YOLO 2'ye göre daha yüksek olduğu görülmektedir. Olası neden COCO'da nispeten küçük nesnelerin olmasıdır. YOLO 2'nin hızının hala çok hızlı olduğu şekilden de görülebiliyor.

YOLO ve YOLO2'nin Karşılaştırılması

Şekilden, farklı adımlar uygulandıktan sonra YOLO 2'nin YOLO'ya göre iyileştiği görülmektedir. MAP'in önemli ölçüde geliştirildiği görülebilir.

Daha Hızlı-rcnn ile Karşılaştırma

Geçmişte rcnn temelli süreç tek seferde hesaplanmıyordu.Önce öneri ileriye doğru hesaplanmalı ve sonra aşağıdaki katmanlardan geçmeli ve teklif tek tek sınıflandırılmalı, bu nedenle rcnn tabanlı ağ daha yavaş olacaktır.

SSD

SSD, şu anda tek bir sinir ağına dayalı en doğru hedef algılama algoritmasıdır. Şekilde gösterildiği gibi, ilk birkaç katman, temel olarak farklı ölçeklerdeki özellik katmanlarını elde etmek için bir evrişimsel özellik katmanı ekleyen ve böylece çok ölçekli hedef tespiti sağlayan VGG ağıdır. Eklenen her özellik katmanı için, bir dizi evrişim filtresi kullanılarak sabit sayıda hedef algılama tahmini elde edilebilir.

SSD yönteminin hedef konumu ve kategoriyi elde etme mekanizması YOLO yöntemiyle aynıdır.Regresyon kullanır ancak YOLO küçük hedef tespiti için etkili değildir, SSD farklı özellik haritalarında ızgaralara bölünür ve ardından regresyon gerçekleştirilir. .

Bir önceki bölüm YOLO2 ile ilgili.Bazı küçük nesnelerin algılanmasında SSD kadar iyi olmamakla birlikte doğruluk ve doğruluk açısından SSD'ye çok yakındır.Büyük avantajı çok hızlı olmasıdır.

YOLO 9000

YOLO 9000, makalenin ikinci bölümüdür ve ana avantajı 9.418 kategoriyi tespit edebilmesidir. Bu sayı çok şaşırtıcıdır, çünkü tespit verilerinin elde edilmesi kolay değildir ve manuel etiketleme daha zordur.

Şekil, makaledeki birkaç test örneğidir.

YOLO 9000'in temel tetikleyicisi, birbirlerine yardımcı olmak ve birçok sınıf oluşturabilecek tahminler oluşturmak için az miktarda algılanan ve etiketlenen veriyi ve büyük miktarda görüntü sınıflandırma verisini birleştirmektir.

Özel uygulama süreci

Önce bir etiket ağacı (WordTree) oluşturun Bu ağaç çok büyüktür Kırmızı kısım ImageNet'teki en popüler 9.000 kategoridir ve algılama verileri COCO'da 80 kategoriden gelir. Bu etiket ağacı, toplam 9.418 sınıf ve 1.846 dahili düğüme sahip WordNet'e dayanmaktadır. Her ağaç düğümünde bir softmax yapılabilir Düğüm olasılığı, başlangıçtan itibaren yoldaki koşullu olasılığın ürünüdür ve son çıktı etiketi, eşikten (0.5) daha yüksek düğüm olasılığı ile en derin düğümdür.

Veri setini entegre etmek için WordTree'yi kullandıktan sonra, hiyerarşik sınıflandırma yöntemini kullanarak modeli veri seti (sınıflandırma-algılama verileri) üzerinde eğitebilirsiniz, böylece sistem 9.000'den fazla öğeyi tanımlayabilir. Eğitim sırasında, algılama verilerinin wordTree üzerindeki yolu sınıf kaybına neden olurken, imagenet verilerinde yalnızca sınıf kaybı ve noobj kaybı vardır.

YOLO 9000 yapısı

Şekilde gösterildiği gibi, daha öncekine kıyasla, yapısı 24 katmana basitleştirilmiştir, 23. katman 17 * 17 * 28269, 17 * 17 önceki YOLO 213 * 13'e benzer, ancak tahmin ızgarası 17 olarak değiştirilmiştir. * 17. Daha sonra her pozisyonda 28269 (3 * (4 + 1 + 9418)) bulunur, 3 her pozisyonun üç sınırlayıcı kutu sağladığı ve her bir sınırlayıcı kutu stx, sty, tw, th, güven ve 9418 sınıfları içerdiği anlamına gelir . Bu numaralar verildikten sonra gerekli bbox vb. WordTree ile oluşturulabilir.

YOLO 9000 sonuçlar

Resim, YOLO 9000'in ilsvrc 2014'teki performansını göstermektedir. Ilsvrc 2014 toplam 200 kategoriye sahiptir.Ssd300 bu veri setinde eğitildikten sonra 43.4mAP alabilir ve YOLO 9000 sadece 19.7mAP alabilir. Aradaki fark, YOLO 9000'in eğitim sürecinde ImageNet üzerinde ilsvrc eğitim verilerini hiç kullanmaması, sadece COCO ve ImageNet verilerini kullanması ve 19.7 almak için çok iyi bir sonuç olmasıydı. Şeklin sağında, farklı görüntü algılama kategorilerindeki performansı görebilirsiniz.COOO'da bazı hayvan kategorileri olduğu için hayvanları tespit ederken en iyi performansın olduğunu görebilirsiniz.

sonuç olarak:

YOLO ile karşılaştırıldığında, YOLO 2, gelişmiş hız ve doğruluğa sahiptir.Darknet-19 modeline dayalı olarak, tamamen bağlı katmanı kaldırır, kenar kümeleme, iki katmanlı kombinasyon kullanır ve çok çözünürlüklü görüntü eğitimi kullanır.

YOLO 9000, 9418 izlemeye ulaşmak için sınırsız verileri ve sınırlanmış verileri birlikte kullanabilir. WordTree hiyerarşik sınıflandırma yöntemini kullanma.

Eğitimli YOLO 2 ve YOLO 9000 modelleri de dahil olmak üzere github'da bazı açık kaynak kodları burada bulabilirsiniz.

https://pjreddie.com/darknet/

https://github.com/philipperemy/yolo-9000

Lei Feng.com AI Technology Review tarafından düzenlendi ve derlendi. Lei Feng

Taoying Daily | Tony Leung ve Kris Wu, "European Raiders" da ikiliyi temsil ediyor
önceki
Kulaktan kulağa duymak için bir araba satın alın, 16 yıllık alt bölüm şampiyonu, ayda 80.000'den fazla satılan iki model
Sonraki
"Batıya Yolculuk" MV'si: Ölümden sonraki yaşam varsa, Zhao Liying ve Feng Shaofeng birlikte olabilir
"Sergi Ekspresi" 200'den fazla deneyimli üretici ve distribütör Yeni Yılı karşılıyor, konuşamayacağınız bir şey var mı?
AI gazeteciliğin değişimini hızlandırıyor. Profesörler, editörler ve girişimciler hakkında ne düşünüyorsunuz?
Gelecekteki 5G teknolojisi trendleri ve avantajları ve dezavantajları hakkında konuşmak
Bu kendine ait modeller, Yeni Yıl boyunca eve giderken kesinlikle yeterince yüz kazanmanızı sağlayacak.
Dünya Ekonomik Forumu Raporu: Fintech'in yol, mod ve sonuç dahil olmak üzere finans endüstrisinin rekabet ortamını nasıl bozacağına dair kapsamlı bir değerlendirme (1)
Yeniden Yapılandırılabilir Dizi İşlemcisinde Dağıtılmış Önbellek Tasarımı
Hulunbuir çayırlarında karda kros seferi, Yakeshi tüm Subaru SUV'ları test sürüşü
Dashi Johnson seyirciye kadeh kaldırıyor, belli ki içemiyor! Çin'de "Game of the Brave" galası
Bant Boşluğu Referans Kaynağının Tek Olay Duyarlılık Analizi
Aylık SUV satışları 80.000'in üzerinde, ne bekliyorsunuz?
"Blog Makale Dizisi" S32DS IDE-Uygulama Mühendisliği Hata Ayıklaması İçin İpuçları Sık Sorulan Sorular (SSS)
To Top