Makine öğrenmiyor: derin öğrenmeye dayalı nesne algılama

Sıradan derin öğrenme denetim algoritmaları, Şekil 1 (1) 'de gösterildiği gibi, esas olarak sınıflandırma için kullanılır, sınıflandırmanın amacı şekilde gösterilen kediyi belirlemektir. ILSVRC (ImageNet Large Scale Visual Recognition Challenge) yarışmasında ve gerçek uygulamalarda, hedef konumlandırma ve hedef tespiti gibi görevleri de içerir. Bunlar arasında, hedef konumlandırma sadece nesneyi tanımlamak (yani sınıflandırma) değil, aynı zamanda nesnenin konumunu tahmin etmek içindir Konum, Şekil 1 (2) 'de gösterildiği gibi, genellikle bir sınırlayıcı kutu ile işaretlenir. Hedef algılamanın özü, çok hedefli konumlandırmadır, yani, sınıflandırma ve konumlandırma dahil olmak üzere resimdeki birden fazla hedef nesneyi bulmaktır. Örneğin Şekil 1 (3) 'deki hedef tespiti, sonuç birkaç farklı hayvandır, Şekil 3'te farklı renkli kutularda konumları gösterilmektedir.

(1) Hedef sınıflandırma

(2) Hedef konumlandırma

(3) Hedef tespiti

Şekil 1 Hedef sınıflandırma, konum ve tespit örnekleri

Basitçe ifade etmek gerekirse, sınıflandırma, konumlandırma ve tespit arasındaki fark aşağıdaki gibidir:

  • Sınıflandırma: Nedir?
  • Konumlandırma: Nerede? Bu ne? (Tek hedef)
  • Algılama: Nerede? Onlar neler? (Birden çok hedef)
  • Hedef tespiti insanlar için zor değildir.Resimdeki farklı renk modüllerinin algılanması sayesinde hedef nesneyi bulmak ve sınıflandırmak kolaydır, ancak bilgisayar için doğrudan görüntüden elde edilmesi zor olan RGB piksel matrisiyle karşı karşıyadır. Köpekler ve kediler gibi soyut kavramlar ve konumlarının belirlenmesi ve bazen birden fazla nesne ve dağınık arka plan birbirine karıştırılır, hedef tespiti daha zordur. Ancak bu bilim adamları için zor değil.Geleneksel görme alanında hedef tespiti çok popüler bir araştırma yönü.Yüz tanıma ve yaya tespiti gibi bazı özel hedeflerin tespiti çok olgun teknolojilere sahip. Sıradan hedef tespiti için birçok deneme yapılmıştır, ancak etki her zaman tatmin edici değildir.

    Geleneksel hedef tespiti genellikle, esas olarak üç adımı içeren kayan bir pencere çerçevesi kullanır:

  • Resmin belirli bir bölümünü aday alan olarak çerçevelemek için farklı boyutlarda kayan pencereler kullanın;
  • Aday alanla ilgili görsel özellikleri çıkarın. Örneğin, yüz tanımada yaygın olarak kullanılan Harr özellikleri, yaygın olarak yaya algılama ve sıradan hedef tespitinde kullanılan HOG özellikleri;
  • Yaygın olarak kullanılan SVM modelleri gibi tanıma için sınıflandırıcılar kullanın.
  • Geleneksel hedef tespitinde, çok ölçekli deforme olabilen parça modeli DPM (Deforme Edilebilir Parça Modeli) olağanüstüdür. 2007'den 2009'a kadar sürekli olarak VOC (Görsel Nesne Sınıfı) algılama şampiyonunu kazanmıştır. 2010 yılında, yazarı Felzenszwalb Pedro, VOC tarafından "Yaşam Boyu Başarı Ödülü" ile ödüllendirilmiştir. . DPM, nesneleri çoklu bileşenler (burun, ağız, vb.) Olarak görür ve nesneyi tanımlamak için bileşenler arasındaki ilişkiyi kullanır.Bu özellik, doğadaki birçok nesnenin katı olmayan özellikleriyle çok tutarlıdır. DPM, HOG + SVM'nin bir uzantısı olarak kabul edilebilir. Her ikisinin de avantajlarını miras alır ve yüz algılama ve yaya algılama gibi görevlerde iyi sonuçlar elde eder. Bununla birlikte, DPM nispeten karmaşıktır ve algılama hızı daha yavaştır. Birçok gelişmiş yöntem ortaya çıktı. Herkes DPM'nin performansını iyileştirme konusunda hevesliyken, derin öğrenmeye dayalı hedef tespiti ortaya çıktı ve kısa sürede DPM'nin ilgi odağını gölgede bıraktı. Daha önce geleneksel hedef tespit algoritmaları üzerinde çalışan birçok araştırmacı da derin öğrenmeye yönelmeye başladı.

    Derin öğrenmeye dayalı hedef tespitinin geliştirilmesinden sonra, etkiyi aşmak zor oldu. Örneğin, VOC 2007 test seti ile ilgili literatürdeki algoritmanın haritası sadece% 30'dan biraz fazladır ve ILSVRC 2013 test setindeki literatürdeki OverFeat mAP'ı sadece% 24,3'e ulaşabilir. R-CNN 2013 yılında doğdu. VOC 2007 test setinin mAP değeri% 48'e çıkarıldı. 2014 yılında ağ yapısı% 66'ya değiştirildi.Aynı zamanda ILSVRC 2013 test setinin mAP değeri de% 31,4'e çıkarıldı.

    R-CNN, Bölge tabanlı Evrişimli Sinir Ağlarının kısaltmasıdır.Çince çevirisi bölge tabanlı bir evrişimli sinir ağıdır.Bölge Önerisi ve Evrişimli Sinir Ağlarını (CNN) birleştiren bir hedef algılama yöntemidir. Ross Girshick'in 2013 yılındaki öncü çalışması "Doğru Nesne Algılama ve Anlamsal Segmentasyon için Zengin Özellik Hiyerarşileri" bu alt alanın temelini attı.Bu makalenin sonraki sürümü CVPR 2014'te ve dergi sürümü PAMI 2015'te yayınlandı.

    Aslında, R-CNN'den önce, birçok araştırmacı, OverFeat dahil olmak üzere, hedef tespiti yapmak için Derin Öğrenmeyi kullanmaya çalıştı, ancak R-CNN, derin öğrenmenin kendisiyle de uyumlu olan, gerçekten endüstriyel düzeyde uygulamalar olabilecek ilk çözümdür. Gelişime benzer şekilde, sinir ağları ve evrişimli ağlar yeni kavramlar değildir, ancak bu yüzyılda aniden uygulanabilir hale geldiler ve mümkün olduklarında hızla gelişmeleri şaşırtıcı değil.

    R-CNN alanındaki araştırmalar şu anda çok aktiftir, R-CNN, SPP-net, Fast R-CNN, Faster R-CNN, R-FCN, YOLO, SSD ve diğer araştırmalar art arda ortaya çıkmaktadır. Ross Girshick, bu alanın öncüsü olarak her zaman bir tanrı olarak var olur.R-CNN, Fast R-CNN, Faster R-CNN ve YOLO hepsi onunla bağlantılıdır. Aslında, bu yenilikçi çalışmalar genellikle görme alanındaki bazı geleneksel yöntemleri Seçmeli Arama ve Piramit gibi derin öğrenme ile birleştirir.

    Derin öğrenmeyle ilgili hedef tespit yöntemleri de kabaca iki gruba ayrılabilir:

  • R-CNN, SPP-net, Fast R-CNN, Faster R-CNN, R-FCN gibi bölgesel adaylığa dayalıdır;
  • Uçtan uca, YOLO, SSD gibi bölgesel adaylık gerekmez.
  • Halihazırda, bölgesel adaylığa dayalı yöntem hala daha üstündür, ancak uçtan-uca yöntemin hızda bariz avantajları vardır ve takip gelişimi görülmeye devam etmektedir.

    1.1 İlgili araştırma

    Hedef tespitinin bir incelemesi olarak, bu makale ilk olarak hedef tespit seçici aramada yaygın olarak kullanılan alan adaylığına ve hedef tespit için derin öğrenmeyi kullanmanın erken çalışmasına bakacaktır-Overfeat.

    1.1.1 Seçmeli arama

    Hedef tespit etmenin ilk adımı Bölge Önerisi yapmaktır, yani olası ilgi alanlarını bulmaktır (İlgi Bölgesi, ROI). Bölgesel adaylık, optik karakter tanıma (OCR) alanındaki segmentasyona benzer. OCR segmentasyonu, yaygın olarak bir aşırı segmentasyon yöntemi olarak kullanılır. Basitçe söylemek gerekirse, küçük bağlantılı alanları (küçük vuruşlar gibi) kesmek ve ardından bitişik blokları temel almak mümkün olduğu kadar küçüktür. Bazı morfolojik özellikler birleştirildi. Ancak hedef tespit nesneleri OCR alanından çok farklıdır ve grafikler düzensiz ve farklı büyüklüktedir, bu nedenle bir dereceye kadar bölgesel adaylığın OCR segmentasyonundan daha zor bir problem olduğu söylenebilir.

    Bölgesel adaylık için olası yöntemler şunlardır:

    1. Sürgülü pencere. Sürgülü pencere esasen kapsamlı bir yöntemdir, tüm olası büyük ve küçük blokları numaralandırmak için farklı ölçekleri ve en-boy oranlarını kullanır ve ardından bunları tanımlama için gönderir ve yüksek tanımlama olasılığı olanları bırakılır. Açıktır ki, böyle bir yöntem çok karmaşıktır ve gerçekte mümkün olmayan çok sayıda gereksiz aday bölge üretir.

    2. Kural bloğu. Kapsamlı yönteme göre bir miktar budama gerçekleştirildi ve yalnızca sabit boyut ve en-boy oranı kullanıldı. Bu, fotoğraf arama uygulaması Xiaoyuan aramasında Çince karakterlerin tespiti gibi bazı özel uygulama senaryolarında çok etkilidir, çünkü Çince karakterler kare ve kare şeklindedir ve en boy oranları çoğunlukla tutarlıdır. Bu nedenle, bölgesel adaylık için normal blokların kullanılması bir karşılaştırmadır. Doğru seçim. Ancak sıradan hedef tespiti için, kural bloğunun hala birçok yeri ziyaret etmesi gerekiyor ve karmaşıklık çok yüksek.

    3. Seçmeli arama. Makine öğrenimi perspektifinden, önceki yöntem geri çağırma iyidir, ancak doğruluk tatmin edici değildir, bu nedenle sorunun özü, gereksiz aday bölgelerin etkili bir şekilde nasıl kaldırılacağıdır. Aslında, yedek aday bölgelerin çoğu örtüşüyor. Seçici arama, fazlalığı azaltmak için bitişik örtüşen bölgeleri aşağıdan yukarıya birleştirmek için bunu kullanır.

    Bölgesel adaylık, yukarıda belirtilen üç yöntemle sınırlı değildir.Aslında bu alan çok esnektir, bu nedenle birçok varyasyon vardır.İlgilenen okuyucular literatüre başvurmak isteyebilir.

    Seçmeli aramanın spesifik algoritma detayları Algoritma 1'de gösterilmektedir. Genel olarak, seçici arama, aday bölgeleri aşağıdan yukarıya sürekli olarak birleştirmenin yinelemeli bir işlemidir.

    Giriş: Bir resim

    Çıktı: Aday hedef konum kümesi L

    algoritma:

    1: R = {r1, r2, ..., rn} aday bölge kümesini elde etmek için aşırı segmentasyon yöntemini kullanın

    2: Benzer seti başlat S =

    3: foreach komşu alan çifti (ri, rj) do

    4: s (ri, rj) benzerliğini hesaplayın

    5: S = S s (ri, rj)

    6: S değil = do

    7: Maksimum benzerliği elde edin s (ri, rj) = max (S)

    8: İlgili alanı birleştir rt = ri rj

    9: ri'ye karşılık gelen tüm benzerlikleri kaldırın: S = S \ s (ri, r *)

    10: rj'ye karşılık gelen tüm benzerlikleri kaldırın: S = S \ s (r *, rj)

    11: rt'ye karşılık gelen benzerlik kümesi St'yi hesaplayın

    12: S = S St

    13: R = R rt

    14: L = R'deki tüm alanlara karşılık gelen sınırlar

    Algoritma 1 seçici arama algoritması

    Algoritmadan R'deki bölgelerin birleştirildiğini görmek zor değildir, bu nedenle çok fazla fazlalık azalır, bu da doğruluktaki artışa eşdeğerdir, ancak yine de geri çağırma oranını sağlamaya devam etmemiz gerektiğini, dolayısıyla Algoritma 1'deki benzerliği unutmayın. Hesaplama stratejisi çok kritik. Basitçe bir strateji uygularsanız, farklı alanları yanlışlıkla birleştirmek kolaydır.Örneğin, yalnızca konturlar düşünüldüğünde, farklı renklerdeki alanların yanlışlıkla birleştirilmesi kolaydır. Seçmeli arama, hatırlamayı sağlamak için aday alanları artırmak için çeşitlilik stratejileri kullanır. Örneğin, renk alanı RGB, gri tonlama, HSV ve bunların varyantlarını vb. Dikkate alır. Benzerlik hesaplanırken hem renk benzerliği hem de doku, boyut ve örtüşme dikkate alınır.

    Genel olarak, seçici arama, erken derin öğrenme tabanlı hedef tespit yöntemleri (Overfeat ve R-CNN, vb. Dahil) tarafından yaygın olarak kullanılan, ancak mevcut yeni yöntemlerle terk edilen nispeten basit bir alan adaylık yöntemidir.

    1.1.2 Aşırı Yorgunluk

    OverFeat, sınıflandırma, konumlandırma ve saptamayı aynı şekilde yapmak için CNN kullanan klasik bir çalışmadır. Yazar, en büyük derin öğrenme tanrılarından biridir - Yann Lecun'un New York Üniversitesi'ndeki ekibi. OverFeat ayrıca ILSVRC 2013 Görev 3'ün (Sınıflandırma + Konumlandırma) şampiyonudur.

    OverFeat'in üç temel fikri vardır:

  • Bölgesel adaylık: sürgülü pencereleri ve normal blokları, yani çok ölçekli sürgülü pencereleri birleştirmek;
  • Sınıflandırma ve konumlandırma: CNN, sınırın konumunu sınıflandırmak ve tahmin etmek için kullanılır.Model, 1-5 katmanının özellik çıkarma katmanı olduğu, yani görüntünün sabit boyutlu bir özellik vektörüne dönüştürüldüğü ve 6-9 katmanının sınıflandırma katmanı olduğu AlexNet'e benzer. Özel), farklı görevler (sınıflandırma, konumlandırma, algılama) ortak özellik çıkarma katmanı (1-5 katman), yalnızca 6-9 katmanın yerini alır;
  • Biriktirme: Sürgülü pencerelerin kullanılması nedeniyle, aynı hedef nesnenin birden çok konumu, yani birden çok perspektifi olacaktır; birden çok ölçek kullanılması nedeniyle, aynı hedef nesnenin farklı boyutlarda birden çok bloğu olacaktır. Bu farklı konumlar ve farklı büyüklükteki bloklarla ilgili sınıflandırma güvenirlikleri, yargıyı daha doğru hale getirmek için toplanacaktır.
  • OverFeat'te dört temel adım vardır:

  • Sürgülü pencere, farklı ölçeklerdeki bölgeleri belirlemek için kullanılır ve daha sonra, kategori ve güven elde etmek için her bir bölgeyi sınıflandırmak için CNN modeli kullanılır. Şekil 2'den, farklı yakınlaştırma oranlarında tespit edilen hedef nesnelerin sayısı ve türlerinde büyük farklılıklar olduğu görülebilir;
  • Şekil 2 Aşırı performans temel birinci adım

  • Şekil 3'te gösterildiği gibi, algılama sayısını artırmak ve sınıflandırma etkisini iyileştirmek için çok ölçekli bir kayan pencere kullanın;
  • Şekil 3 Overfeat için Temel Adım 2

  • Her bir nesnenin konumunu tahmin etmek için regresyon modelini kullanın Şekil 4'ten, resmin ölçeği ne kadar büyükse, çerçeve sayısı o kadar büyüktür;
  • Şekil 4 Overfeat temel üçüncü adım

  • Sınır birleştirme.
  • Şekil 5 Overfeat için Temel Adım 4

    Overfeat, hedef tespiti için CNN'in ilk çalışmasıdır. Ana fikir, sınıflandırma, konumlandırma ve tespit için çok ölçekli kayan pencereler kullanmaktır. Çok görevli olmasına rağmen, modelin ilk birkaç katmanını yeniden kullanır. Bu model yeniden kullanım fikri de daha sonra R-CNN serisi, klasik uygulamayı kullanmaya ve geliştirmeye devam ediyor.

    Tabii ki, Overfeat'in de pek çok dezavantajı var, en azından hız ve etkide iyileştirme için çok yer var Aşağıdaki R-CNN serileri bu iki açıdan birçok iyileştirme yaptı.

    1.2 Bölgesel adaylığa dayalı yöntem

    Bu bölüm esas olarak, R-CNN, SPP-net, Fast R-CNN, Faster R-CNN, R-FCN dahil olmak üzere bölge adaylığına dayalı yöntemleri tanıtmaktadır.

    1.2.1 R-CNN

    Daha önce belirtildiği gibi, çoğu erken hedef tespiti pencere adaylığı için kayan pencere yöntemini kullanır Bu yöntem esasen ayrıntılıdır ve R-CNN Seçmeli Arama kullanır.

    Aşağıdakiler, R-CNN'in ana adımlarıdır:

  • Bölgesel adaylık: Seçmeli Arama yoluyla orijinal görüntüden yaklaşık 2000 bölgesel aday çerçeve çıkarın;
  • Alan boyutu normalleştirme: tüm aday kutular sabit bir boyuta ölçeklenir (orijinal metin 227 × 227 kullanır);
  • Özellik çıkarma: CNN ağı aracılığıyla özellikleri ayıklama;
  • Sınıflandırma ve regresyon: Özellik katmanı temelinde iki tam bağlantılı katman ekleyin ve ardından tanımlama için SVM sınıflandırmasını kullanın ve sınırın konumunu ve boyutunu ince ayarlamak için doğrusal regresyonu kullanın. Her kategori ayrı bir sınır regresörü eğitir.
  • Hedef tespit sisteminin yapısı Şekil 6'da gösterilmektedir. Şekildeki ikinci adımın, alan adaylığı ve alan boyutu normalizasyonu dahil adımların 1. ve 2. adımlarına karşılık geldiğine dikkat edin.

    Şekil 6 R-CNN çerçevesi

    Overfeat, özel bir R-CNN durumu olarak kabul edilebilir. Seçici Aramayı çok ölçekli bir kayan pencere ile değiştirmeniz, her kategorinin sınır regresörünü birleşik bir sınır regresörü ile değiştirmeniz ve SVM'yi çok katmanlı bir ağ ile değiştirmeniz yeterlidir. Ancak Overfeat aslında R-CNN'den 9 kat daha hızlıdır, bu da esas olarak evrişimle ilgili paylaşılan hesaplamalardan kaynaklanmaktadır.

    Aslında, R-CNN'nin birçok dezavantajı vardır:

  • Tekrarlanan hesaplamalar: R-CNN artık kapsamlı bir liste olmasa da, hala yaklaşık iki bin aday kutu vardır Bu aday kutular CNN işlemlerini gerektirir ve hesaplama miktarı hala büyüktür, bunların çoğu aslında tekrarlanan hesaplamalardır;
  • SVM modeli: Aynı zamanda doğrusal bir modeldir ve bu, etiketli veri sıkıntısı olmadığında açıkça en iyi seçenek değildir;
  • Eğitim testi birden çok adıma bölünmüştür: bölge adaylığı, özellik çıkarma, sınıflandırma ve regresyon birbiriyle bağlantılı olmayan eğitim süreçleridir ve ara verilerin ayrı olarak kaydedilmesi gerekir;
  • Eğitimin yer ve zaman maliyeti çok yüksektir: evrişimli özelliklerin önce sabit diskte depolanması gerekir ve bu özellikler yüzlerce gigabayt depolama alanı gerektirir;
  • Yavaş: Önceki eksiklikler sonunda şaşırtıcı derecede yavaş R-CNN'ye yol açtı. GPU'da bir resmi işlemek 13 saniye ve CPU'da 53 saniye sürüyor.
  • Tabii ki, R-CNN bu sefer etkiyi hedefliyor.Bunlar arasında ILSVRC 2013 veri setindeki haritalama, ilk niteliksel değişiklik olan Overfeat'in% 24,3'ünden% 31,4'e yükseldi.

    1.2.2 SPP-net

    SPP-net, MSRA He Yuming ve diğerleri tarafından önerildi. Asıl fikir, orijinal görüntüdeki kırpma / çarpıtma işlemlerini kaldırmak ve bunu, konvolüsyon özelliği üzerinde uzamsal piramit havuzlama katmanıyla (Uzamsal Piramit Havuzlama, SPP) değiştirmek. Şekil 7'de gösterilmiştir. SPP katmanının tanıtılmasının ana nedeni, CNN'in tam olarak bağlı katmanının giriş resimlerinin aynı boyutta olmasını gerektirmesidir, ancak gerçek giriş resimleri genellikle farklı boyutlardadır.Doğrudan aynı boyuta yakınlaştırırsanız, bazı nesnelerin tüm resmi doldurması muhtemeldir. Ve bazı nesneler resmin yalnızca bir köşesini işgal edebilir. Geleneksel çözüm farklı pozisyonlarda kesim yapmaktır, ancak bu kesim teknikleri bazı problemlere neden olabilir.Örneğin, Şekil 7'deki ürün, nesnenin eksik kalmasına ve çözgü, nesnenin ciddi şekilde gerilmesine ve deforme olmasına neden olacaktır. şüpheli. SPP, sabit bir boyutun özelliklerini tüm görüntünün içinden çıkarır, ardından görüntüyü 4 parçaya böler, her biri aynı boyuttaki özellikleri çıkarır ve görüntüyü 16 parçaya böler vb. Görüntünün boyutuna bakılmaksızın, çıkarılan boyutsal verilerin tutarlı olduğu, böylece tamamen bağlı katmana tek tip olarak gönderilebileceği görülebilir. SPP fikri, daha sonraki R-CNN modelinde de yaygın olarak kullanılmaktadır.

    Şekil 7 Geleneksel mahsul / çözgü yapısı ile uzamsal piramit havuzlama ağının karşılaştırması

    SPP-net'in ağ yapısı Şekil 8'de gösterilmektedir. Esas olan, son evrişimli katmandan sonra, farklı boyutlara sahip evrişimli özellikleri tutarlı boyutlara sahip tam bağlantılı girdilere dönüştüren bir SPP katmanının eklenmesidir.

    Şekil 8 SPP-net ağ yapısı

    Hedef tespiti için SPP-net'in ana adımları şunlardır:

  • Bölgesel adaylık: Orijinal görüntüden yaklaşık 2000 aday pencere oluşturmak için Seçmeli Aramayı kullanın;
  • Alan boyutu ölçeklendirme: SPP-net artık alan boyutunu normalleştirmez, ancak minimum (w, h) = s olarak ölçeklenir, tek tip uzunluk ve genişliğin en kısa kenar uzunluğu s {480,576,688,864,1200} arasından seçilir, Seçim kriteri, 224 × 224'e en yakın yakınlaştırmadan sonra aday çerçevenin boyutunu yapmaktır;
  • Özellik çıkarma: SPP-net ağ yapısını kullanarak özellikleri ayıklama;
  • Sınıflandırma ve regresyon: R-CNN'ye benzer şekilde, sınıflandırıcı modelini yukarıdaki özelliklere dayalı olarak eğitmek için SVM'yi kullanın ve aday çerçevenin konumunu ince ayarlamak için sınır regresyonunu kullanın.
  • SPP-net, R-CNN bölgesel adaylığı sırasında mahsulün / eğrilmenin neden olduğu sapma sorununu çözer ve SPP katmanını önerir, böylece girdi aday çerçevesi büyük veya küçük olabilir, ancak diğer yönler hala R-CNN ile aynıdır, bu nedenle hala birçok Sorun, arkadaki Hızlı R-CNN'dir.

    1.2.3 Hızlı R-CNN

    Hızlı R-CNN, R-CNN ve SPP-net'in yaklaşık iki bin aday çerçevesinin neden olduğu çift hesaplama problemini çözmektir. Ana fikri şudur:

  • Basitleştirilmiş bir SPP katmanı-ROI (İlgi Çekici Bölge) Havuzlama katmanı kullanın, işlem SPP'ye benzer;
  • Eğitim ve testler artık birden fazla adıma bölünmüyor: ara katmanın özelliklerini depolamak için artık ek sabit disklere gerek yok ve gradyan doğrudan RoI Pooling katmanına yayılabilir; ayrıca, sınıflandırma ve regresyon çok görevli bir şekilde birlikte gerçekleştirilir;
  • SVD: Tamamen bağlı katmanın parametre matrisini ayrıştırmak ve çok daha küçük, tamamen bağlantılı iki katmana sıkıştırmak için SVD'yi kullanın.
  • Şekil 9'da gösterildiği gibi, Hızlı R-CNN'nin ana adımları aşağıdaki gibidir:

  • Özellik çıkarma: tüm resmi girdi olarak alın ve resmin özellik katmanını elde etmek için CNN kullanın;
  • Bölgesel adaylık: Seçici Arama gibi yöntemlerle orijinal görüntüden bölgesel aday kareleri çıkarın ve bu aday kareleri tek tek son özellik katmanına yansıtın;
  • Alan normalizasyonu: ROI Havuzlama, sabit boyutlu bir özellik gösterimi elde etmek için özellik katmanındaki her alan aday çerçevesi için gerçekleştirilir;
  • Sınıflandırma ve regresyon: Daha sonra, tam bağlantılı iki katman aracılığıyla, softmax çoklu sınıflandırma, hedef tanıma için kullanılır ve regresyon modeli, sınırın konumunu ve boyutunu ince ayar yapmak için kullanılır.
  • Şekil 9 Hızlı R-CNN çerçevesi

    Hızlı R-CNN, eğitim hızında R-CNN'den (büyük model L) 8,8 kat, test süresinde 213 kat, SPP-net eğitim hızından 2,6 kat ve test hızında yaklaşık 10 kat daha hızlıdır.

    Şekil 10 Hızlı R-CNN, R-CNN, SPP-net'in çalışma süresinin karşılaştırması

    1.2.4 Daha hızlı R-CNN

    Hızlı R-CNN, bölgesel adaylık için Seçmeli Arama kullanır, ancak hız yine de yeterince hızlı değildir. Daha hızlı R-CNN, aday çerçeveleri hesaplamak için doğrudan RPN (Bölge Teklif Ağları) ağını kullanır. RPN, girdi olarak herhangi bir boyutta bir fotoğraf çeker ve dikdörtgen alanlar için, her alan bir hedef puana ve konum bilgisine karşılık gelen bir grup adaylık verir. Daha Hızlı R-CNN'deki RPN yapısı Şekil 11'de gösterilmektedir.

    Şekil 11 Bölge Teklif Ağı (RPN)

    Daha Hızlı R-CNN'nin ana adımları aşağıdaki gibidir:

  • Özellik çıkarma: Hızlı R-CNN ile aynıdır, tüm resmi giriş olarak alın ve resmin özellik katmanını elde etmek için CNN kullanın;
  • Bölgesel adaylık: son evrişim özelliği katmanında adaylık için k farklı Sabitleme Kutusu kullanın ve k genellikle 9;
  • Sınıflandırma ve regresyon: Her bir Bağlantı Kutusuna karşılık gelen alan için nesne / nesne olmayan iki sınıflı sınıflandırma gerçekleştirin ve aday kutunun konumunu ve boyutunu ince ayar yapmak için k regresyon modellerini (her biri farklı bir Bağlantı Kutusuna karşılık gelir) kullanın ve son olarak hedefi sınıflandırın.
  • Kısacası, Faster R-CNN, Seçici Aramayı terk etti ve RPN ağını tanıttı, böylece bölge adaylığı, sınıflandırma ve regresyon, evrişimli özellikleri paylaşır ve böylece daha da hızlanır. Bununla birlikte, Daha Hızlı R-CNN'nin önce 20.000 Bağlantı Kutusu için bir hedef olup olmadığını (hedef belirleme) belirlemesi ve ardından iki adıma bölünmüş hedef tanımayı gerçekleştirmesi gerekir.

    1.2.5 R-FCN

    Önceki hedef tespit yöntemleri iki alt ağa ayrılabilir:

  • Paylaşılan tam evrişimli ağ;
  • Hesaplanan ROI ile ilgili alt ağları paylaşmayın (tamamen bağlı bir ağ gibi).
  • R-FCN, tüm hesaplamaların paylaşılabilmesi için son tam bağlı katmanı konuma duyarlı bir evrişimli ağ ile değiştirir. Spesifik olarak, önce her bir aday alanı k × k ızgaralara bölün. Örneğin, orijinal R-FCN metnindeki k değeri 3'tür ve karşılık gelen dokuz ızgara sırasıyla şunları temsil eder: sol üst sol, üst orta üst -merkez,, alt-sağ alt-sağ, Şekil 12'deki Jiugong ızgarasına ve Şekil 13'teki farklı renkli bloklara karşılık gelir, her ızgaranın karşılık gelen bir kodu vardır, ancak tahmin sırasında C + 1 çıkışları olacaktır, C anlamına gelir Kategori sayısı +1, arka plan kategorilerinin olması ve tüm çıkış kanallarının sayısının k2 × (C + 1) olmasıdır.

    Şekil 12 R-FCN'nin kişi sınıflandırması görselleştirme süreci

    Şekil 13 R-FCN

    Şekil 12 ve 13'te farklı konumlarda dokuz kareli bir ızgara olduğu, ancak Havuzlama sırasında yalnızca birinin çalıştığı not edilmelidir.Örneğin, sağ alt katman yalnızca sağ alt köşedeki küçük blokla çalışır. Öyleyse soru şu ki, bu katmandaki diğer 8 kutu nedir? Cevap, diğer ROI'lerin (sol veya üst ROI'ler) sağ alt köşesi olarak kullanılabilmeleridir.

    R-FCN'nin adımları şunlardır:

  • Bölgesel adaylık: RPN (Bölge Teklif Ağı, bölgesel adaylık ağı) kullanarak, RPN'nin kendisi tamamen evrişimli bir ağ yapısıdır;
  • Sınıflandırma ve regresyon: Sınıflandırma için RPN ile paylaşılan özellikleri kullanın. Bbox regresyonu yaparken, C'yi 4'e ayarlayın.
  • 1.3 Uçtan uca yaklaşım

    Bu bölüm, YOLO ve SSD dahil olmak üzere alan adaylığı gerektirmeyen uçtan uca hedef tespit yöntemlerini tanıtır.

    1.3.1 YOLO

    YOLO'nun tam yazılışı Yalnızca Bir Kez Bakın. Adından da anlaşılacağı gibi, yalnızca bir kez bakmaktır. Hedef belirleme ve hedef tanımayı daha da birleştirir. Bu nedenle, tanıma performansı büyük ölçüde iyileştirilerek saniyede 45 kareye ulaşılır.YOLO'nun hızlı sürümünde (Hızlı Daha az evrişimli katmana sahip YOLO, saniyede 155 kareye ulaşabilir.

    Ağın genel yapısı Şekil 14'te gösterilmektedir. Resim için YOLO'nun işleme adımları şunlardır:

  • Giriş resmini 448 × 448 boyutuna ölçekleyin;
  • Evrişimli ağı çalıştırın;
  • Hedef konum ve kategori, model güven kartı eşiklenerek elde edilir.
  • Şekil 14 YOLO algılama sistemi

    Ağın modeli Şekil 15'te gösterilmektedir. 448 × 448 boyutlu grafik S × S ızgaralara kesilmiştir.Hedef merkez noktasının ızgarası, hedefin ilgili tespitinden sorumludur.Her ızgara B çerçevelerini ve güvenirliklerini tahmin eder Ve C kategorilerinin olasılığı. YOLO'da S = 7, B = 2 ve C, veri setindeki nesne kategorilerinin sayısına bağlıdır.Örneğin, VOC veri seti C = 20'dir. VOC veri seti için YOLO, resimleri tek tip olarak 448 × 448'e ölçeklendirecek ve ardından her resim ortalama 7 × 7 = 49 küçük ızgaraya bölünecek ve her ızgara 2 dikdörtgen kutu ve bunların güven düzeylerini ve 20 tür Kategorinin olasılığı.

    Şekil 15 YOLO modeli

    YOLO, tüm hedef tespit sürecini basitleştirir ve hız da büyük ölçüde iyileştirilir.Ancak, YOLO'nun hala geliştirilebilecek birçok alanı vardır.Örneğin, S × S ızgarası sezgisel bir stratejidir.İki küçük hedef aynı anda bire düşerse Kılavuzda, model yalnızca birini tahmin edebilir; başka bir sorun, Loss fonksiyonunun farklı boyutlardaki bbox'lar arasında ayrım yapmamasıdır.

    1.3.2 SSD

    SSD'nin tam savaşı, YOLO'nun eksikliklerini hedefleyen Single Shot MultiBox Detector'dur. SSD'nin çerçevesi Şekil 16'da gösterilmektedir. Şekil 16 (a) iki Ground Truth çerçeveli giriş resmini göstermektedir ve Şekil 16 (b) ve (c) sırasıyla 8 × 8 ızgarayı ve 4 × 4 ızgarayı göstermektedir. İlki, resimlerdeki kediler gibi küçük hedefleri tespit etmek için uygundur ve ikincisi, resimlerdeki köpekler gibi büyük hedefleri tespit etmek için uygundur. Her ızgarada bir dizi sabit boyutta kutu vardır (biraz daha önce bahsedilen Bağlantı Kutusu'na benzer). Bunlara SSD'de, hedef nesnenin konumunu çerçevelemek için kullanılan Varsayılan Kutular denir. Eğitim sırasında, Ground Truth sabit bir Örneğin, Şekil 16 (b) 'deki mavi kutu ve Şekil 16 (c)' deki kırmızı kutu.

    Şekil 16 SSD çerçevesi

    SSD ağı iki bölüme ayrılmıştır: Birincisi, görüntü sınıflandırması için standart bir ağdır (sınıflandırmayla ilgili katmanlar kaldırılmıştır) ve ikincisi, farklı boyutları algılama amacına ulaşmak için algılama için çok ölçekli bir özellik eşleme katmanıdır. SSD ve YOLO arasındaki ağ yapısı karşılaştırması Şekil 17'de gösterilmektedir.

    Şekil 17 SSD ve YOLO'nun ağ yapısının karşılaştırması

    SSD'nin etkisi, YOLO'nun yüksek hızını korurken, esas olarak Daha Hızlı R-CNN'deki Çapa mekanizması ve çoklu ölçek kullanımı nedeniyle çok geliştirildi. Ancak, Varsayılan Kutunun şeklinin ve ızgara boyutunun önceden sabitlendiği ilkesinden hala anlaşılabilir, bu nedenle belirli resimlerdeki küçük hedeflerin çıkarılması yeterince iyi olmayacaktır.

    1.4 Özet

    Derin öğrenmeye dayalı hedef tespiti genellikle iki okula ayrılır:

  • Bölgesel adaylığa dayalı R-CNN serisi;
  • Bölgesel aday gösterilmeden YOLO ve SSD serileri.
  • Tablo 1, çeşitli yöntemlerin performansını (Fps, kare / saniye) VOC 2007'deki MAP karşılaştırması ile kabaca karşılaştırmaktadır. İlgili verilerin farklı kağıtlardan toplandığına dikkat edin Değerlendirme donanımı ve ortamındaki farklılıklar nedeniyle, veriler yalnızca referans içindir ve mutlak karşılaştırma önemine sahip değildir.

    Tablo 1 Farklı hedef tespit algoritmalarının indeks karşılaştırması

    Not: Veriler ilgili kağıtlarından alınmıştır.Değerlendirme donanımı ve ortamındaki farklılıklar nedeniyle, verilerin mutlak karşılaştırmalı önemi yoktur ve yalnızca referans içindir.

    FpsVOC 2007 Overfeat0,5 R-CNN 0,07748-66% SPP-net 63,1-82,4% Fast R-CNN 66,9% -70% Daha Hızlı R-CNN15 (ZF Modeli) 73,2% - 85,6% R-FCN683,6% YOLO45-15058,8 % SSD58-7275.1%

    Derin öğrenmeye dayalı hedef tespiti üzerine araştırmalar hala çok sıcak.Şekil 18, VOC2012 hedef tespit sıralamasını gösteriyor (2016-10-18 sonuçları) Pek çok Çinli ve yerli meslektaşın bu konuda başı çekiyor olması harika.

    Şekil 18 VOC2012 hedef tespit sıralaması

    Tabii ki, hedef tespitinin, endüstride zor olarak kabul edilen küçük hedef tespiti sorunu gibi, daha uzun bir yolu var.

    Küçük bir numara deneyin, gerçek bir Sanlitun fotoğrafına gelin, YOLO'nun test sonuçları Şekil 19'da gösteriliyor, birçok hedefin kaçırıldığı görülebiliyor.

    Şekil 19 YOLO test sonuçları

    Şekil 20'de SSD'nin etkisine bir göz atalım. Etkisi çok daha iyi görünüyor, ancak engellenen kişi yine de tespiti kaçırdı.

    Şekil 20 SSD test sonuçları

    Gelecekte derin öğrenmeye dayalı hedef tespitinde daha fazla atılımı bekliyoruz!

    Referanslar

    R. Girshick, J. Donahue, T. Darrell, J. Malik. Doğru nesne algılama ve anlambilimsel bölümleme için zengin özellik hiyerarşileri. ImageNet Büyük Ölçekli Görsel Tanıma Zorlukları atölyesi, ICCV, 2013.

    R. Girshick, J. Donahue, T. Darrell, J. Malik. Doğru nesne algılama ve anlambilimsel bölümleme için zengin özellikli hiyerarşiler.IEEE Bilgisayar Görüsü ve Örüntü Tanıma Konferansı (CVPR), 2014.

    R. Girshick, J. Donahue, T. Darrell, J. Malik. Doğru Nesne Algılama ve Segmentasyon için Bölge Tabanlı Evrişimli Ağlar. Desen Analizi ve Makine Zekası üzerine IEEE İşlemleri, Mayıs 2015.

    K. He, X. Zhang, S. Ren ve J. Sun. Görsel tanıma için derin evrişimli ağlarda uzamsal piramit havuzlaması. İçinde ECCV.2014.

    S. Ren, K. He, R. Girshick, J. Sun. Faster R-CNN: Bölge Teklif Ağları ile Gerçek Zamanlı Nesne Algılamaya Doğru.Nöral Bilgi İşleme Sistemlerinde Gelişmeler 28 (NIPS), 2015.

    C. Szegedy, A. Toshev, D. Erhan. Nesne Algılama için Derin Sinir Ağları. Sinir Bilgi İşlem Sistemlerinde Gelişmeler 26 (NIPS), 2013.

    P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus ve Y. LeCun. OverFeat: Evrişimli ağları kullanarak tümleşik tanıma, yerelleştirme ve algılama. In ICLR, 2014.

    J.R. Uijlings, K.E. vandeSande, T. Gevers ve A.W. Smeulders. Nesne tanıma için seçici arama. IJCV, 2013.

    OverFeat kaynak kodu:

    ILSVRC 2013 sonuçları:

    A. Krizhevsky, I. Sutskever ve G. Hinton. Derin evrişimli sinir ağları ile Imagenet sınıflandırması. NIPS, 2012.

    J. Hosang, R. Benenson, P. Dolla r ve B. Schiele. Etkili tespit önerileri için ne yapar? TPAMI, 2015.

    Felzenszwalb P F, Girshick R B, McAllester D ve diğerleri. Ayrımcı olarak eğitilmiş parça tabanlı modellerle nesne algılama. Kalıp Analizi ve Makine Zekası, IEEE İşlemleri, 2010, 32 (9): 1627-1645.

    Girshick, R. Fast R-CNN. ICCV 2015.

    Redmon, J., Divvala, S., Girshick, R., Farhadi, A .: Yalnızca bir kez bakıyorsunuz: Birleşik, gerçek zamanlı

    nesne algılama. İçinde: CVPR. (2016)

    R-FCN: Bölge Tabanlı Tam Evrişimli Ağlar aracılığıyla Nesne Algılama Jifeng Dai, Yi Li, Kaiming He, ve Jian Sun.Nöral Bilgi İşleme Sistemleri Konferansı (NIPS), 2016.

    Liu W, Anguelov D, Erhan D ve diğerleri SSD: Single Shot MultiBox Detector. ArXiv preprint arXiv: 1512.02325, 2015.

    R-CNN: Bölge tabanlı Evrişimli Sinir Ağları: https://github.com/rbgirshick/rcnn

    SPP-net: https://github.com/ShaoqingRen/SPP_net

    Hızlı R-CNN: https://github.com/rbgirshick/fast-rcnn

    Daha hızlı R-CNN: https://github.com/rbgirshick/py-faster-rcnn

    YOLO:

    SSD: https://github.com/weiliu89/caffe/tree/ssd

    R-FCN: https://github.com/daijifeng001/r-fcn

    Tespit Sonuçları: VOC2012 Yarışması - "comp4" (kendi verileriyle eğitim):

    İtibar harika ama gerçek çok kötü! Toshiba Q300120G SSD kutudan çıkarma
    önceki
    Gökten düşen işler, Apple: Böyle iyi bir şey var mı? Teşekkürler Microsoft!
    Sonraki
    Makine öğrenmiyor: DQN'den DDPG'ye pekiştirmeli öğrenme (4)
    Makine öğrenmiyor: Pekiştirmeli öğrenme (3) Derin Q-Öğrenme algoritması
    Mavi ekran "League of Legends" oynadığınız sürece! Aslında soruna neden olan taklit güç kaynağı.
    Makine öğrenmiyor: VGGNet derin öğrenme klasik evrişimli sinir ağı
    Yeni ve eski Seagate sabit disklerinin görünümünü karşılaştırdığımda, önceki sabit disklerin daha güvenilir olduğunu düşünüyorum
    Makineler öğrenmez: Bir makale her türden derin öğrenme ağını anlar ve derin öğrenme de aynen bunun gibidir ...
    En ucuz dört ısı borulu CPU soğutucusundan biri! Coyote Green Arrow GH400 ekranı
    Makine öğrenmiyor: Evrişimli sinir ağı CNN girişi pratik
    Asgari bütünlük ne olacak? 10G "çıplak" kapıların hiç 10G kapasitesi yoktur
    Tanabata Sevgililer Günü bir ayrılık festivaline mi dönüştü? AI büyük verileri, Qixi Festivali hakkındaki gerçeği ortaya koyuyor!
    Budenholzer neden bu kadar acı
    Ağır planlama! 7 amiral gemisi çift kameralı cep telefonu portre modu nihai PK
    To Top