Sıradan derin öğrenme denetim algoritmaları, Şekil 1 (1) 'de gösterildiği gibi, esas olarak sınıflandırma için kullanılır, sınıflandırmanın amacı şekilde gösterilen kediyi belirlemektir. ILSVRC (ImageNet Large Scale Visual Recognition Challenge) yarışmasında ve gerçek uygulamalarda, hedef konumlandırma ve hedef tespiti gibi görevleri de içerir. Bunlar arasında, hedef konumlandırma sadece nesneyi tanımlamak (yani sınıflandırma) değil, aynı zamanda nesnenin konumunu tahmin etmek içindir Konum, Şekil 1 (2) 'de gösterildiği gibi, genellikle bir sınırlayıcı kutu ile işaretlenir. Hedef algılamanın özü, çok hedefli konumlandırmadır, yani, sınıflandırma ve konumlandırma dahil olmak üzere resimdeki birden fazla hedef nesneyi bulmaktır. Örneğin Şekil 1 (3) 'deki hedef tespiti, sonuç birkaç farklı hayvandır, Şekil 3'te farklı renkli kutularda konumları gösterilmektedir.
(1) Hedef sınıflandırma
(2) Hedef konumlandırma
(3) Hedef tespiti
Şekil 1 Hedef sınıflandırma, konum ve tespit örnekleri
Basitçe ifade etmek gerekirse, sınıflandırma, konumlandırma ve tespit arasındaki fark aşağıdaki gibidir:
Hedef tespiti insanlar için zor değildir.Resimdeki farklı renk modüllerinin algılanması sayesinde hedef nesneyi bulmak ve sınıflandırmak kolaydır, ancak bilgisayar için doğrudan görüntüden elde edilmesi zor olan RGB piksel matrisiyle karşı karşıyadır. Köpekler ve kediler gibi soyut kavramlar ve konumlarının belirlenmesi ve bazen birden fazla nesne ve dağınık arka plan birbirine karıştırılır, hedef tespiti daha zordur. Ancak bu bilim adamları için zor değil.Geleneksel görme alanında hedef tespiti çok popüler bir araştırma yönü.Yüz tanıma ve yaya tespiti gibi bazı özel hedeflerin tespiti çok olgun teknolojilere sahip. Sıradan hedef tespiti için birçok deneme yapılmıştır, ancak etki her zaman tatmin edici değildir.
Geleneksel hedef tespiti genellikle, esas olarak üç adımı içeren kayan bir pencere çerçevesi kullanır:
Geleneksel hedef tespitinde, çok ölçekli deforme olabilen parça modeli DPM (Deforme Edilebilir Parça Modeli) olağanüstüdür. 2007'den 2009'a kadar sürekli olarak VOC (Görsel Nesne Sınıfı) algılama şampiyonunu kazanmıştır. 2010 yılında, yazarı Felzenszwalb Pedro, VOC tarafından "Yaşam Boyu Başarı Ödülü" ile ödüllendirilmiştir. . DPM, nesneleri çoklu bileşenler (burun, ağız, vb.) Olarak görür ve nesneyi tanımlamak için bileşenler arasındaki ilişkiyi kullanır.Bu özellik, doğadaki birçok nesnenin katı olmayan özellikleriyle çok tutarlıdır. DPM, HOG + SVM'nin bir uzantısı olarak kabul edilebilir. Her ikisinin de avantajlarını miras alır ve yüz algılama ve yaya algılama gibi görevlerde iyi sonuçlar elde eder. Bununla birlikte, DPM nispeten karmaşıktır ve algılama hızı daha yavaştır. Birçok gelişmiş yöntem ortaya çıktı. Herkes DPM'nin performansını iyileştirme konusunda hevesliyken, derin öğrenmeye dayalı hedef tespiti ortaya çıktı ve kısa sürede DPM'nin ilgi odağını gölgede bıraktı. Daha önce geleneksel hedef tespit algoritmaları üzerinde çalışan birçok araştırmacı da derin öğrenmeye yönelmeye başladı.
Derin öğrenmeye dayalı hedef tespitinin geliştirilmesinden sonra, etkiyi aşmak zor oldu. Örneğin, VOC 2007 test seti ile ilgili literatürdeki algoritmanın haritası sadece% 30'dan biraz fazladır ve ILSVRC 2013 test setindeki literatürdeki OverFeat mAP'ı sadece% 24,3'e ulaşabilir. R-CNN 2013 yılında doğdu. VOC 2007 test setinin mAP değeri% 48'e çıkarıldı. 2014 yılında ağ yapısı% 66'ya değiştirildi.Aynı zamanda ILSVRC 2013 test setinin mAP değeri de% 31,4'e çıkarıldı.
R-CNN, Bölge tabanlı Evrişimli Sinir Ağlarının kısaltmasıdır.Çince çevirisi bölge tabanlı bir evrişimli sinir ağıdır.Bölge Önerisi ve Evrişimli Sinir Ağlarını (CNN) birleştiren bir hedef algılama yöntemidir. Ross Girshick'in 2013 yılındaki öncü çalışması "Doğru Nesne Algılama ve Anlamsal Segmentasyon için Zengin Özellik Hiyerarşileri" bu alt alanın temelini attı.Bu makalenin sonraki sürümü CVPR 2014'te ve dergi sürümü PAMI 2015'te yayınlandı.
Aslında, R-CNN'den önce, birçok araştırmacı, OverFeat dahil olmak üzere, hedef tespiti yapmak için Derin Öğrenmeyi kullanmaya çalıştı, ancak R-CNN, derin öğrenmenin kendisiyle de uyumlu olan, gerçekten endüstriyel düzeyde uygulamalar olabilecek ilk çözümdür. Gelişime benzer şekilde, sinir ağları ve evrişimli ağlar yeni kavramlar değildir, ancak bu yüzyılda aniden uygulanabilir hale geldiler ve mümkün olduklarında hızla gelişmeleri şaşırtıcı değil.
R-CNN alanındaki araştırmalar şu anda çok aktiftir, R-CNN, SPP-net, Fast R-CNN, Faster R-CNN, R-FCN, YOLO, SSD ve diğer araştırmalar art arda ortaya çıkmaktadır. Ross Girshick, bu alanın öncüsü olarak her zaman bir tanrı olarak var olur.R-CNN, Fast R-CNN, Faster R-CNN ve YOLO hepsi onunla bağlantılıdır. Aslında, bu yenilikçi çalışmalar genellikle görme alanındaki bazı geleneksel yöntemleri Seçmeli Arama ve Piramit gibi derin öğrenme ile birleştirir.
Derin öğrenmeyle ilgili hedef tespit yöntemleri de kabaca iki gruba ayrılabilir:
Halihazırda, bölgesel adaylığa dayalı yöntem hala daha üstündür, ancak uçtan-uca yöntemin hızda bariz avantajları vardır ve takip gelişimi görülmeye devam etmektedir.
1.1 İlgili araştırma
Hedef tespitinin bir incelemesi olarak, bu makale ilk olarak hedef tespit seçici aramada yaygın olarak kullanılan alan adaylığına ve hedef tespit için derin öğrenmeyi kullanmanın erken çalışmasına bakacaktır-Overfeat.
1.1.1 Seçmeli arama
Hedef tespit etmenin ilk adımı Bölge Önerisi yapmaktır, yani olası ilgi alanlarını bulmaktır (İlgi Bölgesi, ROI). Bölgesel adaylık, optik karakter tanıma (OCR) alanındaki segmentasyona benzer. OCR segmentasyonu, yaygın olarak bir aşırı segmentasyon yöntemi olarak kullanılır. Basitçe söylemek gerekirse, küçük bağlantılı alanları (küçük vuruşlar gibi) kesmek ve ardından bitişik blokları temel almak mümkün olduğu kadar küçüktür. Bazı morfolojik özellikler birleştirildi. Ancak hedef tespit nesneleri OCR alanından çok farklıdır ve grafikler düzensiz ve farklı büyüklüktedir, bu nedenle bir dereceye kadar bölgesel adaylığın OCR segmentasyonundan daha zor bir problem olduğu söylenebilir.
Bölgesel adaylık için olası yöntemler şunlardır:
1. Sürgülü pencere. Sürgülü pencere esasen kapsamlı bir yöntemdir, tüm olası büyük ve küçük blokları numaralandırmak için farklı ölçekleri ve en-boy oranlarını kullanır ve ardından bunları tanımlama için gönderir ve yüksek tanımlama olasılığı olanları bırakılır. Açıktır ki, böyle bir yöntem çok karmaşıktır ve gerçekte mümkün olmayan çok sayıda gereksiz aday bölge üretir.
2. Kural bloğu. Kapsamlı yönteme göre bir miktar budama gerçekleştirildi ve yalnızca sabit boyut ve en-boy oranı kullanıldı. Bu, fotoğraf arama uygulaması Xiaoyuan aramasında Çince karakterlerin tespiti gibi bazı özel uygulama senaryolarında çok etkilidir, çünkü Çince karakterler kare ve kare şeklindedir ve en boy oranları çoğunlukla tutarlıdır. Bu nedenle, bölgesel adaylık için normal blokların kullanılması bir karşılaştırmadır. Doğru seçim. Ancak sıradan hedef tespiti için, kural bloğunun hala birçok yeri ziyaret etmesi gerekiyor ve karmaşıklık çok yüksek.
3. Seçmeli arama. Makine öğrenimi perspektifinden, önceki yöntem geri çağırma iyidir, ancak doğruluk tatmin edici değildir, bu nedenle sorunun özü, gereksiz aday bölgelerin etkili bir şekilde nasıl kaldırılacağıdır. Aslında, yedek aday bölgelerin çoğu örtüşüyor. Seçici arama, fazlalığı azaltmak için bitişik örtüşen bölgeleri aşağıdan yukarıya birleştirmek için bunu kullanır.
Bölgesel adaylık, yukarıda belirtilen üç yöntemle sınırlı değildir.Aslında bu alan çok esnektir, bu nedenle birçok varyasyon vardır.İlgilenen okuyucular literatüre başvurmak isteyebilir.
Seçmeli aramanın spesifik algoritma detayları Algoritma 1'de gösterilmektedir. Genel olarak, seçici arama, aday bölgeleri aşağıdan yukarıya sürekli olarak birleştirmenin yinelemeli bir işlemidir.
Giriş: Bir resim
Çıktı: Aday hedef konum kümesi L
algoritma:
1: R = {r1, r2, ..., rn} aday bölge kümesini elde etmek için aşırı segmentasyon yöntemini kullanın
2: Benzer seti başlat S =
3: foreach komşu alan çifti (ri, rj) do
4: s (ri, rj) benzerliğini hesaplayın
5: S = S s (ri, rj)
6: S değil = do
7: Maksimum benzerliği elde edin s (ri, rj) = max (S)
8: İlgili alanı birleştir rt = ri rj
9: ri'ye karşılık gelen tüm benzerlikleri kaldırın: S = S \ s (ri, r *)
10: rj'ye karşılık gelen tüm benzerlikleri kaldırın: S = S \ s (r *, rj)
11: rt'ye karşılık gelen benzerlik kümesi St'yi hesaplayın
12: S = S St
13: R = R rt
14: L = R'deki tüm alanlara karşılık gelen sınırlar
Algoritma 1 seçici arama algoritması
Algoritmadan R'deki bölgelerin birleştirildiğini görmek zor değildir, bu nedenle çok fazla fazlalık azalır, bu da doğruluktaki artışa eşdeğerdir, ancak yine de geri çağırma oranını sağlamaya devam etmemiz gerektiğini, dolayısıyla Algoritma 1'deki benzerliği unutmayın. Hesaplama stratejisi çok kritik. Basitçe bir strateji uygularsanız, farklı alanları yanlışlıkla birleştirmek kolaydır.Örneğin, yalnızca konturlar düşünüldüğünde, farklı renklerdeki alanların yanlışlıkla birleştirilmesi kolaydır. Seçmeli arama, hatırlamayı sağlamak için aday alanları artırmak için çeşitlilik stratejileri kullanır. Örneğin, renk alanı RGB, gri tonlama, HSV ve bunların varyantlarını vb. Dikkate alır. Benzerlik hesaplanırken hem renk benzerliği hem de doku, boyut ve örtüşme dikkate alınır.
Genel olarak, seçici arama, erken derin öğrenme tabanlı hedef tespit yöntemleri (Overfeat ve R-CNN, vb. Dahil) tarafından yaygın olarak kullanılan, ancak mevcut yeni yöntemlerle terk edilen nispeten basit bir alan adaylık yöntemidir.
1.1.2 Aşırı Yorgunluk
OverFeat, sınıflandırma, konumlandırma ve saptamayı aynı şekilde yapmak için CNN kullanan klasik bir çalışmadır. Yazar, en büyük derin öğrenme tanrılarından biridir - Yann Lecun'un New York Üniversitesi'ndeki ekibi. OverFeat ayrıca ILSVRC 2013 Görev 3'ün (Sınıflandırma + Konumlandırma) şampiyonudur.
OverFeat'in üç temel fikri vardır:
OverFeat'te dört temel adım vardır:
Şekil 2 Aşırı performans temel birinci adım
Şekil 3 Overfeat için Temel Adım 2
Şekil 4 Overfeat temel üçüncü adım
Şekil 5 Overfeat için Temel Adım 4
Overfeat, hedef tespiti için CNN'in ilk çalışmasıdır. Ana fikir, sınıflandırma, konumlandırma ve tespit için çok ölçekli kayan pencereler kullanmaktır. Çok görevli olmasına rağmen, modelin ilk birkaç katmanını yeniden kullanır. Bu model yeniden kullanım fikri de daha sonra R-CNN serisi, klasik uygulamayı kullanmaya ve geliştirmeye devam ediyor.
Tabii ki, Overfeat'in de pek çok dezavantajı var, en azından hız ve etkide iyileştirme için çok yer var Aşağıdaki R-CNN serileri bu iki açıdan birçok iyileştirme yaptı.
1.2 Bölgesel adaylığa dayalı yöntem
Bu bölüm esas olarak, R-CNN, SPP-net, Fast R-CNN, Faster R-CNN, R-FCN dahil olmak üzere bölge adaylığına dayalı yöntemleri tanıtmaktadır.
1.2.1 R-CNN
Daha önce belirtildiği gibi, çoğu erken hedef tespiti pencere adaylığı için kayan pencere yöntemini kullanır Bu yöntem esasen ayrıntılıdır ve R-CNN Seçmeli Arama kullanır.
Aşağıdakiler, R-CNN'in ana adımlarıdır:
Hedef tespit sisteminin yapısı Şekil 6'da gösterilmektedir. Şekildeki ikinci adımın, alan adaylığı ve alan boyutu normalizasyonu dahil adımların 1. ve 2. adımlarına karşılık geldiğine dikkat edin.
Şekil 6 R-CNN çerçevesi
Overfeat, özel bir R-CNN durumu olarak kabul edilebilir. Seçici Aramayı çok ölçekli bir kayan pencere ile değiştirmeniz, her kategorinin sınır regresörünü birleşik bir sınır regresörü ile değiştirmeniz ve SVM'yi çok katmanlı bir ağ ile değiştirmeniz yeterlidir. Ancak Overfeat aslında R-CNN'den 9 kat daha hızlıdır, bu da esas olarak evrişimle ilgili paylaşılan hesaplamalardan kaynaklanmaktadır.
Aslında, R-CNN'nin birçok dezavantajı vardır:
Tabii ki, R-CNN bu sefer etkiyi hedefliyor.Bunlar arasında ILSVRC 2013 veri setindeki haritalama, ilk niteliksel değişiklik olan Overfeat'in% 24,3'ünden% 31,4'e yükseldi.
1.2.2 SPP-net
SPP-net, MSRA He Yuming ve diğerleri tarafından önerildi. Asıl fikir, orijinal görüntüdeki kırpma / çarpıtma işlemlerini kaldırmak ve bunu, konvolüsyon özelliği üzerinde uzamsal piramit havuzlama katmanıyla (Uzamsal Piramit Havuzlama, SPP) değiştirmek. Şekil 7'de gösterilmiştir. SPP katmanının tanıtılmasının ana nedeni, CNN'in tam olarak bağlı katmanının giriş resimlerinin aynı boyutta olmasını gerektirmesidir, ancak gerçek giriş resimleri genellikle farklı boyutlardadır.Doğrudan aynı boyuta yakınlaştırırsanız, bazı nesnelerin tüm resmi doldurması muhtemeldir. Ve bazı nesneler resmin yalnızca bir köşesini işgal edebilir. Geleneksel çözüm farklı pozisyonlarda kesim yapmaktır, ancak bu kesim teknikleri bazı problemlere neden olabilir.Örneğin, Şekil 7'deki ürün, nesnenin eksik kalmasına ve çözgü, nesnenin ciddi şekilde gerilmesine ve deforme olmasına neden olacaktır. şüpheli. SPP, sabit bir boyutun özelliklerini tüm görüntünün içinden çıkarır, ardından görüntüyü 4 parçaya böler, her biri aynı boyuttaki özellikleri çıkarır ve görüntüyü 16 parçaya böler vb. Görüntünün boyutuna bakılmaksızın, çıkarılan boyutsal verilerin tutarlı olduğu, böylece tamamen bağlı katmana tek tip olarak gönderilebileceği görülebilir. SPP fikri, daha sonraki R-CNN modelinde de yaygın olarak kullanılmaktadır.
Şekil 7 Geleneksel mahsul / çözgü yapısı ile uzamsal piramit havuzlama ağının karşılaştırması
SPP-net'in ağ yapısı Şekil 8'de gösterilmektedir. Esas olan, son evrişimli katmandan sonra, farklı boyutlara sahip evrişimli özellikleri tutarlı boyutlara sahip tam bağlantılı girdilere dönüştüren bir SPP katmanının eklenmesidir.
Şekil 8 SPP-net ağ yapısı
Hedef tespiti için SPP-net'in ana adımları şunlardır:
SPP-net, R-CNN bölgesel adaylığı sırasında mahsulün / eğrilmenin neden olduğu sapma sorununu çözer ve SPP katmanını önerir, böylece girdi aday çerçevesi büyük veya küçük olabilir, ancak diğer yönler hala R-CNN ile aynıdır, bu nedenle hala birçok Sorun, arkadaki Hızlı R-CNN'dir.
1.2.3 Hızlı R-CNN
Hızlı R-CNN, R-CNN ve SPP-net'in yaklaşık iki bin aday çerçevesinin neden olduğu çift hesaplama problemini çözmektir. Ana fikri şudur:
Şekil 9'da gösterildiği gibi, Hızlı R-CNN'nin ana adımları aşağıdaki gibidir:
Şekil 9 Hızlı R-CNN çerçevesi
Hızlı R-CNN, eğitim hızında R-CNN'den (büyük model L) 8,8 kat, test süresinde 213 kat, SPP-net eğitim hızından 2,6 kat ve test hızında yaklaşık 10 kat daha hızlıdır.
Şekil 10 Hızlı R-CNN, R-CNN, SPP-net'in çalışma süresinin karşılaştırması
1.2.4 Daha hızlı R-CNN
Hızlı R-CNN, bölgesel adaylık için Seçmeli Arama kullanır, ancak hız yine de yeterince hızlı değildir. Daha hızlı R-CNN, aday çerçeveleri hesaplamak için doğrudan RPN (Bölge Teklif Ağları) ağını kullanır. RPN, girdi olarak herhangi bir boyutta bir fotoğraf çeker ve dikdörtgen alanlar için, her alan bir hedef puana ve konum bilgisine karşılık gelen bir grup adaylık verir. Daha Hızlı R-CNN'deki RPN yapısı Şekil 11'de gösterilmektedir.
Şekil 11 Bölge Teklif Ağı (RPN)
Daha Hızlı R-CNN'nin ana adımları aşağıdaki gibidir:
Kısacası, Faster R-CNN, Seçici Aramayı terk etti ve RPN ağını tanıttı, böylece bölge adaylığı, sınıflandırma ve regresyon, evrişimli özellikleri paylaşır ve böylece daha da hızlanır. Bununla birlikte, Daha Hızlı R-CNN'nin önce 20.000 Bağlantı Kutusu için bir hedef olup olmadığını (hedef belirleme) belirlemesi ve ardından iki adıma bölünmüş hedef tanımayı gerçekleştirmesi gerekir.
1.2.5 R-FCN
Önceki hedef tespit yöntemleri iki alt ağa ayrılabilir:
R-FCN, tüm hesaplamaların paylaşılabilmesi için son tam bağlı katmanı konuma duyarlı bir evrişimli ağ ile değiştirir. Spesifik olarak, önce her bir aday alanı k × k ızgaralara bölün. Örneğin, orijinal R-FCN metnindeki k değeri 3'tür ve karşılık gelen dokuz ızgara sırasıyla şunları temsil eder: sol üst sol, üst orta üst -merkez,, alt-sağ alt-sağ, Şekil 12'deki Jiugong ızgarasına ve Şekil 13'teki farklı renkli bloklara karşılık gelir, her ızgaranın karşılık gelen bir kodu vardır, ancak tahmin sırasında C + 1 çıkışları olacaktır, C anlamına gelir Kategori sayısı +1, arka plan kategorilerinin olması ve tüm çıkış kanallarının sayısının k2 × (C + 1) olmasıdır.
Şekil 12 R-FCN'nin kişi sınıflandırması görselleştirme süreci
Şekil 13 R-FCN
Şekil 12 ve 13'te farklı konumlarda dokuz kareli bir ızgara olduğu, ancak Havuzlama sırasında yalnızca birinin çalıştığı not edilmelidir.Örneğin, sağ alt katman yalnızca sağ alt köşedeki küçük blokla çalışır. Öyleyse soru şu ki, bu katmandaki diğer 8 kutu nedir? Cevap, diğer ROI'lerin (sol veya üst ROI'ler) sağ alt köşesi olarak kullanılabilmeleridir.
R-FCN'nin adımları şunlardır:
1.3 Uçtan uca yaklaşım
Bu bölüm, YOLO ve SSD dahil olmak üzere alan adaylığı gerektirmeyen uçtan uca hedef tespit yöntemlerini tanıtır.
1.3.1 YOLO
YOLO'nun tam yazılışı Yalnızca Bir Kez Bakın. Adından da anlaşılacağı gibi, yalnızca bir kez bakmaktır. Hedef belirleme ve hedef tanımayı daha da birleştirir. Bu nedenle, tanıma performansı büyük ölçüde iyileştirilerek saniyede 45 kareye ulaşılır.YOLO'nun hızlı sürümünde (Hızlı Daha az evrişimli katmana sahip YOLO, saniyede 155 kareye ulaşabilir.
Ağın genel yapısı Şekil 14'te gösterilmektedir. Resim için YOLO'nun işleme adımları şunlardır:
Şekil 14 YOLO algılama sistemi
Ağın modeli Şekil 15'te gösterilmektedir. 448 × 448 boyutlu grafik S × S ızgaralara kesilmiştir.Hedef merkez noktasının ızgarası, hedefin ilgili tespitinden sorumludur.Her ızgara B çerçevelerini ve güvenirliklerini tahmin eder Ve C kategorilerinin olasılığı. YOLO'da S = 7, B = 2 ve C, veri setindeki nesne kategorilerinin sayısına bağlıdır.Örneğin, VOC veri seti C = 20'dir. VOC veri seti için YOLO, resimleri tek tip olarak 448 × 448'e ölçeklendirecek ve ardından her resim ortalama 7 × 7 = 49 küçük ızgaraya bölünecek ve her ızgara 2 dikdörtgen kutu ve bunların güven düzeylerini ve 20 tür Kategorinin olasılığı.
Şekil 15 YOLO modeli
YOLO, tüm hedef tespit sürecini basitleştirir ve hız da büyük ölçüde iyileştirilir.Ancak, YOLO'nun hala geliştirilebilecek birçok alanı vardır.Örneğin, S × S ızgarası sezgisel bir stratejidir.İki küçük hedef aynı anda bire düşerse Kılavuzda, model yalnızca birini tahmin edebilir; başka bir sorun, Loss fonksiyonunun farklı boyutlardaki bbox'lar arasında ayrım yapmamasıdır.
1.3.2 SSD
SSD'nin tam savaşı, YOLO'nun eksikliklerini hedefleyen Single Shot MultiBox Detector'dur. SSD'nin çerçevesi Şekil 16'da gösterilmektedir. Şekil 16 (a) iki Ground Truth çerçeveli giriş resmini göstermektedir ve Şekil 16 (b) ve (c) sırasıyla 8 × 8 ızgarayı ve 4 × 4 ızgarayı göstermektedir. İlki, resimlerdeki kediler gibi küçük hedefleri tespit etmek için uygundur ve ikincisi, resimlerdeki köpekler gibi büyük hedefleri tespit etmek için uygundur. Her ızgarada bir dizi sabit boyutta kutu vardır (biraz daha önce bahsedilen Bağlantı Kutusu'na benzer). Bunlara SSD'de, hedef nesnenin konumunu çerçevelemek için kullanılan Varsayılan Kutular denir. Eğitim sırasında, Ground Truth sabit bir Örneğin, Şekil 16 (b) 'deki mavi kutu ve Şekil 16 (c)' deki kırmızı kutu.
Şekil 16 SSD çerçevesi
SSD ağı iki bölüme ayrılmıştır: Birincisi, görüntü sınıflandırması için standart bir ağdır (sınıflandırmayla ilgili katmanlar kaldırılmıştır) ve ikincisi, farklı boyutları algılama amacına ulaşmak için algılama için çok ölçekli bir özellik eşleme katmanıdır. SSD ve YOLO arasındaki ağ yapısı karşılaştırması Şekil 17'de gösterilmektedir.
Şekil 17 SSD ve YOLO'nun ağ yapısının karşılaştırması
SSD'nin etkisi, YOLO'nun yüksek hızını korurken, esas olarak Daha Hızlı R-CNN'deki Çapa mekanizması ve çoklu ölçek kullanımı nedeniyle çok geliştirildi. Ancak, Varsayılan Kutunun şeklinin ve ızgara boyutunun önceden sabitlendiği ilkesinden hala anlaşılabilir, bu nedenle belirli resimlerdeki küçük hedeflerin çıkarılması yeterince iyi olmayacaktır.
1.4 Özet
Derin öğrenmeye dayalı hedef tespiti genellikle iki okula ayrılır:
Tablo 1, çeşitli yöntemlerin performansını (Fps, kare / saniye) VOC 2007'deki MAP karşılaştırması ile kabaca karşılaştırmaktadır. İlgili verilerin farklı kağıtlardan toplandığına dikkat edin Değerlendirme donanımı ve ortamındaki farklılıklar nedeniyle, veriler yalnızca referans içindir ve mutlak karşılaştırma önemine sahip değildir.
Tablo 1 Farklı hedef tespit algoritmalarının indeks karşılaştırması
Not: Veriler ilgili kağıtlarından alınmıştır.Değerlendirme donanımı ve ortamındaki farklılıklar nedeniyle, verilerin mutlak karşılaştırmalı önemi yoktur ve yalnızca referans içindir.
FpsVOC 2007 Overfeat0,5 R-CNN 0,07748-66% SPP-net 63,1-82,4% Fast R-CNN 66,9% -70% Daha Hızlı R-CNN15 (ZF Modeli) 73,2% - 85,6% R-FCN683,6% YOLO45-15058,8 % SSD58-7275.1%
Derin öğrenmeye dayalı hedef tespiti üzerine araştırmalar hala çok sıcak.Şekil 18, VOC2012 hedef tespit sıralamasını gösteriyor (2016-10-18 sonuçları) Pek çok Çinli ve yerli meslektaşın bu konuda başı çekiyor olması harika.
Şekil 18 VOC2012 hedef tespit sıralaması
Tabii ki, hedef tespitinin, endüstride zor olarak kabul edilen küçük hedef tespiti sorunu gibi, daha uzun bir yolu var.
Küçük bir numara deneyin, gerçek bir Sanlitun fotoğrafına gelin, YOLO'nun test sonuçları Şekil 19'da gösteriliyor, birçok hedefin kaçırıldığı görülebiliyor.
Şekil 19 YOLO test sonuçları
Şekil 20'de SSD'nin etkisine bir göz atalım. Etkisi çok daha iyi görünüyor, ancak engellenen kişi yine de tespiti kaçırdı.
Şekil 20 SSD test sonuçları
Gelecekte derin öğrenmeye dayalı hedef tespitinde daha fazla atılımı bekliyoruz!
Referanslar
R. Girshick, J. Donahue, T. Darrell, J. Malik. Doğru nesne algılama ve anlambilimsel bölümleme için zengin özellik hiyerarşileri. ImageNet Büyük Ölçekli Görsel Tanıma Zorlukları atölyesi, ICCV, 2013.
R. Girshick, J. Donahue, T. Darrell, J. Malik. Doğru nesne algılama ve anlambilimsel bölümleme için zengin özellikli hiyerarşiler.IEEE Bilgisayar Görüsü ve Örüntü Tanıma Konferansı (CVPR), 2014.
R. Girshick, J. Donahue, T. Darrell, J. Malik. Doğru Nesne Algılama ve Segmentasyon için Bölge Tabanlı Evrişimli Ağlar. Desen Analizi ve Makine Zekası üzerine IEEE İşlemleri, Mayıs 2015.
K. He, X. Zhang, S. Ren ve J. Sun. Görsel tanıma için derin evrişimli ağlarda uzamsal piramit havuzlaması. İçinde ECCV.2014.
S. Ren, K. He, R. Girshick, J. Sun. Faster R-CNN: Bölge Teklif Ağları ile Gerçek Zamanlı Nesne Algılamaya Doğru.Nöral Bilgi İşleme Sistemlerinde Gelişmeler 28 (NIPS), 2015.
C. Szegedy, A. Toshev, D. Erhan. Nesne Algılama için Derin Sinir Ağları. Sinir Bilgi İşlem Sistemlerinde Gelişmeler 26 (NIPS), 2013.
P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus ve Y. LeCun. OverFeat: Evrişimli ağları kullanarak tümleşik tanıma, yerelleştirme ve algılama. In ICLR, 2014.
J.R. Uijlings, K.E. vandeSande, T. Gevers ve A.W. Smeulders. Nesne tanıma için seçici arama. IJCV, 2013.
OverFeat kaynak kodu:
ILSVRC 2013 sonuçları:
A. Krizhevsky, I. Sutskever ve G. Hinton. Derin evrişimli sinir ağları ile Imagenet sınıflandırması. NIPS, 2012.
J. Hosang, R. Benenson, P. Dolla r ve B. Schiele. Etkili tespit önerileri için ne yapar? TPAMI, 2015.
Felzenszwalb P F, Girshick R B, McAllester D ve diğerleri. Ayrımcı olarak eğitilmiş parça tabanlı modellerle nesne algılama. Kalıp Analizi ve Makine Zekası, IEEE İşlemleri, 2010, 32 (9): 1627-1645.
Girshick, R. Fast R-CNN. ICCV 2015.
Redmon, J., Divvala, S., Girshick, R., Farhadi, A .: Yalnızca bir kez bakıyorsunuz: Birleşik, gerçek zamanlı
nesne algılama. İçinde: CVPR. (2016)
R-FCN: Bölge Tabanlı Tam Evrişimli Ağlar aracılığıyla Nesne Algılama Jifeng Dai, Yi Li, Kaiming He, ve Jian Sun.Nöral Bilgi İşleme Sistemleri Konferansı (NIPS), 2016.
Liu W, Anguelov D, Erhan D ve diğerleri SSD: Single Shot MultiBox Detector. ArXiv preprint arXiv: 1512.02325, 2015.
R-CNN: Bölge tabanlı Evrişimli Sinir Ağları: https://github.com/rbgirshick/rcnn
SPP-net: https://github.com/ShaoqingRen/SPP_net
Hızlı R-CNN: https://github.com/rbgirshick/fast-rcnn
Daha hızlı R-CNN: https://github.com/rbgirshick/py-faster-rcnn
YOLO:
SSD: https://github.com/weiliu89/caffe/tree/ssd
R-FCN: https://github.com/daijifeng001/r-fcn
Tespit Sonuçları: VOC2012 Yarışması - "comp4" (kendi verileriyle eğitim):