Karmaşık senaryolarda çok hedefli konumlandırma - derin öğrenme algoritmalarının gözden geçirilmesi

Lei Feng.com: Bu makale, Matrix Vision'ın kurucusu Mi Baotong tarafından hazırlanmıştır. Matrix Vision, Ekim 2017'de, fabrika makine görüşü geliştirmeyi iyileştirmeye ve verimliliği yükseltmeye yardımcı olmak için esas olarak SaaS bulut platformu aracılığıyla makine vizyonuna odaklanarak kuruldu. Mi Baotong, Çin Renmin Üniversitesinden bilgisayar bilimi alanında bir doktora, Qihoo 360'ta ürün müdürü ve Ar-Ge mühendisiydi.

1. Arka plan bilgisi

Hedef konumlandırma, bilgisayarla görmenin önemli uygulama senaryolarından biridir. Endüstriyel üretim, havacılık ve seyrüsefer, tarımsal ürünlerin paketlenmesi gibi birçok alanda yaygın olarak kullanılmaktadır. Endüstriyel üretimde, hedef konumlandırma, otomatik kavrama ve otomatik besleme gibi işlemleri doğru bir şekilde tamamlamak için kullanılabilir; havacılık ve navigasyonda, hedef konumlandırma, deniz kurtarma ve diğer görevler için güvenilir konum hizmetleri sağlayabilir; ulaşımda, kullanım hedefleri Konumlandırma, aracın konum bilgilerini doğru bir şekilde elde edebilir.

Yukarıda belirtilen alanlarla ilgili resim bilgisi çok karmaşık bir arka plana sahip olduğundan, belirlenecek hedefle güçlü bir etkileşime sahiptir ve genellikle hedef çakışması, yüksek benzerlik, kısmi kapanma gibi sorunlar vardır, bu nedenle hedefi bulmak oldukça zordur.

İkincisi, geleneksel algoritma

Geleneksel hedef konumlandırma algoritmaları genellikle aşağıdaki üç adıma bölünebilen bir kayan pencere yöntemi kullanır:

(1) Aday çerçeve: Resimdeki bir alanı aday alan olarak işaretlemek için farklı boyutlarda sürgülü pencereler kullanın;

(2) Özellik çıkarma: giriş görüntüsünün aday bölgeleri için görsel özellikleri (yüz algılamada yaygın olarak kullanılan Harr özellikleri, yaya algılamada yaygın olarak kullanılan HOG özellikleri ve ortak hedef algılama vb.) Çıkarın;

(3) Sınıflandırıcı tanıma: Yaygın olarak kullanılan SVM modeli gibi hedefi ve arka planı belirlemek için sınıflandırıcıyı kullanın.

Yukarıda bahsedilen geleneksel algoritmalar, bazı özel uygulamalarda iyi sonuçlar elde etmiştir, ancak yine de birçok eksiklik bulunmaktadır. Birincisi, görüntü özelliklerini manuel olarak çıkarması gerekir ve iyi özellikler elde etmek için çıkarma yöntemlerinin sürekli denemesi ve karşılaştırması gerekir; ikincisi, çıkarılan özellikler doğrudan modelin performansının artıları ve eksileri ile ilgilidir, bu da modeli oldukça hedefli hale getirir ve diğer senaryolara esnek bir şekilde uygulanamaz; ayrıca, Bazı algoritmalar, eşik segmentasyonu ve havza algoritmaları dahil olmak üzere karmaşık kenar algılama süreçlerini de içerir. Karmaşık işleme süreci, endüstriyel üretimdeki geniş uygulamayı karşılayamayan düşük model algılama verimliliğine yol açar.

Üç, derin öğrenme

2012 ImageNet yarışmasında, AlexNet sinir ağı tek seferde meşhur oldu, bu da CNN'i bilgisayarla görme araştırmalarının merkezi haline getirdi ve bir kez daha derin öğrenmede bir araştırma patlaması başlattı.

3.1R-CNN

R-CNN, aşağıdan yukarıya aday bölge çıkarımını evrişimli sinir ağlarının zengin işlevleriyle birleştiren gelişmiş bir görsel nesne algılama sistemidir. R-CNN, bağlam kaydı veya özellik tipi entegrasyonu kullanmadan algılama doğruluğunda önemli bir artış sağlar.

R-CNN algoritmasının özel uygulama yöntemi aşağıdaki gibidir:

Resmi girin ve bölge aday yöntemine (seçici arama yöntemi gibi) dayalı olarak yaklaşık 2000 aday bölge oluşturun;

Her aday alanı yeniden boyutlandırın, boyutu sabitledikten sonra CNN modeline gönderin ve özellik vektörünü alın;

Aday alanda bulunan nesnenin her bir kategoriye ait olma olasılığını belirlemek için özellik vektörünü çok kategorili bir sınıflandırıcıya gönderin;

Hedef konumlandırmanın doğruluğunu artırmak için R-CNN'nin sonunda bir sınırlayıcı kutu regresyon modeli eğitin.

Bu yöntem, özellikleri otomatik olarak ayıklamak için CNN ağını kullanır, özellikleri manuel olarak ayıklamanın karmaşık çalışmasını önler ve iş verimliliğini artırır. Ancak özellik vektörünün hesaplanması için her aday alanın CNN modeline gönderilmesi gerektiğinden, belirli bir süre alacaktır.

3.2 Daha HızlıR-CNN

Daha hızlı R-CNN, hedef tespit alanındaki en klasik algoritmalardan biridir. Esas olarak iki bölümden oluşur: bir aday bölge çerçevesi oluşturmak için kullanılan derin bir tam evrişimli ağ ve bir Hızlı R-CNN algılama modeli.

Faster R-CNN'in ağ yapısı yukarıdaki şekilde gösterilmiş olup, dört bölümden oluştuğu şekilden görülebilmektedir:

Dönüşüm katmanları: tüm giriş resminin özellik haritasını çıkarır;

Bölge Teklif Ağları: Aday bölgeleri önermek için kullanılır (çapaların ön planda mı yoksa arka planda mı olduğunu belirlemek için softmax kullanın ve birden fazla aday bölge çıktı vermek için çapaları düzeltmek için kutu regresyonunu kullanın);

ROI Pooling: Farklı boyutlardaki girişleri sabit uzunlukta çıktılara dönüştürün ve hedef kategoriyi belirlemek için sonraki tam bağlantılı katmana gönderin;

Sınıflandırma: Aday bölgenin kategorisini ve kesin konumunu verin.

RPN katmanı, Daha Hızlı R-CNN ağının en önemli özelliğidir.Sezgisel aday bölgeler yerine RPN kullanımı, eğitimin hızını ve doğruluğunu büyük ölçüde hızlandırır.

3.3 Yolov3

Yukarıda tanıtılan iki algoritma hem İki aşamalıdır hem de Yolo Tek aşamaya aittir.Aday alanı çıkarması gerekmez ve nesnenin kategori olasılığını ve konum koordinat değerini doğrudan üretebilir.Burada, daha popüler olan Yolo v3'ü tanıtacağım. .

Yolo v3'ün özel uygulaması şu üç adıma ayrılabilir:

Çok ölçekli tahmin: Kalan ağ yapısı yardımıyla, üç farklı ölçekte tespit edilebilen daha derin bir ağ seviyesi oluşturulur;

Temel ağ: Darknet'in bir çeşidi olan Darknet-53 kullanılarak, 53 katmanlı bir ağ Imagenet üzerinde eğitilir ve 106 katmanlı tamamen evrişimli bir temel mimari oluşturmak için algılama görevi sırasında 53 katman yeniden istiflenir;

Sınıflandırıcı: Çok etiketli nesneleri sınıflandırmak için birden çok lojistik sınıflandırıcı kullanın.

Çoklu optimizasyonlardan sonra Yolo algoritmasının ürünü olan Yolo v3, mevcut hedef tespiti için en iyi algoritmalardan biridir.Açık bir yapıya ve iyi bir gerçek zamanlı performansa sahiptir.Model yapısının boyutunu değiştirerek hız ve doğruluğu dengeleyebilir. Ek olarak, Yolo v3, küçük boyutlu nesnelerin algılanmasını da geliştirir ve ilk iki sürümün sorunlarını çözer.

3.4 SSD

SSD algoritması (tam adı Single Shot MultiBox Detector), Yolo gibi One-stage'e aittir ve genel kararlılığı Yolo'dan çok daha iyidir.Ağ yapısı aşağıdaki şekilde gösterilmiştir.

SSD'nin temel uygulama süreci Yolo'dan daha karmaşıktır ve şu şekilde özetlenebilir:

Resmi girin, özellikleri çıkarmak için evrişimli sinir ağı CNN'yi kullanın ve bir özellik haritası oluşturun;

6 katmanlı özellik haritalarını çıkarın ve özellik haritasının her noktasında varsayılan bir kutu oluşturun;

Ortaya çıkan tüm varsayılan kutuları toplayın ve NMS'yi bastırmak, son varsayılan kutuyu filtrelemek ve çıktısını almak için maksimum değeri girin.

Ayrıca Tek aşamalı bir yöntem olarak SSD, eğitim hızını iyileştirmek için tam bağlı katmandan sonra Yolo algılama yöntemi yerine CNN doğrudan algılama yöntemini kullanır. Buna ek olarak, SSD özütleri, farklı boyutlardaki nesneleri algılamak için farklı boyutlarda haritalar içerir; Konumlandırma doğruluğunu iyileştirmek ve yüksek hızda çalışırken yüksek hassasiyeti sürdürmede büyük bir atılım elde etmek için farklı ölçeklerdeki ve en-boy oranlarındaki çapalar da kullanılır.

Dört, özet

Bu makale en son literatüre atıfta bulunmakta ve şu anda yaygın olarak kullanılan bazı hedef konumlandırma algoritmalarının çerçevesini ve belirli fikirlerini özetlemektedir. Genel olarak, hedef konum tespiti iki kategoriye ayrılabilir: İki aşamalı (aday alan oluştur + konumu belirle) ve Tek aşamalı (doğrudan nesne konum koordinat değerini oluştur), her ikisi de hızlı, doğru ve sağlam bir şekilde elde edebilir Hedef konumlandırma ve inşaat, havacılık ve uzay mühendisliği ve endüstriyel üretim gibi birçok sektöre esnek bir şekilde uygulanabilir.

Referanslar:

Girshick R, Donahue J, Darrell T ve diğerleri. Doğru nesne algılama ve bölümleme için bölge tabanlı evrişimli ağlar. Model analizi ve makine zekası üzerine IEEE işlemleri, 2015.

Ren S, He K, Girshick R, ve diğerleri.Daha hızlı r-cnn: Bölge teklif ağları ile gerçek zamanlı nesne algılamaya doğru // Sinir bilgi işleme sistemlerindeki gelişmeler. 2015.

Redmon J, Farhadi A. Yolov3: Artımlı bir iyileştirme arXiv ön baskı arXiv: 1804.02767, 2018.

https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b.

Liu W, Anguelov D, Erhan D, ve diğerleri.Ssd: Tek atışlı çoklu kutu dedektörü // Bilgisayarla görü üzerine Avrupa konferansı Springer, Cham, 2016.

Lei Feng Ağı, Lei Feng Ağı

Gao Xinxing: Yeni dijital altyapı altında 5G Araçların İnterneti, yenilikler otonom sürüş ve akıllı ulaşım sağlıyor
önceki
Görsel algı ve akıllı kokpitlerin bir araya gelmesi ile ADI, otonom sürüş fırsatını yakalayabilir mi?
Sonraki
LSTM neden bu kadar etkilidir? Bilmen gereken bu beş sır
Sert kulak misafiri önleme! Mac'e özel özellikler iPad'e geliyor: T2 çipine dayalı, sektörün en katı koruma mekanizması
En son Linux Mint 20 açıklaması: kod adı "Ulyana", 32 bit sistemleri terk ediyor
300 milyon ABD Doları değerindeki "Japonya'da İnternetin Babası" 14 milyon IPv4 adresi sattı
2019'un en sıcak dizisi hangisi? 2020'de hangi dizi popüler olacak? Bir makale sizi sisin içinden geçiriyor
Ocak ayındaki sinema pazarı biraz sert, bu filmler hala bilet almaya değer mi?
"Havadaki Gül" ilk çiçek açar! Yeni yılda kadın paraşütçülerin ilk paraşütle atlama eğitimini izleyin
Kalbini ısıt! Eğitim Bürosu, bölgedeki 20'den fazla ilkokulun öğrenci aradığını belirten özel bir bildirim yayınladı
Dongguan'da 24 işçiye ödenmesi gereken ücretin ardından kaçan adam, polis onu 2 yıl boyunca kovaladı ve 170.000 zor kazanılan parayı geri aldı.
İyi bir not alırsan bir hediye al! Üniversitenin ideolojik ve politik öğretmenleri öğrencilere son hediyeler veriyor
Bu haber birçok hisse senedini günlük limit haline getiriyor, tohum sektörü stokları 2020'ye başlamaktan mutluluk duyuyor
Tianjin Jinnan Mahkemesi'nin küçük yıllık gişe rekorları kıran "Kırık Oyun" geliyor!
To Top