CVPR Tsinghua Üniversitesi araştırması, verimli görsel hedef tespit çerçevesi RON

1 Xinzhiyuan derlemesi

Devlet Anahtar Laboratuvarı Akıllı Teknoloji ve Sistemler, Bilgisayar Bilimleri Bölümü, Tsinghua Üniversitesi, Tsinghua Ulusal Bilgi Laboratuvarı, Tsinghua Üniversitesi Bilgisayar Bilimi ve Teknolojisi, Intel Çin Araştırma Enstitüsü ve Tsinghua Üniversitesi Elektronik Mühendisliği'nden araştırmacıları içeren bir araştırma projesi Test araştırması CVPR 2017 tarafından kabul edildi. Makalenin başlığı RON: Nesne Algılama için Önceki Nesnelik ile Ters Bağlantıdır. Araştırmacılar arasında Kong Tao, Sun Fuchun, Anbang Yao, Liu Huaping, Ming Lu ve Chen Yurong yer alıyor.

Derin ağa dayalı hedef nesne tespiti iki yönteme ayrılabilir: bölge tabanlı ve bölgeden bağımsız

Esas olarak derin ağlardan kaynaklanan hedef nesne algılama alanında önemli ilerleme kaydedilmektedir. Mevcut en iyi derin ağ tabanlı hedef tespit çerçevesi iki ana yöntem türüne ayrılabilir: bölge tabanlı ve bölgeden bağımsız yöntemler.

Bölge tabanlı yöntem, nesne algılama görevini iki alt soruna ayırır: İlk aşamada, özel bir bölge önerisi oluşturma ağı (bölge önerisi oluşturma ağı), yüksek kaliteli aday çerçeveleri oluşturabilen derin bir evrişimli sinir ağına (CNN) aşılanır. Daha sonra ikinci aşamada bu aday kutuları sınıflandırmak ve iyileştirmek için bölge bazında bir alt ağ tasarlanır. Çok derin CNN kullanan Hızlı R-CNN iş akışı, son zamanlarda ana akım nesne algılama karşılaştırmalı değerlendirmelerinde yüksek doğruluk göstermiştir.

Bölge önerisi aşaması çoğu arka plan örneğini reddedebilir, bu nedenle nesne algılama için arama alanı büyük ölçüde azalır. Çok aşamalı eğitim süreci genellikle bölge adayı oluşturma ve tespit sonrası ortak optimizasyonu için geliştirilmiştir. Fast R-CNN'de, bölgesel alt ağlar, algılama puanları vermek için binlerce bölge önerisini tekrar tekrar değerlendirir. Hızlı R-CNN iş akışında, Daha Hızlı R-CNN, neredeyse sıfır maliyetle bir bölge önerisi elde etmek için tam görüntü evrişim özelliklerini algılama ağı ile paylaşır. Son zamanlarda, R-FCN, hassas konumların bir skor haritası ekleyerek, Daha Hızlı R-CNN'nin YG başına paylaşılmayan hesaplamasını paylaşılabilir hale getirmeye çalıştı. Bununla birlikte, R-FCN hala bölgesel aday ağı tarafından oluşturulan bölge teklifine ihtiyaç duyar. Algılama doğruluğunu sağlamak için, tüm yöntemler görüntünün boyutunu yeterince büyük bir boyuta ayarlar. Eğitim ve çıkarım süresi sırasında, derin ağa görüntüleri beslerken kaynak ve zaman tüketimi olacaktır. Örneğin, tahmin etmek için Daha Hızlı R-CNN kullanmak (VGG-16 ağı için yaklaşık 5 GB GPU belleği kullanmak) genellikle görüntü başına 0,2 saniye sürer.

Diğer bir çözüm ise bölgeden bağımsız bir yaklaşımdır. Bu yöntemler, nesne algılamayı, görüntü piksellerinden sınırlayıcı kutu koordinatlarına kadar tam bir evrişimli ağ (FCN) kullanan tek atış sorunu olarak ele alır. Bu dedektörlerin temel avantajı yüksek verimlilikleridir. YOLO'dan başlayarak SSD, nesne algılama sorunlarıyla başa çıkmak için çok katmanlı derin CNN kullanmaya çalıştı. Düşük çözünürlüklü girişi kullanarak, SSD dedektörü en gelişmiş algılama sonuçlarını elde edebilir. Bununla birlikte, bu yöntemlerin algılama doğruluğunun iyileştirilmesi için hala yer vardır: (a) Bir bölge önerisi olmadan, detektör, algılama modülündeki tüm negatif aday çerçeveleri bastırmalıdır. Bu, algılama modülünü eğitmenin zorluğunu artıracaktır; (b) YOLO, farklı katmanların algılama yeteneklerini derinlemesine araştırmadan nesneleri tespit etmek için üst CNN katmanını kullanır. SSD, önceki katmanın sonuçlarını ekleyerek algılama performansını iyileştirmeye çalışır. Bununla birlikte SSD, temel olarak orta katmandaki sınırlı bilgi nedeniyle hala küçük örnek sorunundan muzdariptir. Bu iki ana darboğaz, yöntemin algılama doğruluğunu etkiler.

İki yöntemin avantajlarını birleştirip dezavantajlarını ortadan kaldırmak mümkün müdür?

Bu iki çözümün başarısı aynı zamanda önemli bir soruyu da gündeme getiriyor: İki yöntemin avantajlarını ustaca birleştiren ve temel dezavantajlarını ortadan kaldıran iyi bir çerçeve geliştirmek mümkün müdür? Araştırmacılar, alan tabanlı ve alan tabanlı olmayan yöntemler arasındaki boşluğu doldurarak bu soruyu yanıtladı. Bu hedefe ulaşmak için, araştırmacılar iki temel konuya odaklanır: (a) Çok ölçekli nesne konumlandırma. Görüntünün herhangi bir yerinde çeşitli ölçeklerdeki nesneler görünebilir, bu nedenle farklı konumlara / ölçeklere / azimutlara sahip binlerce bölge dikkate alınmalıdır. Önceki araştırmalar, çok ölçekli temsilin çeşitli ölçeklerde nesne algılamayı önemli ölçüde iyileştireceğini göstermiştir. Bununla birlikte, bu yöntemler her zaman ağın bir katmanındaki çeşitli ölçeklerdeki nesneleri algılar. Araştırmacı tarafından önerilen ters bağlantı kullanılarak nesne, karşılık gelen ağ ölçeğinde tespit edilecek ve bu da optimize edilmesi daha kolay olacaktır; (b) Negatif uzay madenciliği. Denekler ve denek olmayan numuneler arasındaki oran ciddi şekilde dengesizdir. Bu nedenle, nesne algılayıcısının etkili bir negatif madencilik stratejisine sahip olması gerekir. Araştırmacılar, nesne arama alanını azaltmak için, evrişim özellik haritasından önce bir nesnelik oluşturdular ve eğitim aşamasında bunu dedektörlerle birlikte optimize ettiler.

Bu nedenle araştırmacılar, alan tabanlı ve alan tabanlı olmayan yöntemlerin avantajlarını birbirine bağlayan RON (Nesnelikten Önceki Ağlarla Ters Bağlantı) nesne algılama çerçevesini önerdiler.

Yukarıdaki resim, RON nesne tespitine genel bir bakıştır. Bir girdi görüntüsü verildiğinde, ağ önce omurga ağının özelliklerini hesaplar. Daha sonra, (a) ters bağlantı ekleyin; (b) önce bir objektiflik oluşturun; (c) karşılık gelen CNN ölçeğinde ve konumunda nesneleri tespit edin.

Yukarıdaki görüntü, önceden belirli bir görüntüden oluşturulmuş bir nesnedir. Bu örnekte, kanepe (a) ve (b) ile, kahverengi köpek (c) ile temsil edilir ve dalmaçyalı (d) ile temsil edilir. Önceden nesnelliğin rehberliğinde, ağ algılama sonuçlarını oluşturdu.

Daha Nesnellik Görüntülerden oluşturulan önceki grafikler

Özet

Etkili ve verimli bir genel nesne algılama çerçevesi olan RON'u öneriyoruz. Bizim fikrimiz, iki yöntemin avantajlarını akıllıca birleştirmektir: bölge tabanlı (örneğin, Daha Hızlı R-CNN) ve bölge içermeyen (örneğin, SSD). Tamamen evrişimli mimari altında, RON esas olarak iki temel konuya odaklanır: (a) çok ölçekli nesne lokalizasyonu ve (b) negatif örnek madenciliği. (A) 'yı çözmek için, ağın çok katmanlı bir CNN'deki nesneleri algılamasını sağlamak için bir ters bağlantı tasarladık. (B) ile başa çıkmak için, nesneliğe öncelik veriyoruz, bu da nesne arama alanını önemli ölçüde azaltır. Ters bağlantı, öncelik ve nesne algılamasını çoklu görev kaybı işlevi aracılığıyla birlikte optimize ediyoruz, böylece RON çeşitli özellik haritalarının tüm konumlarının son algılama sonuçlarını doğrudan tahmin edebilir.

PASCAL VOC 2007, PASCAL VOC 2012 ve MS COCO kıyaslamalarındaki çok sayıda deney, RON'un mükemmel performansını kanıtladı. Özellikle, VGG-16 ve düşük çözünürlüklü 384 × 384 giriş kullanarak ağ, PASCAL VOC 2007'de% 81.3 mAP ve PASCAL VOC 2012 veri setinde% 80.7 mAP elde etti. Veri seti ne kadar büyük ve zorluk ne kadar büyükse, avantajlar o kadar barizdir. MS COCO veri setindeki sonuçlar bu noktayı kanıtlamaktadır. Test aşaması 1.5G GPU belleği kullanır ve ağ hızı 15 FPS'dir, bu da Daha Hızlı R-CNN sayacından 3 kat daha hızlıdır.

Kağıt adresi: https://arxiv.org/abs/1707.01691

Xinzhiyuan'ın işe alım bilgilerini görüntülemek için orijinal metni okumak için tıklayın

Soru-Cevap Bekar köpekler için özel SUV'lar nelerdir? İthal modeller ile yerli modeller arasındaki fark nedir?
önceki
Çin'in RMB cinsinden ithalat ve ihracatı arttı ve Vietnam ve Hindistan beklenmedik bir şekilde RMB'ye yaklaşımlarını hızlandırdı
Sonraki
2019, Çin çabalıyor!
2018'de Çin'deki en mutlu küçük ilçeler mi? Memleketin orada mı
Endişeli! Cristiano Ronaldo'nun sağ bacak kası iki hafta dinlenebilir, Juventus onsuz Şampiyonlar Ligi'ni kazanamaz!
5 yaşındaki çocuk, sırf yaptığı için komadaydı! Birçok ebeveyn hala kafayı takmış durumda ...
Sun Jianın ekibi, Google MobileNetten daha iyi olan mobil taraf sinir ağı ShuffleNeti önerdi
Zimbabwe'nin parası "atık kağıt" haline geldikten sonra, işler yeni bir ilerleme kaydetti. Kritik bir anda, aniden RMB'yi düşündüm
Yengeçli bambu deniz kaplıcası! 0.5 saat mesafedeki bu mütevazı kasaba, kıştan önce harika bir tatil seçimidir
Küçük SUV pazarında yeni bir yıldız! Volkswagen ile aynı hatta üretilen Refine S4 ne kadar güçlü?
Bilgiyi etkin bir şekilde nasıl organize edebilirim?
Toyota Asia Dragon medya iletişimi tadımı, size öne çıkan yeni özelliklerin neler olduğunu anlatacak!
Güney Afrika ve Hawaii'ye gitmeye gerek yok, adalarda doğrudan 2 saat uçan balina grupları var, yüksek oynamak için vize rahatlamasından yararlanıyor
Kamu güvenliği yetkilileri bu yılın buna değer olduğunu açıkladı
To Top