Megvii Araştırma Enstitüsü, Light-Head R-CNN'yi Yorumluyor: Hassasiyet ve Hızı Dengeleme

Konuşmacı: Li Zeming | Araştırmacı, Megvii Araştırma Enstitüsü

Qu Xin Kurgu ve bitirme

Qubit Üretildi | Genel Hesap QbitAI

20 Aralık akşamı, kübit-chiguashe ortak Face ++ kağıt yorumlama serisinin üçüncü sayısı başladı.Bu sayıda, Megvii Araştırma Enstitüsü, yakın zamanda yayınlanan Light-Head R-CNN makalesini yorumladı.

Bu yazıda önerilen Light-Head R-CNN, yüksek zaman verimliliğini korurken COCO veri setindeki mevcut en iyi seviyeyi aşan hafif bir kafa R-CNN ağı oluşturur.

Bu sayının sunucusu, aynı zamanda COCO 2017 Detection yarışma ekibinin ana üyesi ve bir Light-Head R-CNN makalesi olan Megvii Araştırma Enstitüsü'nde araştırmacı olan Li Zeming'dir.

Okuyucuların isteği üzerine, Qubit heyecan verici içeriği şu şekilde düzenler:

Video oynatmayı paylaş

Light-Head R-CNN makalesi esas olarak R-CNN'nin nesne algılamada doğruluğu ve hızı nasıl dengelediğini tartışıyor. Makale, yalnızca doğruluğu artırmakla kalmayan, aynı zamanda temel modelin başlığının karmaşıklığını daha esnek ve kontrol edilebilir hale getiren daha iyi bir iki aşamalı dedektör tasarım yapısı önermektedir.

Resnet101'e dayanarak, mask rcnn ve retinaneti aşan 40.6'lık yeni bir son teknoloji sonuca ulaştık. Aynı zamanda, xception145M gibi küçük bir model gibi daha küçük bir ağ kullanılırsa, ışık kafası 100+ FPS ve 30.7mmap'e ulaşır, bu da ssd ve yolo'dan daha verimlidir.

Önce iki aşamalı tespit yönteminin neden yeterince hızlı olmadığını bulmaya çalışıyoruz. Aslında, hem iki aşamalı hem de tek aşamalı çok yüksek doğruluk elde edebilir. Ancak hız açısından, tek aşamalı ssd ve yolo gibi daha fazla avantaja sahip olma eğilimindedir. Bu yazıda, dikkatli tasarım sayesinde iki aşamalı bir nesne dedektörünün son derece hızlı olabileceğini ve doğruluğunun daha yüksek olabileceğini göstermek istiyoruz.

Kağıt sonuçlarını inceleyin

Son teknoloji algoritma ile karşılaştırıldığında, daha yüksek doğruluk ve verime sahiptir.

Kırmızı üçgen eğri, kağıdın sonucuna karşılık gelir. Yatay eksen, test sırasında nesne dedektörünüzün hızı olan milisaniye cinsinden çıkarım süresidir; dikey eksen COCO MMAP'dir, 0,5 ile 0,95 arasındadır ve bu aralıkta ortalama bir Harita alınır. En soldaki kırmızı üçgen küçük bir model çalıştırmanın sonucudur, ortadaki üçgen ResNet-50 çalıştırmanın sonucudur ve üstteki kırmızı üçgen ResNet-101 çalıştırmanın sonucudur. Doğruluk veya verimlilik açısından, kağıdın etkisinin son teknolojiye ulaştığı görülebilir.

Makalenin başlığıyla ilgili olarak: Bazı netizenler şevkle kel r-cnn takma adını aldılar. Bizim yöntemimiz aslında "Saitama-sensei" kadar güçlü değil, bu yüzden içeriden bullet head denilen bir takma ad verdik. Bu sonuç eğrisine bakarsanız, Light-Head R-CNN'nin hızı ve doğruluğu aslında çok yüksektir. Özetle bu yöntem hızlı, doğru ve acımasız bir yöntem olmalıdır.

light-head r-cnn çok esnek ve çok yönlü, bu da daha sonra yöntemimin yapısına yansıyacak. Ve çerçeve çok birleşiktir Işık kafalı rcnn perspektifinden, daha hızlı ve rfcn yapıları aslında çok benzer.

Unutulmaması gereken bir diğer nokta da titan xp üzerinde test etmemizdir.Eski titan x serisi ile karşılaştırıldığında, sonuçlarımız daha yavaş olacak, ancak yine de mavi ve yeşil eğrilerin üzerinde. Daha sonra test aşamasında 1 kart ve 1 parti kullanın.

İki nesne algılama kategorisi

Mevcut nesne tespiti genellikle iki kategoriye ayrılır: Tek aşamalı nesne algılama; iki aşamalı nesne algılama yöntemi.

İki aşamalı nesne tespiti teklife dayanmaktadır, klasik olan R-CNN bu algılama yöntemleri dizisidir ve tek aşama, çapa tabanlı SSD yöntemi gibi teklife bağlı değildir. Bu nedenle, tek aşamada yapı olarak bir eksik teklif öngörücüsü olacaktır. İki aşama, genellikle teklifin geri çekilmesi ve sınıflandırılması için ek hesaplamalar getirir, sözde ROI.

Yani iki aşamalı detektör, teklifin (R-CNN) regresyonu ve sınıflandırıcısı olan tek aşamadan bir adım daha fazladır. Basitçe hızdan bahsedecek olursanız, iki aşamalı bir aşamadan kesinlikle daha yavaştır.Ancak retinanet ve ssd gibi tek aşamalı dedektörlerin de bazı sorunları vardır, yani her bir çapanın sınıflandırılması gerekir ki bu iki aşamalı rpn'den daha iyidir. , Çapanın tahmin ettiği kanal sayısı artacaktır.

İki aşamada, ilk aşama sadece iki kategoridir ve kanalları çok olmayacaktır. Aynı zamanda, ikinci aşamanın karmaşıklığını, yani ROI tahmininin bir kısmını, bir önceki temel modele göre hesaplama miktarı ihmal edilebilir olana kadar azaltırsak, ikinci aşamanın ağ için olduğunu da söyleyebilir miyiz? Hızın çok fazla etkisi yoktur. Bu şekilde, genel karmaşıklık, tek aşamanın algılama verimliliğinden çok farklı değildir.

Öyleyse bu makale bir soruyu tartışacak, yani ikinci aşamanın nasıl tasarlanacağı? Mevcut durum için ikinci aşama çok ağır.

Vardığımız sonuç şudur: Genel olarak, iki aşamalı algılama yönteminin doğruluk açısından daha fazla avantajı olacaktır, ancak daha kalın bir ikinci aşama sunduğu için hız üzerinde biraz etkisi olacaktır. Ancak, tek aşamalı nesne algılamaya kıyasla, iki aşamalı algılama doğruluğu iyileştirirse, hızdaki artış karşılığında daha fazla doğruluğu feda edebiliriz.

Neden öyle diyorsun? Çünkü belirli hız sabit bir doğruluk olduğunda, aynı doğruluk elde edilebiliyorsa ve hız diğer yöntemden daha hızlıysa bu daha makul bir durumdur. Makalenin ikinci yarısında, küçük modelin performansı iyileştirmek için belirli bir doğruluk derecesinden ödün vermesi nedeniyle önceki temel modelin yerine küçük bir modelin kullanılacağından bahsediliyor.

Yani, aynı doğrulukta, hız tek aşamaya uyuyorsa, o zaman iki aşamanın hala avantajları vardır.

Yani ikinci aşamanın hesaplama miktarı azaltılabiliyorsa ve maliyet performansı tek aşamaya göre yeterince yüksekse ikinci aşama düşünülebilir.

Hız nasıl artırılır

Fast ve R-CNN'yi gözden geçirelim Aslında, iki yapı çok da farklı değil, biri hesaplama miktarını ROI işleminin arkasına koymak, diğeri ise hesaplama miktarını ROI işleminden önce koymak. Yani, baş kısmında, aslında, her ikisi de nispeten büyük hesaplamalar yaptı.

Öncelikle Faster R-CNN ve R-FCN'nin neden küçük modellerde yeterince hızlı olmadığının nedenlerini inceleyelim. Daha hızlı R-CNN, teklif tahminleri yapmak için iki ağır fc (veya resnet'in beşinci aşaması) kullanırken, R-FCN (sınıf numarası x7x7) kanalın büyük bir skor haritasını oluşturur. Temel model parçası hariç tutulduğunda, her iki yöntem de nispeten büyük miktarda hesaplama sağlar.

Önceki gözlemlere dayanarak daha esnek ve genel bir çerçeve tasarladık. En önemli nokta, havuzlama özellik haritasını son derece ince hale getirmektir. Neden inceltilmeli? Baş kısım nedeniyle karmaşıklık iki faktör tarafından belirlenir: havuzun özellik haritasının kalınlığı ve havuzdaki özellikleri sınıflandıran ve gerileten kısım.Bu kısım daha fazla mantığa sahipse, yine de genel ağ verimliliğine etkisi olacaktır. Etkilendi.

Sonra bir soru içerir: Havuzlama özellik haritası çok ince hale gelebilir mi?

Bazı doğrulama deneyleri yaptık. En erken, orijinal R-FCN üzerinde bir deney yaptım. Orijinali 3900'den fazla kanalı 490 kanala basmaya eşdeğer olan 10 × P × P'ye basmaya çalıştık. Sonra neredeyse hiç eksik nokta olmadığını buldum. VOC üzerinde bir dizi deney yaptık ve 10 × P × P'ye basıldığında hiç düşmeyecek. COCO'da, yalnızca onda bir oranında düşecek ve ardından biraz daha fazla basacak, 5 × P × P'ye basıldığında yalnızca birkaç onda bir düşecektir.

Bu yer, özellik haritası incelendikten sonra, Ortalama oylamanın nihai sonucunu doğrudan almanın bir yolu olmadığını ekler. Bununla birlikte, nihai sonuç, arka tarafa kategori 81'e kadar tamamen bağlantılı bir katman eklenerek elde edilebilir.

Tablodaki B1, orijinal R-FC temel çizgisi 32.1'dir ve daha sonra, sıfırdan yalnızca birkaç nokta daha düşük olan 31.4 olan 10 × P × P özellik haritasını doğrudan ekleyin.

B2, FPN kağıdındaki ayarı kullanan ve R-CNN'deki gerileme kaybı iki katına çıkan, yeniden üretmenin RFCN temelidir. B2, 10 × P × P'ye düşürülse bile, MMAP hala birkaç onda bir oranında kapalıdır. Aslında, 5 × P × P kanala indirgenirse, sonuç, onu 10 × P × P'ye kıyasla 0,2 kayıptan daha az olan 10 × P × P'ye düşürmekten çok da farklı değildir.

Başlangıçta, daha hızlı R-CNN'e dayalı özellik haritasını inceltmek için bir dizi deney yapmak istedim. Ancak bu deney doğrudan karşılaştırılamaz. Bu neden? İkinci aşamanın tam bağlantılı iki katmanının hesaplanması oldukça büyük olduğu için, havuzlamanın özellik haritası doğrudan indirilemez; azaltılacak olsa bile ikinci aşamanın hesaplanması kesilmelidir. Başlangıçta, havuzun özelliği nispeten incedir. Daha kalın bir ikinci aşama uygulanırsa, ağ çok ani hale gelecektir. Daha sonra daha hızlı karşılaştırma, daha sonra ucuz R-CNN eklenmesinin sonucundan elde edilebilir.

Başın ikinci bölümünde, yani ikinci aşamanın tahmin bölümünde, yaklaşık 2048 kanal olan ek bir tam bağlantı katmanı ekliyoruz. Bu ikisinin birleşimi, makaledeki sözde Işık Başı kısmıdır.Aslında, şu anda, Baş daha esnek ve kontrol edilebilir hale geldi. Havuzlamanın özellik haritası çok ince olduğundan, daha büyük bir evrişimli katman kullanılabilir ve bu da biraz performans artışı sağlayacaktır.

Bu tablo, şu anda piyasada bulunan temelleri karşılaştırmaktadır.Sonucumuz, tek ölçekli eğitimde 39,5 ve çok ölçekli tren için 40,8'dir ve bu, retinanet ve maske rcnn gibi önceki tüm son teknolojiyi aşmaktadır. Yaklaşık 41,5 olan özellik piramidine de katılmaya çalıştık.

Bu sonucu alma süreci hakkında konuşun. Önceki taban çizgisi 37,7'ye ulaştı ve ardından bir hizalama yaklaşık 1,3 puan artabileceğinden havuzlama; eğitim sırasında 0,3 NMS kullanıyoruz, 0,5'e değiştirildikten sonra yaklaşık 0,5 artabilir; daha sonra çok ölçekli tren eklemek de Bir puan yukarı. Bu 40.8'in nihai sonucudur.

Tasarımımızın asıl amacı, ikinci aşamayı daha esnek ve kontrol edilebilir hale getirmektir. ve bu yüzden Başka bir yöntem deneyin: önceki temel modeli daha küçük bir modelle değiştirin. Sonra xception'a benzer 145 megabaytlık bir ağ tasarladı.

Temelde büyük model ile küçük model arasında büyük bir fark yoktur.Büyük fark beşinci aşamadadır: büyük model atrous algoritmasını kullanır ve küçük model işe yaramaz. Küçük model, RPN evrişimlerinin sayısını yalnızca 256'ya düşürdü. Küçük modelin sonuçları aşağıdaki tabloda gösterilmektedir: Light-head r-cnn'nin ssd ve yolo dahil tüm hız modellerini verimlilikte geride bıraktığı görülmektedir.

Aslında, Light-Head R-CNN kesmeye devam edebilir, bu yüzden bazı yeni deneyler yaptık, havuzlamanın özellik haritası kanalını 5 × P × P olarak kestik ve sonuç hiçbir değişiklik olmadı. O zaman çekirdeğin 15 kadar büyük olmasına gerek yoktur ve 7'ye düşürülürse sonuç düşmeyecektir. Özellik haritasının büyük çekirdeğini atıp doğrudan 1 × 1 kullansanız bile, doğruluk çok fazla düşmeyecektir, bu da bir noktadan daha azdır.

Bu nedenle, Light-Head kullanıyorsanız, ikinci aşamasının karmaşıklığı (temel modelin baş kısmı hariç) daha kontrol edilebilir ve daha esnek olacaktır. Bu, büyük model ile en son çalıştırdığımız küçük model arasındaki karşılaştırmanın örnek bir görüntüsüdür.

Son olarak, büyük model ile küçük model arasındaki karşılaştırmanın bir videosu gösterilir.

xception145 res101

Sert ve geniş çaplı askere alan biri:

CV'nin zirvesine ulaşmak için Megvii Teknolojisine katılmak isteyen öğrenciler, algoritma stajyerlerinin uzun vadeli işe alımı için özgeçmişlerini Yu Gang: yugang@megvii.com adresine gönderebilirler. Mükemmel stajyerlik yapanlar mülakat aşamasını atlayıp megvii araştırma enstitüsüne katılma fırsatına sahiptir.

QA

Hız açısından, Head'i daha fazla geliştirmek için basitleştirmek mi yoksa iyileştirmek için temel modeli basitleştirmek mi?

Resnet 101 gibi büyük bir ağınız varsa, arka ucu çok küçük bir boyuta indirseniz bile, ağ hızınızı çok fazla artırmayacaktır, çünkü temel model kısmında çok fazla hesaplama vardır. Böyle bir önermeye göre, temel modelinizi 145M gibi çok verimli bir Xception ağı yapmak gibi çok küçük bir boyuta indirmeniz gerekir. Küçük bir modelse, Başı basitleştirmeniz gerekir. İki yöntemi farklı durumlara göre karşılaştırmak gerekir.

Bu açık kaynak mı olacak?

Kesinlikle açık kaynak olacaktır Deney sonuçlarımızda, tüm büyük model sonuçları ortaya çıktı, ancak yine de hata ayıklanması gereken küçük bir model ayrıntısı var çünkü TensorFlow ve Megvii'nin kendi platformunda bazı farklılıklar var.

Light-Head neden iki aşamadan daha iyidir?

Light-Head'in sonucu, R-FCN ve Faster R-CNN gibi iki aşamalı sonuçlardan daha yüksektir. Bu diğerlerinden daha yükseğe nasıl ulaşır? R-FCN ile karşılaştırıldığında, aslında ikinci aşamaya sadece bir tam bağlantılı katmanı olan ucuz bir alt ağ ekledik.Bu alt ağ 1,8 puan artırabilir. Ön tarafa daha büyük bir çekirdek de ekledik çünkü havuzlama özellik haritamız nispeten ince, bu nedenle daha büyük bir çekirdek boyutu yükleyebiliriz ve bu sonuçlarınıza yaklaşık 0,6 puan ekleyecektir (aynı şey daha hızlı Yukarı noktası).

YG sayısı nedir?

Test için bin yatırım getirisi kullanıyoruz. Light-Head R-CNN'nin ROI sayısına duyarlılığı R-FCN ve Faster R-CNN arasındadır. Çünkü R-FCN, ikinci aşamada hesaplaması olmayan bir çerçeve olduğundan ve daha hızlı, ikinci aşamada çok fazla hesaplamaya sahiptir. Ve ikinci aşamamız çok hafif, ancak hesapsız değil.

ROI havuzlaması kullanılıyorsa, RFCN ağı tarafından belirtilen konum duyarlılığının asıl amacı ile çelişir mi?

ROI havuzunu kullanırsanız ve ardından nihai sonucu almak için doğrudan oy kullanırsanız, konum hassasiyeti yoktur, ancak Light-Head'de global konum bilgilerini işlemek için hafif bir fc vardır.

İlgili öğrenme kaynakları

Yukarıdakiler, Megvii Araştırma Enstitüsü'nden Li Zeming tarafından paylaşılan tüm içeriktir. Qubit Resmi Hesabı (QbitAI) Arayüz yanıtı "171226" Mevcut Tam sürüm PPT Hem de Video oynatma bağlantısı .

Nesne algılama incelemesinin ilk aşaması: Megvii Araştırma Enstitüsü, kağıdı kazanmak için COCO2017 nesne algılama algoritmasını yorumluyor

İnsan duruş tahmini incelemesinin ikinci aşaması: Megvii Araştırma Enstitüsü ayrıntılı COCO2017 insan duruş tahmini şampiyon kağıdı

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

V8 yerel zorbaları tarafından kralın ihtişamıyla zorbalığa uğradı! Beklenmedik bir şekilde bu oyunda güven bulmak
önceki
Spor Bürosu tarafından ilan edilen kabul önerisi: He Chaoshi Ke, Tongji'de okudu, Wang Shangyuan, North Sports Üniversitesi'nde, birçok mezun
Sonraki
"Asya Ejderhası" Guangzhou Otomobil Fuarı doğru gösteriyor, Toyota TNGA amiral gemisi suyla çevrili
Benfica, Dortmund'u evinde 1-0, Yunan forvet oyuncusunu 9 maçta ve 10 gol attı.
Gerçek hardcore oyuncular! 83 yaşındaki adam PS4 el yazısı stratejisi oynuyor ve aynı zamanda netizenlerle entrika çevirmek için Weibo'ya gidiyor
Kashuai: Daegu'nun büyük bir dış yardımı var Daegu koçu: Biz bütüne güveniyoruz! Ve puanlama silahını ortaya çıkar
Guoan Luneng, Türkiye Süper Ligi'ndeki tüm golleri attı ve takımın gol kralı oldu.
17173 Toplama oyun endüstrisinde lider CMO, Asya'nın en etkili etkinliği "Altın Kupon" da göründü!
Yerfan gol attı! Simgesel takla, Shaanxi ekibinin Heilongjiang FC ile beraberlik kazanmasına yardımcı olmak için Xi'an'a taşındı
Nvidianın yeni yasağı: Derin öğrenmeyi çalıştırmak için GeForce grafik kartlarını kullanamazsınız (madencilik mümkündür)
Yenilikçi olmaya kararlı Jinxuan otomobil sahipleri Yige'i böyle izliyor
Sevgililer Günü Saint-Germain'in iki "doğum günü yıldızı" Şampiyonlar Ligi'nde oynuyor ve Barcelona'yı yendi
Wechat emojileri ezildi mi? Netizen: Ah, Tencent bir korsanlık davasında hiç kimseden korkmadı!
Tianhai'nin en büyük eksikliği kim? Milli futbol antrenman takımının seviyesi görülebilir! Wang Yongpo Yang Xu yüzünü gözyaşlarıyla yıkadı
To Top