Lei Feng.com AI Teknolojisi Yorumu: Bu yıl ICCV 2017 konferansında, COCO + Places 2017 Challenge ödül listesini açıkladı. COCO Challenge ve Places Challenge bölümlerindeki yedi yarışmada Megvii Technology (Face ++), COCO Detection / Segmentation Challenge, COCO Keypoint Challenge ve Places Instance Segmentation'ı kazandı. Split) Üç projenin şampiyonu.
İlginç bir şekilde, Yerler Yarışmasında beş puan gönderimine izin verilmektedir. Varlık segmentasyonu projesinde ilk kez gönderilen puan, diğer takımlar arasında en iyi puan olan 0.24150'nin çok gerisinde olan 0.27717 Ortalama AP'dir ve üçüncü kez. Teklif, kesin olarak birinci sırada oturarak 0,29772'ye yükselmeye devam etti.
Yakın zamanda Megvii Technology, COCO + Places 2017 Challenge'daki kazanan modelleri de dahil olmak üzere arXiv hakkında arka arkaya üç makale yayınladı. Leifeng.com AI Science and Technology Review, bu üç makaleyi aşağıdaki gibi kısaca tanıtıyor: İlgilenen okuyucular, dikkatli çalışma için orijinal belgeleri kontrol edebilirler.
Hafif kafa R-CNN: iki aşamalı nesne dedektörünün haysiyetini korur
Kağıt adresi: https://arxiv.org/abs/1711.07264
Makale Giriş: Bu yazıda, yazarlar ilk önce tipik iki aşamalı nesne algılama yöntemlerinin YOLO ve SSD gibi tek aşamalı algılama yöntemlerinden daha hızlı çalışmamasının nedenini araştırdılar. Daha hızlı R-CNN ve R-FCN'nin her ikisinin de aday bölgeler oluşturulmadan önce veya sonra yüksek yoğunluklu hesaplamalar yaptığını buldular. Daha hızlı R-CNN, aday alan belirlendikten sonra tam olarak bağlı iki katmana sahiptir ve R-FCN büyük bir puan tablosu oluşturacaktır. Bu kadar yüksek hesaplama ek yükünün tasarımı nedeniyle, bu ağlar daha yavaş çalışır. Yazarlar kıyaslama modelinin boyutunu önemli ölçüde azaltmaya çalışsalar bile, hesaplama maliyeti aynı miktarda azaltılamaz.
Makalede, yazarlar, mevcut iki aşamalı yüksek hesaplama ek yükü yönteminin eksikliklerini iyileştirmeyi amaçlayan yeni bir iki aşamalı detektör olan Light-Head R-CNN önerdiler. Tasarımlarında, küçük ölçekli özellik haritaları ve küçük ölçekli R-CNN alt ağları (havuzlama katmanı ve tek tam bağlı katman) kullanılarak, ağın başı mümkün olduğunca hafif hale getirilmiştir. Yazarlar, yüksek zaman verimliliğini korurken COCO veri setindeki mevcut en iyi seviyeyi aşan ResNet-101'e dayalı hafif bir kafa R-CNN ağı inşa ettiler. Daha da önemlisi, omurga yapısı daha küçük bir ağla (Xception gibi) değiştirildiği sürece, yazarların Light-Head R-CNN, COCO veri setinde 102FPS'de 30.7mmAP sonuçları alabilir. Hem doğruluk hem de doğruluk, YOLO ve SSD gibi hızlı tek aşamalı algılama yöntemlerinden önemli ölçüde daha iyidir. İlgili kod kamuya açıklanacaktır.
Çok kişili poz tahmini için basamaklı piramit ağı CPN'si
COCO Keypoint Challenge birinci sırada
Kağıt adresi: https://arxiv.org/abs/1711.07319
Makale Giriş: Çok kişili poz tahmini konusundaki araştırma sonuçları, özellikle evrişimli sinir ağlarının hızlı gelişimi sayesinde son zamanlarda büyük ölçüde iyileştirildi. Bununla birlikte, örtüşen kilit noktalar, görünmez kilit noktalar ve ideal olarak çözülemeyen karmaşık arka plan durumları gibi algılama zorluklarına neden olabilecek birçok durum vardır. Bu yazıda yazarlar, bu zor durumlarda anahtar nokta tanımlama problemini çözmeyi amaçlayan Kademeli Piramit Ağı, Kademeli Piramit Ağı, CPN adlı yeni bir ağ yapısı önermektedir. Özellikle, algoritmaları iki aşamadan oluşur, GlobalNet ve RefineNet. GlobalNet, gözler ve eller gibi tüm "basit" kilit noktaları bulabilen bir özellik piramidi ağıdır; örtüşen veya görünmeyen anahtar noktalar doğru bir şekilde tanımlanamayabilir. Daha sonra RefineNet özellikle "zor" kilit noktaları ele almak için kullanılır.GlobalNet'teki tüm seviyelerin özellik temsilini ve zor bir anahtar noktanın madencilik kaybını entegre eder. Genel olarak, çok kişili poz tahmini problemini çözmek için, aşamalı olarak iyileştirilmiş bir boru hattı benimsemişlerdir.Önce, dedektör tarafından bir dizi sınırlayıcı kutu oluşturulmuş ve şekildeki insan vücudu çerçevelenmiş ve ardından her kişi için kademeli piramit ağı CPN kullanılmıştır. Kilit noktaları hacim sınırlama kutusuna yerleştirin.
Önerilen algoritmaya göre, yazarlar COCO anahtar noktası tespit yarışmasında en iyi sonuçlarını yenilediler, COCO test-geliştirme veri setinde ortalama 73.0 doğruluk ve COCO test-meydan okuma veri setinde ortalama 72.1 doğruluk elde ettiler. . Bu sonuç, 60.5 COCO 2016 anahtar nokta tespit yarışmasının en iyi sonucundan% 19 daha yüksektir.
Mini toplu büyük nesne algılama modeli MegDet
COCO Algılama / Segmentasyon Mücadelesinde birincilik
Kağıt adresi: https://arxiv.org/abs/1711.07240
Makaleye giriş: CNN tabanlı nesne algılama araştırması, R-CNN'den Fast / Faster R-CNN'ye, en son Mask R-CNN'ye ve ardından RetinaNet'e kadar sürekli olarak ilerlemektedir. Ana iyileştirme noktaları yeni ağ mimarisi ve yenidir. Paradigma veya yeni bir kayıp fonksiyonu tasarımı. Bununla birlikte, bu eğitimdeki anahtar faktör olan mini parti boyutu kapsamlı bir şekilde çalışılmamıştır. Bu makalede, yazarlar, önceki mini parti boyutlu eğitim ağından (örneğin, 16'dan 256'ya kadar) çok daha büyük bir alanı kullanabilen büyük bir mini-parti nesne algılama modeli MegDet önerdi, böylece verimli bir şekilde de kullanılabilir. Çoklu-GPU ortak eğitimi (kağıt deneyinde 128'e kadar GPU kullanılır), bu da eğitim süresini büyük ölçüde azaltır. Teknik düzeyde, yazarlar ayrıca bir öğrenme oranı seçme stratejisi ve çapraz GPU toplu normalleştirme yöntemi önerdiler. İkisi birlikte, büyük mini yığın nesne algılayıcısının eğitim süresini büyük ölçüde azaltmak için kullanılabilir (örneğin, 33 saatten Yalnızca 4 saat), ancak daha yüksek bir doğruluk oranı elde edilir. Yazıda bahsedilen MegDet, COCO2017 yarışmasına sunulan% 52,5 mmAP puanının arkasındaki omurga yapısıdır ve bu puan aynı zamanda denetim görevinde birinciliği de kazanmıştır.
"460 milyon ABD doları finansman", "Akademisyen Yao Qizhi katıldı", "Çeşitli cep telefonlarına uygulanan yüz tanıma çözümü", COCO rekabetiyle ilgili teknik başarılar ve rekabet sonuçlarıyla birlikte, sadece birkaç yeni haber meydan okumayı açıklayabilir Teknoloji çok geniş ve kararlı hale geldi. Leifeng.com AI Technology Review ayrıca Megvii Technology'nin daha fazla araştırma sonucu elde etmesini ve dünya çapında hem ticari hem de akademik hasatlar elde etmesini diliyor.