Facebook'un en son makalesi: Maske R-CNN örnek bölümleme genel çerçevesi, algılama, bölümleme ve özellik noktası konumlandırma tek seferde yapılabilir (birden çok görüntü)

Facebook için, kullanıcı deneyimini geliştirmek istiyorsanız, resim tanıma konusunda çok çalışmalısınız.

Lei Feng.com daha önce "Facebook AML Lab Leader: N Ways to Implement AI Technology" (Bölüm 1 ve Bölüm 2) 'da görüntü tanımada iyi bir iş çıkarmanın Facebook kullanıcılarının istedikleri resimleri daha doğru bir şekilde aramalarına olanak sağlamayacağından bahsettiğini bildirdi. , Körler için resimde yer alan bilgileri okuyun ve ayrıca kullanıcıların platformda ürün satmasına, sosyal önerilerde bulunmasına vb. Yardımcı olun.

Son zamanlarda, FAIR departmanındaki araştırmacılar bu alanda yeni bir atılım yaptılar - geleneksel yöntemlerden daha basit ve daha esnek olan bir nesne örnek segmentasyon çerçevesi olan Mask R-CNN önerdiler. Araştırmacılar "Mask R-CNN" deneyinin sonuçlarını arXiv'de yayınladılar ve daha sonra kaynakla ilgili kodu açacaklarını söylediler.

Aşağıda, makalenin içeriğine dayalı olarak AI Technology Review'un kısmi bir derlemesi verilmiştir.

Öz

Nesne tanıma ve görüntü anlamsal bölümleme teknolojisi kısa sürede hızla gelişebilir Hızlı / Daha Hızlı RCNN ve Tam Evrişimli Ağ (FCN) çerçevesi gibi teknolojiler vazgeçilmezdir. Bu yöntemler konsept olarak sezgiseldir, eğitim ve çıkarımda hızlıdır ve iyi esneklik ve sağlamlığa sahiptir.

Genel olarak konuşursak, hedef bölümlemenin zorluğu, görüntüdeki tüm nesnelerin yönünü doğru bir şekilde tanıması ve farklı nesneleri doğru bir şekilde ayırt etmesi gerektiğidir. Bu nedenle, ilgili iki görev vardır:

  • Nesneleri tanımlamak için nesne tanıma teknolojisini kullanın ve nesnelerin sınırlarını belirtmek için sınırlayıcı kutuları kullanın;

  • Anlamsal bölümleme pikselleri sınıflandırmak için kullanılır ancak farklı nesne örnekleri arasında ayrım yapmaz.

Bu iki görevi aynı anda başarmak için yöntemin oldukça karmaşık olması gerektiğini düşünebilirsiniz; ancak Mask R-CNN bu iki sorunu daha kolay çözebilir.

Maske R-CNN, görüntüdeki hedefi etkin bir şekilde tespit edebilen ve aynı zamanda her bir örnek için yüksek kaliteli bir segmentasyon maskesi oluşturan genişletilmiş bir Hızlı R-CNN biçimidir.

Yapım yöntemi, bu katmanı mevcut sınır katmanına paralel hale getirmek için bir maske dalı olarak adlandırılan, her bir ilgi noktasındaki segmentasyon maskesini tahmin etmek için bir katman (İlgi Bölgesi, ROI) eklemektir. Ve sınıflandırma katmanı (aşağıdaki şekilde gösterildiği gibi).

Maske R-CNN çerçevesi

Böylece, maske katmanı küçük bir FCN haline gelir. Pikselden piksele davranışta segmentasyon maskesini tahmin etmek için bunu tek bir ROI'ye uygularız.

Maske R-CNN'nin Avantajları:

  • Daha Hızlı R-CNN mimarisinin bir uzantısı olarak Faster R-CNN mimarisinde kullanılabilecek çok sayıda iyi tasarlanmış yapı olduğundan, Mask R-CNN uygulamasında herhangi bir engele sahip değildir;

  • Maske katmanının tüm sisteme yalnızca küçük bir miktar hesaplama kattığı düşünülürse, bu yöntem çok verimli çalışır;

  • Maske R-CNN, diğer görevlere de kolayca genelleştirilebilir. Örneğin, karakterlerin eylemleri aynı çerçevede tahmin edilebilir.

COCO testinde, Mask R-CNN'nin örnek bölümleme, sınırlayıcı kutu hedef tespiti ve karakterlerin anahtar nokta tespiti gibi üç zorlukta daha iyi deneysel sonuçlar elde ettiği ve mevcut her bağımsız modelden daha iyi olduğu görülebilir. COCO 2016 Challenge'ın kazanan modelleri iyi performans göstermelidir.

Bu nedenle, bu yöntemin güç seviyesinin tanımlanmasını basitleştirmek için sağlam bir temel oluşturabileceğini umuyoruz.

Deneysel sonuç tablosu

Araştırmacılar, Mask R-CNN'nin çalışma etkisini analiz etmek için bir dizi deney yaptılar. Örneğin, test için COCO test setine Maske R-CNN koyun, birden çok maskeyi ve ayrı maskeleri karşılaştırın (Multinomial vs. Aşağıda, makalede görünen deneysel diyagramlardan ve tablolardan bazıları verilmiştir:

  • Şekil 2: COCO test setinde Maske R-CNN'nin test sonuçları. Sonuçlar, Mask R-CNN'nin 5 fps'de 35,7 maske AP'ye ulaşmak için ResNet-101'i kullanabileceğini göstermektedir. Grafikteki farklı renkler farklı maskeleri temsil eder ve sınırlayıcı kutu, kategori ve güven de verilir.

  • Şekil 3: En iyi mimari: Mevcut iki Daha Hızlı R-CNN kafasını genişlettik. Sırasıyla sol ve sağ görüntüler, ResNet C4 ve FPN'nin omurgasının üst kısmını ve sırasıyla gösterir ve yukarıya bir maske dalının eklendiğini görebilirsiniz. Şekildeki sayılar uzamsal çözünürlüğü ve kanalları gösterir ve oklar evrişimi, ters evrişimi veya tamamen bağlı katmanları gösterir. Duruma göre çıkarılabilir (evrişim uzamsal boyutu koruyacak ve ters evrişim uzaysal boyutu artıracaktır). Çıktı evrişiminin 1 × 1 olması dışında, diğer tüm evrişimler 3 × 3, ters evrişim 2 × 2 ve adım 2'dir. Gizli katmanda ReLU kullanıyoruz. Solda, res5, ResNet'in beşinci aşamasını temsil eder, ancak basitleştirmek için, ilk evrişimli katmanı 1 adımda 7 × 7 RoI üzerinde çalıştırmak için bir değişiklik yaptık (14 × 14 yerine Adım 2'dir). Sağdaki şekilde × 4, 4 ardışık evrişimden oluşan bir yığını temsil eder.

  • Tablo 1: COCO test devresinde AP segmentasyon maskesi örneği. MNC ve FCIS, sırasıyla COCO 2015 ve 2016 Split Challenge'ın kazanan modelleridir. Yalnızca Maske R-CNN, performansı daha karmaşık FCIS +++ 'ı aşar - birden fazla eğitim / test ölçeği, yatay çevirme testi ve OHEM içerir. Tüm terimler tek bir modelin sonucudur.

  • Tablo 2: Maske R-CNN'nin Dağılım tablosu. Trainval35k üzerinde çalışın ve minival üzerinde test edin. Aksi belirtilmedikçe temelde AP maskesinin sonuçları.

Yukarıdaki şekil, daha derin ağların (Şekil 2a: 50'ye karşı 101) ve daha gelişmiş tasarımların (FPN ve ResNeXt dahil) Mask R-CNN'ye yardımcı olduğunu göstermektedir. Ancak, tüm çerçeveler otomatik olarak bundan yararlanamaz.

  • Tablo 3: Test-dev (sınırlayıcı kutu AP) ile mevcut en iyi arasındaki tek bir modelin hedef algılama sonuçları. ResNet-101-FPN kullanan Mask R-CNN'nin performansı, önceki en iyi modellerin tüm temel varyantlarını aştı (bu deneylerde maske çıktısı göz ardı edildi). RoIAlign (+1,1 APbb), çok görevli eğitim (+0,9 APbb) ve ResNeXt-101 (+1,6 APbb) kullanımından elde edilen mask R-CNN kazançları.

Şekil 6: COCO testinde anahtar nokta testi gerçekleştirmek için Maske R-CNN (ResNet-50-FPN) kullanın. Model, 5 fps'de 63.1'lik kilit AP noktasına ulaşıyor.

Tablo 4: COCO test devresindeki kilit noktalarda AP algılama. ResNet-50-FPN, 5 fps'de çalışan tek bir modeldir. CMUPose +++, çok ölçekli test, CPM ile son işlem ve bir hedef dedektörle filtreleme kullanarak, yaklaşık 5 puan toplayarak (kişisel iletişimde açıklanmıştır) 2016 yarışmasının galibi oldu. G-RMI, iki model (Inception-ResNet-v2 + ResNet-101) kullanarak COCP plus MPII (25.000 görüntü) konusunda eğitilmiştir. Daha fazla veri kullanıldığından, Mask R-CNN ile doğrudan bir karşılaştırma değildir.

Ek olarak, makalenin ilk yazarının Hong Kong Çin Üniversitesi'nden Dr. He Kaiming olduğunu belirtmek gerekir.Leifeng.com ayrıca Dr. He Kaiming'in "Saniyeler içinde anlamak!" Gibi diğer başarılarını da rapor etmiştir. O Kaiming'in derin artık ağı PPT'si şöyle | ICML2016 öğreticisi ", çok fazla pus? "Deep Neural Network size resimlerden sisi nasıl kaldıracağınızı öğretir" vb. Facebook Araştırma Enstitüsü ve Dr. He Kaiming'in en son araştırma sonuçları hakkında daha fazla bilgi edinmek istiyorsanız, lütfen Leifeng.com'u ve AI Technology Review Public Account'u takip etmeye devam edin.

Heteroseksüel erkek arkadaşın deklanşöre bastığında, ayrılma dürtüsün var mı?
önceki
Kai-Fu Lee, ulaşımın geleceğinden bahsediyor: Teknolojiye ek olarak, sürücüsüz sürüş, sigorta, tazminat talepleri ve işsizlik yardımları dahil olmak üzere 6 ana sorunla karşı karşıya kalacak.
Sonraki
OPPO, yeni bir görünüm olan gradyan tasarım 2.0 çağını yaratır ve gradyanın güzelliğiyle karşılaşır
"Sound of Light: Echo of the Dragon" un Çin Sınırlı Sürümünün ayrıntıları açıklandı
13 gerilim ve gerilim filmi tavsiye et. Bana inanmıyorsan hepsini izledin, buraya gel!
Hayatımla fotoğraf çekerken, her biri yumuşak görünüyor, bu genç bayan cennete gitti!
AppSo altı yaşında, size söyleyeceğimiz bir şey var ...
Snapdragon 835 piyasaya çıktı, Qualcomm herkese iki "Gigabit" deneyimi getiriyor
Yeni Honor 8X serisinin çoklu platform ön satışı başladı
CITIC-İhtiyati Hayat Sigortası Hunan Şubesi: Ekip kurma adına şehirde ağaç dikimi
1/15 için Dyson saç kurutma makinesi veya darı saç kurutma makinesi satın alıyor musunuz? Titanyum Geek
Araç çağırma krizi, bu 8 kendi kendine yardım yöntemi sizin tarafınızdan gözden kaçabilir Yararlı işlevler
Robotik kol hareketi planlaması ve en son araştırma talimatlarını tanıtma örnekleri (PPT + video ile) | Sert Oluşturma Açık Sınıfı
Böyle düğün fotoğrafını unutmayacağım
To Top