g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

He Yuming'in grubunun temel teorisindeki bir başka atılım: iki aşamalı yöntemle karşılaştırılabilir tek aşamalı bir örnek segmentasyon algoritması

TensorMask yoğun örnek segmentasyon etkisi örneği. Sol resim: örnek resim; sağ resim: kısmi yakınlaştırma. Şekilde görebileceğiniz gibi, sadece daha büyük ve daha küçük nesneler daha mükemmel bir şekilde çizilmekle kalmamış, aynı zamanda birbirini kapatan kenarlar da doğru bir şekilde ele alınabilmektedir.

Leifeng.com Yapay Zeka Teknolojisi Yorumu: Nesne algılama algoritmalarında tek aşamalı yöntem ile iki aşamalı yöntem arasında bir anlaşmazlık olduğunu herkes bilir. İlki genellikle hesaplama açısından daha ucuzdur ve daha hızlı çalışır, ancak ikincisi genellikle daha yüksek doğruluğa sahiptir ve doğruluk için uygundur. Günler.

İki aşamalı nesne algılama kıyaslama yöntemleri Faster R-CNN ve Mask R-CNN, FAIR araştırmacısı He Yuming'den geldi ve ayrıca tek aşamalı yöntem ve önerilen RetinaNet araştırmasında bir atılım yaptı. Ancak He Yuming grubu, mevcut tek aşamalı yöntemlerin yalnızca sınırlayıcı kutuları tahmin etme görevini hedeflediğini ve piksel düzeyinde örnek segmentasyonu ile hiçbir ilgisi olmadığını fark etti. Bu zorluğu memnuniyetle kabul ettiler ve "TensorMask: Yoğun Nesne Segmentasyonunun Temelleri" (TensorMask, yoğun nesne segmentasyonunun temeli), arxiv.org/abs/1903.12174 başlıklı bu makaleyi getirdiler. Leifeng.com AI Technology Review, makalenin ana içeriğini aşağıdaki gibi özetliyor.

"Sürgülü pencere", çok sayıda farklı pencereyi görüntüde farklı yerlere yoğun bir şekilde yerleştirerek ve bu pencerelerde nesneleri bulmaya çalışarak, bilgisayar görüşü alanındaki en eski ve en başarılı kavramlardan biridir. Bu paradigma ürün sinir ağlarında görülmektedir. Bununla birlikte, günümüzün en iyi performans gösteren hedef tespit sistemleri, ilk aday bölgeleri oluşturmak için hala tahmini kayan pencerelere güveniyor olsa da, daha sonra daha yüksek doğruluk elde etmek için bu aday bölgelerde ikinci optimizasyon sürecinin (yeniden ayrım) aşamasını gerçekleştireceğiz. Örneğin, Daha Hızlı R-CNN ve Mask R-CNN böyle bir tasarımı benimsemiş ve ardından sınırlayıcı kutular ve piksel düzeyinde örnek bölümleme görevlerinin nesne algılamasında mükemmel performans elde etmiştir. COCO veri seti nesne algılama rekabetine hakim olan bu tür bir yöntemdir.

Optimizasyon sürecinin ikinci aşamasını terk eden ve tamamen SSD, Y YOLO ve RetinaNet (ayrıca He Yuming'in grubundan makaleyi burada okuyun) gibi doğrudan tahmin sürgülü pencerelere odaklanan bazı yeni sınırlayıcı kutu nesne dedektörleri var, bu yöntemler sadece yeniden ateşlemekle kalmıyor Dikkat, beklenen sonuçları da beraberinde getirdi. Bunun aksine, SSD ve RetinaNet'in performans düzeyine ulaşmak için piksel düzeyinde örnek bölümleme görevlerinde büyük bir gelişme sağlayan tek aşamalı bir yöntemi göremedik. Tek aşamalı yoğun algılama yöntemi, sınırlayıcı kutu tahmininde neden bu kadar sıcak, ancak örnek segmentasyonunda görülmüyor? Bu soru, temel bilimsel araştırma açısından oldukça meraklıdır. Bu araştırmanın amacı, bu soruyu cevaplamak ve tek aşamalı yoğun örnek segmentasyonunun keşfi için bazı temel çalışmalar yapmaktır.

Yazarın ana bulgusu, yoğun maske temsillerini tanımlayan temel kavramların ve bu kavramların sinir ağlarında verimli bir şekilde uygulanmasının eksik olduğudur. Sınırlayıcı kutular sabit, ölçekten bağımsız düşük boyutlu temsillere sahiptir. Buna karşılık, bölümleme maskeleri daha zengin ve daha yapılandırılmış temsillerden yararlanabilir. Örneğin, her bir maskenin kendisi iki boyutlu bir uzay haritasıdır ve daha büyük iki boyutlu uzay haritası kullanmak, daha büyük bir hedefin maskesine de fayda sağlayabilir. Yoğun örnek segmentasyonunu mümkün kılmak istiyorsanız, yoğun maskeler için verimli temsiller geliştirmek kritik bir adımdır.

Bu sorunu çözmek için yazarlar, bu makalede maskeleri temsil etmek için yüksek boyutlu tensörler kullanan bir dizi temel kavram tanımladılar ve daha sonra bu kavramları, yoğun maske tahmini için yeni ağ mimarilerini keşfetmek için kullanabilirler. Bu yeni temsilin avantajlarını göstermek için yazarlar, birkaç olası ağ mimarisini gösterdiler ve deneyler yaptılar. Yazarlar önerilen çerçeveyi "TensorMask" olarak adlandırdılar ve buna dayanarak, yazarlar, Mask R-CNN ile karşılaştırılabilir bir kayan pencereye dayanan ilk tek aşamalı yoğun örnek bölümleme sistemini kurdular.

TensorMask temsilinin ana fikri, maskeyi orta alanda temsil etmek için yapılandırılmış dört boyutlu bir vektör kullanmaktır. DeepMask ve InstanceFCN gibi önceki çalışmalar benzer bir sorunu hedefliyordu. Bilinmeyen nesne konumu aday bölgelerini bölümlere ayırdılar. Hepsi, maskenin üçüncü katmana paketlendiği yapılandırılmamış üç boyutlu tensörler kullandılar. Kanalın koordinatları. Nesnenin konumunu karakterize eden koordinatların aksine, kanal koordinatlarında net bir grafik anlamı yoktur ve çalıştırılması zordur. Bu yöntemler çok temel kanal temsilini kullandıklarından, maskeyi iki boyutlu bir varlık olarak temsil etmek için yapılandırılmış dizileri kullanma fırsatını da kaybederler ve böylece iyileştirme elde ederler; bu fark çok katmanlı bir algılayıcı ve evrişim gibidir. Ağdaki iki boyutlu görüntüler arasındaki fark aynıdır.

Önceki kanala yönelik şemalardan farklı olarak, bu makalenin yazarları tarafından önerilen yöntem dört boyutlu bir şekil matrisi (V, U, H, W) kullanır; burada (H, W) nesnenin konumunu temsil eder, (V, U) Maskenin göreceli konumunu temsil eder Bu dördü geometrik alt tensörlerdir, yani hepsi iyi tanımlanmış koordinat eksenlerine sahiptir ve tümü görüntü hakkında geometrik bilgiye sahiptir. Bu yaklaşım, yapılandırılmamış koordinat kodlama maskelerinin yerini yapılandırılmış geometrik alt algılayıcılarla değiştirerek yeni operasyonları ve ağ yapılarını tanımlamayı mümkün kılar. Yeni tanımlanan ağ, koordineli dönüşüm, yukarı örnekleme ve boyut piramitlerinin kullanımı dahil, içindeki geometrik bilgileri kullanarak (V, U) alt tensörü üzerinde doğrudan çalışabilir.

Sol: Doğal temsil. Sağdaki resim: TensorMask tarafından kullanılan katmanlar arası hizalama gösterimi

Yazarlar, TensorMask çerçevesini tanıtarak, boyuta göre düzenlenmiş bir dizi dört boyutlu tensöre dayanan bir piramit yapısı geliştirdiler ve buna tensör çift piramit adını verdiler. Geleneksel özellik piramidi, farklı boyutlarda bir dizi özellik haritası listesidir. Buna karşılık, tensör çift piramit, boyutları (V, U, H, W) ile (2kV, 2kU, 1 / 2kH) arasında değişen bir dizi dört boyutlu tensör içerir. 1 / 2kW), burada k boyut endeksini temsil eder. Bu yapı, (H, W) ve (V, U) iki set geometrik alt tensörün sırasıyla bir piramit oluşturmasına izin verir, ancak ikisinin ölçekleme yönleri zıttır. Bu, yüksek çözünürlüklü maskeler gerektiren ideal olarak daha büyük nesnelere karşılık gelen çok doğal bir tasarımdır, ancak uzamsal konum daha az değişir (daha büyük k değeri) ve daha küçük nesneler yalnızca düşük çözünürlüklü maskelere ihtiyaç duyar. Maske, ancak uzamsal konum daha alt bölümlere ayrılmıştır (daha küçük k değeri).

Yazarlar, bu bileşenleri ağ omurgasına ve RetinaNet'e referansla tasarlanan eğitim sürecine entegre eder ve yeni önerilen yoğun maske öngörücüsü, ağdaki orijinal sınırlayıcı kutu öngörücünün işlevlerini de genişletebilir. Yazarlar, TensorMask çerçevesinin etkinliğini değerlendirdikleri ve geometrik yapıyı açıkça yakalamanın önemini gösterdikleri çok sayıda kontrollü deney setini dikkatlice tasarladılar. Son olarak, yazarlar TensorMask ve Mask R-CNN'nin sonuçlarını da karşılaştırdılar. Bu memnuniyet verici sonuçların tümü, makalede önerilen çerçevenin, tek aşamalı yoğun kayan pencere örneği segmentasyonu üzerine gelecekteki araştırmalar için yol açtığını göstermektedir.

TensorMask ve Mask R-CNN'nin segmentasyon sonuçlarını karşılaştıran ağın omurgası ResNet-101-FPN'dir - yazarlar, iki sonucun kalitatif ve kantitatif olarak çok benzer olduğunu ve herkesi hangi sonuçların TensorMask olduğunu tahmin etmeye davet ettiklerini belirttiler. Hangileri Mask R-CNN'dir.

COCO üzerindeki nicel deneyler, Maske R-CNN'nin hala daha yüksek mAP sonuçlarına ulaştığını göstermektedir ki bu şaşırtıcı değildir. Ancak, TensorMask şu anda bir çalışma hızı avantajına sahip değildir ResNet-101-FPN'nin omurgası olan TensorMask, NVIDIA V100 GPU'da görüntü başına 0,38 saniyede çalışır (Maske R-CNN'de görüntü başına yalnızca 0,09 saniye vardır). Yazarların açıklaması, yoğun bir kayan pencerede (sayı 100.000'den büyük) TensorMask'ın (tek aşamalı bir yöntem olarak), maskeleri tahmin etmek için yüksek hesaplama ek yüküne neden olduğudur. Buna karşılık, yalnızca Maske R-CNN (iki aşamalı bir yöntem olarak) İkinci aşamada seçilen pencerelerde maskenin tahmin edilmesi gerekiyor ve tahmin edilmesi gereken pencere sayısı muhtemelen 100'ü geçmiyor. Yazarlar, hızlanmanın doğal yolları olduğunu söylediler, ancak bu makalenin amacı temeli geliştirmek, yolları keşfetmek ve optimizasyon yöntemlerini hızlandırmak.

Orijinal kağıt (daha ayrıntılı kontrol deneyleri, birçok karşılaştırma resmi) bkz .: https://arxiv.org/abs/1903.12174

Lei Feng.com AI Technology Review tarafından derlenmiştir.

İç çamaşırında Victoria'nın sırlarından daha fazlası var! Calvin Klein, seksi, tatminsiz bir zamir mi?

Academia Tsinghua Aminer ekibi 53 sayfalık bilgisayar grafikleri araştırma raporu yayınladı