g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

PolarMask: Örnek segmentasyonunu, endüstride büyük ölçekte uygulanması beklenen FCN ile birleştirin

Yazar | Xie Enze

Editör | Jia Wei

CVPR 2020, dün 6,656'sı geçerli sunumlar olan ve 1470'i% 22,1'lik bir kabul oranıyla nihayet kabul edilen kabul sonuçlarını açıkladı. CVPR 2020, 14 Haziran - 19 Haziran tarihleri arasında ABD'nin Seattle kentinde gerçekleştirilecek.

Geçtiğimiz üç yıl içinde, CVPR kağıtlarının gönderim sayısı artmaya devam etmiş olsa da (CVPR 2018'de 3300 etkili gönderim, CVPR 2019'da 5160 etkili gönderim ve CVPR 2020'de 6656 etkin gönderim), ancak kabul oranı " Art arda iki damla "(CVPR 2018, kabul oranı yaklaşık% 29 olan 979 makale; CVPR 2019, kabul oranı yaklaşık% 25 olan 1.300 makale; CVPR 2020, yaklaşık% 22 kabul oranına sahip 1.470 makale içeriyordu).

Bugün tanıtmak istediğim şey, CVPR 2020'de tek atışlık bir örnek segmentasyon çerçevesi olan PolarMask'ı tanıtan kabul edilmiş makalemiz olan "PolarMask: Polar Temsili Tek Çekim Örnek Segmentasyonu".

Makaleye bağlantı: https://arxiv.org/pdf/1909.13226.pdf

Açık kaynak kodu: https://github.com/xieenze/PolarMask

PolarMask, FCOS'a dayanır ve bulut sunucusu segmentasyonunu FCN çerçevesi altında birleştirir. FCOS Nisan 2019'da piyasaya sürüldükten sonra, Bay Shen ve ben bulut sunucusu segmentasyonunu FCN'ye nasıl entegre edeceğimizi tartışıyorduk. FCOS, esasen, çapa tabanlı hedef tespit yöntemlerinin performansını kaybedemeyen ve endüstrinin çapasız yöntemlerin potansiyelini görmesine izin veren, FCN'nin yoğun öngörüsünün bir algılama çerçevesidir. Çözülmesi gereken bir sonraki sorun, örnek bölümlemedir. Kişisel olarak bu çalışmanın en büyük katkısının, daha karmaşık örnek bölümleme problemini ağ tasarımı ve hesaplama karmaşıklığı açısından nesne algılama kadar karmaşık bir göreve dönüştürmek ve örnek bölümlemenin modellemesini basit ve verimli hale getirmek olduğunu düşünüyorum. Maske R-CNN

Öncelikle önceki en klasik örnek segmentasyon yöntemini gözden geçirin, "önce algıla ve sonra segmentlere ayır". Bu bağlamda nihai algoritma Mask RCNN'dir.

Mask R-CNN, iki aşamalı bir algılama algoritmasıdır.Örnek bölümlemenin zorluğunu basitleştiren algılama çerçevesi temelinde piksel düzeyinde anlamsal bölümleme gerçekleştirir ve aynı zamanda 'önce algılama ve sonra bölümleme' paradigmasında stoa performansını elde eder. Aşırıya.

PolarMask

PolarMask'ımız, nesnenin kontur modellemesini bularak herkesin seçmesi için yeni bir yöntem sağlayan yeni bir örnek segmentasyon modelleme yöntemi sunar. Örnek segmentasyonu için iki modelleme yöntemi:

1. Piksel düzeyinde modelleme Şekil b'ye benzer şekilde, algılama çerçevesindeki her pikseli sınıflandırın;

2. Kontur modelleme, Şekil c ve Şekil d'ye benzerdir, burada Şekil c dikdörtgen koordinat sistemi modelleme konturuna dayanır, Şekil d, kutupsal koordinat sistemi modelleme konturuna dayanır.

Mask R-CNN'nin ilk modelleme yöntemine, önerdiğimiz PolarMask'ın ise grafik d modelleme yöntemine ait olduğu görülmektedir. Şekil c de çalışır, ancak Şekil d ile karşılaştırıldığında sabit bir açıya sahip değildir. Başka bir deyişle, kutupsal koordinat sistemine dayalı yöntem, sabit açıyı önceden belirledi ve ağın yalnızca sabit açının uzunluğuna dönmesi gerekiyor, bu da sorunun zorluğunu basitleştiriyor.

PolarMask, konturu kutupsal koordinat sistemine göre modeller ve örnek bölümleme problemini örnek merkezi sınıflandırma problemine ve yoğun mesafe regresyon problemine dönüştürür.

Aynı zamanda, yüksek kaliteli pozitif örnekleme ve yoğun mesafe regresyonunun kayıp fonksiyonu optimizasyonunu optimize etmek için Polar CenterNess ve Polar IoU Loss olmak üzere iki etkili yöntem önerdik.

PolarMask, herhangi bir numara kullanmadan (çok ölçekli egzersiz, egzersiz süresini uzatmak vb.), ResNext 101 yapılandırması altında coco test-dev üzerinde 32,9'luk bir harita elde etti. Bu, ağ tasarımı ve hesaplama karmaşıklığı açısından daha karmaşık örnek bölümleme problemlerinin çapasız nesne algılama kadar basit olabileceğini ilk kez kanıtladık. PolarMask'ın tek seferlik örnek segmentasyonu için basit ve güçlü bir temel haline gelebileceğini umuyoruz. PolarMask'ın en önemli özellikleri şunlardır:

(1) Çapa ve kutu içermez, algılama kutusu gerekmez

(2) Tamamen evrişimli ağ, 4 ışını 36 ışına dağıtan FCOS ile karşılaştırıldığında, örnek segmentasyonu ve nesne algılamayı ifade etmek için aynı modelleme yöntemini kullanır. Yöntemimizi yerleştirmek için FCOS'u seçiyoruz, özellikle de basit. FCOS, güncel teknoloji harikası ankrajsız dedektördür ve çok basittir. FCOS temelinde, bulut sunucusu bölümleme problemini neredeyse hiç hesaplama olmadan modelleyebilir ve rekabetçi performans elde edebiliriz, bu da bulut sunucusu bölümlemesinin hedef tespit ile aynı karmaşık soruna basitleştirilebileceğini kanıtlar.

Buna ek olarak, FCOS, PolarMask'ın özel bir formu olarak kabul edilebilir ve PolarMask, FCOS'un genel bir formu olarak kabul edilebilir, çünkü bbox, esasen 0,90,180,270 dönüş uzunluğu olan sadece dört açıyla en basit maskedir. İlk defa, örnek segmentasyonu ve nesne algılamayı ifade etmek için aynı modelleme yöntemini kullanıyoruz.

Ağ yapısı

Ağın tamamı FCOS kadar basittir. Birincisi standart omurga + fpn modelidir ve ikincisi baş kısmıdır. Fcos'un bbox dalını maske dalıyla değiştiririz, sadece channel = 4'ü channel = n ile değiştirin, burada n = 36, bu eşdeğerdir 36 ışın uzunluğu. Aynı zamanda, FCOS'un bbox merkezliliğinin yerini alacak yeni bir Polar Centerness öneriyoruz.

Ağ karmaşıklığı açısından PolarMask ile FCOS arasında belirgin bir fark olmadığı görülebilir.

Polar Segmentasyon modellemesi

İlk olarak, orijinal bir görüntü girin ve merkez noktasının konumunu ve n (n = 36 bizim ayarımızda en iyisidir) kök ışınının ağ üzerinden mesafesini alın.İkincisi, bu noktaların koordinatlarını açı ve uzunluğa göre kontur üzerinde hesaplayın. Bu noktaları 0 ° 'de birleştirmeye başlayın ve son olarak bağlı alandaki alanı örnek segmentasyonunun sonucu olarak değerlendirin.

Deneyde, ağırlık merkezini kıyaslama olarak kullanıyoruz, özellik haritasına atıyoruz ve ağırlık merkezi etrafında örnek olarak pozitif örnek olarak ve diğer yerleri negatif örnek olarak kullanıyoruz. Eğitim yöntemi, Odak Kaybı kullanarak FCOS ile tutarlıdır. Burada Polar'ı öneriyoruz CenterNess, yüksek kaliteli pozitif numuneler seçmek ve düşük kaliteli pozitif numunelerin ağırlığını azaltmak için kullanılır.

Polar CenterNess

Polar Koordinat altında yüksek kaliteli pozitif numuneler nasıl tanımlanır? Aşağıdaki formülle tanımlandık

Bunlar arasında, d1 d2 .... dn 36 ışının uzunluğunu ifade eder ve en iyi pozitif örnek dmin değerine sahip olmalıdır > dmax.

Örnek olarak bir resim çekin:

Ortadaki görüntüye bakıldığında, doğru görüntünün merkez noktası daha uygun olurken, uzunluk gerilemesinde büyük bir fark sorunu olacaktır.Tüm konturlara uzunluk gerilemesi daha yakın ve 36 ışın arasındaki mesafe daha dengeli olacaktır. Polar Centerness sağdaki noktalara daha yüksek centerness puanları verebilir ve centerness puanlarını ortadaki noktalara düşürebilir, böylece sağdaki noktalar infernece sırasında daha yüksek olur. Ablasyon deneyine göre Polar Centerness, ağ karmaşıklığını artırmadan 1.4'ün performansını etkili bir şekilde artırabilir. Sonuç aşağıdaki şekilde gösterilmiştir

Polar IoU Kaybı

PolarMask'ta, hedef tespitinden daha karmaşık olan k (k = 36) kök ışınlarının mesafesini geriletmek gerekir.Regresyon dalının nasıl denetleneceği bir sorundur. Polar IoU Loss'u tahmin maskesi ve gt maskesinin iou'una yaklaştırmak ve Iou Loss aracılığıyla maskenin gerilemesini daha iyi optimize etmek için öneriyoruz. Deneyler, Polar IoU Loss'un Smooth L1loss'a kıyasla 2.6 puan önemli ölçüde artabileceğini göstermiştir.Aynı zamanda Smooth L1loss, diğer kayıplarla dengesizlik sorunuyla da karşı karşıyadır.Ağırlıkları dikkatlice ayarlaması gerekir. Bu çok verimsizdir. Polar IoU kaybının ağırlıkları ayarlaması gerekmez. Bu, maske dalının hızlı ve kararlı bir şekilde birleşmesine olanak tanır.

Peki Polar IoU Kaybı nasıl hesaplanır? Aşağıdaki şekilde gösterildiği gibi

İki maskenin Iou'sunun d altındaki üçgen alan problemine sadeleştirilebileceği ve sayısız üçgenin toplamının nihayet aşağıdaki forma çıkarılabileceği görülebilir:

Aslında, son ifade çok basit, ancak pürüzsüz l1 ile karşılaştırıldığında, gerçekten ayar yapmadan 2,6 puan artabilir. Kayıp işlevi tasarımının derin sinir ağları için büyük önem taşıdığını gösteriyor. Sonuçlar aşağıda gösterilmiştir

Makalede ayrıca şu ablasyon deneylerini de yaptık: ışın sayısının seçimi, artı veya eksi bbox dalı, omurga ve boyut ve hız değiş tokuşu Detaylar kağıda yazılmıştır ve tek tek genişletilmeyecektir.

Üst limit analizi

Bunu görünce, birçok insanın kafasında bir soru olacaktır.Işın modelleme yöntemi içbükey nesneler için performans kaybına neden olacak ve üst sınır 100mAP'den az.PolarMask bu problemle nasıl başa çıkıyor?

Cevap şudur: PolarMask, bir piksel modelleme yöntemi olan Mask R-CNN ile karşılaştırıldığında, özellikle garip bir şekle sahip bir maskeyi modellemekte başarısız olur, ancak bu, polarmask'in anlamsız olduğu anlamına gelmez. Bunun iki nedeni vardır: (1) Mask R-CNN'in üst sınırı bilgi kaybına neden olan aşağı örnekleme işlemleri nedeniyle 100 mAP'e ulaşamaz. (2) Mask R-CNN veya PolarMask'den bağımsız olarak, gerçek performansları 100mAP üst sınırından çok uzaktır. Bu nedenle, gerçek ağ performansını üst sınıra nasıl daha iyi yaklaştıracağımıza dikkat etmeliyiz. Işın modellemesinin kantitatif analizinin üst sınırı:

Şekilde gösterildiği gibi, kütle merkezi örnek merkezi olarak kullanıldığında, ışınların sayısı artmaya devam ettiğinde, ışın gt ve gerçek gt'nin ortalama iou değeri% 90'dan fazladır, bu da ışın modelleme performansının üst sınırı konusundaki endişenin hala çok uzak olduğunu kanıtlamaktadır. endişelenmeye gerek yok. Bu aşamada ilgilenilmesi gereken sorun, ışın modellemeye dayalı ağ performansının sürekli olarak nasıl iyileştirileceğidir.

Deney

Son olarak, sonuçları sota ile karşılaştırmalı olarak göstermek için bir grafik ve bir tablo ekleyin

PolarMask'ın herhangi bir numara kullanmadan resnext101-fpn durumunda 32.9'luk bir konfigürasyona ulaştığı, stoa olmasa da daha rekabetçi olduğu görülüyor. Şu anda ms tren ve daha uzun eğitim dönemleri gibi puanları artırabilecek yaygın olarak kullanılan pek çok numara kullanmıyoruz. Buna karşılık, diğer bir aşamalı yöntemler mstrain ve daha uzun eğitim dönemlerini her zaman kullanır. Performansı daha da iyileştirecek ve iyileştirmeye çalışacağız.

postscript

Yukarıdaki modellerle adil bir karşılaştırma yapabilmeniz için kod ve modelleri çok ölçekli eğitim ve artırılmış eğitim süresiyle en kısa sürede geliştirip yayınlayacağız. Örnek segmentasyonu çok maliyetli ve zamanlıdır. Umarım anlarsınız.

Ayar parametreleri hakkında bazı düşünceler:

Aynı zamanda, FCOS bu yıl Nisan ayında çıktığında, Bay Shen Chunhua ve ben, tek atışta çapasız bulut sunucusu segmentasyonu için FCOS'u nasıl gerçekleştireceğimizi tartışıyorduk ve CVPR toplantısında Wen Hai, Yan Wei, Song Lin ve diğer küçük ortaklarla görüştük. Kontur regresyonunun fizibilitesi, çünkü herkes çapadan bağımsız nesne tespitinin genel eğilim olduğunu ve bir sonraki alanın çapadan bağımsız örnek segmentasyonu olması gerektiğini görebildiğinden Tahmin ve sonraki alan panoramik segmentasyondur. Bay Shen ile aylarca süren tartışmalardan ve deneyler üzerine yapılan deneylerin başarısız olmasından sonra, kutup maskesi yavaş yavaş şekillendi. İlk başta, maske regresyonu sayısız kez bir araya gelemedi ve kayıp maske yazmanın karmaşık etkisi pek iyi değildi, ta ki bir gün kutup kaybı ile karşılaşana kadar. Performansın çok iyi olduğu bulundu, parametreleri ayarlamaya gerek yok, sonuç alınabilir. Körü körüne deneyler yapmaktansa araştırma yapmayı daha çok düşünmem gerektiğini hissediyorum. Aynı zamanda, seyahat ederken düşündüğüm şey kutupsal merkezlilikti ve hemen hata ayıklama için kod yazmak için bir kahve dükkanı buldum ve 1,4 puan arttı. Bu iki yöntem, hesaplama miktarını artırmadan kutup maskesinin performansına tam anlamıyla etki eder, çok basit görünseler de aslında arkalarındaki birçok düşüncenin ve basitleştirmenin sonucudur.

Genel olarak, bu makalede en çok sevdiğim iki şey var.

1. Endüstrideki büyük ölçekli uygulamalar için umut verici olan deforme olabilir dönüşüm ve dönüş hizalama işlemleri gibi herhangi bir hile ve karmaşık işlemler olmadan, yeterince basittir;

2. Bbox algılamasını ve maske segmentasyonunu birleştirmek için bir ifade yolu buldu ve FCOS bir tür miras alınmış iştir. FCOS teorik olarak PolarMask'ın özel bir sürümü olarak kabul edilebilir ve PolarMask, FCOS'un genelleştirilmiş bir sürümüdür çünkü bbox Esasen en basit Maske. PolarMask, esasen hedef tespiti ve örnek segmentasyonu için birleşik bir çerçeve olarak görülebilir. FCOS'a yalnızca basit değişikliklerle indirgenebilir.

Bu makale ilk olarak Zhihu'da yayınlandı:

https://zhuanlan.zhihu.com/p/84890413

Nanda Didi, zayıf denetimli bir öğrenme yöntemi önerdi, EAA% 5'ten fazla arttı

Göç öğreniminin sınırlarını aşın! Google "T5" yeni NLP modeli öneriyor, çoklu karşılaştırma testi SOTA'ya ulaşıyor