Kağıt Başlığı: Çıkık Nesne Algılama için Aşamalı Özellikli Parlatma Ağı
Kağıt adresi: https://arxiv.org/abs/1911.05942
Bu makale AAAI2020 tarafından kabul edildi
Yorumlanması: BBuf
Özet: Görüntü özellikleri, belirgin hedef tespiti için çok önemlidir. Mevcut yöntemler esas olarak, çok seviyeli özellikleri birleştirmek ve kaotik özellikleri filtrelemek için karmaşık yapılar tasarlamaya odaklanır. Bu makale, herhangi bir işlem sonrası birden çok özellikli parlatma modülünü (FPM) yeniden kullanarak belirgin hedefleri ince ayrıntılarla tespit edebilen yeni bir aşamalı özellikli parlatma ağı (PFPN) önermektedir. FPM, tüm yüksek seviyeli bağlam bilgilerini doğrudan birleştirerek her seviyenin özelliklerini paralel olarak günceller ve özellik haritasının boyutunu ve hiyerarşik yapısını koruyabilir, bu da onu herhangi bir CNN yapısı için geçerli kılar. PFPN, 5 kıyaslama veri setinde SOTA elde etti.
Belirginlik hedef tespiti, bir görüntüdeki en çekici alanları çıkarmayı amaçlamaktadır ve video sıkıştırma, görsel izleme ve görüntü alma gibi bilgisayarla görmede yaygın olarak kullanılmaktadır. Belirginlik tespiti, temelde düşük seviyeli özellikler ve yüksek seviyeli özellikler dahil olmak üzere görüntü semantik özelliklerine dayanır.
Bu nedenle, detaylı anlamsal özellikleri kullanmak için çeşitli özellik füzyon yöntemleri birbiri ardına ortaya çıkmaktadır. Bununla birlikte, bazı özellik katmanlarındaki özelliklerin yanlışlığı, özellikler arasındaki uzun vadeli bağımlılık ve üst düzey özelliklerin yetersiz kullanımı algılama yeteneklerini etkileyeceğinden, bu sorun hala zorluklarla doludur. Anlamsal ve ayrıntılı bilgiden tam olarak yararlanmak için, bu makale özlü ve verimli bir ilerici özellikli parlatma ağı önermektedir. Bu makalenin katkıları aşağıdaki gibidir:
Bu makale, özyinelemeli bir şekilde özellikleri kademeli olarak iyileştirmek için belirgin hedef tespiti için aşamalı bir özellik cilalama ağı önermektedir.
Kağıt, her bir cilalama adımı için FPM'nin özellikleri iyileştirmesini önerir, böylece özellik haritasının boyutunu ve hiyerarşik yapısını korur. Uzun vadeli bağımlılık sorunlarını önlemek için yüksek düzeyli anlamsal bilgileri doğrudan tüm düşük düzey özelliklere entegre eder.
SOTA doğruluğu 5 karşılaştırma veri setinde elde edilmiştir.
2.1 Genel yapı
Çıkıntılı hedef tespiti için aşamalı özellik cilalama ağının genel yapısı Şekil 2'de gösterilmektedir.
İlk olarak, giriş görüntüsü, özellikleri birden çok ölçekte çıkarmak için omurga ağına beslenir. Makalede, ResNet-101 omurga ağı olarak seçilmiştir. Aynı zamanda, VGG16'nın omurga ağı olarak kullanılmasının sonuçları da deneysel bölümde gösterilmektedir.
Özellikle, ResNet-101 ağı, adım = 2'lik bir alt örnekleme işlemi ile 5 bloğa bölünebilir. Bu 5 bloğun çıktı özelliği haritaları şu şekilde ifade edilebilir: Conv-1, Res-2, Res-3, Res-4, Res-5. Özellik haritalarının boyutunu küçültmek ve uygulamayı daha kısa hale getirmek için, bu özellik haritaları önce ilk dönüştürme modülünden (Şekil 2'de TM1) geçer; burada her seviyenin özellikleri, örneğin bizim uygulamamızda 1x1 evrişim yoluyla aynı boyuta dönüştürülür. Bunların arasında 256 kişi var.
Aynı boyutun birden çok özelliğini elde ettikten sonra, özellik iyileştirme için her özellik haritasına bir dizi FPM modülü bağlanır. Şekil 2, bir T = 2 örneğini göstermektedir. Her FPM'de, yüksek seviyeli özellikler, onları iyileştirmek için tüm düşük seviyeli özelliklere doğrudan eklenir, bu, dolaylı yöntemlerden daha etkilidir ve bilgi kaybını önemli ölçüde azaltır. FPM'nin girdisi ve çıktısı aynı boyutlara sahiptir ve tüm FPM'ler aynı ağ yapısını paylaşır.
Her FPM için farklı parametreler kullanıyoruz, böylece yavaş yavaş öğrenebilirler ve daha fazla ayrıntıya odaklanabilirler. Deneyler, T = 2 olduğunda modelin SOTA doğruluğu sergilediğini ve 20FPS hıza sahip olduğunu göstermektedir.
Daha sonra model, iki doğrusal yukarı örneklemenin ardından 1x1 evrişimden oluşan ikinci dönüştürme modülünü (Şekil 2'de TM2) kullanır, hedefi doğrudan orijinal görüntünün çözünürlüğüne yukarı örnekleyerek ve kanal sayısını sıkıştırarak 32.
Son olarak, nihai belirginlik haritasını elde etmek için birden çok özellik haritasını birleştirmek için bir füzyon modülü (FM) kullanılır. FPM'yi kullandıktan sonra özellik gösterimi daha doğru olduğundan, FM başarmak için basit bir tandem stratejisi kullanır ve ağ eğitim için uçtan uca bir yöntem kullanır.
2.2 Özellik Parlatma Modülü
Özellik Parlatma Modülü (FPM), kağıtta önerilen PFPN ağının temel bileşenidir FPM, özellik sunumunu iyileştirmek için herhangi bir evrişimli ağ geometrisi ile kullanılabilen basit ve etkili bir modüldür.
Önceki seviyenin omurgası veya FPM çıkışı gibi CNN tarafından üretilen çok seviyeli özellikleri korur ve artık bağlantıları kullanarak bunları güncellemeyi öğrenir. N özellik haritası için F = {fi, i = 1, ..., N}, FPM N cilalı özellik haritası oluşturur F ^ {p} = {fi ^ p, i = 1, .. ., N}, Şekil 2'de gösterildiği gibi, FPM, her biri ayrı bir özellik haritasına karşılık gelen ve FPM-k olarak gösterilen N paralel FPM modülü içerir.
Spesifik olarak, daha derin taraftan sığ tarafa bir artık bağlantı benimsenir. Sonuç olarak, küresel bilgi içeren üst düzey özellikler, göze çarpan alanları daha iyi keşfetmeye yardımcı olmak için doğrudan alt düzey özelliklere enjekte edilir. Şekil 2'de FPM1-3 ele alındığında, Res-3, Res-4 ve Res-5'in özelliklerinin tümü, kısayol bağlantılarıyla Res-3'e güncellenir. FPM ayrıca, artık ağın avantajlarını da emer (He ve diğerleri, 2016), böylece özellik haritasını güncelleyebilir ve kaotik bilgileri kademeli olarak filtreleyebilir.
Bu, Şekil 2'deki çeşitli bağlantılarla gösterilmektedir. $ FPM-k $ modülünün uygulanması aşağıdaki gibi formüle edilebilir:
{Fj, j = k, .., N} gibi N-k + 1 özellik haritalarını kabul eder. Özellik haritası fj için, anlamsal bilgiyi yakalamak için önce bir 3x3 evrişim + BN + ReLU bileşeni kullanıyoruz ve sonra bunu fk boyutuna enterpolasyon yapıyoruz. Bu enterpolasyonlu ve yukarı örneklenmiş özellikler concat kullanılarak birleştirildikten sonra, pk 1x1 evrişimli boyut indirgeme yoluyla elde edilir. Daha sonra pk, f_k ^ p nihai özellik haritasını hesaplamak için orijinal özellik haritasını fk güncellemek için bir artık fonksiyon olarak kullanılır. Şekil 3'te k = 3 olduğu bir örnek gösterilmektedir.
2.3 Fusion modülü
Kağıt, çoklu özellik haritalarının özelliklerini birleştirmek ve göze çarpan nesneleri tespit etmek için Fusion Modülünü (FM) kullanır. Şekil 2'de gösterildiği gibi, TM2'nin çok seviyeli özellikleri önce concat ve ardından iki 3x3 evrişimli katmana gönderilir. Ardından, son 1x1 evrişimli katmanda son çıkıntı haritası elde edilir.
2.4 Uygulama ayrıntıları
Makale, nihai belirginlik haritasını ve etiketli belirginlik haritasını optimize etmek için çapraz entropi kaybını kullanıyor. Daha sonra yazar, FM modülünden önce bir dizi ara sonucu optimize etmek için yardımcı bir kayıp kullanır. Nihai ağın toplam kaybı aşağıdaki gibidir:
Aşağıdaki Tablo 1, bu makaledeki yöntemin, bu yöntemin etkinliğini kanıtlayan 5 veri setinin tümünde SOTA doğruluğu elde ettiğini göstermektedir.
Anlamsal ve ayrıntılı bilgiden tam olarak yararlanmak için, bu makale özlü ve verimli bir aşamalı özellikli parlatma ağı (PFPN) önermektedir. PFPN, özyinelemeli bir şekilde özellikleri kademeli olarak rafine ederek çok seviyeli özellik haritası sunumunu geliştirmeyi taahhüt eder.Her özellik parlatma adımı için, özellik cilalama modülü (FPM), yüksek seviyeli anlamsal bilgileri tüm alt seviyeli özellik haritalarına doğrudan entegre etmek için kullanılır. Böylelikle bilgi kaybını azaltır. Sonunda, PFPN'nin 5 kıyaslama üzerindeki performansı, en son 16 yöntemden önemli ölçüde daha iyiydi.
Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı