ResNet-2015 ILSVRC kazanan (görüntü sınıflandırma, yerelleştirme ve algılama)

Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:

İnceleme: ResNet - ILSVRC 2015 Kazananı (Görüntü Sınıflandırma, Yerelleştirme, Algılama)

Yazar | SH Tsang

Tercüme | Stephen Two Dogs

Düzeltme | Sos Armut İnceleme | Johnson Lee'nin Maaş Artışı Sıralama | Daimi Balık Kralı

Orijinal bağlantı:

https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8

Bu yazıda ResNet'i inceledik. ResNet, hedef gösterimini doğrudan öğrenmek yerine artık temsil işlevini öğrenerek, 152 katmana kadar çok derin bir ağa sahip olabilir.

ResNet, girişi değiştirmeden önceki katmandan sonraki katmana girişi barındırmak için atlama bağlantıları (veya kısayol bağlantıları) sunar. Bağlantıları atlamak daha derin bir ağ elde edebilir.Sonunda ResNet, ILSVRC 2015'in görüntü sınıflandırma, algılama ve konumlandırma ve MS COCO 2015 algılama ve segmentasyonunda galibi oldu.

ILSVRC 2015 Görüntü Sınıflandırma Sıralaması

ImageNet, yaklaşık 22.000 kategori içeren, 15 milyondan fazla etiketli yüksek çözünürlüklü görüntüden oluşan bir veri kümesidir. ILSVRC, 1000 kategorinin her birinde yaklaşık 1000 görüntüden oluşan bir ImageNet alt kümesi kullanır. Toplamda yaklaşık 1,2 milyon eğitim görüntüsü, 50.000 doğrulama görüntüsü ve 100.000 test görüntüsü bulunmaktadır.

Bu makale şunları içerir:

  • Sıradan ağ problemlerinin varlığı (gradyan kaybolması / gradyan patlaması)

  • Artık ağda atlama / kısa bağlantı (ResNet)

  • ResNet mimarisi

  • Darboğaz Darboğaz'ın tasarımı

  • Ablasyon çalışması (deneysel karşılaştırma)

  • En son yöntemle karşılaştırma (görüntü sınıflandırması)

  • En son yöntemle karşılaştırma (hedef tespiti)

  • 1. Sıradan ağlarla ilgili sorunlar

    Geleneksel derin öğrenme ağları için, genellikle herhangi bir atlama / kısa bağlantı olmadan AlexNet, ZFNet ve VGGNet gibi sınıflandırma görevleri için evrişimli bir katmana ve tamamen bağlı (FC) bir katmana sahiptirler, biz buna normal bir ağ diyoruz. Sıradan ağ daha derin olduğunda (katman sayısı arttığında), gradyan kaybolması / gradyan patlaması sorunu ortaya çıkacaktır.

    Kaybolan / Patlayan Degradeler Kaybolan / Patlayan Degradeler

    Geri yayılım sırasında, her bir eğitim yinelemesinde mevcut ağırlığa göre hata fonksiyonunun kısmi türevi elde edildiğinde, n-katmanlı ağdan geçmek bu küçük / büyük gradyan değerlerinin gradyan etkisinin n katı ile çarpılmasına neden olacaktır.

    Ağ derin olduğunda, bu küçük sayılar n ile çarpılır ve sıfır olur (kaybolur).

    Ağ derin olduğunda, bu büyük sayıların n çarpımı son derece büyük hale gelir (patlayıcı). Genellikle daha derin ağların daha doğru tahminlere sahip olmasını bekleriz. Bununla birlikte, aşağıdaki karşı örnek, 20 katmanlı normal ağın, 56 katmanlı sıradan ağa göre daha düşük eğitim hatası ve test hatasına sahip olduğunu göstermektedir.Bu, gradyanın ortadan kalkması nedeniyle performans düşüşü sorunudur.

    Ortak CIFAR-10 veri kümesi ağı

    2. Kalan ağda atlama / kısa bağlantı (ResNet)

    Kaybolan / patlayan gradyan problemini çözmek için, aşağıda gösterildiği gibi, birkaç ağırlık katmanından sonra çıkışa x girişi eklemek için atlama / kısa bağlantı atlama / kısayol eklenir:

    Artık ağlar için yapı taşları

    Bu nedenle, çıktı H (x) = F (x) + x.

    Ağırlık katmanı aslında bir artık haritalama öğreniyor: F (x) = H (x) -x

    (Geri yayılım sırasında) Ağırlık katmanında gradyan kaybolsa bile, x'i her zaman önceki katmana geri aktarırız.

    3. ResNet mimarisi

    Atlamalı / kısa bağlantılı 34 katmanlı ResNet, 34 katmanlı normal ağ (orta), 19 katmanlı VGG-19 (alt)

    Yukarıdaki şekil ResNet mimarisini göstermektedir.

  • VGG-19 (altta), ILSVRC 2014'teki en gelişmiş yöntemdir.

  • 34 katmanlı normal ağ (orta), VGG-19'dan daha derin bir ağ, yani daha evrişimli katmanlar olarak kabul edilir.

  • 34 katmanlı artık ağ (ResNet), atlama / kısa bağlantı eklenmiş sıradan bir ağdır

  • ResNet yapı taşı için, giriş boyutu çıktı boyutundan daha küçük olduğunda, 3 tür atlama / kısa bağlantı vardır.

    (A) Kısayol Kısayolu, boyutu artırmak için ek sıfır doldurma kullanarak kimlik eşleme gerçekleştirir. Bu nedenle, hiçbir ek parametre eklenmez.

    (B) Bir projeksiyon kısayolu yalnızca boyutu artırmak için kullanılır ve diğer kısa bağlantı kısayolları hala aynı bağlantılardır. Ağ, ek parametreler gerektirir.

    (C) Tüm kısa bağlantılar projeksiyon bağlantılarıdır. Gereken ek parametreler (B) 'den fazladır.

    4. Darboğaz Darboğaz tasarımı

    Ağ şu anda çok derin olduğundan, zaman karmaşıklığı çok yüksek. Darboğaz Darboğaz, aşağıdaki gibi karmaşıklığı azaltmak için tasarlanmıştır:

    Makalede önerilen temel blok (solda) ve darboğaz blok tasarımı (sağda)

    Şekilde (sağda) gösterildiği gibi, ağın başına ve sonuna 1 × 1 dönüşüm katmanı eklenir. Bu, Ağ İçinde Ağ ve GoogLeNet'te (Inception-v1) önerilen tekniktir. Gerçekler, 1 × 1 dönüşümün ağ performansını düşürmeden bağlantı (parametre) sayısını azaltabileceğini kanıtladı. (İlgileniyorsanız lütfen incelememi ziyaret edin.)

    Darboğaz modülünü kullanarak, 34 katmanlı ResNet 50 katmanlı ResNet olur. Ve makale ayrıca daha derin bir ağ ve darboğaz tasarımı sunuyor: ResNet-101 ve ResNet-152. Tüm ağların genel yapısı aşağıdaki gibidir:

    Tüm ağların genel mimarisi

    VGG-16 / 19'un 15.3 / 19.6 milyar FLOPS'a sahip olduğunu belirtmekte fayda var. ResNet-152'nin karmaşıklığı hala VGG-16 / 19'unkinden daha düşük !!!!

    5. Ablasyon deneyi

    5.1 Geleneksel ağ VS artık ağ

    Doğrulama hata oranı: 18 katmanlı ve 34 katmanlı normal ağ (solda), 18 katmanlı ve 34 katmanlı ResNet (sağda)

    10 ürün kullanılarak test edilen ilk 1 hata oranı

    Normal bir ağ kullanılırken, kaybolan gradyan problemi nedeniyle 18 katman 34 katmandan daha iyidir.

    ResNet kullanırken, 34 katman 18 katmandan daha iyidir ve kaybolan gradyan sorunu bağlantıları atlayarak çözülmüştür.

    18 katmanlı sıradan ağ ile 18 katmanlı ResNet'i karşılaştırırsak, çok fazla fark yoktur. Bunun nedeni, sığ ağların gradyanların kaybolması problemine sahip olmayacak olmasıdır.

    6. En gelişmiş yöntemlerle karşılaştırma (görüntü sınıflandırma)

    6.1 ILSVRC verileri

    10 çeşit mahsul testi sonucu

    ResNet-34 A, B ve C'yi karşılaştırarak, B, A'dan biraz daha iyidir ve C, B'den biraz daha iyidir. Bunun nedeni, B'nin ek parametreler sunmasıdır. ResNet-A, B ve C'nin tümü yaklaşık% 7'lik bir hata oranı elde etti.

    Ağ derinliğini 152 katmana çıkararak,% 5,71'lik bir Top5 hata oranı elde edilir; bu, VGG-16, GoogLeNet (Inception-v1) ve PReLU-Net'ten çok daha iyidir.

    10 mahsul verisi üzerinde çok ölçekli bilgi tam evrişimli ağın test sonuçları

    Şu anda ResNet-152% 4,49'luk bir hata oranı elde edebilir.

    10 ürün testi + çok ölçekli bilgi + 6 model entegrasyon sonucu ile tam evrişimli ağ

    6 modelin entegrasyonu eklendikten sonra hata oranı% 3.57'dir.

    6.2 CIFAR-10 veri seti

    CIFAR-10 sonuçlar

    Bağlantıyı atlayarak daha derin bir model oluşturabiliriz. Ancak katman sayısı 110'dan 1202'ye çıktığında hata oranının% 6,43'ten% 7,93'e çıktığı görüldü ki bu yazıda açık bir konu. Ancak ResNet-1202'nin optimizasyon zorluğu yoktur, yani yine de yakınsayabilir.

    7. En gelişmiş yöntemle karşılaştırma (nesne algılama)

    PASCAL VOC 2007/2012 veri haritası (%)

    MS COCO haritası (%)

    ResNet-101'i daha hızlı R-CNN için kullanarak, ResNet, VGG-16'dan daha iyi performans elde etti. ResNet nihayet ImageNet algılama, konumlandırma, COCO algılama ve COCO segmentasyonunda birinci oldu!

    İlgili literatür

    Görüntü Tanıma için Derin Artık Öğrenme

    Büyük Ölçekli Görüntü Tanıma için Çok Derin Evrişimli Ağlar

    Daha Hızlı R-CNN: Bölge Teklif Ağları ile Gerçek Zamanlı Nesne Algılamaya Doğru

    Daha Hızlı R-CNN: Bölge Teklif Ağları ile Gerçek Zamanlı Nesne Algılamaya Doğru

    Benim yorumum

    İnceleme: Daha Hızlı R-CNN (Nesne Algılama)

    Gözden Geçirme: Toplu Normalleştirme (Inception-v2 / BN-Inception) - ILSVRC 2015'te İnsan Düzeyinde Performansı Aşan İkincisi (Görüntü Sınıflandırma)

    İnceleme: PReLU-Net, ILSVRC 2015'te İnsan Seviyesini Aşan İlk Performans (Görüntü Sınıflandırma)

    İnceleme: GoogLeNet (Inception v1) - ILSVRC 2014 Kazananı (Görüntü Sınıflandırma)

    İnceleme: VGGNet - 1. İkinci (Görüntü Sınıflandırma), ILSVRC 2014'te Birincilik (Yerelleştirme)

    Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?

    [ResNet-2015 ILSVRC Winner (Image Classification, Location and Detection)] 'a tıklayın veya aşağıdaki adrese basılı tutun:

    https://ai.yanxishe.com/page/TextTranslation/1525

    AI Araştırma Enstitüsü bugün şunları öneriyor: Lei Feng Net Lei Feng Net Lei Feng Net

    Li Feifei, koz kartı kursu, bilgisayarla görmenin derinleşme seyri, bilgisayar görüşü alanında sinir ağının uygulanması, görüntü sınıflandırma, konumlandırma, algılama ve diğer görsel tanıma görevlerinin yanı sıra arama, görüntü anlama, uygulama, haritalama, tıp ve sürücüsüz sürüş konularında ders veriyor. Uçaklar ve otonom araçlar alanında en son uygulamalar.

    Videoyu ücretsiz izlemek için gruba katılın: https://ai.yanxishe.com/page/groupDetail/19

    Fei Dong uzay hayalinizi gerçekleştirmek mi istiyor? Billionaire Boys Club sizin için doğrudan bir uzay yatağı yayınladı!
    önceki
    Leaf neden Tesla'dan daha iyi satıyor? Bugün gerçek arabayı gördüm ve sonunda anladım
    Sonraki
    "Forensic Qin Ming" ve "Snail" filmlerinin geliştirilmesi ve çekiminin perde arkası
    Lenovo Z5 Pro piyasaya sürüldü: Gökyüzünü kıran bir ekran-gövde oranına sahip, kayan ekran kampının bir başka üyesi
    "Fang Hua" nın gişesi 300 milyona yakın, Feng Xiaogang ağlamaktan gülmeye dönüştü ama en büyük kazanan oydu!
    Yeni golf ailesi resmi olarak çevrimdışı veya 11 Eylül'de piyasaya sürüldü
    Xiaomi Youpin, kitle fonlamasında yeni bir rekor kırdı: Gu Xiaojiu'nun bağış toplaması iki haftada 10 milyonu aştı
    Wu Jing bir numaralı kadın, Zhao Wenzhuo tarafından kaçırıldı! Kendini yöneten ve oyunculuk yapan Zhao Wenzhuo, Wu Jing gibi ayağa kalkabilir mi?
    2018 Apple'ın yeni MacBook Air incelemesi, ruh kemiği gibi bir yükseltme
    Bu makale, DeconvNet örnekleme katmanını (anlamsal segmentasyon) anlamanızı sağlar
    LG V40 ThinQ konferans ısınma videosu: arkadaki üç kamera 3 Ekim'de piyasaya sürülecek
    Çiçek izleme süresi | Çiçek izleme ve çay toplama, Bishan Sanhe sizi oynamaya davet ediyor
    Buick GL6 resmi haritası çıktı! Yeni araba bu yıl içinde / 1.3T motorla listelenecek
    Nubia X ayrıntılı değerlendirme: en kapsamlı tam ekran, hem ön hem de arka ekranlardır
    To Top