Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:
İnceleme: ResNet - ILSVRC 2015 Kazananı (Görüntü Sınıflandırma, Yerelleştirme, Algılama)
Yazar | SH Tsang
Tercüme | Stephen Two Dogs
Düzeltme | Sos Armut İnceleme | Johnson Lee'nin Maaş Artışı Sıralama | Daimi Balık Kralı
Orijinal bağlantı:
https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8
Bu yazıda ResNet'i inceledik. ResNet, hedef gösterimini doğrudan öğrenmek yerine artık temsil işlevini öğrenerek, 152 katmana kadar çok derin bir ağa sahip olabilir.
ResNet, girişi değiştirmeden önceki katmandan sonraki katmana girişi barındırmak için atlama bağlantıları (veya kısayol bağlantıları) sunar. Bağlantıları atlamak daha derin bir ağ elde edebilir.Sonunda ResNet, ILSVRC 2015'in görüntü sınıflandırma, algılama ve konumlandırma ve MS COCO 2015 algılama ve segmentasyonunda galibi oldu.
ILSVRC 2015 Görüntü Sınıflandırma Sıralaması
ImageNet, yaklaşık 22.000 kategori içeren, 15 milyondan fazla etiketli yüksek çözünürlüklü görüntüden oluşan bir veri kümesidir. ILSVRC, 1000 kategorinin her birinde yaklaşık 1000 görüntüden oluşan bir ImageNet alt kümesi kullanır. Toplamda yaklaşık 1,2 milyon eğitim görüntüsü, 50.000 doğrulama görüntüsü ve 100.000 test görüntüsü bulunmaktadır.
Sıradan ağ problemlerinin varlığı (gradyan kaybolması / gradyan patlaması)
Artık ağda atlama / kısa bağlantı (ResNet)
ResNet mimarisi
Darboğaz Darboğaz'ın tasarımı
Ablasyon çalışması (deneysel karşılaştırma)
En son yöntemle karşılaştırma (görüntü sınıflandırması)
En son yöntemle karşılaştırma (hedef tespiti)
Geleneksel derin öğrenme ağları için, genellikle herhangi bir atlama / kısa bağlantı olmadan AlexNet, ZFNet ve VGGNet gibi sınıflandırma görevleri için evrişimli bir katmana ve tamamen bağlı (FC) bir katmana sahiptirler, biz buna normal bir ağ diyoruz. Sıradan ağ daha derin olduğunda (katman sayısı arttığında), gradyan kaybolması / gradyan patlaması sorunu ortaya çıkacaktır.
Kaybolan / Patlayan Degradeler Kaybolan / Patlayan Degradeler
Geri yayılım sırasında, her bir eğitim yinelemesinde mevcut ağırlığa göre hata fonksiyonunun kısmi türevi elde edildiğinde, n-katmanlı ağdan geçmek bu küçük / büyük gradyan değerlerinin gradyan etkisinin n katı ile çarpılmasına neden olacaktır.
Ağ derin olduğunda, bu küçük sayılar n ile çarpılır ve sıfır olur (kaybolur).
Ağ derin olduğunda, bu büyük sayıların n çarpımı son derece büyük hale gelir (patlayıcı). Genellikle daha derin ağların daha doğru tahminlere sahip olmasını bekleriz. Bununla birlikte, aşağıdaki karşı örnek, 20 katmanlı normal ağın, 56 katmanlı sıradan ağa göre daha düşük eğitim hatası ve test hatasına sahip olduğunu göstermektedir.Bu, gradyanın ortadan kalkması nedeniyle performans düşüşü sorunudur.
Ortak CIFAR-10 veri kümesi ağı
Kaybolan / patlayan gradyan problemini çözmek için, aşağıda gösterildiği gibi, birkaç ağırlık katmanından sonra çıkışa x girişi eklemek için atlama / kısa bağlantı atlama / kısayol eklenir:
Artık ağlar için yapı taşları
Bu nedenle, çıktı H (x) = F (x) + x.
Ağırlık katmanı aslında bir artık haritalama öğreniyor: F (x) = H (x) -x
(Geri yayılım sırasında) Ağırlık katmanında gradyan kaybolsa bile, x'i her zaman önceki katmana geri aktarırız.
Atlamalı / kısa bağlantılı 34 katmanlı ResNet, 34 katmanlı normal ağ (orta), 19 katmanlı VGG-19 (alt)
Yukarıdaki şekil ResNet mimarisini göstermektedir.
VGG-19 (altta), ILSVRC 2014'teki en gelişmiş yöntemdir.
34 katmanlı normal ağ (orta), VGG-19'dan daha derin bir ağ, yani daha evrişimli katmanlar olarak kabul edilir.
34 katmanlı artık ağ (ResNet), atlama / kısa bağlantı eklenmiş sıradan bir ağdır
ResNet yapı taşı için, giriş boyutu çıktı boyutundan daha küçük olduğunda, 3 tür atlama / kısa bağlantı vardır.
(A) Kısayol Kısayolu, boyutu artırmak için ek sıfır doldurma kullanarak kimlik eşleme gerçekleştirir. Bu nedenle, hiçbir ek parametre eklenmez.
(B) Bir projeksiyon kısayolu yalnızca boyutu artırmak için kullanılır ve diğer kısa bağlantı kısayolları hala aynı bağlantılardır. Ağ, ek parametreler gerektirir.
(C) Tüm kısa bağlantılar projeksiyon bağlantılarıdır. Gereken ek parametreler (B) 'den fazladır.
Ağ şu anda çok derin olduğundan, zaman karmaşıklığı çok yüksek. Darboğaz Darboğaz, aşağıdaki gibi karmaşıklığı azaltmak için tasarlanmıştır:
Makalede önerilen temel blok (solda) ve darboğaz blok tasarımı (sağda)
Şekilde (sağda) gösterildiği gibi, ağın başına ve sonuna 1 × 1 dönüşüm katmanı eklenir. Bu, Ağ İçinde Ağ ve GoogLeNet'te (Inception-v1) önerilen tekniktir. Gerçekler, 1 × 1 dönüşümün ağ performansını düşürmeden bağlantı (parametre) sayısını azaltabileceğini kanıtladı. (İlgileniyorsanız lütfen incelememi ziyaret edin.)
Darboğaz modülünü kullanarak, 34 katmanlı ResNet 50 katmanlı ResNet olur. Ve makale ayrıca daha derin bir ağ ve darboğaz tasarımı sunuyor: ResNet-101 ve ResNet-152. Tüm ağların genel yapısı aşağıdaki gibidir:
Tüm ağların genel mimarisi
VGG-16 / 19'un 15.3 / 19.6 milyar FLOPS'a sahip olduğunu belirtmekte fayda var. ResNet-152'nin karmaşıklığı hala VGG-16 / 19'unkinden daha düşük !!!!
5.1 Geleneksel ağ VS artık ağ
Doğrulama hata oranı: 18 katmanlı ve 34 katmanlı normal ağ (solda), 18 katmanlı ve 34 katmanlı ResNet (sağda)
10 ürün kullanılarak test edilen ilk 1 hata oranı
Normal bir ağ kullanılırken, kaybolan gradyan problemi nedeniyle 18 katman 34 katmandan daha iyidir.
ResNet kullanırken, 34 katman 18 katmandan daha iyidir ve kaybolan gradyan sorunu bağlantıları atlayarak çözülmüştür.
18 katmanlı sıradan ağ ile 18 katmanlı ResNet'i karşılaştırırsak, çok fazla fark yoktur. Bunun nedeni, sığ ağların gradyanların kaybolması problemine sahip olmayacak olmasıdır.
6.1 ILSVRC verileri
10 çeşit mahsul testi sonucu
ResNet-34 A, B ve C'yi karşılaştırarak, B, A'dan biraz daha iyidir ve C, B'den biraz daha iyidir. Bunun nedeni, B'nin ek parametreler sunmasıdır. ResNet-A, B ve C'nin tümü yaklaşık% 7'lik bir hata oranı elde etti.
Ağ derinliğini 152 katmana çıkararak,% 5,71'lik bir Top5 hata oranı elde edilir; bu, VGG-16, GoogLeNet (Inception-v1) ve PReLU-Net'ten çok daha iyidir.
10 mahsul verisi üzerinde çok ölçekli bilgi tam evrişimli ağın test sonuçları
Şu anda ResNet-152% 4,49'luk bir hata oranı elde edebilir.
10 ürün testi + çok ölçekli bilgi + 6 model entegrasyon sonucu ile tam evrişimli ağ
6 modelin entegrasyonu eklendikten sonra hata oranı% 3.57'dir.
6.2 CIFAR-10 veri seti
CIFAR-10 sonuçlar
Bağlantıyı atlayarak daha derin bir model oluşturabiliriz. Ancak katman sayısı 110'dan 1202'ye çıktığında hata oranının% 6,43'ten% 7,93'e çıktığı görüldü ki bu yazıda açık bir konu. Ancak ResNet-1202'nin optimizasyon zorluğu yoktur, yani yine de yakınsayabilir.
PASCAL VOC 2007/2012 veri haritası (%)
MS COCO haritası (%)
ResNet-101'i daha hızlı R-CNN için kullanarak, ResNet, VGG-16'dan daha iyi performans elde etti. ResNet nihayet ImageNet algılama, konumlandırma, COCO algılama ve COCO segmentasyonunda birinci oldu!
Görüntü Tanıma için Derin Artık Öğrenme
Büyük Ölçekli Görüntü Tanıma için Çok Derin Evrişimli Ağlar
Daha Hızlı R-CNN: Bölge Teklif Ağları ile Gerçek Zamanlı Nesne Algılamaya Doğru
Daha Hızlı R-CNN: Bölge Teklif Ağları ile Gerçek Zamanlı Nesne Algılamaya Doğru
Benim yorumum
İnceleme: Daha Hızlı R-CNN (Nesne Algılama)
Gözden Geçirme: Toplu Normalleştirme (Inception-v2 / BN-Inception) - ILSVRC 2015'te İnsan Düzeyinde Performansı Aşan İkincisi (Görüntü Sınıflandırma)
İnceleme: PReLU-Net, ILSVRC 2015'te İnsan Seviyesini Aşan İlk Performans (Görüntü Sınıflandırma)
İnceleme: GoogLeNet (Inception v1) - ILSVRC 2014 Kazananı (Görüntü Sınıflandırma)
İnceleme: VGGNet - 1. İkinci (Görüntü Sınıflandırma), ILSVRC 2014'te Birincilik (Yerelleştirme)
Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?
[ResNet-2015 ILSVRC Winner (Image Classification, Location and Detection)] 'a tıklayın veya aşağıdaki adrese basılı tutun:
https://ai.yanxishe.com/page/TextTranslation/1525
AI Araştırma Enstitüsü bugün şunları öneriyor: Lei Feng Net Lei Feng Net Lei Feng Net
Li Feifei, koz kartı kursu, bilgisayarla görmenin derinleşme seyri, bilgisayar görüşü alanında sinir ağının uygulanması, görüntü sınıflandırma, konumlandırma, algılama ve diğer görsel tanıma görevlerinin yanı sıra arama, görüntü anlama, uygulama, haritalama, tıp ve sürücüsüz sürüş konularında ders veriyor. Uçaklar ve otonom araçlar alanında en son uygulamalar.
Videoyu ücretsiz izlemek için gruba katılın: https://ai.yanxishe.com/page/groupDetail/19