g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

İlk on CNN mimarisini gösterin

CNN tarafından sağlanan ilerlemenin çoğu, daha güçlü donanımlardan, daha fazla veri setinden ve daha büyük modellerden değil, esas olarak yeni fikirlerden ve algoritmalardan ve optimize edilmiş ağ yapılarından gelir.

Orijinal başlık | Resimli: 10 CNN Mimarisi

Çeviri | Liao Ying, had_in (Çin Elektronik Bilim ve Teknoloji Üniversitesi), Emmanuel Simon (Güneydoğu Üniversitesi)

"Ortak" derken, derin öğrenme kitaplıkları (TensorFlow, Keras ve PyTorch gibi) tarafından paylaşılan önceden eğitilmiş ağırlıklara sahip modelleri ve ayrıca genellikle sınıfta bahsedilen modelleri kastediyorum. Bu modellerden bazıları, ImageNet Büyük Ölçekli Görsel Tanıma Mücadelesi (ILSVRC) gibi yarışmalarda başarılı olmuştur.

Tartışılacak 10 mimari ve ilgili makalenin yılı

Keras'ta önceden eğitilmiş modellerle 6 mimariyi tartışacağız. Yukarıdaki görüntü, Keras belgelerindeki bir tablodan uyarlanmıştır.

Bu makaleyi yazmanın asıl amacı, ağ yapısını gösteren çok sayıda blog ve makale bulunmadığını düşünmektir (ilgili makaleleri biliyorsanız, lütfen benimle paylaşın). Bu yüzden referans için bir makale yazmaya karar verdim. Bu amaçla, bu makaleyi tamamlamak için birçok makale ve kod (çoğunlukla TensorFlow ve Keras'tan) okudum.

Eklemek gerekirse, genellikle gördüğümüz evrişimli sinir ağı mimarisi, birçok faktörle yükseltilmiş bilgisayar donanımının, ImageNet yarışmalarının, belirli görevlerin işlenmesinin, yeni fikirlerin ve benzerlerinin sonucudur. Google araştırmacısı Christian Szegedy'nin bahsettiği:

Şimdi ağ yapısının nasıl yavaşça optimize edildiğini tanıtmaya ve görmeye devam ediyoruz.

Görselleştirme hakkında bir not: evrişim çekirdeği sayısı, doldurma, adım, bırakma ve seviyelendirme işlemleri görselleştirmede işaretlenmemiştir.

İçindekiler (yayın yılına göre sıralı)

LeNet-5

AlexNet

VGG-16

Başlangıç-v1

Başlangıç-v3

ResNet-50

Xception

Başlangıç-v4

Başlangıç-Sıfırlama Ağları

ResNeXt-50

efsane

1. LeNet-5 (1998)

Şekil 1: LeNet-5 mimarisi, makalelerinden alıntılanmıştır

LeNet-5, en basit mimarilerden biridir. 2 evrişimli katmana ve 3 tam bağlantılı katmana sahiptir (bu nedenle "5" - sinir ağının adı genellikle sahip oldukları evrişimli ve tam bağlantılı katmanların sayısından türetilir). Şu anda bildiğimiz ortalama havuzlama katmanına, eğitilebilir ağırlıklara sahip (CNN'lerin mevcut tasarımından farklı) alt örnekleme katmanı denir. Bu mimarinin yaklaşık 60.000 parametresi vardır.

İnovasyon noktaları:

Bu mimari standart bir "şablon" haline geldi: evrişimli ve havuz katmanlarını kaplayın ve ağı bir veya daha fazla tam bağlantılı katmanla sonlandırın.

Yayınlanan:

Kağıt: Gradyan Temelli Öğrenme Uygulama Belge Tanıma'ya yalan söyledi
Yazar: Yann LeCun, Léon Bottou, Yoshua Bengio ve Patrick Haffner
Yayınlandığı yer: IEEE Bildirileri (1998)

2. AlexNet

Şekil 2: Makalelerinden alıntılanan AlexNet yapısı

AlexNet ağında 60 milyon parametre, 8 ağ katmanı - 5 evrişimli katman ve 3 tam bağlı katman vardır. LeNet-5 ile karşılaştırıldığında, AlexNet sadece daha fazla ağ katmanı biriktiriyor.

Makale yayınlandığında yazar, AlexNet'in "ImageNet alt kümeleri üzerinde eğitilmiş en büyük evrişimli sinir ağlarından biri" olduğuna dikkat çekti.

İnovasyon noktaları:

1. Doğrusal düzeltme fonksiyonunun (ReLus) aktivasyon fonksiyonu olarak kullanıldığını ilk kez fark ettiler.

2. Evrişimli sinir ağlarını kullanarak havuzlamayı üst üste getirin.

Yayınlanan:

Makale: ImageNet Sınıflandırması için Derin Evrişimli Sinir Ağı
Yazar: Alex Krizhevsky, IIya Sutskever, Geoffrey Hinton, Kanada, Toronto Üniversitesi
Yayın: 2012 Sinirsel Bilgi İşleme Sistemi toplantı (NeurIPS 2012)

3. VGG-16 (2014)

Şekil 3: Kağıtlarından alıntılanan VGG-16 mimarisi

CNN'lerin gittikçe derinleştiğini fark etmeliydin. Bunun nedeni, derin sinir ağlarının performansını iyileştirmenin en doğrudan yolunun, boyutlarını artırmak olmasıdır (Szegedy ve diğerleri). Görsel Geometri Grubu (VGG) personeli, 13 evrişimli katmana ve 3 tam bağlı katmana sahip olan VGG-16'yı önerdi ve AlexNet'in ReLU aktivasyon işlevini kullanmaya devam etti. Yine, bu ağ AlexNet'in üstüne daha fazla katman yığıyor. 138M parametresi vardır ve yaklaşık 500mb disk alanı kaplar. Ayrıca daha derin bir varyant olan VGG-19 tasarladılar.

İnovasyon noktaları:

Özette de belirtildiği gibi, bu makalenin katkısı daha derin bir ağ tasarlamaktır (AlexNet'in yaklaşık iki katı).

Yayınlanan:

Kağıt: Büyük Ölçekli Görüntü Tanıma için Çok Derin Evrişimli Ağlar
Yazar: Karen Simonyan, Andrew Zisserman Oxford Üniversitesi, İngiltere ..
arXiv baskı, 2014

4. Başlangıç-v1 (2014)

Şekil 4: Inception-v1 mimarisi. Bu CNN, iki yardımcı ağa sahiptir (çıkarım sırasında atılır). Mimari, makalede Şekil 3'ten alıntılanmıştır.

Bu 22 katmanlı ağ mimarisi, 5M parametresine sahiptir ve Inception-v1 ağı olarak adlandırılır. Makalede açıklandığı gibi bu mimari, Ağda Ağ (eke bakın) yöntemini kapsamlı bir şekilde kullanır. Bu, "Başlangıç modülü" aracılığıyla gerçekleştirilir. Başlangıç modülünün mimari tasarımı, seyrek yapılar üzerine yapılan yaklaşık araştırmanın ürünüdür (daha fazla bilgi için lütfen makaleyi okuyun). Her modülün 3 iyileştirmesi vardır:

1. Farklı evrişimlerin paralel topolojilerini kullanın ve ardından bunları "birleştirmek" için 1 × 1, 3 × 3 ve 5 × 5 evrişimlerle çıkarılan farklı özellikleri elde etmek için bağlanın. Bu fikir, Arora ve arkadaşlarının bazı derin temsilleri öğrenmek için uygun sınırlar başlıklı makalesinden esinlenmiştir Makale, son katmanın ilgili istatistiklerini analiz etmek ve bunları yüksek korelasyonda birleştirmek için katman katman bir inşa yöntemi önermiştir. Birim grubu.

2. Boyutluluğu azaltmak ve hesaplama darboğazlarını ortadan kaldırmak için 1 × 1 evrişimi kullanın.

3.1 × 1 evrişim, evrişimli katmana doğrusal olmama ekler (Ağ İçi Ağ kağıdına göre).

Yazar ayrıca iki yardımcı sınıflandırıcı tanıttı, böylece sınıflandırıcı daha sığ ağ bölümünde geri yayılmanın gradyan bilgisini arttırmak ve ek düzenleme sağlamak için tanıyabilir. Yardımcı ağ (yardımcı sınıflandırıcıya bağlı dal) çıkarım sırasında atılır.

İnovasyon noktaları:

Bir ağ oluşturmak için yoğun modüller / bloklar kullanın. Evrişimli katmanları değil, evrişimli katmanlar içeren modülleri veya blokları istifliyoruz. Inception adını Leonardo DiCaprio'nun oynadığı 2010 bilim kurgu filmi "Inception" dan almıştır.

Yayınlanan:

Kağıt: Konvolüsyonlarla Daha Derine İnmek
Yazar: Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich Google, Michigan Üniversitesi, Kuzey Carolina Üniversitesi.
Yayınlanma tarihi: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

5. Başlangıç-v3 (2015)

İnovasyon noktaları:

BN katmanını tanıtın (basit olması için yukarıdaki şekilde gösterilmemiştir).

Önceki Inception-v1 sürümüne kıyasla gelişme nedir?

7 × 7 evrişimi bir dizi 3 × 3 evrişimle değiştirin

Yayınlanan:

Makale: Bilgisayarla Görü için Başlangıç Mimarisini Yeniden Düşünmek
Yazar: Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna Google, University College London
Yayınlanma tarihi: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

6. ResNet-50 (2015)

İnovasyon noktaları: Atlama bağlantılarını yükselt (

Yayınlanan:

Kağıt: Görüntü Tanıma için Derin Artık Öğrenme
Yazar: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Microsoft
Yayınlanma tarihi: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

7. Xception (2016)

Şekil 7: GitHub'daki keras-team koduna dayalı Xception mimarisi. Kanaldan bağımsız evrişimli katman, "konv sep" olarak belirtilir.

Xception, Inception'dan bir iyileştirmedir ve Inception modülünün yerini kanaldan bağımsız bir evrişimli katman almıştır. Kabaca Inception-v1 (23M) ile aynı sayıda parametreye sahiptir.

Xception, Inception varsayımını eXtreme'e (dolayısıyla adı) getirdi. Öyleyse Başlangıç varsayımı nedir? Neyse ki, bu makalede açıkça belirtilmiştir (François sayesinde!)

İlk olarak, çapraz kanal (veya çapraz özellik haritalama) korelasyonu 1x1 evrişim çekirdeği tarafından yakalanır.
İkinci olarak, her bir kanaldaki uzamsal korelasyon geleneksel 3x3 veya 5x5 evrişim ile yakalanır.

Bu fikri en uç noktaya uygulamak, her kanalda 1x1 evrişim gerçekleştirmek ve ardından her çıktıda 3x3 gerçekleştirmek anlamına gelir. Bu, ilk modülün kanaldan bağımsız evrişim ile değiştirilmesi ile aynıdır.

İnovasyon noktaları:

Tamamen kanaldan bağımsız evrişimli katmanlara dayalı bir CNN tanıtın.

Yayınlanan:

Makale: Xception: Derinliğe Ayrılabilir Konvolüsyonlarla Derin Öğrenme
Yazar: François Chollet Google.
Yayınlanma tarihi: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

8. Başlangıç-v4 (2016)

Yayınlanan:

Makale: Inception-v4, Inception-ResNet ve Artık Bağlantıların Öğrenme Üzerindeki Etkisi
Yazar: Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi Google.
Yayınlandığı yer: Otuz Birinci AAAI Yapay Zeka Konferansı Bildirileri

9. Başlangıç-ResNet-V2 (2016)

Inception-v3'ün önceki sürümüyle karşılaştırıldığında, iyileştirmeler nelerdir?

1. Başlangıç modülünü Artık Başlangıç modülüne dönüştürün.

2. Daha fazla Başlangıç modülü ekleyin.

3. Stem modülünden sonra yeni bir Başlangıç modülü (Inception-A) ekleyin.

Yayınlanan:

Makale: Inception-v4, Inception-ResNet ve Artık Bağlantıların Öğrenme Üzerindeki Etkisi
Yazar: Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi Google
Yayınlandığı yer: Otuz Birinci AAAI Yapay Zeka Konferansı Bildirileri

10. ResNeXt-50 (2017)

Şekil 10: ResNeXt mimarisi, ilgili makaleden alıntılanmıştır.

Yayınlanan:

Kağıt: Derin Sinir Ağları için Toplu Artık Dönüşümler
Yazar: Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He University of California San Diego, Facebook Research.
Yayınlanma tarihi: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Ek: Ağ İçinde Ağ (2014)

İnovasyon noktaları:

1. MLP evrişimli katman, 1 × 1 evrişim

2. Global ortalama havuzlama (her özellik haritasının ortalamasını alın ve sonuç vektörünü softmax katmanına girin)

Yayınlanan:

Kağıt: Ağ İçinde Ağ
Yazar: Min Lin, Qiang Chen, Shuicheng Yan Ulusal Singapur Üniversitesi.
arXiv baskı, 2013

Kısa bir inceleme için ağ yapısının 10 görselleştirmesinin bir listesi:

LeNet-5

AlexNet

VGG-16

Başlangıç-v1

Başlangıç-v3

Başlangıç-v4

Başlangıç-ResNet-V2

Xception

ResNet-50

ResNeXt-50

Sinir ağı görselleştirme kaynakları

Sinir ağınızı görselleştirmenize izin verecek bazı kaynaklar şunlardır:

Netron (https://lutzroeder.github.io/netron/)
TensorFlow tarafından hazırlanan TensorBoard API (https: // www. tensorflow.org/tensorboard/r1/overview)
plot_model API, Keras tarafından (https://keras.io/visualization/)
pytorchviz paketi (https: // github .com / szagoruyko / pytorchviz)

Benzer makaleler

CNN Mimarileri: LeNet, AlexNet, VGG, GoogLeNet, ResNet ve daha fazlası.
Başlangıç Ağının Sürümlerine Yönelik Basit Bir Kılavuz

referans

Referans olarak yukarıdaki ağ mimarisini öneren makaleyi kullandım. Ek olarak, işte bu makalede alıntı yaptığım makalelerden bazıları:

https: // github .com / tensorflow / modeller / ağaç / ana / araştırma / ince / ağlar (github .com / tensorflow)
Keras ekibinden derin öğrenme modellerinin uygulanması (github .com / keras-ekibi)
Evrişimli Sinir Ağı Mimarileri Üzerine Ders Notları: LeNet'ten ResNet'e (slazebni.cs.illinois.edu)
Gözden Geçirme: NIN - Ağda Ağ (Görüntü Sınıflandırma) (veri bilimine doğru .com )