İlk on CNN mimarisini gösterin

CNN tarafından sağlanan ilerlemenin çoğu, daha güçlü donanımlardan, daha fazla veri setinden ve daha büyük modellerden değil, esas olarak yeni fikirlerden ve algoritmalardan ve optimize edilmiş ağ yapılarından gelir.

Orijinal başlık | Resimli: 10 CNN Mimarisi

Çeviri | Liao Ying, had_in (Çin Elektronik Bilim ve Teknoloji Üniversitesi), Emmanuel Simon (Güneydoğu Üniversitesi)

"Ortak" derken, derin öğrenme kitaplıkları (TensorFlow, Keras ve PyTorch gibi) tarafından paylaşılan önceden eğitilmiş ağırlıklara sahip modelleri ve ayrıca genellikle sınıfta bahsedilen modelleri kastediyorum. Bu modellerden bazıları, ImageNet Büyük Ölçekli Görsel Tanıma Mücadelesi (ILSVRC) gibi yarışmalarda başarılı olmuştur.

Tartışılacak 10 mimari ve ilgili makalenin yılı

Keras'ta önceden eğitilmiş modellerle 6 mimariyi tartışacağız. Yukarıdaki görüntü, Keras belgelerindeki bir tablodan uyarlanmıştır.

Bu makaleyi yazmanın asıl amacı, ağ yapısını gösteren çok sayıda blog ve makale bulunmadığını düşünmektir (ilgili makaleleri biliyorsanız, lütfen benimle paylaşın). Bu yüzden referans için bir makale yazmaya karar verdim. Bu amaçla, bu makaleyi tamamlamak için birçok makale ve kod (çoğunlukla TensorFlow ve Keras'tan) okudum.

Eklemek gerekirse, genellikle gördüğümüz evrişimli sinir ağı mimarisi, birçok faktörle yükseltilmiş bilgisayar donanımının, ImageNet yarışmalarının, belirli görevlerin işlenmesinin, yeni fikirlerin ve benzerlerinin sonucudur. Google araştırmacısı Christian Szegedy'nin bahsettiği:

CNN tarafından sağlanan ilerlemenin çoğu, daha güçlü donanımlardan, daha fazla veri setinden ve daha büyük modellerden değil, esas olarak yeni fikirlerden ve algoritmalardan ve optimize edilmiş ağ yapılarından gelir. (Christian Szegedy ve diğerleri, 2014)

Şimdi ağ yapısının nasıl yavaşça optimize edildiğini tanıtmaya ve görmeye devam ediyoruz.

Görselleştirme hakkında bir not: evrişim çekirdeği sayısı, doldurma, adım, bırakma ve seviyelendirme işlemleri görselleştirmede işaretlenmemiştir.

İçindekiler (yayın yılına göre sıralı)

  • LeNet-5

  • AlexNet

  • VGG-16

  • Başlangıç-v1

  • Başlangıç-v3

  • ResNet-50

  • Xception

  • Başlangıç-v4

  • Başlangıç-Sıfırlama Ağları

  • ResNeXt-50

  • efsane

    1. LeNet-5 (1998)

    Şekil 1: LeNet-5 mimarisi, makalelerinden alıntılanmıştır

    LeNet-5, en basit mimarilerden biridir. 2 evrişimli katmana ve 3 tam bağlantılı katmana sahiptir (bu nedenle "5" - sinir ağının adı genellikle sahip oldukları evrişimli ve tam bağlantılı katmanların sayısından türetilir). Şu anda bildiğimiz ortalama havuzlama katmanına, eğitilebilir ağırlıklara sahip (CNN'lerin mevcut tasarımından farklı) alt örnekleme katmanı denir. Bu mimarinin yaklaşık 60.000 parametresi vardır.

    İnovasyon noktaları:

    Bu mimari standart bir "şablon" haline geldi: evrişimli ve havuz katmanlarını kaplayın ve ağı bir veya daha fazla tam bağlantılı katmanla sonlandırın.

    Yayınlanan:

    • Kağıt: Gradyan Temelli Öğrenme Uygulama Belge Tanıma'ya yalan söyledi

    • Yazar: Yann LeCun, Léon Bottou, Yoshua Bengio ve Patrick Haffner

    • Yayınlandığı yer: IEEE Bildirileri (1998)

    2. AlexNet

    Şekil 2: Makalelerinden alıntılanan AlexNet yapısı

    AlexNet ağında 60 milyon parametre, 8 ağ katmanı - 5 evrişimli katman ve 3 tam bağlı katman vardır. LeNet-5 ile karşılaştırıldığında, AlexNet sadece daha fazla ağ katmanı biriktiriyor.

    Makale yayınlandığında yazar, AlexNet'in "ImageNet alt kümeleri üzerinde eğitilmiş en büyük evrişimli sinir ağlarından biri" olduğuna dikkat çekti.

    İnovasyon noktaları:

    1. Doğrusal düzeltme fonksiyonunun (ReLus) aktivasyon fonksiyonu olarak kullanıldığını ilk kez fark ettiler.

    2. Evrişimli sinir ağlarını kullanarak havuzlamayı üst üste getirin.

    Yayınlanan:

    • Makale: ImageNet Sınıflandırması için Derin Evrişimli Sinir Ağı

    • Yazar: Alex Krizhevsky, IIya Sutskever, Geoffrey Hinton, Kanada, Toronto Üniversitesi

    • Yayın: 2012 Sinirsel Bilgi İşleme Sistemi toplantı (NeurIPS 2012)

    3. VGG-16 (2014)

    Şekil 3: Kağıtlarından alıntılanan VGG-16 mimarisi

    CNN'lerin gittikçe derinleştiğini fark etmeliydin. Bunun nedeni, derin sinir ağlarının performansını iyileştirmenin en doğrudan yolunun, boyutlarını artırmak olmasıdır (Szegedy ve diğerleri). Görsel Geometri Grubu (VGG) personeli, 13 evrişimli katmana ve 3 tam bağlı katmana sahip olan VGG-16'yı önerdi ve AlexNet'in ReLU aktivasyon işlevini kullanmaya devam etti. Yine, bu ağ AlexNet'in üstüne daha fazla katman yığıyor. 138M parametresi vardır ve yaklaşık 500mb disk alanı kaplar. Ayrıca daha derin bir varyant olan VGG-19 tasarladılar.

    İnovasyon noktaları:

    Özette de belirtildiği gibi, bu makalenin katkısı daha derin bir ağ tasarlamaktır (AlexNet'in yaklaşık iki katı).

    Yayınlanan:

    • Kağıt: Büyük Ölçekli Görüntü Tanıma için Çok Derin Evrişimli Ağlar

    • Yazar: Karen Simonyan, Andrew Zisserman Oxford Üniversitesi, İngiltere ..

    • arXiv baskı, 2014

    4. Başlangıç-v1 (2014)

    Şekil 4: Inception-v1 mimarisi. Bu CNN, iki yardımcı ağa sahiptir (çıkarım sırasında atılır). Mimari, makalede Şekil 3'ten alıntılanmıştır.

    Bu 22 katmanlı ağ mimarisi, 5M parametresine sahiptir ve Inception-v1 ağı olarak adlandırılır. Makalede açıklandığı gibi bu mimari, Ağda Ağ (eke bakın) yöntemini kapsamlı bir şekilde kullanır. Bu, "Başlangıç modülü" aracılığıyla gerçekleştirilir. Başlangıç modülünün mimari tasarımı, seyrek yapılar üzerine yapılan yaklaşık araştırmanın ürünüdür (daha fazla bilgi için lütfen makaleyi okuyun). Her modülün 3 iyileştirmesi vardır:

    1. Farklı evrişimlerin paralel topolojilerini kullanın ve ardından bunları "birleştirmek" için 1 × 1, 3 × 3 ve 5 × 5 evrişimlerle çıkarılan farklı özellikleri elde etmek için bağlanın. Bu fikir, Arora ve arkadaşlarının bazı derin temsilleri öğrenmek için uygun sınırlar başlıklı makalesinden esinlenmiştir Makale, son katmanın ilgili istatistiklerini analiz etmek ve bunları yüksek korelasyonda birleştirmek için katman katman bir inşa yöntemi önermiştir. Birim grubu.

    2. Boyutluluğu azaltmak ve hesaplama darboğazlarını ortadan kaldırmak için 1 × 1 evrişimi kullanın.

    3.1 × 1 evrişim, evrişimli katmana doğrusal olmama ekler (Ağ İçi Ağ kağıdına göre).

    Yazar ayrıca iki yardımcı sınıflandırıcı tanıttı, böylece sınıflandırıcı daha sığ ağ bölümünde geri yayılmanın gradyan bilgisini arttırmak ve ek düzenleme sağlamak için tanıyabilir. Yardımcı ağ (yardımcı sınıflandırıcıya bağlı dal) çıkarım sırasında atılır.

    İnovasyon noktaları:

    Bir ağ oluşturmak için yoğun modüller / bloklar kullanın. Evrişimli katmanları değil, evrişimli katmanlar içeren modülleri veya blokları istifliyoruz. Inception adını Leonardo DiCaprio'nun oynadığı 2010 bilim kurgu filmi "Inception" dan almıştır.

    Yayınlanan:

    • Kağıt: Konvolüsyonlarla Daha Derine İnmek

    • Yazar: Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich Google, Michigan Üniversitesi, Kuzey Carolina Üniversitesi.

    • Yayınlanma tarihi: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

    5. Başlangıç-v3 (2015)

    İnovasyon noktaları:

    BN katmanını tanıtın (basit olması için yukarıdaki şekilde gösterilmemiştir).

    Önceki Inception-v1 sürümüne kıyasla gelişme nedir?

    7 × 7 evrişimi bir dizi 3 × 3 evrişimle değiştirin

    Yayınlanan:

    • Makale: Bilgisayarla Görü için Başlangıç Mimarisini Yeniden Düşünmek

    • Yazar: Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna Google, University College London

    • Yayınlanma tarihi: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

    6. ResNet-50 (2015)

    İnovasyon noktaları: Atlama bağlantılarını yükselt (

    Yayınlanan:

    • Kağıt: Görüntü Tanıma için Derin Artık Öğrenme

    • Yazar: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Microsoft

    • Yayınlanma tarihi: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

    7. Xception (2016)

    Şekil 7: GitHub'daki keras-team koduna dayalı Xception mimarisi. Kanaldan bağımsız evrişimli katman, "konv sep" olarak belirtilir.

    Xception, Inception'dan bir iyileştirmedir ve Inception modülünün yerini kanaldan bağımsız bir evrişimli katman almıştır. Kabaca Inception-v1 (23M) ile aynı sayıda parametreye sahiptir.

    Xception, Inception varsayımını eXtreme'e (dolayısıyla adı) getirdi. Öyleyse Başlangıç varsayımı nedir? Neyse ki, bu makalede açıkça belirtilmiştir (François sayesinde!)

    • İlk olarak, çapraz kanal (veya çapraz özellik haritalama) korelasyonu 1x1 evrişim çekirdeği tarafından yakalanır.

    • İkinci olarak, her bir kanaldaki uzamsal korelasyon geleneksel 3x3 veya 5x5 evrişim ile yakalanır.

    Bu fikri en uç noktaya uygulamak, her kanalda 1x1 evrişim gerçekleştirmek ve ardından her çıktıda 3x3 gerçekleştirmek anlamına gelir. Bu, ilk modülün kanaldan bağımsız evrişim ile değiştirilmesi ile aynıdır.

    İnovasyon noktaları:

    Tamamen kanaldan bağımsız evrişimli katmanlara dayalı bir CNN tanıtın.

    Yayınlanan:
    • Makale: Xception: Derinliğe Ayrılabilir Konvolüsyonlarla Derin Öğrenme

    • Yazar: François Chollet Google.

    • Yayınlanma tarihi: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

    8. Başlangıç-v4 (2016)

    Yayınlanan:
    • Makale: Inception-v4, Inception-ResNet ve Artık Bağlantıların Öğrenme Üzerindeki Etkisi

    • Yazar: Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi Google.

    • Yayınlandığı yer: Otuz Birinci AAAI Yapay Zeka Konferansı Bildirileri

    9. Başlangıç-ResNet-V2 (2016)

    Inception-v3'ün önceki sürümüyle karşılaştırıldığında, iyileştirmeler nelerdir?

    1. Başlangıç modülünü Artık Başlangıç modülüne dönüştürün.

    2. Daha fazla Başlangıç modülü ekleyin.

    3. Stem modülünden sonra yeni bir Başlangıç modülü (Inception-A) ekleyin.

    Yayınlanan:

    • Makale: Inception-v4, Inception-ResNet ve Artık Bağlantıların Öğrenme Üzerindeki Etkisi

    • Yazar: Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi Google

    • Yayınlandığı yer: Otuz Birinci AAAI Yapay Zeka Konferansı Bildirileri

    10. ResNeXt-50 (2017)

    Şekil 10: ResNeXt mimarisi, ilgili makaleden alıntılanmıştır.

    Yayınlanan:

    • Kağıt: Derin Sinir Ağları için Toplu Artık Dönüşümler

    • Yazar: Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He University of California San Diego, Facebook Research.

    • Yayınlanma tarihi: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

    Ek: Ağ İçinde Ağ (2014)

    İnovasyon noktaları:

    1. MLP evrişimli katman, 1 × 1 evrişim

    2. Global ortalama havuzlama (her özellik haritasının ortalamasını alın ve sonuç vektörünü softmax katmanına girin)

    Yayınlanan:

    • Kağıt: Ağ İçinde Ağ

    • Yazar: Min Lin, Qiang Chen, Shuicheng Yan Ulusal Singapur Üniversitesi.

    • arXiv baskı, 2013

    Kısa bir inceleme için ağ yapısının 10 görselleştirmesinin bir listesi:

    LeNet-5

    AlexNet

    VGG-16

    Başlangıç-v1

    Başlangıç-v3

    Başlangıç-v4

    Başlangıç-ResNet-V2

    Xception

    ResNet-50

    ResNeXt-50

    Sinir ağı görselleştirme kaynakları

    Sinir ağınızı görselleştirmenize izin verecek bazı kaynaklar şunlardır:

    • Netron (https://lutzroeder.github.io/netron/)

    • TensorFlow tarafından hazırlanan TensorBoard API (https: // www. tensorflow.org/tensorboard/r1/overview)

    • plot_model API, Keras tarafından (https://keras.io/visualization/)

    • pytorchviz paketi (https: // github .com / szagoruyko / pytorchviz)

    Benzer makaleler

    • CNN Mimarileri: LeNet, AlexNet, VGG, GoogLeNet, ResNet ve daha fazlası.

    • Başlangıç Ağının Sürümlerine Yönelik Basit Bir Kılavuz

    referans

    Referans olarak yukarıdaki ağ mimarisini öneren makaleyi kullandım. Ek olarak, işte bu makalede alıntı yaptığım makalelerden bazıları:

    • https: // github .com / tensorflow / modeller / ağaç / ana / araştırma / ince / ağlar (github .com / tensorflow)

    • Keras ekibinden derin öğrenme modellerinin uygulanması (github .com / keras-ekibi)

    • Evrişimli Sinir Ağı Mimarileri Üzerine Ders Notları: LeNet'ten ResNet'e (slazebni.cs.illinois.edu)

    • Gözden Geçirme: NIN - Ağda Ağ (Görüntü Sınıflandırma) (veri bilimine doğru .com )

    https: // directiondatascience aracılığıyla .com / resimli-10-cnn-mimarileri-95d78ace614d

    Sonynin standı siyah ellerle gökyüzüne düştü, görevleri yerine getirmek için siyah teknoloji taşıdı ve peri savaşı sahnelenebilir
    önceki
    Bu makale görsel hedef takibini anlamanızı sağlar
    Sonraki
    24 yaşında hoş geldiniz! Kuzma doğum günü fotoğraflarını yayınladı: ailesiyle en güzel doğum günü
    Tarihte bir ana tanık olun! Sci-tech Innovation Board'daki 25 hisse senedinin panoramik taraması
    AI şair "Jiu Ge" açık kaynak
    Baotou Yongshengcheng süpermarket zinciri araştırıldı!
    Şanghay'daki son çağrı telefon kulübesi 8 yaşında bir adam 25 yıldır 3 metrekarelik bir telefon kulübesinde sıkışmış durumda.
    Ev yeni açıldı ve tekrar mühürlendi mi? Geliştirici, Hohhot'ta bu toplulukta 9 yıldır kabul etmeden yaşadığını bilmediğini söyledi.
    Vatandaşlar 5G cep telefonlarını "erken benimsiyor", Şangay'ın ilk 5G kullanıcısı bir cep telefonu alıyor
    Real Madrid'in 100 milyon süper yıldızı kaybetti! Zidane bu gece onu yeni Ronaldo yapmak için büyük bir hamle yapacak
    Lütfen hapse girin! Trafik polisi: gözaltı koşullarını karşılamadı
    Stormwind'in patronu Feng Xin tutuklandı! 40 milyardan 2 milyara piyasa değerinin arkasında ne oldu?
    Vatandaşlar açıklanamayacak şekilde suçlanıyor. İhtiyat Fonu Yönetim Merkezi, çalışanların yardım fonu iadeleri konusuna yanıt veriyor
    21. yüzyılda NBA'in en iyi 100 oyuncusu arasında 100. ila 91. arasında: Gelecekte en iyi beş oyuncudan biri veya ilk 50 arasında seçilir
    To Top