g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Veri bilimcilerin bilmesi gereken 10 derin öğrenme mimarisi

Lei Feng net basın: Bu makale, yalnızca Leifeng.com tarafından yayınlanan Tupu Technology tarafından "Veri Bilimcilerin Bilmesi Gereken 10 Gelişmiş Derin Öğrenme Mimarisi!" Nden derlenmiştir.

Son yıllarda derin öğrenme hızla gelişti ve derin öğrenmenin hızına ayak uydurmak giderek zorlaştı. Derin öğrenmede neredeyse her gün yenilikler var ve derin öğrenme yeniliklerinin çoğu ArXiv ve Spinger'da yayınlanan araştırma makalelerinde gizli.

Bu makale, derin öğrenmedeki bazı yeni gelişmeleri ve yenilikleri ve Keras kitaplığındaki yürütme kodunu tanıtır.Bu makale ayrıca orijinal makaleye bir bağlantı sağlar.

Kısaca anlatmak adına, bu makale yalnızca bilgisayar görüşü alanındaki daha başarılı derin öğrenme mimarilerini tanıtıyor.

Ek olarak, makale sinir ağları bilgisine ve zaten Keras'a oldukça aşina olan temel bilgilere dayanmaktadır. Bu konulara henüz aşina değilseniz, önce aşağıdaki makaleleri okumanızı şiddetle tavsiye ederim:

"Derin Öğrenmenin Temelleri - Yapay Sinir Ağından Başlamak"

"Eğitim: Keras kullanarak Sinir Ağlarını Optimize Etme (Görüntü tanıma örnek olay incelemesi ile)"

içindekiler

Derin öğrenmenin "gelişmiş mimarisi" nedir?
Farklı bilgisayar görüşü görevleri
Çeşitli derin öğrenme mimarileri

Derin öğrenmenin "gelişmiş mimarisi" nedir?

Basit bir makine öğrenimi algoritmasıyla karşılaştırıldığında, bir derin öğrenme algoritması daha çeşitli modeller içerir. Bunun nedeni, sinir ağının eksiksiz bir model oluştururken büyük esnekliğe sahip olmasıdır.

Bazen sinir ağlarını, herhangi bir basit veya karmaşık küçük binayı inşa etmek için kullanılabilen Lego tuğlalarıyla da karşılaştırabiliriz.

Aslında, "gelişmiş mimari" yi, başarılı modellerin kaydıyla derin öğrenme mimarisi olarak tanımlayabiliriz. Bu tür "gelişmiş mimari" esas olarak ImageNet gibi zorluklarda ortaya çıkar. Bu zorluklarda, göreviniz gibi sorunları çözmektir. Görüntü tanımayı tamamlamak için verilen verileri kullanın. Basitçe ifade etmek gerekirse, ImageNet, veri setleri ile ilgili bir sorundur ve veri setleri ILSVR'den (ImageNet Büyük Ölçekli Görsel Tanıma) elde edilir.

Aşağıda bahsedilen mimari gibi, her biri arasında ince farklılıklar vardır ve onları sıradan modellerden ayıran bu farklılıklar, problemleri çözerken sıradan modellerin sahip olmadığı avantajlardan yararlanmalarını sağlar. . Bu mimariler aynı zamanda "derin modeller" kategorisine aittir, bu nedenle performansları muhtemelen karşılık gelen "sığ modellerden" daha iyi olacaktır.

Farklı "bilgisayarla görme görevleri" türleri

Bu makale "bilgisayar görüşü" üzerine odaklanmaktadır, bu nedenle doğal olarak "bilgisayar görüşü" görevini içerecektir. Adından da anlaşılacağı gibi, "bilgisayarla görme görevi", insan görme görevlerini kopyalayabilen bir bilgisayar modeli oluşturmaktır. Bu, esasen, görme gücümüzle gördüğümüz ve algıladığımız şeyin, yapay bir sistemde anlaşılabilen ve tamamlanabilen bir program olduğu anlamına gelir.

Başlıca bilgisayarla görme görevi türleri şunlardır:

Nesne tanıma / sınıflandırma : Nesne tanımada, orijinal bir görüntü elde edersiniz ve göreviniz görüntünün hangi kategoriye ait olduğunu belirlemektir.
Sınıflandırma ve konumlandırma : Görüntüde yalnızca bir nesne varsa, göreviniz nesnenin konumunu bulmaktır. Bu problem daha spesifik olarak "konumlandırma problemi" olarak ifade edilmelidir.
Nesne algılama : Nesne algılamada, göreviniz nesnenin görüntüde nerede olduğunu belirlemektir. Bu nesneler aynı kategoriye ait olabilir veya farklı kategorilere ait olabilir.
Resim parçalama : Görüntü bölümleme biraz karmaşık bir iştir ve amacı görüntünün her pikselini karşılık gelen kategorisiyle eşlemektir.

Şu anda, derin öğrenmenin "üst düzey mimarisini" anladık ve çeşitli bilgisayarla görme görevlerini keşfettik. Şimdi, en önemli derin öğrenme mimarilerini listeleyeceğiz ve bu mimarilere kısa bir giriş yapacağız:

1. AlexNet

AlexNet, derin öğrenmenin öncülerinden biri olan Geoffrey Hinton ve meslektaşları tarafından araştırılan ve tanıtılan ilk derin öğrenme mimarisidir. AlexNet, derin öğrenmede çığır açan araştırmaların yolunu açan, görünüşte basit ama çok güçlü bir ağ mimarisidir. Aşağıdaki şekil AlexNet mimarisidir:

Ayrıştırma diyagramından, AlexNet'in aslında evrişimli katman ve birikim katmanının üst üste bindirildiği ve en üstteki tamamen bağlı katman olduğu basit bir mimari olduğunu görebiliriz. 1980'lerin başlarında, AlexNet modeli kavramsal olarak tanımlandı. AlexNet'i diğer modellerden ayırmanın anahtarı, görev ölçeği ve eğitim için kullandığı GPU ölçeğidir. 1980'lerde, CPU sinir ağlarını eğitmek için kullanıldı. Ve AlexNet, eğitim hızını yaklaşık on kat artıran GPU kullanımında başı çekti.

AlexNet şu anda biraz modası geçmiş olsa da, çeşitli görevleri tamamlamak için sinir ağlarını kullanmak için hala başlangıç noktasıdır. İster bilgisayarla görme görevlerini, ister konuşma tanıma görevlerini tamamlamak olsun, AlexNet'e hala ihtiyaç vardır.

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

2. VGG Net

"VGG Net", Oxford Üniversitesi "Görsel Görüntü Araştırma Grubu" araştırmacıları tarafından tanıtıldı. VGG ağının en büyük özelliği, görüntünün altına yakın yerlerde daha geniş olan piramit şeklidir, üst katman ise nispeten dar ve derindir.

Şekilde gösterildiği gibi, VGG Net sürekli bir evrişimli katman içerir ve bunu bir biriktirme katmanı izler. Biriktirme katmanı, her katmanı daraltmaktan sorumludur. Gruptaki araştırmacılar tarafından ortaklaşa tamamlanan bu makalede, çeşitli ağ türleri önerdiler.Bu ağ mimarileri arasındaki temel fark derinliktir.

VGG ağının avantajları şunlardır:

1. Bu, belirli bir görevi kıyaslamak için çok etkili bir ağ mimarisidir.

2. Aynı zamanda, İnternet üzerinde çok sayıda ücretsiz VGG eğitim öncesi ağ bulunmaktadır, bu nedenle VGG genellikle çeşitli uygulamalarda kullanılmaktadır.

Öte yandan VGG'nin temel dezavantajı, antrenmana sıfırdan başlarsanız, antrenman hızının çok yavaş olacağıdır. Oldukça iyi bir GPU ile bile normal şekilde çalışması bir haftadan fazla sürüyor.

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

3. GoogleNet

GoogleNet ("InceptionNet" olarak da bilinir), Google araştırmacıları tarafından tasarlanan bir ağ mimarisidir. GoogleNet, 2014 ImageNet yarışmasında güçlü bir model olduğunu kanıtlayarak şampiyonluğu kazandı.

Bu ağ mimarisinde, araştırmacılar sadece ağ derinliğini derinleştirmekle kalmadı (GoogleNet 22 katman içerirken, VGG ağında yalnızca 19 katman var), aynı zamanda "Başlangıç modülü" adı verilen yeni bir yöntem geliştirdiler.

Yukarıdaki şekilde gösterildiği gibi, bu mimari daha önce gördüğümüz düzenli mimariden çok büyük bir değişikliğe uğramıştır. Tek bir katmanda çeşitli "özellik çıkarıcılar" görünür. Bu, ağın performansını dolaylı olarak iyileştirir, çünkü ağ, görevleri işlerken kendi kendine eğitim sürecinde çok çeşitli seçeneklere sahiptir. Ya evrişimli girdiyi seçebilir ya da girdiyi doğrudan biriktirebilir.

Nihai mimari, birbiri üzerine yerleştirilmiş birçok Başlangıç modülünü içerir. En üst katmanların çoğunun kendi çıktı katmanı vardır, bu nedenle GoogleNet eğitimi diğer modellerden biraz farklıdır. Ancak bu farklılıklar, modelin evrişimi daha hızlı tamamlamasına yardımcı olabilir, çünkü bu katmanlar yalnızca ortak eğitime değil, aynı zamanda bağımsız eğitime de sahiptir.

GoogleNet'in avantajları şunlardır:

1. GoogleNet'in eğitim hızı VGGNet'ten daha hızlıdır.

2. Önceden eğitilmiş VGG ağıyla karşılaştırıldığında, önceden eğitilmiş GoogleNet daha küçük bir ölçeğe sahiptir. Bir VGG modeli 500MB'den fazla yer kaplayabilirken, GoogleNet yalnızca 96MB yer kaplar.

Şimdiye kadar, GoogleNet'in doğrudan bir kusuru yok, ancak makale GoogleNet'in daha da iyileştirilmesine yardımcı olacak bazı değişiklikler öneriyor. Değişikliklerden biri "XceptionNet" olarak adlandırılır Bu ağda, "başlangıç modülünün" diverjans limiti arttırılır. Teorik olarak, sapması artık sonsuz olabilir.

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

4. ResNet

ResNet, derin öğrenme mimarisinin derinliğini gerçekten tanımlayan bir ağ mimarisidir. ResNet dediğimiz "artık ağ", birçok sürekli "artık modülleri" içerir ve bu "artık modüller" ResNet mimarisinin temelini oluşturur. "Kalan hata modülü" aşağıdaki şekilde gösterilmektedir:

Basitçe ifade etmek gerekirse, bir "artık hata modülü" iki seçeneğe sahiptir - girişte bir dizi işlevi gerçekleştirmeyi seçebilir veya bu adımları atlamayı seçebilir.

GoogleNet'e benzer şekilde, bu "artık modüller" tam bir ağ oluşturmak için üst üste bindirilir.

ResNet tarafından sunulan bazı yeni teknolojiler şunlardır:

1. Süslü "uyarlanabilir öğrenme" teknikleri yerine standart SGD kullanın. Bu, normal eğitimi sürdürebilen bir başlatma işlevi aracılığıyla yapılır.

2. Giriş ön işleme yöntemini değiştirin, önce girişi gruplara bölün ve ardından ağa girin.

ResNet'in ana avantajı, bir ağ oluşturmak için binlerce artık katmanın kullanılabilmesi ve eğitim için kullanılabilmesidir. Bu, normal "zamanlama ağı" ndan biraz farklıdır, "zamanlama ağının" performansı, katman sayısındaki artış nedeniyle azalacaktır.

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

5. ResNeXt

ResNeXt'in en gelişmiş nesne tanıma teknolojisi olduğu söyleniyor. ResNeXt, başlangıç ve ResNet temelinde oluşturulmuştur ve yeni ve geliştirilmiş bir ağ mimarisidir. Aşağıdaki şekil, ResNeXt'in kalan modülünü özetlemektedir:

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

6. RCNN (Bölge Bazlı CNN)

RCNN'nin, nesne tanıma problemlerini çözmek için kullanılan derin öğrenme mimarileri arasında en etkili ağ mimarisi olduğu söyleniyor. Tanıma ve algılama sorununu çözmek için RCNN, görüntüdeki tüm nesneleri çerçevelemeye ve ardından görüntüdeki belirli nesneleri tanımlamaya çalışır. Operasyon süreci aşağıdaki gibidir:

RCNN'nin yapısı aşağıdaki gibidir:

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

7. YOLO (Sadece Bir Kez Bakarsınız)

YOLO, derin öğrenmeye dayanan en gelişmiş gerçek zamanlı görüntü tanıma sistemidir. Aşağıdaki şekilde de görebileceğimiz gibi, önce görüntüyü küçük karelere böler; daha sonra bu kareler üzerinde tek tek her ızgaranın hangi nesne kategorisine ait olduğunu belirlemek için tanıma algoritmasını çalıştırır ve ardından aynı kategorideki kareleri birleştirir. En doğru nesne çerçevesini oluşturmak için.

Bu işlemler bağımsız olarak tamamlanır, böylece gerçek zamanlı işlem gerçekleştirilebilir. Bir saniyede 40 adede kadar görüntü işlenebilir.

YOLO'nun performansı, karşılık gelen RCNN'ye kıyasla azalmış olsa da, gerçek zamanlı işleme işlevi, günlük sorunlarla başa çıkmada hala büyük avantajlara sahiptir. Aşağıdaki YOLO ağ mimarisidir:

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

8. SqueezeNet

SqueezeNet mimarisi, mobil platformlar gibi düşük bant genişliği senaryolarında çok yararlı olan daha güçlü bir ağ mimarisidir. Bu ağ mimarisi yalnızca 4,9 MB alan kaplarken, Inception 100 MB'tan fazla alan kaplar. Bu önemli değişiklik, "yangın modülü" adı verilen bir yapıdan geliyor. "Yangın modülü" aşağıda gösterilmiştir:

Aşağıdaki resim squeezeNet'in son mimarisini göstermektedir:

Orijinal Kağıt bağlantısı

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

9. SegNet

SegNet, görüntü segmentasyonunu çözmek için derin bir öğrenme çerçevesidir. Bir dizi işleme katmanı (kodlayıcı) ve piksel sınıflandırması için bir dizi karşılık gelen kod çözücü içerir. Aşağıdaki şekil SegNet'in operasyon sürecini özetlemektedir:

SegNet'in temel bir özelliği, yüksek frekans ayrıntılarının bölümlere ayrılmış görüntüde tutulmasıdır, çünkü kodlama ağının birikim indeksi ve kod çözme ağının birikim indeksi birbirine bağlıdır. Kısacası, bilginin iletimi dolaylı evrişim yoluyla değil doğrudandır. SegNet, görüntü bölümleme problemleriyle uğraşırken en iyi modeldir.

Orijinal Kağıt bağlantısı
Kod uygulaması için bağlantı

10. GAN (Generative Adversarial Network)

GAN, sinir ağının yepyeni, var olmayan bir görüntü oluşturmak için kullanıldığı tamamen farklı bir sinir ağı mimarisidir Bu görüntü eğitim veri setinde görünmüş gibi görünüyor, ancak aslında öyle değil. Aşağıdaki şekil, GAN'ın patlatılmış bir şematik diyagramıdır.