Makine öğrenmiyor: VGGNet derin öğrenme klasik evrişimli sinir ağı

Makine www.jqbxx.com'u öğrenmiyor: Derin toplu makine öğrenimi, derin öğrenme algoritmaları ve teknik mücadele

VGGNet, Oxford Üniversitesi Bilgisayar Görme Grubu (VisualGeometry Group) ve Google DeepMind araştırmacıları tarafından geliştirilen derin bir evrişimli sinir ağıdır. VGGNet, evrişimli sinir ağlarının derinliği ile performansı arasındaki ilişkiyi araştırdı. 3 * 3 küçük evrişimli çekirdeği ve 2 * 2 maksimum havuz katmanını tekrar tekrar istifleyerek, VGGNet başarıyla 16-19 evrişim katmanı oluşturdu Nöral ağlar. Önceki son teknoloji ağ yapısı ile karşılaştırıldığında, VGGNet hata oranında önemli bir düşüş yaşadı ve ILSVRC 2014 yarışma kategorisinde ikinci, konumlandırma maddesinde ise birinci oldu. Aynı zamanda, VGGNet çok genişletilebilir ve diğer görüntü verilerine geçişin genelleştirilmesi çok iyidir. VGGNet'in yapısı çok basittir Tüm ağ aynı boyutta evrişim çekirdeği (3 * 3) ve maksimum havuzlama boyutunu (2 * 2) kullanır. Şimdiye kadar, VGGNet hala görüntü özelliklerini çıkarmak için sıklıkla kullanılmaktadır. VGGNet eğitiminden sonraki model parametreleri resmi web sitesinde açık kaynaklıdır ve belirli görüntü sınıflandırma görevlerinde (çok iyi başlatma ağırlıkları sağlamaya eşdeğer) yeniden eğitim için kullanılabilir, bu nedenle birçok yerde kullanılırlar.

Tüm 3 * 3 evrişim çekirdeği ve 2 * 2 havuzlama çekirdekleri VGGNet kağıdında kullanılır ve ağ yapısını sürekli derinleştirerek performans iyileştirilir. Şekil 1, VGGNet'in her seviyesinin ağ yapısı diyagramını gösterir ve Şekil 2, her seviyenin parametrelerini gösterir. 11 katmanlı ağdan 19 katmanlı ağa kadar ayrıntılı performans testleri vardır. A'dan E'ye her seviyedeki ağ kademeli olarak derinleşmesine rağmen, ağ parametrelerinin miktarı fazla artmamıştır, çünkü parametrelerin miktarı esas olarak son üç tam bağlantılı katmanda tüketilmektedir. Önceki evrişim kısmı çok derin olmasına rağmen, büyük miktarda parametre tüketmez, ancak eğitimin daha fazla zaman alan kısmı, nispeten büyük hesaplama miktarı nedeniyle hala evrişimdir. Bunların arasında D ve E, genellikle VGGNet-16 ve VGGNet-19 dediğimiz şeydir. C çok ilginçtir. B ile karşılaştırıldığında, birkaç 1 * 1 evrişimli katman vardır. 1 * 1 evrişimin önemi esas olarak doğrusal dönüşümdür, giriş kanallarının ve çıkış kanallarının sayısı değişmeden kalır ve boyutsal azalma meydana gelmez.

Eğitim sırasında giriş, 224 * 224 boyutunda bir RGB görüntüsüdür ve tek ön işleme, eğitim setindeki her pikselden ortalama RGB değerini çıkarmaktır.

Şekil 1 VGGNet'in her seviyesinin ağ yapısı diyagramı

Şekil 2 Her seviyenin VGGNet ağ parametreleri

VGGNet'in 5 evrişim bölümü vardır, her bölüm 2 ~ 3 evrişimli katmana sahiptir ve her bölümün sonu görüntü boyutunu küçültmek için maksimum bir havuz katmanına bağlanacaktır. Her bölümdeki evrişim çekirdek sayısı aynıdır ve sonraki bölüm daha fazla evrişim çekirdeğine sahiptir: 64-128-256-512-512. Bunların arasında, birden fazla özdeş 3 * 3 evrişimli katman genellikle bir araya getirilir.Bu aslında çok kullanışlı bir tasarımdır. Şekil 3'te gösterildiği gibi, iki 3 * 3 evrişimli katmanın birleştirilmesi 5 * 5 evrişimli katmana eşdeğerdir, yani bir piksel çevreleyen 5 * 5 piksel ile ilişkilendirilecektir.Alıcı alan boyutunun 5 * olduğu söylenebilir. 5. Seri olarak üç 3 * 3 evrişimli katmanın etkisi, bir 7 * 7 evrişimli katmana eşdeğerdir. Ek olarak, üç sıralı 3 * 3 evrişimli katman, 7 * 7 evrişimli katmandan daha az parametreye sahiptir, yalnızca sonuncusu (3 * 3 * 3) / (7 * 7 ) =% 55. En önemli şey, üç 3 * 3 evrişimli katmanın, bir 7 * 7 evrişimli katmandan daha fazla doğrusal olmayan dönüşüme sahip olmasıdır (birincisi, üç ReLU aktivasyon işlevini kullanabilirken, ikincisinin yalnızca bir tane vardır), bu da CNN özelliğini yapar Öğrenme yeteneği daha güçlüdür.

Şekil 3 Birleştirilmiş 3´3 evrişimli katmanın işlevi 5´5 evrişimli katmana benzer

VGGNet'in eğitim sırasında küçük bir numarası vardır, önce basit bir seviye A ağı eğitin ve ardından aşağıdaki karmaşık modelleri başlatmak için A ağının ağırlığını yeniden kullanın, böylece eğitim yakınsama hızı daha hızlı olur. Tahmin ederken, VGG, görüntüyü Q boyutuna ölçeklemek için Çoklu Ölçek yöntemini kullanır ve görüntüyü hesaplama için evrişimli ağa girer. Daha sonra son evrişimli katmanda, sınıflandırma tahmini için bir kayan pencere kullanılır, farklı pencerelerin sınıflandırma sonuçlarının ortalaması alınır ve nihai sonucu elde etmek için farklı Q boyutlarındaki sonuçların ortalaması alınır, bu da görüntü verilerinin kullanım oranını iyileştirebilir ve tahmin doğruluğunu artırabilir. Eğitimde, VGGNet ayrıca veri iyileştirme için Çoklu Ölçek yöntemini kullanır, orijinal görüntüyü farklı bir S boyutuna ölçeklendirir ve ardından rastgele 224.224 görüntüyü kırparak çok fazla veriyi artırabilir ve modelin aşırı sığmasını önleyebilir. Çok iyi bir etkiye sahiptir. Uygulamada, yazar S'nin bu aralıkta bir değer almasını sağlar, birden çok veri sürümü elde etmek için Çoklu Ölçek kullanır ve eğitim için verilerin birden çok sürümünü birleştirir. Şekil 4, VGGNet'in Çok Ölçekli eğitim kullandığında elde edilen sonuçları göstermektedir.Hem D hem de E'nin% 7,5'lik bir hata oranına ulaşabildiği görülmektedir. ILSVRC 2014'e sunulan son sürüm, yalnızca 6 farklı düzeydeki Tek Ölçekli ağlar ve Çok Ölçekli D ağlarının bir birleşimidir ve% 7,3'lük bir hata oranına ulaşmıştır. Bununla birlikte, oyundan sonra yazar, yalnızca Çok Ölçekli D ve E'yi entegre etmenin% 7,0 hata oranıyla daha iyi sonuçlar elde edebileceğini ve aynı yılın şampiyonu Google Inceptin Net'e çok yakın olan yaklaşık% 6,8'lik bir nihai hata oranı elde etmek için diğer optimizasyon stratejilerini kullanabileceğini buldu. . Yazar aynı zamanda, ağları tüm düzeylerde karşılaştırırken aşağıdaki noktaları özetledi: (1) LRN katmanının çok fazla etkisi yoktur (VGGNet yerel yanıt standardizasyonunu (LRN) kullanmaz. Bu standardizasyon, ILSVRC veri setindeki performansı iyileştiremez, ancak Bu, daha fazla bellek tüketimine ve hesaplama süresine yol açar.); (2) Ağ ne kadar derin olursa, etki o kadar iyidir; (3) 1 * 1 evrişim de çok etkilidir, ancak 3 * 3 evrişim kadar iyi değildir ve daha büyüktür. Evrişim çekirdeği daha büyük uzamsal özellikleri öğrenebilir.

Şekil 4 Çok Ölçekli eğitim kullanılırken VGGNet'in her seviyesinin ilk 5 hata oranı

Eğitim sürecinde, AlexNet'ten daha hızlı birleşir. Bunun nedenleri şunlardır: (1) küçük bir evrişim çekirdeği ve daha derin bir ağ kullanarak düzenleme; (2) belirli bir katmandaki parametreler için önceden eğitilmiş verileri kullanma Başlatma.

A ağı gibi daha sığ bir ağ için, rasgele başlatma için doğrudan rasgele sayılar kullanabilir ve daha derin bir ağ için, daha önce eğitilmiş olan sığ ağın ilk birkaç evrişimli katmanına kadar parametre değerlerini kullanabilirsiniz. Ve son olarak tamamen bağlanmış katman başlatılır.

Kağıt adresi: https://arxiv.org/abs/1409.1556

Aktarım: https://blog.csdn.net/marsjhao/article/details/72955935

Mavi ekran "League of Legends" oynadığınız sürece! Aslında soruna neden olan taklit güç kaynağı.
önceki
Yeni ve eski Seagate sabit disklerinin görünümünü karşılaştırdığımda, önceki sabit disklerin daha güvenilir olduğunu düşünüyorum
Sonraki
Makineler öğrenmez: Bir makale her türden derin öğrenme ağını anlar ve derin öğrenme de aynen bunun gibidir ...
En ucuz dört ısı borulu CPU soğutucusundan biri! Coyote Green Arrow GH400 ekranı
Makine öğrenmiyor: Evrişimli sinir ağı CNN girişi pratik
Asgari bütünlük ne olacak? 10G "çıplak" kapıların hiç 10G kapasitesi yoktur
Tanabata Sevgililer Günü bir ayrılık festivaline mi dönüştü? AI büyük verileri, Qixi Festivali hakkındaki gerçeği ortaya koyuyor!
Budenholzer neden bu kadar acı
Ağır planlama! 7 amiral gemisi çift kameralı cep telefonu portre modu nihai PK
Üç ev ve bir araba var, ancak Luo Yixiao'nun babası Luo Er, evin oğlu için olduğunu söyledi.
Makine öğrenmiyor: Generative Adversarial Network'e (GAN) Giriş
Ağ diski güvenilir değil, sadece sabit diskler satın alabilirsiniz! Yeni Seagate 3T sabit diskini ortaya çıkarın
Popülerleştirme zaman alır, Kingston DDR4213316G bellek kutudan çıkar çıkmaz test
Makine öğrenmiyor: Evrişimli sinir ağı NLP modellemesi ve uygulaması 2
To Top