g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Hong Kong Çin ekibi, He Yuming gibi grupların normalleşmesinin ötesinde, kendi kendine adaptasyon normalleştirmesinde bir atılım önerdi.

Lei Feng.com AI Teknolojisi İncelemesi: Hong Kong Çin'in en son kağıt araştırması, mevcut derin sinir ağının standart manuel olarak etiketlenmiş bir veritabanında (ImageNet gibi) eğitilmiş olsa bile, performansın keskin bir şekilde dalgalanacağını gösteriyor. Bu durum, sinir ağının parametrelerini güncellemek için küçük bir veri yığını kullanıldığında daha ciddidir. Araştırmalar, bunun BN'den (Toplu Normalleştirme) kaynaklandığını bulmuştur. BN, Google tarafından 2015 yılında önerilen bir normalleştirme yöntemidir. Şimdiye kadar 5000'den fazla alıntı yapılmıştır ve akademi ve endüstride yaygın olarak kullanılmaktadır. Hong Kong Çin ekibi tarafından önerilen SN (Değiştirilebilir Normalleştirme), BN'nin eksikliklerini çözüyor. ImageNet büyük ölçekli görüntü tanıma veri kümesindeki ve Microsoft COCO büyük ölçekli nesne algılama veri kümesindeki SN doğruluğu, Facebook He Kaiming ve diğerleri tarafından yakın zamanda önerilen grup normalizasyonunu (GN) da aşıyor. Orijinal kağıt için lütfen arXiv: 1806.10779'a ve Github koduna bakın.

Arka plan yorumu:

* ImageNet, büyük ölçekli bir görüntü tanıma veritabanıdır. 2009 yılında Stanford Üniversitesi'nden Profesör Li Feifei tarafından kurulmuştur. ImageNet'teki tanıma oranı rekabetine Bilgisayarlı Görü Olimpiyatı denir.

* Microsoft COCO şu anda en yaygın kullanılan nesne algılama ve bölümleme veri kümesidir. Her yıl düzenlenen COCO Challenge, Google, Facebook, Berkely ve diğerleri dahil olmak üzere çok sayıda tanınmış yerli ve yabancı şirket ve laboratuvarı cezbetmektedir.

* BN (Toplu Normalleştirme), 2015 yılında Google tarafından önerilen bir normalleştirme yöntemidir. 5000'den fazla alıntı yapılmıştır ve akademi ve endüstride yaygın olarak kullanılmaktadır. Cornell Üniversitesi tarafından önerilen Microsoft Research Asia (ResNet, CVPR 2016 en iyi makale) ve DenseNet (CVPR 2017 en iyi makale) tarafından önerilen artık sinir ağı gibi neredeyse tüm ana sinir ağı yapıları BN kullanır.

* SN, Hong Kong Çin ekibi tarafından önerilen en son normalleştirme yöntemidir. ImageNet'teki tanıma oranı diğer normalleştirme yöntemlerini aşıyor. SN ile eğitilen ResNet50,% 77,5'lik ilk 1 tanıma oranına ulaştı. Bu, şu anda ResNet50 modelinde bildirilen en yüksek sonuçtur ve TensorFlow, PyTorch, Caffe vb. Gibi genel derin öğrenme platformları tarafından sağlanan modelleri aşmaktadır. Bu sonucun 101 katmanlı artık sinir ağı modelini bile aştığını belirtmekte fayda var. Model açık kaynaklıdır ve indirilebilir.

Öncelikle bir resimden toplu normalleştirme BN'sinin karşılaştığı darboğaza bakalım. Aşağıdaki şeklin dikey ekseni, ImageNet'teki ResNet sinir ağı modelinin görüntü tanıma doğruluğunu temsil eder (ne kadar yüksekse o kadar iyidir) ve yatay eksen, eğitim sırasında ağı güncellemek için örnek sayısını temsil eder. Mavi çizgi, kırmızı çizgi ve yeşil çizgi sırasıyla Google'ın BN, Facebook'un GN'si ve Hong Kong Çinlileri tarafından önerilen SN eğitim modelinin doğruluğunu temsil ediyor. Ağı güncellemek için kullanılan örneklerin sayısı ("yığın" olarak da adlandırılır) azaldığında, BN modelinin tanıma oranının keskin bir şekilde düştüğü görülebilir. Örneğin, parti boyutu 16'ya eşit olduğunda, BN modelinin tanıma oranı SN modeline kıyasla% 11 azalır. Toplu iş boyutu 8'e eşit olduğunda, BN modelinin görüntü tanıma oranı% 50'nin altına düşer.

BN performans düşüşüne neden olur mu?

BN (Toplu Normalleştirme) bir normalleştirme yöntemidir. Normalleştirme genellikle verilerin ortalama 0 ve varyansı 1 olan bir dağılıma dağıtılmasını ifade eder. Bu hedefe ulaşmak için, BN'nin normalleştirme işlemi sırasında eğitim verilerinin ortalamasını ve varyansını tahmin etmesi gerekir. Büyük miktarda eğitim verisi nedeniyle (ImageNet milyonlarca veriye sahiptir), bu istatistiklerin çok fazla hesaplama gerektirdiği tahmin edilmektedir. Bu nedenle, bu iki istatistik genellikle küçük bir veri grubu kullanılarak tahmin edilir. Bununla birlikte, parti boyutu küçük olduğunda, yukarıdaki şekildeki 32 gibi, bu istatistiklerin yanlış olduğu tahmin edilir ve tanıma oranının önemli ölçüde düşmeye başlamasına neden olur. Tıpkı tüm okulun ortalama puanını tahmin etmek gerektiği gibi, sadece bir sınıfı saymak doğru değildir. Bu nedenle, BN performans kaybına neden olacaktır.

BN, küçük gruplar halinde daha kötü hale geldiğinden, eğitim için küçük gruplar kullanmaktan kaçınabilir miyiz?

Neden küçük toplu öğrenmeye ihtiyacınız var?

Bunun iki sebebi var. Öncelikle, derin sinir ağlarının eğitim sürecinde, genellikle yüz milyonlarca parametre düzeyini güncellemek gerekir.Birçok pratik uygulamada, eğitilmesi gereken görüntülerin boyutu çok büyüktür (örneğin 1000x1000 veya daha fazla), bu da GPU'ya yerleştirilebilecek görüntülerin sayısını çok büyük yapar. Daha az (genellikle 2'den az). Bu durum genellikle nesne algılama, sahne bölümleme ve video tanıma gibi görevlerde ortaya çıkar ve otonom sürüş ve video gözetlemede yaygın olarak kullanılırlar. Bununla birlikte, önceki şekilde gösterildiği gibi, ağ eğitimi sırasında örnek sayısı azalır (küçük gruplar), bu da eğitimi zorlaştırır. Genel olarak, parti boyutu ne kadar küçükse, eğitim süreci o kadar dengesizdir. Facebook tarafından önerilen Grup Normalleştirme (GN) yukarıdaki problemleri çözmektir.

Resim, bir nesne algılama ve bölümleme örneğini göstermektedir

İkincisi, derin sinir ağları eğitim için genellikle çok sayıda GPU kullanır. Eğitim yöntemleri iki kategoriye ayrılabilir: eşzamanlı eğitim ve eşzamansız eğitim. Senkronize eğitim, ağ parametrelerinin güncellemesinin birden fazla GPU arasında senkronize edilmesi gerektiği anlamına gelir; asenkron eğitim, merkezi olmayan bir yöntemdir. Senkronize eğitime göre avantajı, ağ parametrelerinin güncellemesinin senkronizasyon olmadan her GPU'da ayrı ayrı gerçekleştirilebilmesidir. Bununla birlikte, ağ çok fazla bellek kapladığından, tek bir GPU yalnızca az sayıda eğitim örneği koyabilir, bu da parametrelerin bir GPU'da güncellenmesini engeller ve eşzamansız eğitimi imkansız hale getirir.

Yukarıdaki nedenlerin bilinmesi, parti boyutuna duyarlı olmayan bir teknoloji çok gereklidir.

Hong Kong Çin çözümleri

Yukarıdaki sorunları çözmek için Hong Kong Çin ekibi, kendi kendini uyarlayan normalleştirilmiş bir SN (Değiştirilebilir Norm) önerdi. Toplu normalleştirme BN, örnek normalleştirme IN (Örnek Norm 2016'da önerilen ve arXiv'de yayınlanan: 1607.08022) ve katman normalleştirme LN (Katman Norm by Geoffrey Hinton ve diğerleri gibi mevcut normalleştirme yöntemlerini birleştirir. ArXiv'de önerilmiştir: 1607.06450, 2016'da yayınlanmıştır) ve grup normalleştirilmiş GN. SN, sinir ağındaki farklı normalleştirme katmanları için farklı normalleştirme işlemlerinin otomatik olarak öğrenilmesine izin verir. SN, pekiştirmeli öğrenmeden farklı olarak, normalleştirme işlemlerinin seçiminin ağ parametrelerinin optimize edilmesiyle eşzamanlı olarak yapılmasını sağlayan, yüksek performansı korurken optimizasyon verimliliği sağlayan farklılaştırılabilir öğrenme kullanır. Aşağıdaki şekil, kendi kendine adaptasyon normalizasyonunun sezgisel bir açıklamasıdır. Farklı normalleştirme yöntemlerinin ağırlık katsayılarını öğrenerek farklı işlemleri seçer.

BN problemi nasıl çözülür

Aşağıdaki şeklin sol tarafı, bir sinir ağının bir alt ağını gösterir ve eksiksiz bir sinir ağı, genellikle düzinelerce alt ağdan oluşur. Yukarıda bahsedilen ResNet ve DenseNet de bu yapıda sınıflandırılabilir. Bir alt ağda birden çok BN katmanı olabilir. Başka bir deyişle, bir sinir ağı yüzlerce BN katmanına sahip olabilir.

BN'nin bulunduğu katmana normalleştirme katmanı diyoruz. Öyleyse neden ana akım sinir ağı yapısında, tüm normalleştirme katmanları yalnızca BN kullanıyor?

Şu anda, neredeyse tüm sinir ağlarının tüm normalleştirme katmanları aynı normalleştirme işlemini kullanıyor. Bunun nedeni, her bir normalleştirme katmanı için işlemleri manuel olarak belirtmenin çok fazla deneysel doğrulama gerektirmesidir, bu da zaman alıcı ve yoğun emek gerektirir.

Bu problem nedeniyle, derin öğrenme sistemi optimum performansa ulaşamaz. Sezgisel olarak konuşursak, Hong Kong Çin ekibi normalleştirme işleminin öğrenme yoluyla elde edilmesi gerektiğine inanıyor; farklı normalleştirme katmanları, farklı normalleştirme işlemlerinin ücretsiz kullanımına izin vermelidir. Yukarıdaki şeklin sağ tarafında gösterildiği gibi, alt ağdaki tüm normalleştirme katmanları SN'yi kullanacaktır. BN, IN, LN, GN veya bunların bir kombinasyonu olabilen her normalleştirme katmanı için normalleştirme stratejisini öğrenebilir.

SN, BN'nin özellikle küçük partilere duyarlı olması sorununu önlemek için farklı normalleştirme stratejilerinin kombinasyonunu öğrenir.

Önceki şekilde gösterildiği gibi, parti boyutu kademeli olarak azaltıldığında, SN'nin tanıma oranı optimal olarak kalır.

SN ve GN'nin karşılaştırılması

Grup normalleştirme GN, Facebook He Kaiming ve diğerleri tarafından önerilen en son normalleştirme yöntemidir. Bu yöntem, küçük parti optimizasyonu sırasında toplu olarak normalleştirilmiş BN'nin bariz performans düşüşü sorununu çözmektir. Sezgisel olarak konuşursak, parti boyutu ne kadar küçük olursa, eğitim o kadar dengesiz olur ve eğitilen modelin tanınma oranı o kadar düşük olur. He Kaiming'in ekibi, çok sayıda deney yoluyla GN'nin etkinliğini doğruladı: örneğin, ImageNet'te, küçük parti koşulları altında GN'nin tanınma oranı BN'ninkinden çok daha yüksektir. Bununla birlikte, normal parti koşulları altında, GN'nin tanıma oranı BN'ninki kadar iyi değildir.

Daha önce de belirtildiği gibi, SN'nin sinir ağlarının farklı normalleştirme katmanlarında normalleştirme işlemlerinin otomatik öğrenmesini çözmesi önerilmiştir. Hong Kong Çin ekibi, GN gibi SN'nin küçük partilerde yüksek tanıma oranlarına ulaşabildiğini keşfetti. Ek olarak SN, normal parti koşullarında GN'yi ve hatta BN'yi bile aşar. Örneğin, 256 toplu iş boyutu durumunda, SN ile eğitilmiş ResNet50'nin doğruluğu ImageNet'te% 77,5'in üzerine çıkabilirken, GN ve BN ile eğitilmiş ağların doğruluğu sırasıyla% 75,9 ve% 76,4'tür.

sonuç

Hong Kong Çin ekibi, görüntü tanıma, nesne algılama, nesne bölümleme, video anlama, görüntü stilizasyon ve sinir ağı yapısı araması gibi tekrarlayan sinir ağları dahil olmak üzere çoklu görme görevlerinde kendi kendini uyarlayan normalleştirilmiş SN'nin performansını doğruladı. Microsoft COCO nesne algılama veri setinde SN, BN ve GN'nin algılama sonuçlarını karşılaştırmak için nesne algılamayı örnek olarak alalım.

Görüntü sınıflandırmanın aksine, nesne algılama ve bölümleme görevleri için, her GPU'daki resim sayısı genellikle yalnızca 1 ila 2 görüntüdür. Bu durumda, BN'nin etkisi önemli ölçüde azalacaktır. SN, farklı algılama modellerine ve farklı derin öğrenme platformlarına etkili bir şekilde genişleyebilir. Aşağıdaki tablo, Maske R-CNN ve Daha Hızlı R-CNN üzerindeki SN sonuçlarını göstermektedir.SN'nin çeşitli doğruluk göstergeleri altında lider konumunu koruduğu görülebilir.

Orijinal kağıt ayrıca SN'nin görüntü stilizasyon ve ağ yapısı arama üzerindeki etkisini de gösterir Detaylar için lütfen kağıda bakın.

İlgili literatür:

1. BN: S. Ioffe ve C. Szegedy. Toplu normalleştirme: Dahili ortak değişken kaymasını azaltarak derin ağ eğitimini hızlandırmak. ICML, 2015'te

2. GN: Y. Wu ve K. He. Group normalizasyonu. ArXiv: 1803.08494, 2018

3. SN: Ping Luo, Jiamin Ren, Zhanglin Peng, Değiştirilebilir Normalleştirme Yoluyla Farklılaştırılabilir Öğrenme-Normalleştirme, arXiv: 1806.10779, 2018

Aylık 5000 maaşlı bir arabaya paranız yetmiyor mu? Önce bu modellere bir göz atmak daha iyidir

Xiaomi'nin gerçek amiral gemisi geliyor, Antutu vivoNEX'i geride bırakıyor!