He Kaiming ekibinin en son şaheseri: Grup Normalleştirme

Leifeng.com AI Technology Review Press: Son zamanlarda, FAIR araştırma mühendisi Wu Yuxin ve araştırma bilimcisi He Yuming, Group Normalization tarafından ortaklaşa yazılan bir makalede, sinir ağlarını eğitmenin yeni bir yönteminden bahsetti. Bu yönteme Grup Normalizasyonu adı verilir ve bu yöntem, sinir ağlarının hızlı bir şekilde grup olarak eğitilmesini sağlamaya çalışır.Bu yöntem, donanım gereksinimlerini büyük ölçüde azaltır ve deneydeki geleneksel toplu normalleştirme yöntemini aşar.

Toplu normalleştirme ve grup normalizasyonu

Toplu Normalleştirme (BN), çeşitli ağların paralel olarak eğitilmesine olanak tanıyan derin öğrenmenin geliştirilmesinde bir kilometre taşı teknolojisidir. Bununla birlikte, parti boyutunun normalleşmesi bazı problemleri beraberinde getirecektir - hatalı parti istatistiksel tahmini partinin küçülmesine neden olacak ve BN hatası hızla artacaktır. Büyük ağları eğitirken ve özellikleri bilgisayarla görme görevlerine (algılama, bölümleme ve video dahil) aktarırken, bellek tüketimi yalnızca küçük BN gruplarının kullanımını sınırlar. Bu yazıda yazar, BN'ye alternatif olarak Grup Normalizasyonunu (kısaca GN) akıllıca önerdi.

GN, kanalları gruplara ayırır ve her bir grup içindeki normalleştirilmiş ortalama ve varyansı hesaplar. GN'nin hesaplanmasının parti boyutuyla hiçbir ilgisi yoktur ve doğruluğu çeşitli parti boyutlarında sabittir. ImageNet üzerinde eğitilmiş ResNet-50'de, 2'lik bir parti boyutu kullanan GN'nin hata oranı, BN'ninkinden% 10.6 daha düşüktür; tipik bir parti kullanılırken, GN, BN'ye eşdeğerdir ve diğer standart normalleştirilmiş varyantlardan daha iyidir. vücut. Dahası, GN doğal olarak ön eğitimden ince ayara geçebilir. COCO'da hedef tespit ve segmentasyonda ve Kinetics'teki video sınıflandırma yarışmasında, GN rakiplerinden daha iyi performans gösterebilir ve GN'nin çeşitli görevlerde güçlü BN'nin etkin bir şekilde yerini alabileceğini gösterir. En son kod tabanında, GN birkaç satır kodla kolayca uygulanabilir.

Arka plan tanıtımı

Toplu normalizasyonun, derin öğrenmenin çok etkili bir parçası olduğu kanıtlanmıştır ve bu, bilgisayarla görmenin gelişimini büyük ölçüde teşvik etmiştir. Pek çok uygulama bu noktayı kanıtlamıştır.BN, çok derin ağların birleştirilebilmesi için optimizasyonu basitleştirmek üzere özellikleri normalleştirmek için (küçük) partilerle hesaplanan ortalama ve varyansı kullanır. Toplu istatistiklerin rastgele belirsizliği, genellemeye uygulanabilecek bir düzenleyici olarak da kullanılabilir. BN her zaman en gelişmiş bilgisayarla görme algoritmalarının çoğunun temeli olmuştur.

BN büyük bir başarı elde etmesine rağmen, dezavantajları da benzersiz normalleştirme davranışından kaynaklanmaktadır.

Şekil 1. ImageNet sınıflandırma hatası ve toplu iş boyutunun karşılaştırılması Bu, ImageNet eğitim setinde eğitim almak ve doğrulama setinde değerlendirmek için 8 GPU kartı kullanan bir ResNet-50 modelidir.

Özellikle, BN çalışmak için yeterince büyük bir parti gerektirir. Küçük partiler, parti istatistiklerinin yanlış tahminine yol açacaktır ve BN'nin parti boyutunun azaltılması, model hatasını önemli ölçüde artıracaktır (Şekil 1). Bu nedenle, birçok yeni model, çok yoğun bellek gerektiren daha büyük partilerle eğitilmiştir. Buna karşılık, modelleri eğitirken BN'nin etkinliğine olan yüksek bağımlılık, insanların sınırlı belleğe sahip daha yüksek kapasiteli modelleri keşfetmesini engeller.

Bilgisayarla görme görevleri (algılama, bölümleme, video tanıma ve buna dayalı diğer gelişmiş sistemler dahil) toplu iş boyutu için daha yüksek gereksinimlere sahiptir. Örneğin, Hızlı / er ve Maske R-CNN çerçeveleri 1 veya 2'lik gruplar içeren görüntüleri kullanır. Daha yüksek çözünürlük için, BN doğrusal bir katmana dönüştürülerek "sabitlenir"; 3B evrişimli video sınıflandırmasında, uzay-zamansal özellikler Bunun ortaya çıkışı, zaman uzunluğu ve parti boyutu arasında bir değiş tokuşa yol açar. BN kullanımı genellikle bu sistemlerin model tasarımı ve parti boyutu arasında uzlaşmasını gerektirir.

Bu makale, BN'ye alternatif olarak grup normalizasyonunu (GN) önermektedir. Yazar, SIFT ve HOG gibi birçok klasik özelliğin gruplama özellikleri olduğunu ve gruplama normalizasyonu içerdiğini belirtti. Örneğin, HOG vektörü, her birimin normalleştirilmiş bir yön histogramıyla temsil edildiği birkaç uzamsal birimin sonucudur. Benzer şekilde yazar GN'yi bir katman olarak önerir, kanalları gruplara ayırır ve her gruptaki özellikleri normalleştirir (Şekil 2). GN, parti boyutlarını kullanmaz ve hesaplaması parti boyutundan bağımsızdır.

GN, çok çeşitli partilerde çok kararlıdır (Şekil 1). Parti boyutu 2 olan bir örnekte GN, ImageNet'teki ResNet-50'nin BN'sinden% 10.6 daha düşük bir hataya sahiptir. Geleneksel parti boyutları için, GN ve BN eşit performans (% 0,5'lik bir boşluk) ve diğer normalleştirilmiş varyantlardan daha iyi performans gösterir. Ek olarak, parti boyutu değişse de, GN doğal olarak ön eğitimden ince ayara geçebilir. COCO hedef algılama ve segmentasyon görevinin Maske R-CNN'sinde ve Kinetics video sınıflandırma görevinin 3D evrişimli ağında, karşılık gelen BN varyantına kıyasla, GN iyileştirilmiş veya aşılmış sonuçlar elde edebilir. GN'nin ImageNet, COCO ve Kinetics üzerindeki etkinliği, GN'nin BN'ye güçlü bir rakip olduğunu ve geçmişte bu görevlerde BN'nin baskın yöntem olduğunu gösteriyor.

şekil 2

Seviye normalleştirme (LN) ve örnek normalleştirme (IN) (Şekil 2) gibi mevcut yöntemler de parti boyutu boyunca normalleştirmeyi önler. Bu yöntemler, dizi modelleri (RNN / LSTM) veya üretken modeller (GAN'lar) eğitimi için etkilidir. Bununla birlikte, makaledeki deneylerde gösterildiği gibi, LN ve IN'nin görsel tanımadaki başarısı sınırlıdır ve GN daha iyi performans sağlayabilir. Ayrıca, sıralı veya üretken modellere uygulamak için LN ve IN yerine GN kullanılabilir. Bu, bu makalenin araştırma odağının ötesindedir, ancak gelecekteki araştırmalar için ilham kaynağıdır.

Görsel performansın kanalları tamamen bağımsız değildir. SIFT, HOG ve GIST'in tipik özellikleri, her kanal grubunun belirli bir histogramdan oluştuğu tasarım grupları tarafından temsil edilir. Bu işlevler genellikle her histogramda veya her yönde normalleştirmeyi gruplayarak işlenir. VLAD ve Fisher Vector (FV) gibi daha gelişmiş özellikler de bir grubun bir kümeye göre hesaplanan bir alt vektör olarak düşünülebileceği grup özellikleridir.

Benzer şekilde, derin sinir ağı özelliklerini yapılandırılmamış vektörler olarak ele almaya gerek yoktur. Örneğin, ağın konv1 (birinci evrişimli katman) için, filtrenin ve onun yatay dönüşünün doğal görüntülerde benzer bir filtre yanıt dağılımı göstermesini beklemek mantıklıdır. Conv1 yaklaşık olarak bu filtre çiftini öğrenirse veya yatay çevirme (veya başka bir dönüşüm) tasarım gereği bir mimari olarak tasarlanmışsa, bu filtrelerin karşılık gelen kanalları birlikte normalleştirilebilir.

Katmanlar ne kadar yüksekse, o kadar soyutturlar ve davranışları o kadar sezgisel değildir. Ancak yöne (SIFT, HOG) ek olarak frekans, şekil, ışık yoğunluğu ve doku gibi gruplaşmaya neden olabilecek birçok faktör vardır ve bunların katsayıları birbirine bağlı olabilir. Aslında, sinirbilimde yaygın olarak kabul gören hesaplama modeli, "çeşitli alıcı alan merkezleri (görsel alanlar dahil) ve çeşitli uzay-zamansal frekans tonları ile" hücre yanıtlarında normalleştirilir; bu sadece birincil görsel kortekste değil, aynı zamanda "Tüm görsel sistemde" oluşur. Bu çalışmalardan esinlenerek, pan-sinir ağlarının yeni bir genel normalizasyonu önerdik.

resim 3

GN, PyTorch ve TensorFlow'da birkaç satır kodla kolayca uygulanabilir Şekil 3, TensorFlow'a dayalı kodu gösterir. Aslında, normalleştirme yöntemiyle tanımlanan uygun ekseni kullanarak yalnızca ortalama ve varyansı ("momentler") nasıl hesaplayacağınızı belirlemeniz gerekir.

Deneysel bölüm

Deneyler ve karşılaştırmalar üç farklı veri kümesi üzerinde yapılır. ImageNet'te görüntü sınıflandırması, COCO'da nesne algılama ve segmentasyon ve Kinetics'te video sınıflandırmasıdır. Spesifik deneysel yöntemler, deneysel prosedürler ve deneysel sonuçlar orijinal makalede ayrıntılı olarak açıklanmıştır.

GN'nin algılama, bölümleme ve video sınıflandırmadaki iyileştirmeleri, GN'nin şu anda baskın olan BN teknolojisine güçlü bir alternatif olduğunu göstermektedir.

sonuç olarak

Makalede GN, parti boyutlarını geliştirmeden etkili bir normalizasyon katmanı olarak kullanılmış, aynı zamanda çeşitli uygulamalardaki GN davranışı değerlendirilmiştir. Bununla birlikte, makalenin yazarı, BN'nin daha önce güçlü bir etkiye sahip olması nedeniyle, birçok gelişmiş sistemin ve bunların hiperparametrelerinin tasarlandığını da fark etti. Bu, GN tabanlı modeller için elverişsiz olabilir, ancak sistemi yeniden tasarlamanın veya GN'nin yeni hiperparametrelerini aramanın daha iyi sonuçlar üretmesi de mümkündür.

Ek olarak, yazar GN'nin LN ve IN ile ilişkili olduğunu göstermektedir. LN ve IN'nin iki normalleştirme yöntemi, eğitim döngüsü (RNN / LSTM) veya üretici (GAN) modellerinde özellikle başarılıdır. Bu, GN'nin gelecekte bu alanları da inceleyeceğini göstermektedir. Ayrıca yazar, BN'nin çok derin modellerin eğitiminde önemli bir rol oynadığı pekiştirmeli öğrenme (RL) görevlerinin öğrenilmesi ve temsilinde GN'nin performansını da keşfedecektir.

Kağıt adresi: https://arxiv.org/abs/1803.08494

Lei Feng

Leifeng.com orijinal

Tüketim Perspektifinden Modern Çin İthalatı Üçlemesi
önceki
Yeni orta sınıf = kişiselleştirme, spor özelliklerine odaklanan Lynk & Co 03 ihtiyaçlarını nasıl karşılıyor?
Sonraki
"İyi bir kitap" okumak zor mu?
Ethereum'un ikinci kademe genişletme çözümünün ayrıntılı teknik açıklaması: zincir dışı etkileşimi gerçekleştirin ve halka açık zincir kullanılabilirliğini genişletin
Transformers Süpermenine dönüşen Refine S4, genç hedef tüketicileri doğru bir şekilde yakalamak mı istiyor?
TDK teknolojisi sizi geleceğe birlikte götürecek! Çeşitli sektörlerde uygulanan yenilikçi çözümler
Sessiz bir kaliteli devrim Çin'i dünyaya yaklaştırıyor
Jia Zhangke'nin 17 yıllık malzeme birikimi ve "Nehirlerin ve Göllerin Çocukları" ndaki başarıları, özel özellik gösteriliyor ve "detay kontrolü" çekiliyor
Erkekse silin! Musk, SpaceX ve Tesla'nın FB sayfalarını gerçekten sildi
"Dead or Alive 6" Sürüm Önizlemesi: Ultimate Fighting Açık
İkinci araba için yeni enerji araçları seçmek mümkün mü? Avantajları nelerdir?
Çin'in ithalatının kısa bir geçmişi
Kralın dönüşü! Intel Core i9-9900K + RTX 2080Ti incelemesi
"İyi Bir Gösteri" Prömiyeri Basın Toplantısı Huang Bo, Zhang Yixing'in "Milyonlarca Yıldır Seni Seviyorum" İtirafını Kazandı
To Top