ICML'nin yeni araştırması, genelleme yeteneği değerlendirmesi için yeni bir indeks ortaya koyuyor: doğrudan vektör kosinüs mesafesinin yukarısına ve sorun değil

Aofei Tapınağı'ndan Annie Guo Yipu

Qubit Üretildi | Genel Hesap QbitAI

Bir sinir ağının genelleme yeteneği nasıl değerlendirilir?

Belçika'daki Leuven Katolik Üniversitesi'nden bir çalışma, ICML 2019 Derin Öğrenme Olgusunu Tanıma ve Anlama Çalıştayı'nda yayınlandı.

Çalışma, ağın genelleme yeteneğinin " Katman dönüşü "Yargılamak.

Sözde katman dönüşü, sinir ağındaki her katmanın ağırlık vektörü ile araştırmacılar tarafından genelleme performansını ölçmek için bir indeks olarak kullanılabilen başlatma arasındaki açının kosinüsünün değişimini ifade eder.

Araştırmacılar, eğitim sırasında katman döndürme aracını kontrol etmek için kodu yayınladı ve bu çalışmanın "hiperparametreleri ayarlamanın mevcut zorluğunu büyük ölçüde azaltabileceğini" söyledi:

Başka bir deyişle, yapabilirsiniz Minimum hiperparametre ayarlamalarıyla en iyi sinir ağı performansını elde edin .

Reddit forumunda, bazı insanlar bunun "süper ilginç deneysel bir sonuç" olduğuna dikkat çekti ve bazıları bu araştırmanın birçok yeni fikre ilham verdiğini söyledi.

Katman döndürmenin kullanımı nedir

Kağıt Katman rotasyonu: derin ağlarda şaşırtıcı derecede güçlü bir genelleme göstergesi mi? Çalışma, katman rotasyonunun arkasındaki keşif yolunu ayrıntılı olarak açıklıyor.

Bir sinir ağının genelleme yeteneği, onu eğiten optimizasyon programından etkilenir, bu nedenle bu programdaki hangi faktörlerin genellemeyi etkilediğini belirlemek önemli bir konudur.

Bu yazıda, araştırmacılar yeni bir algoritma önerdiler: Layca ((LAYer düzeyinde Kontrollü Ağırlık döndürme miktarı), ağın her katmanının öğrenme hızı parametreleri aracılığıyla sinir ağının optimizasyon algoritmasını doğrudan kontrol edebilir ve ardından katman dönüşünü kontrol edebilir.

Başka bir deyişle, Layca algoritmasını kullanarak, ağın her katmanındaki her adımın ağırlık dönüşünü öğrenme hızı parametresi aracılığıyla kontrol edebilirsiniz.

Layca algoritmasının iş akışı aşağıdaki gibidir:

Araştırmacılar, bu yeni algoritma ile daha bariz bir kontrol etkisi elde edilebileceğini, aynı zamanda genelleme yeteneğinin de% 30 doğruluk farkı ile büyük bir fark yaratacağını söyledi.

Daha sonra katman rotasyon mimarisini daha fazla araştırmak ve katman rotasyonunu izlemek ve kontrol etmek için araçlar geliştirmek için Layca'yı kullandılar.

Araştırmacılar, varsayılan optimize edici olarak SGD'yi (stokastik gradyan iniş) kullandılar ve göreli hızı ve küresel dönüş oranını değiştirmek için Layca'yı kullandılar. Farklı ağ mimarilerine ve veri karmaşıklığına sahip 5 sinir ağı üzerinde çalıştılar. Bunlar:

Katman dönüş eğrisi (CFR) ve farklı katman dönüş hızlarında karşılık gelen test doğruluğu () arasındaki ilişkinin bir grafiğini çizdiler.

Aşağıdaki şekilde, yatay eksen yinelemelerin sayısını, dikey eksen ise dahil edilen açının kosinüsünü temsil eder. Eğrinin açıktan karanlığa rengi, ağın son ve ilk katmanlarını temsil eder. Nihai sonuç aşağıdaki gibidir:

Her katmanın katman dönüşü ne kadar büyükse, sinir ağının genelleme kabiliyetinin o kadar iyi olduğu görülebilir.

Bu bakış açısına göre, araştırmacılar, katman döndürme indeksinin ağın genelleme yeteneğini doğrudan yargılamak için kullanılabileceğine inanıyorlar.

Katman döndürmenin etkisi

Araştırmacılar daha sonra Layca'ya ek olarak SGD'yi de benzer deneyler yapmak için kullandılar. Deneysel sonuçlara göre, birkaç sonuç çıkarıldı:

SGD öğrenme oranı için

Öğrenme hızı parametresi, katman dönüş oranını doğrudan etkiler ve güncellemenin boyutunu etkiler.

Aşağıdaki beş görevde SGD eğitimi sırasında farklı öğrenme oranlarının katman dönüş eğrisi üzerindeki etkisinin deneysel sonuçlarından, katman döndükçe test doğruluğu artar ve kritik noktadan sonra azalmaya başlar.

Kilo kaybı için

Ağırlık zayıflatma normu, verilen bir eğitim adımının neden olduğu dönüş miktarını artıracaktır.Aşağıdaki deneysel sonuçlara göre, tüm katmanların ağırlıklarının başlatma sırasında 1'lik bir kosinüs mesafesine ulaştığı ve elde edilen test performansının Layca kullanılarak elde edilene benzer olduğu görülebilir. Performans karşılaştırılabilir.

Öğrenme oranı için ısın

Yüksek öğrenme oranı, eğitim kaybını etkilemeyecek olan ani katman dönüşü üretecektir.

Öğrenme hızı ısınması açısından, araştırmacılar ResNet-110'u deney olarak kullandılar ve CIFAR-10 veri seti üzerinde eğitim aldılar. Kullanılan ısınma stratejisi, 10 kat daha küçük bir öğrenme oranıyla başlar ve belirtilen nihai öğrenme oranına kademeli olarak ulaşmak için doğrusal olarak artar.

Sonuç aşağıdaki gibidir:

SGD, kararsız katman rotasyonu üretir ve bu her zaman eğitim doğruluğunu iyileştirememe anlamına gelir. Ön ısıtmanın kullanılması bu dengesizlikleri büyük ölçüde azaltabilir ve Kyoto eğitimi, Epoch 25'i geçmeden önce önemli ölçüde iyileşmedi.

Layca daha iyi performans gösterdi. Layca'nın kontrol yeteneği sayesinde yüksek stabiliteye sahiptir ve ön ısıtma yapmadan yüksek genelleme performansı elde eder.

Uyarlanabilir gradyan yöntemi için

Araştırmacılar, ICLR 2015 makalesi "Stokastik optimizasyon için bir yöntem" içindeki algoritmaya dayanarak C10-CNN1 görevi üzerinde deneyler yaptılar.

10., 50. ve 90. yüzdelik dilimlerdeki her katmanın durumuna göre, uyarlamalı gradyan yönteminin katman dönüşü üzerinde çok büyük bir etkiye sahip olabileceği görülebilir.Uyarlanabilir gradyan yöntemi tarafından kullanılan parametre düzeyi istatistikleri, esas olarak katmanlar arasında farklılık gösterir. Ve katmanda göz ardı edilebilir.

Ek olarak, uyarlamalı gradyan yönteminin önceki beş görevi ile uyarlamalı gradyan yöntemi katman rotasyonu ve SGD kaynaklı katman rotasyonunun sonuçları karşılaştırıldığında, adaptif gradyan yönteminin, Layca'nın SGD'nin genelleştirme yeteneğini elde etmesini sağlayabileceği bulunabilir.

Uyarlanabilir gradyan yöntemi, SGD + ağırlık zayıflatma ve SGD + L2 düzenlemesinin 5 eğitim görevindeki performansına göre, SGD'nin uyarlamalı gradyan yönteminin eğitim hızına Layca üzerinden ulaşabileceği sonucuna varılmıştır.

Orta katman özellikleri için

Daha sonra, bu katman rotasyonları ve çeşitli nitelikler arasındaki ilişkiye dayanarak, katman rotasyonu özel olarak nasıl açıklanır?

Araştırmacılar, basitleştirilmiş bir MNIST veri seti üzerinde çok katmanlı bir algılayıcıyı (MLP) eğiterek başka bir deney yaptılar. Aynı başlatma durumundan başlayarak, Layca'yı farklı öğrenme oranlarına sahip dört ağı eğitmek için kullandık ve dört farklı Katman döndürme yapılandırması% 100 eğitim doğruluğu sağlar ve farklı genelleme yeteneklerine sahiptir.

Grafik rotasyonunun orta katmanın özellikleri üzerindeki etkisini çizin ve şunları bulacaksınız:

Katman rotasyonu, hangi özelliklerin öğrenildiğini etkilemez, ancak eğitim sırasındaki öğrenme derecesini etkiler. Katman dönüşü ne kadar büyük olursa, özellik o kadar belirgin olur ve başlatma daha az geri alınabilir Katman dönüşü 1'e yakın olduğunda, ağın son ağırlığı tüm başlatma kalıntılarını ortadan kaldırır.

Katman dönüşü ile özellik öğrenme derecesi arasındaki bu bağlantı,% 100 eğitim doğruluğuna ulaşmak için orta katmanın özelliklerini tam olarak öğrenmenin gerekli olmadığını, ancak eğitim süreci orta katmanın özelliklerini tam olarak öğrenirse daha iyi bir genelleme üretebileceğini göstermektedir. verim.

Portal

Katman rotasyonu: derin ağlarda şaşırtıcı derecede güçlü bir genelleme göstergesi mi?

https://arxiv.org/abs/1806.01603v2

Kod:

https://github.com/ispgroupucl/layer-rotation-paper-experiments

Katman döndürme aracı:

https://github.com/ispgroupucl/layer-rotation-tools

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzündeki "işe alma" kelimesini yanıtlayın.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri izleme

Otomatik olarak Twitter oluşturmada neredeyse hiç kusur yok! MIT, ünlü bir konuşma simülatörü yapmak için GPT-2 modelini kullandı
önceki
ESIM'den daha gelişmiş olan ISIM teknolojisi operatörlerde devrim yaratabilir
Sonraki
İhmal ölüme neden olur! Araç alev aldığında çağrıyı "sakinleştiren" adam gözaltına alındı
Tek tıkla soyulma AI şifre çözme: açık kaynak algoritması, Nvidia Berkeley tarafından araştırıldı, ne karmaşık ne de gizemli
CVPR en iyi makalesi için kısa listeye alınan bu temel yapay zeka araştırması bizi dişlere bakmamızı sağladı
"Pokemon" Xiaozhi beş kara elfini fethetti, bunlardan biri bir zamanlar ittifakın ana gücü müydü?
Benden farklı olarak güvenli değil. Apple bu sefer başka birinin pastasına dokundu.
Baojun CN202M resmi haritası yakın zamanda ortaya çıktı ve bu yılın ikinci yarısında listelenmesi bekleniyor
"Pokemon" duyguları her şeyi mi temsil ediyor? Her zaman yetkililer tarafından tercih edilen ilk nesil elfler hangileridir?
Çinli AI şirketinin konferans salonunun adının kısa bir geçmişi
Bilgi çalmak yerine, Baidu'nun Rus versiyonuna saldırmak için Prism Gate hacker yazılımını kullanın, sadece büyük bir V yüklemek isteyin, FBI yakalandı
Mustang Bojun, 1.5T + 6MT güç kombinasyonu ile performans versiyonu modelleri ekliyor
Pokémon'un Üç Sütunu'ndaki Regis Chiru, çelik bir sisteme sahip olduğu için en iyisi mi?
İnsan Kaynakları ve Sosyal Güvenlik Bakanlığı, ödenmemiş göçmen işçilerden oluşan üçüncü grup "kara listeyi" yayınladı
To Top