Google, sinir ağı genellemesinin yeni bir perspektifini keşfederek "sertlik" kavramını ortaya koyuyor

Google AI araştırmacılarının en son araştırması yeni bir konsept ortaya koyuyor: Sinir ağlarının eğitimini ve genelleştirilmesini keşfetmek için yeni bir bakış açısı sağlayan Stiffness.

Google AI araştırmacıları, yakın zamanda, sinir ağlarının eğitimi ve genelleştirilmesi üzerine yeni bir bakış açısı keşfeden arxiv hakkında yeni bir makale yayınladı.

Makalenin başlığı "Sertlik: Sinir Ağlarında Genelleştirme Üzerine Yeni Bir Perspektif" ve yazar Stanislav Fort ve Google AI Zürih Araştırma Merkezi'nden diğerleri.

Makale, sinir ağlarının eğitimi ve genelleştirilmesinin çalışıldığı "sertlik" kavramını ortaya koymaktadır.

Araştırmacılar, bir örnekteki küçük gradyan adımlarının başka bir örneğin kaybını nasıl etkilediğini analiz ederek ağın "sertliğini" ölçüyorlar.

Spesifik olarak, 4 sınıflandırma veri setinde (MNIST, FASHION MNIST, CIFAR-10, CIFAR-100) tamamen bağlı evrişimli sinir ağının sertliğini analiz ettiler. Katılığın 1) sınıf üyeliği, 2) veri noktaları arasındaki mesafe, 3) eğitim yinelemeleri ve 4) öğrenme oranıyla nasıl değiştiğiyle ilgilenirler.

Çalışmalar, sabit bir doğrulama seti üzerinde hesaplandığında sertliğin doğrudan genelleme ile ilişkili olduğunu göstermiştir. Sertlik işlevi daha az esnektir, bu nedenle veri setinin belirli ayrıntılarını aşırı sığdırmak kolay değildir.

Sonuçlar, "sertlik" kavramının tanı ve karakterizasyon genellemesine yardımcı olduğunu göstermektedir.

Öğrenme oranının seçimi, öğrenme fonksiyonunun sertlik özellikleri üzerinde önemli bir etkiye sahiptir. Yüksek bir öğrenme oranı, fonksiyon yaklaşımının daha büyük bir mesafede "daha sert" olmasına neden olur ve öğrenilen özellikler, farklı sınıflardan girdilere daha iyi genelleştirilebilir. Öte yandan, daha düşük bir öğrenme oranı daha detaylı ve spesifik özellikleri öğrenebilecek gibi görünmekte, eğitim setinde aynı kayba neden olsa bile diğer sınıflara genellenemez.

Bu, yüksek öğrenme oranlarının avantajının sadece yakınsama için daha az adımın gerekli olması değil, aynı zamanda öğrenme eğiliminde oldukları özelliklerin daha yüksek genellemeye sahip olması, yani yüksek öğrenme oranlarının etkili bir düzenleyici işlevi gördüğünü göstermektedir.

Sertliğin Tanımı

Sertliğin tanımı aşağıdaki gibidir:

Ağın ağırlığına göre bir noktadaki kaybın gradyanı ve noktadaki gradyan ise, o zaman "sertliği" olarak tanımlarız.

Şekil 1: "Sertlik" kavramının grafiksel gösterimi

Şekil 1'de gösterildiği gibi, "sertlik", iki girdinin gradyanları arasındaki gradyan hizalamasına eşdeğer olan başka bir girişe dayalı bir gradyan güncellemesinin uygulanmasının neden olduğu giriş kaybındaki değişiklik olarak kabul edilebilir.

Deneyler ve sonuçlar

Sınıf üyeliğine göre sertlik özellikleri

Doğrulama seti veri noktalarının eğitim yineleme işlevi olarak sınıf üyeliğine dayanarak, doğrulama seti veri noktalarının sertlik özelliklerini inceledik.

MNIST, FASHION MNIST ve gerçek etiketli CIFAR-10 veri setleri için sonuçlar sırasıyla Şekil 3, Şekil 5 ve Şekil 6. Rastgele düzenlenmiş eğitim seti etiketleri ile MNIST veri seti için sonuçlar Şekil 4'te gösterilmiştir.

Şekil 3: MNIST'e tam bağlı ağ katılığının sınıf üyeliğine bağımlılığı

Şekil 4: Eğitim sırasında rastgele düzenlenmiş etiketler kullanılarak, tam olarak bağlı ağın MNIST üzerindeki katılığının sınıf üyeliğine bağımlılığı.

Şekil 5: FASHION MNIST'e tam bağlı ağ sertliğinin sınıf üyeliğine bağımlılığı

Şekil 6: CIFAR-10 üzerinde evrişimli sinir ağı sertliğinin sınıf üyeliğine bağımlılığı

Şekil 3, Şekil 5 ve Şekil 6, dört eğitim aşamasının sertlik matrisini gösterir: başlatma aşaması (herhangi bir gradyan adımından önce), optimizasyon erken aşaması ve sonraki iki aşama.

Öğrenme hızının sertlik üzerindeki etkisi

Şekil 8: MNIST ve FASHION MNIST hakkında farklı öğrenme hızları, farklı sertlik türleri ile eğitim.

Şekil 8'de gösterildiği gibi, bu iki şekil, üç farklı eğitim kaybının sınıfa bağlı sertlik matrislerini göstermektedir. Daha yüksek bir öğrenme oranı, farklı sınıflardan gelen girdiler arasında daha yüksek katılığa yol açar, bu da öğrendikleri özelliklerin farklı sınıflar arasında daha genelleştirilebilir olduğunu gösterir.

sonuç olarak

Sinir ağı sertliği kavramını araştırdık ve genellemeyi teşhis etmek ve karakterize etmek için kullandık. Gerçek veri kümeleri üzerinde eğitilen modelin sertliğini inceledik ve eğitim yinelemeleri, sınıf üyeliği, veri noktaları arasındaki mesafe ve öğrenme oranı seçimi ile nasıl değiştiğini ölçtük. Genelleme ve aşırı uyumu keşfetmek için, doğrulama setindeki veri noktalarının sertliğine odaklandık.

Özetle, bu makale sertlik kavramını tanımlıyor, pratikliğini kanıtlıyor, sinir ağlarının genelleme özelliklerini daha iyi anlamak için yeni bir bakış açısı sağlıyor ve öğrenme hızı ile değişimlerini gözlemliyor.

Kağıt adresi:

https://arxiv.org/pdf/1901.09491.pdf

Kaynak: arxiv

Editör: Xiao Qin

Bu makale şu kaynaktan aktarılmıştır: Xinzhiyuan

Düzenle | Aban Redaksiyon | Nuts Vision | Niu Xiaowei

SON

T ile direkt enjeksiyon? Bu altı popüler 1.5T modeline bir göz atın Yurt içinde üretilen modeller ortak girişimlerden daha iyidir.
önceki
Işığı söndürmek - kendini şekillendirmek, zorlu süreçlerin birbiri ardına birikmesidir ...
Sonraki
Çin'deki en rahat 6 şehir, yorgunsanız, birkaç gün yaşamak ve yavaş bir hayat sürmek için biraz zaman ayırabilirsiniz.
Dünyada Çin'in Ar-Ge harcamaları az mı çok mu?
Tibet'te bir Medog gazisi, geri çekilme yolu zorluklardan ve tehlikelerden geri çekilemez
Akademisyen Fan Bangkui: Drone'ların geleceğini anlamak için altı ana yol
Sonbaharda Çin'deki en baştan çıkarıcı 4 yer, her zaman gitmediğiniz bir yer vardır!
Uzaktan Algılama Yapay Açıklıklı Radar Uydularının Altyapı İzlemedeki Rolü
Şirket yaptı! Askerlere haraç ödemek için tabana bakıyor
Yerli arabaların yakıt açısından verimli olmadığını kim söylüyor? Bu 100.000 sınıf SUV'lar memnuniyetsizliği ifade etti
"Süper şiddetli" soğuk hava ekranı süpürdü! Kırmızı akçaağaç + Baixue, bu antik köyde beklenmedik bir "akçaağaç" sahnesi var!
Hong Kong, önümüzdeki aydan itibaren yüksek hızlı trene bağlanacak! Pekin'in Hong Kong'a doğrudan ulaşması hayal değil!
Burada gizli olan aynı Yanxi ateş ağacının gümüş çiçeği ve gökyüzündeki bir şehir sizi bulutlara ve sise götürüyor
Tesla, Xiaopeng Otomotiv Mühendislerini ayrılmadan önce 300.000 gizli belgeyi çalmakla suçladı!
To Top