Google AI araştırmacılarının en son araştırması yeni bir konsept ortaya koyuyor: Sinir ağlarının eğitimini ve genelleştirilmesini keşfetmek için yeni bir bakış açısı sağlayan Stiffness.
Google AI araştırmacıları, yakın zamanda, sinir ağlarının eğitimi ve genelleştirilmesi üzerine yeni bir bakış açısı keşfeden arxiv hakkında yeni bir makale yayınladı.
Makalenin başlığı "Sertlik: Sinir Ağlarında Genelleştirme Üzerine Yeni Bir Perspektif" ve yazar Stanislav Fort ve Google AI Zürih Araştırma Merkezi'nden diğerleri.
Makale, sinir ağlarının eğitimi ve genelleştirilmesinin çalışıldığı "sertlik" kavramını ortaya koymaktadır.
Araştırmacılar, bir örnekteki küçük gradyan adımlarının başka bir örneğin kaybını nasıl etkilediğini analiz ederek ağın "sertliğini" ölçüyorlar.
Spesifik olarak, 4 sınıflandırma veri setinde (MNIST, FASHION MNIST, CIFAR-10, CIFAR-100) tamamen bağlı evrişimli sinir ağının sertliğini analiz ettiler. Katılığın 1) sınıf üyeliği, 2) veri noktaları arasındaki mesafe, 3) eğitim yinelemeleri ve 4) öğrenme oranıyla nasıl değiştiğiyle ilgilenirler.
Çalışmalar, sabit bir doğrulama seti üzerinde hesaplandığında sertliğin doğrudan genelleme ile ilişkili olduğunu göstermiştir. Sertlik işlevi daha az esnektir, bu nedenle veri setinin belirli ayrıntılarını aşırı sığdırmak kolay değildir.
Sonuçlar, "sertlik" kavramının tanı ve karakterizasyon genellemesine yardımcı olduğunu göstermektedir.
Öğrenme oranının seçimi, öğrenme fonksiyonunun sertlik özellikleri üzerinde önemli bir etkiye sahiptir. Yüksek bir öğrenme oranı, fonksiyon yaklaşımının daha büyük bir mesafede "daha sert" olmasına neden olur ve öğrenilen özellikler, farklı sınıflardan girdilere daha iyi genelleştirilebilir. Öte yandan, daha düşük bir öğrenme oranı daha detaylı ve spesifik özellikleri öğrenebilecek gibi görünmekte, eğitim setinde aynı kayba neden olsa bile diğer sınıflara genellenemez.
Bu, yüksek öğrenme oranlarının avantajının sadece yakınsama için daha az adımın gerekli olması değil, aynı zamanda öğrenme eğiliminde oldukları özelliklerin daha yüksek genellemeye sahip olması, yani yüksek öğrenme oranlarının etkili bir düzenleyici işlevi gördüğünü göstermektedir.
Sertliğin Tanımı
Sertliğin tanımı aşağıdaki gibidir:
Ağın ağırlığına göre bir noktadaki kaybın gradyanı ve noktadaki gradyan ise, o zaman "sertliği" olarak tanımlarız.
Şekil 1: "Sertlik" kavramının grafiksel gösterimi
Şekil 1'de gösterildiği gibi, "sertlik", iki girdinin gradyanları arasındaki gradyan hizalamasına eşdeğer olan başka bir girişe dayalı bir gradyan güncellemesinin uygulanmasının neden olduğu giriş kaybındaki değişiklik olarak kabul edilebilir.
Deneyler ve sonuçlar
Sınıf üyeliğine göre sertlik özellikleri
Doğrulama seti veri noktalarının eğitim yineleme işlevi olarak sınıf üyeliğine dayanarak, doğrulama seti veri noktalarının sertlik özelliklerini inceledik.
MNIST, FASHION MNIST ve gerçek etiketli CIFAR-10 veri setleri için sonuçlar sırasıyla Şekil 3, Şekil 5 ve Şekil 6. Rastgele düzenlenmiş eğitim seti etiketleri ile MNIST veri seti için sonuçlar Şekil 4'te gösterilmiştir.
Şekil 3: MNIST'e tam bağlı ağ katılığının sınıf üyeliğine bağımlılığı
Şekil 4: Eğitim sırasında rastgele düzenlenmiş etiketler kullanılarak, tam olarak bağlı ağın MNIST üzerindeki katılığının sınıf üyeliğine bağımlılığı.
Şekil 5: FASHION MNIST'e tam bağlı ağ sertliğinin sınıf üyeliğine bağımlılığı
Şekil 6: CIFAR-10 üzerinde evrişimli sinir ağı sertliğinin sınıf üyeliğine bağımlılığı
Şekil 3, Şekil 5 ve Şekil 6, dört eğitim aşamasının sertlik matrisini gösterir: başlatma aşaması (herhangi bir gradyan adımından önce), optimizasyon erken aşaması ve sonraki iki aşama.
Öğrenme hızının sertlik üzerindeki etkisi
Şekil 8: MNIST ve FASHION MNIST hakkında farklı öğrenme hızları, farklı sertlik türleri ile eğitim.
Şekil 8'de gösterildiği gibi, bu iki şekil, üç farklı eğitim kaybının sınıfa bağlı sertlik matrislerini göstermektedir. Daha yüksek bir öğrenme oranı, farklı sınıflardan gelen girdiler arasında daha yüksek katılığa yol açar, bu da öğrendikleri özelliklerin farklı sınıflar arasında daha genelleştirilebilir olduğunu gösterir.
sonuç olarak
Sinir ağı sertliği kavramını araştırdık ve genellemeyi teşhis etmek ve karakterize etmek için kullandık. Gerçek veri kümeleri üzerinde eğitilen modelin sertliğini inceledik ve eğitim yinelemeleri, sınıf üyeliği, veri noktaları arasındaki mesafe ve öğrenme oranı seçimi ile nasıl değiştiğini ölçtük. Genelleme ve aşırı uyumu keşfetmek için, doğrulama setindeki veri noktalarının sertliğine odaklandık.
Özetle, bu makale sertlik kavramını tanımlıyor, pratikliğini kanıtlıyor, sinir ağlarının genelleme özelliklerini daha iyi anlamak için yeni bir bakış açısı sağlıyor ve öğrenme hızı ile değişimlerini gözlemliyor.
Kağıt adresi:
https://arxiv.org/pdf/1901.09491.pdf
Kaynak: arxiv
Editör: Xiao Qin
Bu makale şu kaynaktan aktarılmıştır: Xinzhiyuan
Düzenle | Aban Redaksiyon | Nuts Vision | Niu Xiaowei
SON