Özel | Derin öğrenme genelleme teorisi nasıl çözülür?

Yazar: Dmytrii S.

Çeviri: Chen Zhiyan

Redaksiyon: Lu Miaomiao

Bu makale var 2360 kelime, Önerilen Okuma 5 dakika.

Bu makale, derin öğrenme genelleme teorisindeki bazı deneyimleri tartışmakta ve açıklamaya çalışmaktadır.

Derin öğrenme paradoksu "simya" üzerine yapılan son araştırmalardan bir veya iki tane öğrenebiliriz.

motivasyon

Derin öğrenme şu anda her yönüyle kullanılıyor. Bununla birlikte, insanlar onu neden bu kadar büyülü olduğunu tam olarak açıklayabilecek temel bir teoriye sahip olmadığı için eleştirirler. Son zamanlarda, Sinirsel Bilgi İşleme Sistemleri Konferansı'nda (NIPS) Zaman Testi kazananı, derin öğrenmeyi "simya" ile karşılaştırdı.

Derin öğrenme genelleme teorisinin açıklaması hala açık bir soru olmasına rağmen, bu yazıda bu alandaki en son teorileri ve gelişmiş deneyimleri tartışacak ve açıklamaya çalışacağız.

Derin öğrenmenin paradoksu

Derin öğrenmenin "bariz paradoksu" şudur: Büyük kapasite, sayısal istikrarsızlık, keskin minimal çözüm (SharpMinima) ve pratik problemlerde sağlamlık özelliklerine sahip olmasına rağmen, pratikte iyi bir şekilde genelleştirilebilir. .

"Derin Öğrenmeyi Anlamak Genelleştirmeyi Yeniden Düşünmek Gerektiriyor" adlı yeni bir makalede, derin sinir ağının (DNN) ImageNet ve CIFAR10 veri setlerini rastgele etiketlerle hatırlamak için yeterli depolama kapasitesine sahip olduğu gösterilmiştir. Gerçek verilerde neden genelleştirilebilir bir çözüm buldukları açık değildir.

Derin mimari ile ilgili bir diğer önemli sorun ise sayısal istikrarsızlıktır. Türev tabanlı öğrenme algoritmalarında, sayısal kararsızlık genellikle kaybolan gradyan olarak adlandırılır. Altta yatan ileri modelin istikrarsızlığı daha büyük zorluklara yol açar. Başka bir deyişle, orijinal özelliklerdeki küçük kesintiler için bazı ağların çıktıları kararsız olabilir. Makine öğreniminde buna sağlamlık denir. Bir örnek, Şekil 1'de gösterilen düşmanca saldırıdır.

Şekil 1: Kaynak: Düşman saldırı örnekleriyle makine öğrenimi

Bazı çalışmalar, derin öğrenmenin genelleme argümanını, stokastik gradyan inişi (SGD) yoluyla kayıp fonksiyonunun minimum düzlüğünü bulmaya dayandırır. Ancak, son araştırmalar, "Sharp Minima'nın derin ağlar için daha iyi genelleme yeteneklerine sahip olduğunu" göstermiştir. Daha spesifik olarak, düz minimum çözüm, genelleme yeteneğini değiştirmeden yeniden parametrelendirme yoluyla keskin bir minimum çözüme dönüştürülebilir. Bu nedenle, genelleme yalnızca parametre uzayının sağlamlığıyla açıklanamaz.

Genelleme teorisi

Genelleme teorisinin amacı, eğitim setinin doğruluğunun neden ve nasıl geliştirileceğini açıklamak ve kanıtlamaktır. Bu iki doğruluk oranı arasındaki fark, "genelleme hatası" veya "genelleme boşluğu" olarak adlandırılır. Daha katı bir anlamda, genelleme boşluğu, hesaplanmamış beklenen risk ile belirli bir öğrenme algoritması A'nın veri seti SM üzerindeki F fonksiyonunun hesaplanabilir ampirik riski arasındaki fark olarak tanımlanabilir:

Esasen, genelleme açığının üst sınırını küçük bir değere ayarlarsak, bu, derin öğrenme algoritmasının f pratikte iyi bir genelleme yapmasını sağlayacaktır. Genelleme boşluğunun çoklu teorik üst sınırları, modelin karmaşıklığına, kararlılığına ve sağlamlığına bağlıdır.

İki tür derin öğrenme modeli karmaşıklığı vardır: Rademacher karmaşıklığı ve Vapnik-Chervonenkis (VC) boyutu. Bununla birlikte, bilinen üst sınırın derin öğrenme işlevi f için, Radamacher'in karmaşıklığı ağ derinliği arttıkça katlanarak artar. Bu, gerçek gözlemin tam tersidir Uygun eğitim veri ağının derinliği ne kadar büyükse, deneyim hatası o kadar küçük olur. Benzer şekilde, genelleme boşluğunun üst sınırı VC boyutuna ve eğitim parametrelerine bağlı olarak doğrusal olarak büyür ve derin öğrenmedeki gerçek gözlemlere bağlı değildir. Başka bir deyişle, bu iki üst sınır çok muhafazakar.

Son zamanlarda, KKawaguchi, LPKELING ve YBengio daha kullanışlı yöntemler önerdiler. Diğerlerinden farklı olarak, genellikle eğitim doğrulama paradigmasını kullanarak derin öğrenme modelleri eğittiklerini kabul ederler. Hesaplanmayan beklenen riskleri ve eğitim hatalarını değiştirmek için doğrulama hatalarını kullanırlar. Bu görüşe göre, derin öğrenmenin neden bu kadar mükemmel bir şekilde genelleştirilebileceğine dair şu bakış açısını ortaya koyuyorlar: "Bu kadar iyi genelleme yapabilmemizin nedeni, model arama yoluyla iyi bir tane elde etmek için doğrulama hatalarını kullanabilmemizdir. Bunu herhangi biri için modelleyin ve kanıtlayın > 0, olasılık en az 1-:

Önemli olan şudur: | Fval | karar verme için nihai modeli seçmek için doğrulama veri kümesini kaç kez kullandığımızdır ve M, doğrulama kümesinin boyutudur. Bu değer, derin öğrenmenin neden bu kadar iyi genelleştirebileceğini açıklamak için kullanılabilir, ancak istikrarsızlık, sağlamlık ve keskin minimal çözümler getirebilir (Sharp Minima). Çözülmemiş bir soru var: neden düşük doğrulama hatalarına neden olan mimari ve parametreleri bulabiliriz. Genellikle mimari, gerçek dünya gözlemlerinden ve aşağıda tartışacağımız SGD kullanılarak aranan iyi parametrelerden esinlenmiştir:

Stokastik Gradyan İniş (SGD)

SGD, modern derin öğrenmenin içsel bir parçasıdır ve açık bir şekilde genellemesinin arkasındaki ana nedenlerden biridir. Daha sonra genelleme özelliklerini tartışacağız.

Yakın tarihli bir makalede "Stokastik gradyan inişinin veriye bağlı kararlılığı" Yazar, belirli ek kayıp koşulları altında, SGD'nin ortalama kararlı bir algoritma olduğunu kanıtladı. Bu koşullar, yaygın olarak kullanılan kayıp işlevlerinde karşılanabilir.Örneğin, Lojistik / Softmax kaybı işlevi genellikle etkinleştirme işlevinin bir sigmoid işlevi olduğu sinir ağlarında kullanılır. Bu durumda stabilite, SGD'nin eğitim setindeki küçük rahatsızlıklara ne kadar duyarlı olduğu anlamına gelir. Ayrıca, dışbükey olmayan fonksiyonlarda (derin sinir ağları gibi) SGD genelleme boşluğunun ortalama veri üst sınırının veri korelasyonunu kanıtladılar:

M eğitim setinin boyutu olduğunda, T eğitim adım boyutu ve başlangıç noktasının stabilite üzerindeki eğriliğinin etkisini temsil eder. Bundan en az iki sonuç çıkarılabilir. Her şeyden önce, başlangıç noktasına yakın amaç fonksiyonunun eğriliği, amaç fonksiyonunun başlangıç değeri üzerinde çok önemli bir etkiye sahiptir. Daha az eğriliğe sahip düşük riskli bir alandaki bir noktadan başlamak, daha yüksek stabilite, yani daha hızlı genelleme sağlayabilir. Pratikte, iyi başlatma parametrelerini seçmek iyi bir ön ekran kararı olabilir. İkincisi, geçiş oranını, yani m = O (T) dikkate alarak, O (M) 'nin üst sınırını sadeleştiriyoruz. Yani, eğitim seti ne kadar büyükse, genelleme açığı o kadar küçüktür.

İlginç bir şekilde, öğrenme eğrisini araştıran çok sayıda araştırma var. Bunların çoğu güç yasası genelleme hatalarını gösterir, ölçekleme oranı (m) -mm ve üs = 0.5 veya 1'dir. Bu, daha önce tartışılan sonuçlarla da tutarlıdır. Bununla birlikte, Baidu'nun çok fazla araştırma yapmış olması ve bu güç yasasını ampirik olarak gözlemleyebilmiş olması çok önemlidir (bkz. Şekil 2). Pratik uygulamalarda indisi 0.07 ile 0.35 arasındadır ve bu değer teorik olarak açıklanmalıdır.

Şekil 2 Kaynak: Derin öğrenmenin ölçeklendirilmesi tahmin edilebilir ve deneyseldir.

Ek olarak, SGD genellemesinde iki tür parti boyutu (bir serideki numune sayısı) vardır: teorik değer ve ampirik değer. Sezgisel olarak konuşursak, mini toplu eğitim eğimde gürültü oluşturacak, bu gürültü SGD'yi en küçük minimum değerden uzaklaştıracak ve böylece genelleme yeteneğini artıracaktır. Google'ın kısa süre önce yayınladığı bir makalede, parti boyutunun optimizasyonunun öğrenme oranı ve eğitim seti boyutuyla orantılı olduğunu gösterdi. Ya da basitçe "Öğrenme oranından ödün vermeyin, grup boyutunu artırın". Aynı ölçeklendirme kuralı SGD momentumundan gelir: Bopt ~ 1 / (1 - m), Bopt optimize edilmiş parti boyutu ve m momentumdur. Alternatif olarak, tüm sonuçlar aşağıdaki denklemle özetlenebilir:

öğrenme oranı, N eğitim setinin boyutu, m momentum ve B parti boyutu.

sonuç olarak

Geçtiğimiz birkaç yıl içinde insanlar, derin öğrenmenin temel teorilerindeki paradokslarla gittikçe daha fazla ilgilenmeye başladılar. Hala çözülmemiş bazı araştırma sorunları olsa da, modern derin öğrenme kesinlikle simya değildir. Bu yazıda, bu konunun genel görünümünü tartıştık ve bazı pratik sonuçlara ulaştık:

  • Daha az kavisli ve daha düşük riskli alanlarda başlatma parametrelerini seçin. Hessian vektör çarpımı, eğriliği etkin bir şekilde tahmin edebilir.

  • Momentumu değiştirirken, parti boyutunu ölçeklendirin.

  • Öğrenme oranından ödün vermeden parti boyutunu artırın.

Orijinal bağlantı: https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808

Çin'in ilk savaşındaki bu yeni ordu tarih yazdı! 1 Dış yardım rakibi eziyor, diğerleri ona Shaanxi Mbappé diyor!
önceki
Uzak evrenden tekrarlayan gizemli bir sinyal geldi! Siparişi bırakacak mıyız
Sonraki
Etrafındaki profiller | Huaxiba Geçmiş 34: Kanadalı bir okulun trajik şenlik ateşi olan Huaxiba'da (3)
Python örnekleri, düzenli hale getirilmiş açgözlü orman algoritması sunar (kodlu)
Uluslararası Şampiyonlar Kupası-Muller iki gol attı, Morata ilk şovu karşıladı, Bayern 3-2 Chelsea
Amazon, "uçak gemisi" drone filosu kuruyor
Bir hiç için koş! Jiang Zhipeng'in kırığı Çin Kupası'nı kaçırdı ve Asya Kupası'nın yeni oyuncusu değiştirildi!
Aşırı uyum sorunlarına basit bir çözüm öğretin (formülle)
İyi bir buluşma, iyi dağılmış! Pato cebinden ödeme yapar ve Tianjin Tianhai ile sözleşmesini fesheder, "Pa Jianguo" bir anı olur
Doğu Gölü'nde yüzlerce merserize sığırcık toplanıyor ve kafur ağaçları onları Han'da kalmaya çekiyor
Wu Gansha nihayet büyük bir hamle yaptı ve kumarhane bir yıl içinde sürücüsüz arabaları seri üretebileceğini açıkladı.
AI uzmanlarının küresel dağılımı: Yapay zekayı gerçekten anlıyor musunuz?
Tibet'teki 2.4 metrelik kardan adam trafik polisi popüler oldu! Trafik polisi kar küreiyor ve yollar aralıklı olarak üst üste yığılıyor
Üretken yüzleşme ağı GAN'larını anlamak için bir makale (öğrenme kaynakları ile)
To Top