Tuning artık simya değil! Google, sinir ağı eğitim teorisinin ilk kanıtını veriyor

Xin Zhiyuan Rehberi Google AI tarafından yayınlanan yakın tarihli bir makale, derin sinir ağı eğitimi hakkında ilk teorik kanıtı verdi. Deneysel gözlem sonuçları, gradyan inişinin Bayes optimizasyonundan daha güçlü olduğuna dair ön açıklamanın temelini de attı. Sinir ağlarının teorik perdesi yavaş yavaş ortaya çıkıyor.

Görünüşe göre sinir ağları aslında doğrusal modellerden çok da farklı değil!

Google AI araştırmacıları geçtiğimiz günlerde arxiv hakkında bir makale yayınlayarak sinir ağı eğitiminin ilk teorik kanıtını verdi.

Deneyde, gerçek bir sinir ağı eğitim sürecini doğrusal bir model eğitim süreciyle karşılaştırdılar ve ikisinin oldukça tutarlı olduğunu buldular. Burada kullanılan sinir ağı, ReLU katmanı, evrişimli katman, havuzlama katmanı ve toplu normalleştirme dahil olmak üzere geniş bir ResNet'tir; Doğrusal model, ResNet'in Taylor serisinin ilk (rastgele) parametreleriyle oluşturulmuş bir ağdır.

Sinir ağının eğitim sürecini doğrusal modelle karşılaştırdığımızda, ikisi oldukça tutarlıdır.

Birden fazla farklı model üzerinde deney yaptıktan ve ölçüm hatalarını ortadan kaldırdıktan sonra gözlemler tutarlı kalır. Bundan, Google AI araştırmacıları şu sonuca vardı: Öğrenme hızı nispeten küçük olduğunda ve ağ yeterince geniş olduğunda (sonsuz genişlikte olması gerekmez), sinir ağı doğrusal bir modeldir.

Bundan türetilen bir sonuç, gradyan inişi kullanılarak eğitilen büyük bir ağ topluluğunun bir Gauss süreci ile tanımlanabileceği ve bu Gauss sürecinin gradyan inişi sırasında herhangi bir zamanda tam olarak resmileştirilebileceğidir.

Bu gözlemler aynı zamanda, derin öğrenme araştırma topluluğunu uzun süredir rahatsız eden bir sorunu başlangıçta açıklamak için kullanılabilecek teorik bir çerçevenin temelini oluşturur: gradyan inişi hangi koşullar altında Bayes optimizasyonundan daha iyidir?

Derin sinir ağlarını eğitmenin "katılımcıları ayarlamak ve simyayı rafine etmek" olarak alay konusu olduğu şu anda, bu keşif bir umut ışığı gibi, "bilim" ten hala dışlanmış olan derin öğrenme alanına ateş ediyor ve heyecan verici.

İlgili makaleler: Gradyan inişle eğitilmiş geniş bir sinir ağı ile herhangi bir derinlikte doğrusal bir model arasındaki tutarlılık

Son olarak, ayarlama artık simya değil: sinir ağı eğitiminin ilk teorik kanıtı

Derin sinir ağlarına dayalı makine öğrenimi modelleri, birçok görevde benzeri görülmemiş bir performans elde etti. Genel olarak, bu modeller karmaşık sistemler olarak kabul edilir ve birçok teorik analiz türü aldatıcıdır. Ek olarak, kontrol optimizasyonu genellikle yüksek boyutlu dışbükey olmayan kayıp yüzeyleri olduğundan, bu modellerin gradyan tabanlı eğitim dinamiklerini tanımlamak zordur.

Fizik bilimlerinde yaygın olduğu gibi, bu sistemlerin sınırlarının incelenmesi genellikle bu sorunları açıklayabilir. Sinir ağları için sınırlardan biri, tamamen bağlı bir katmandaki gizli birimlerin sayısını veya bir evrişimli katmandaki kanalların sayısını ifade eden "sonsuz genişliği" dir.

Bu sınırlama altında, ağ başlatmanın çıktısı Gauss sürecinden (GP) alınır; Ek olarak, kare kaybı doğru Bayes eğitimi için kullanıldıktan sonra, ağ çıkışı hala GP tarafından kontrol edilir. Teorik basitliğe ek olarak, nfinite-width sınırı da pratik öneme sahiptir, çünkü birçok çalışma daha geniş bir ağın daha iyi genelleştirilebileceğini kanıtlamıştır.

Bu çalışmada, gradyan iniş altında geniş bir sinir ağının öğrenme dinamiklerini araştırdık ve dinamik ağırlık alanı tanımının çok basitleştiğini gördük: genişlik büyüdükçe, sinir ağı ile etkili bir şekilde ilişkilendirilebilir. İlk parametreler, birinci dereceden Taylor genişlemesi ile değiştirilir.

Bu indüklenmiş doğrusal model için, gradyan inişinin dinamik mekanizmasının analiz edilmesi kolay hale gelir. Doğrusallaştırma yalnızca sonsuz genişlik sınırının altında doğru olsa da, sonlu genişlik durumunda bile, orijinal ağın öngörüsünün doğrusallaştırılmış sürümün öngörüsüyle hala çok tutarlı olduğunu gördük. Bu tutarlılık farklı mimariler, optimizasyon yöntemleri ve kayıp fonksiyonları arasında mevcuttur.

Karesel kayıp (kayıp karesi) için, hassas öğrenme dinamik mekanizması, tahmin dağılımının evrimini tanımlamak için GP'yi kullanmamıza izin veren kapalı form çözümlerine izin verir. Bu sonuç, "örnekle sonra optimize et" posterior örneklemenin derin sinir ağı eğitimine bir uzantısı olarak görülebilir. Ampirik simülasyonlarımız, sonuçların farklı rasgele başlatmalarla sonlu genişlikli model kümesindeki tahmin edilen değişiklikleri doğru bir şekilde simüle ettiğini doğrulamaktadır.

Google AI araştırmacıları, bu makalenin ana katkılarının şunları içerdiğini söyledi:

İlk olarak, sonsuz genişlik sınırı altında tüm gradyan iniş eğitim süreci boyunca ağ çıktısının kesin dinamiklerini tanımlayan Jacot ve diğerlerinin (2018) son araştırma sonuçlarına dayanıyoruz. Elde ettikleri sonuçlar, parametre uzayının gradyan inişinin, işlev uzayındaki yeni çekirdeğin çekirdek gradyan inişine, yani Sinir Teğet Çekirdeğine (NTK) karşılık geldiğini kanıtladı.

Çalışmamızın önemli bir katkısı, parametre uzayındaki dinamiklerin tüm ağ parametreleri, ağırlıkları ve önyargıları kümesindeki afin modelin eğitim dinamiklerine eşdeğer olduğunu kanıtlamaktır. Kayıp işlevi seçimine bakılmaksızın, bu sonuç doğrudur. Kare kaybı durumunda dinamik, zamanın bir fonksiyonu olarak kapalı bir form çözümüne izin verir.

Başlatma sırasında sonsuz genişlikte bir sinir ağının çıktısı Gauss'dur ve Jacot ve diğerlerinde (2018) açıklandığı gibi, kare kaybı eğitim süreci boyunca her zaman Gauss'tur. GP'nin ortalama ve kovaryans fonksiyonlarının açık zamana bağlı ifadelerini çıkardık ve sonuçlar için yeni bir açıklama sağladık.

Spesifik olarak, bu açıklama, gradyan inişinin ve parametrelerin Bayesci posterior örneklemesinin farklı mekanizmalarının nicel bir anlayışını sağlar: Her iki yöntem de GP'den alınmasına rağmen, gradyan inişi herhangi bir olasılık modelinin sonundan türetilmeyecektir. Örnekler oluşturun.

Bu gözlem, yalnızca en üst düzey ağırlıkların eğitildiği ve gradyan inişinin Bayes arka örnekleme.

Bu gözlemler, gradyan inişinin Bayesci çıkarıma göre belirli faydalar sağlayıp sağlamadığı, nasıl ve hangi koşullar altında olduğu gibi uzun süredir devam eden problemleri analiz etmek için bir çerçeve oluşturur.

Chizat ve Bach'ta (2018b) tartışıldığı gibi, bu teorik sonuçlar gerçek sinir ağlarına uygulanamayacak kadar basit olabilir. Bununla birlikte, teorinin sonlu genişlik ortamında uygulanabilirliğini ampirik araştırma yoluyla kanıtladık ve Geniş Kalıntı gibi bazı gerçek ağ mimarileri de dahil olmak üzere çeşitli koşullar altında öğrenme dinamik mekanizmasını ve arka fonksiyon dağılımını doğru bir şekilde tanımladığını bulduk. Ağ (Zagoruyko ve Komodakis, 2016).

Spesifik deney: sonsuz genişlikte bir sinir ağı doğrusal bir modeldir

Doğrusallaştırılmış ağ

Burada, doğrusallaştırılmış ağın eğitim dinamiklerini, özellikle sinir ağının çıktısını birinci dereceden bir Taylor genişlemesiyle değiştirerek ele alacağız:

Flint'in iki öğenin toplamı olduğuna dikkat etmek önemlidir: ilk öğe, eğitim sürecinde değişmeden kalan ağın ilk çıktısıdır; ikinci öğe, eğitim süreci sırasında başlangıç değerindeki değişiklikleri yakalamaktır.

Bu doğrusallaştırma işlevini kullanan gradyan akışının dinamikleri aşağıdaki kısıtlamalara tabidir:

Sonsuz genişlik sınırı Gauss sürecini üretir

Gizli katmanın genişliği sonsuza yakın olduğunda, Merkezi Limit Teoremi (CLT), {f0 (x)} xX başlatılırken çıktının dağıtımdaki çok değişkenli Gauss dağılımına yakınsadığı anlamına gelir. Bu, indüksiyonla gayri resmi olarak kanıtlanabilir.

Bu nedenle, rastgele başlatılan sinir ağı, sinir ağının tam Bayesçi işlenmesini kolaylaştıracak bir tür Gauss sürecine (bundan sonra NNGP olarak anılacaktır) karşılık gelir.

Gradyan iniş eğitiminde Gauss süreci

L değişkenini başlatmadan sonra dondurur ve yalnızca L + 1'i optimize edersek, orijinal ağ ve onun doğrusallaştırması aynı olur. Genişliğin sonsuza eğilimli olmasına izin verin, bu özel tanjant çekirdeğin olasılığı K'ya yakınsar. Bu, Gauss sürecinin sonunu değerlendirmek için kullanılan "optimizasyon öncesi örnek" yönteminin bir uygulamasıdır.

NNGP, NTK-GP ve NN setlerinin tahmin dağılımlarını aşağıdaki şekilde gösterildiği gibi karşılaştırdık:

Eğitim sinir ağı çıktısının ortalamasının ve varyansının dinamikleri, doğrusallaştırılmış analiz dinamik mekanizmasını takip eder

Siyah çizgi, 100 eğitim sinir ağı setinden tahmin çıktı dağılımının zaman evrimini temsil eder; mavi alan, tüm eğitimdeki çıktı dağılımının analizini ve tahminini temsil eder; son olarak, kırmızı alan, NNGP'ye karşılık gelen yalnızca en üst eğitim seviyesinin tahminini temsil eder.

Eğitimli ağ, 8192 genişliğinde 3 gizli katmana sahiptir. Gölgeli alan ve kesikli çizgi, ortalamanın 2 standart sapmasını temsil eder.

Sonsuz genişlik ağı doğrusallaştırılmış ağdır

Orijinal ağın Sıradan Diferansiyel Denklemi (ODE), normal koşullar altında çözülebilir değildir. İntegral fonksiyonunun gradyan normunun n1, n2, ..., nL olarak rasgele sınırlı kaldığı teknik varsayımı altında:

Yukarıdaki formüldeki üst sınırın yalnızca teorik olduğunu ve ampirik gözleme dayalı olarak elde edildiğini belirtmek gerekir:

Eğitim sırasında Göreceli Frobenius normunun değişmesi

MSE ayarında, orijinal ağın çıktısı ile doğrusallaştırılmış çıktısı arasındaki farka bir üst sınır koyabiliriz:

Çok geniş ağlar için, eğitim dinamik mekanizmasına yaklaşmak için doğrusallaştırılmış dinamik mekanizmayı kullanabiliriz.

"Tutukluluğa karşı mücadeleye getiren" genç adam, son gelişme burada
önceki
Sürekli yüksek profilli Wang Sicong, 60 milyon doğum gününü Maldivler adasında kutluyor
Sonraki
Önde GLC ve X3, arkada XC60 ve XT5 var Infiniti QX50 bunu tutabilir mi?
Japonya'da Ulusal Masa Tenisi Şampiyonası sadece 2 şampiyonlukla ağır darbe aldı, erkekler ve kadınlar Japonya'ya yenildi, 14 yaşındaki dahi en büyük tehdit oldu
Çin, Japonya ve Kore'de en iyi Go oyuncusunu süpüren "Usta" nın gerçek kimliği nedir?
Yarıda 6 gol attı! U23 milli futbol takımı, Tang ve şiirde Kuzey Kore'yi 6-2, Huang Zichang'ı 2 şut, 3 pas ve 5 gol yendi
Alipay 2016 faturasını, Şangaylıların para harcamayı sevdiğini, "Y kuşağının" ana güç olduğunu duyurdu
Seyir menzili 300 kilometreyi aşıyor! Zotye E200 yüksek dayanıklılık versiyonu A00 için ilk tercih olabilir mi?
Çin'in satın alınmasından sonra kötüleşiyor mu? DyStar atık asit çalmaktan 20 milyon para cezası aldı
Hindistan'ın "banknot durumu" bitmedi! "Banknotların terk edilmesi" bir banka faiz indirimi dalgasını başlattı
Siyah ajan güldü: StyleGAN, tıpkı gerçek gibi, bir saniyede sahte bir ev oluşturuyor
Yeni araba yapım güçleri paniğe kapılıyor mu? Bu 5 lüks elektrikli SUV yeni bir model oluşturmuş olabilir
Rosamund Kwan, Repulse Bay'de 143 milyon yuan'a lüks bir ev satıyor
Mazda MX-5 ne kadar iyi olursa olsun, bu sadece bir illüzyondur.
To Top