Xinzhiyuan Raporu
Kaynak: Google AI
Editör: Xiao Qin, Sanshi
Xin Zhiyuan Rehberi Büyük tanrı Geffery Hinton, geri yayılım algoritmasının mucididir, ancak aynı zamanda geri yayılımın açıkça beynin çalışma şekli olmadığını düşünerek geri yayılım hakkında şüphelerini dile getirdi.Teknolojik ilerlemeyi teşvik etmek için tamamen yeni bir yöntem icat edilmelidir. Bugün tanıtılan birçok Google Brain araştırmacısı tarafından yayınlanan Backprop Evolution'ın en son makalesi, geri yayılım denklemlerinin yeni varyantlarını otomatik olarak keşfetmek için bir yöntem önermektedir. Bu yöntem bazı yeni denklemleri keşfeder ve eğitim hızı standart geri yayılımdan daha hızlıdır. , Eğitim süresi daha kısadır.
Kağıt adresi:
https://arxiv.org/pdf/1808.02822.pdf
Geoffrey Hinton tarafından önerilen geri yayılma algoritması, derin öğrenmenin temel taşıdır.
1986'da Geoffrey Hinton, bir makalenin ortak yazarı oldu: Geri yayılma hataları ile temsilleri öğrenme Otuz yıl sonra, geri yayılma algoritması bu yapay zeka patlaması dalgasının çekirdeği haline geldi.
Ancak geçen yıl, Hinton bir röportajda geri yayılım algoritmasından endişe duyduğunu söyledi " Derinden şüphe ", olması gerektiğini düşünüyorum Geri yayılımı tamamen bırakın ve yeniden başlayın . Hinton, geri yayılmanın beynin çalışma şekli olmadığına ve beynimizin açıkça tüm verileri etiketlemesine gerek olmadığına inanıyor. İlerlemeyi teşvik etmek için yeni yöntemler icat edilmelidir.
Hinton ve sayısız araştırmacı henüz iletişimin yerini alabilecek yeni bir yöntem önermemiş olsa da, son makine öğrenimi otomatik arama yöntemleri birçok başarıya ulaştı. Geri yayılım algoritmasının çeşitleri Ayrıca giderek daha fazla araştırma yapılıyor.
Berlin Teknik Üniversitesi ve Google Brain'den çok sayıda araştırmacı tarafından yayınlanan en son makale Backprop Evrimi , Bir önerin Geri yayılma denkleminin yeni varyantlarını otomatik olarak keşfedin Yöntemler. Araştırmacılar, güncellenmiş denklemleri orijinal işlevlerin bir listesi olarak tanımlamak için alana özgü bir dil kullanır.
Özellikle, araştırmacılar, birkaç eğitim döneminden sonra genelleme performanslarını en üst düzeye çıkarabilecek yeni yayılma kurallarını keşfetmek için evrim temelli bir yöntem kullanırlar. Bazı yeni denklemler buldular, Eğitim hızı, standart geri yayılmadan daha hızlıdır, eğitim süresi daha kısadır ve yakınsama, standart geri yayılmaya benzerdir .
Otomatik olarak geri yayılma denklemi oluştur
Backpropagation algoritması, makine öğrenimindeki en önemli algoritmalardan biridir. Önceki çalışmalar geri yayılım denkleminin bazı varyantlarını denemiş ve belirli bir başarı derecesine ulaşmıştır (örneğin, Bengio ve diğerleri (1994); Lillicrap ve diğerleri (2014); Lee ve diğerleri (2015); Nøkland (2016); Liao ve diğerleri (2016)). Ancak bu girişimlere rağmen, geri yayılım denkleminin değiştirilmesi yaygın olarak kullanılmamıştır, çünkü bu modifikasyonlar nadiren gerçek uygulamayı iyileştirir ve hatta bazen hasara neden olur.
Makine öğrenimi otomatik arama yöntemlerinin son dönemdeki başarısından esinlenerek, Otomatik olarak geri yayılma denklemi oluştur Yöntemler.
Bu amaçla, bir öneriyoruz Etki alanına özgü dil Bu matematiksel formülleri ilkel işlevlerin bir listesi olarak tanımlamak için (Alana özgü dil) ve bir evrim Yeni yayılma kurallarını keşfetmek için (evrime dayalı) yöntem. Birkaç eğitim döneminden sonra, arama koşulu genellemeyi maksimize etmektir. Standart geri yayılım kadar iyi olan birkaç değişken denklem bulduk. Ek olarak, kısa bir eğitim süresinde bu varyantlar doğruluğu artırabilir. Bu, eğitim sırasında doğruluğa dayalı kararlar almak için Hyperband gibi algoritmaları geliştirmek için kullanılabilir.
Geri yayılım
Şekil 1: Sinir ağları, bazı hesaplama grafikleri olarak görülebilir. İleri grafik, ağ tasarımcısı tarafından tanımlanır ve geri yayılım algoritması, parametre güncellemeleri için bir hesaplama grafiğini örtük olarak tanımlar. Bu araştırmanın ana katkısı, standart geri yayılımdan daha etkili bir parametre güncelleme hesaplama grafiği bulmak için evrimin nasıl kullanılacağını keşfetmektir.
onların arasında,
Ağın girişi, katmanı indeksliyor, İlk katmanın ağırlık matrisidir. Sinir ağını optimize etmek için kaybı hesaplamalıyız Ağırlık matrisi ile ilgili olan kısmi türevi ilişkili. Bu miktar, geri yayılım algoritmasındaki zincir kuralı kullanılarak hesaplanabilir. Gizli aktivasyonu hesaplamak için Kısmi türevine bir dizi işlem uygulanır.Hesaplandıktan sonra ağırlık güncellemesi şu şekilde hesaplanabilir:
Şekil 1'de gösterildiği gibi, sinir ağı şu şekilde ifade edilebilir: İleri ve geri hesaplama grafiği . Ağ tasarımcısı tarafından tanımlanan bir ileri hesaplama grafiği verildiğinde, geri yayılım algoritması, parametreleri güncellemek için geriye dönük bir hesaplama grafiği tanımlar. Ancak, daha iyi genelleme yapmak için geliştirilmiş bir ters hesaplama grafiği bulmak mümkündür.
Son zamanlarda, makine öğrenimi için otomatik arama yöntemleri, çeşitli görevlerde iyi sonuçlar elde etti. Bu yöntemler, ileri hesaplama grafiğini değiştirmeyi ve uygun bir ters grafik tanımlamak için geri yayılmaya dayanmayı içerir. Bunun aksine, bu çalışmada, daha iyi denklemler bulmak ve yeni eğitim kuralları oluşturmak için ters hesaplama grafiğini değiştirmeye ve arama yöntemlerini kullanmaya odaklanıyoruz.
yöntem
İyileştirilmiş güncelleme kurallarını bulmak için, olası güncelleme denklemlerinin alanını araştırmak için evrimsel algoritmalar kullanıyoruz. Her yinelemede, evrim denetleyicisi değerlendirme için çalışan havuzuna bir grup mutant güncelleme denklemi gönderir. Her işçi, sabit bir sinir ağı yapısını eğitmek için aldığı mutasyon denklemini kullanır ve elde edilen doğrulama doğruluğunu kontrolöre bildirir.
Arama alanı
Bello ve diğerlerinden (2017) esinlenerek, hesaplamalarda kullanılan denklemleri açıklamak için alana özel dil (DSL) kullanıyoruz. DSL her denklemi şu şekilde ifade eder:
,onların arasında , Olası işlenen, ile Tekli bir işlevdir, İkili bir fonksiyondur. Tekli fonksiyonlar ve ikili fonksiyonlar seti manuel olarak belirtilir, ancak her fonksiyon ve işlenen seçimi kontrolör tarafından seçilir. Her bir bileşenin örnekleri aşağıdaki gibidir:Operand (İşlenenler): W (geçerli katmanın ağırlık matrisi),
(Gauss matrisi), (Kimden Gauss rasgele matris eşlemesine göre), (İleriye doğru yayılmanın gizli aktivasyonu), (Geri yayılımın değeri).Tekli işlev
İkili fonksiyon
Bunlar arasında, geçerli katmanı indeksleyin. Deneyde kullanılan tam kurulum için lütfen kağıdın Ek A'sına bakın.
Ortaya çıkan miktar
Denklem 1'deki gibi kullanılır veya denklemin geri kalanında yinelemeli olarak kullanılır . Deneyde, 1 ila 3 ikili işlemden oluşan denklemleri keşfettik. Bu DSL basit olmasına rağmen, standart geri yayılma, geri besleme hizalaması ve doğrudan geri besleme hizalaması gibi karmaşık denklemleri ifade edebilir.Evrimsel algoritma
Evrim denetleyicisi (Evrimsel denetleyici) bir dizi keşfedilmiş denklemi sürdürür. Her yinelemede, kontrolör aşağıdaki işlemlerden birini gerçekleştirir: 1) Olasılık p olduğunda, kontrolör arama sırasında bulunan N optimal rekabet edebilirlik denklemi arasından rastgele bir denklem seçer ve 2) olasılık 1'dir. P'de, kontrolör rastgele diğer popülasyon denklemlerinden bir denklem seçer.
Kontrol cihazı daha sonra seçilen denkleme k mutasyonu uygular; burada k, sınıflandırma dağılımından çıkarılır. Bu k mutasyonlarının her biri, denklemin rastgele tutarlı bir bileşenini seçer (örneğin, bir işlenen, bir tekli fonksiyon veya bir ikili fonksiyon) ve sonra bunu aynı türden rastgele seçilmiş başka bir bileşenle değiştirir. Bazı mutasyonlar matematiksel olarak mümkün olmayan denklemlere yol açabilir Bu durumda, kontrolör başarılı olana kadar mutasyon sürecini yeniden başlatacaktır. N, p ve k'nin sınıflandırma dağılımları, algoritmanın hiperparametreleridir.
İlk popülasyonu oluşturmak için, arama uzayından rastgele N denklemi örneklemeliyiz. Ek olarak, bazı deneylerimizde, önceden tanımlanmış küçük bir denklem seti ile başlıyoruz (genellikle normal geri yayılım denklemi veya geri besleme hizalama denklemi varyantı). Mevcut denklemlerden başlama yeteneği, pekiştirmeli öğrenmeye dayalı evrimsel yöntemlerin avantajıdır.
Deneyler ve sonuçlar
Bu yöntemde kullanılan Her yeni denklem için model seçimini değerlendirin Önemli bir ayardır. Daha büyük ve daha derin bir ağ daha gerçekçi olacaktır, ancak eğitilmesi daha uzun sürer, daha küçük bir model daha hızlı eğitilir, ancak güncellenen ağın yükselememesine neden olabilir. Bu iki standardı WRN'nin 16 katmana sahip olduğu, genişlik çarpanının 2 olduğu ve CIFAR-10 veri seti üzerinde eğitimin yapıldığı Wide ResNets (WRN) kullanarak dengeliyoruz.
Temel arama ve genelleme
İlk aramada, kontrolör WRN 16-2 ağını 20 dönem için eğitmek için yeni bir denklem önerdi ve momentumlu veya momentumsuz SGD ile eğitildi. Doğrulama doğruluğuna göre ilk 100 yeni denklemi toplayın ve ardından bunları farklı senaryolarda test edin:
(A1) WRN 16-2'yi eğitmek ve arama ayarlarını kopyalamak için 20 epoch kullanın;
(A2) WRN 28-10'u eğitmek ve daha büyük bir modele genişletmek için 20 dönemi kullanın (WRN 28-10, WRN 16-2'nin parametrelerinin 10 katına sahiptir);
(A3) WRN 16-2'yi eğitmek için 100 epoch kullanın ve test daha uzun bir eğitim mekanizmasına genişletilir.
Deneysel sonuçlar Tablo 1'de gösterilmektedir:
Tablo 1: Deneysel sonuçlar
A1'den A3'e, her ayarda en iyi performansa sahip iki denklem ve tüm ayarlarda iyi performans gösteren iki denklem gösterilir. En iyi performans gösteren 4 denklem B1'de gösterilmektedir ve tüm sonuçlar, 5 kattan fazla ortalama test doğruluğudur. Taban çizgisi, gradyan geri yayılımıdır. Temel performanstan% 0.1 daha iyi olan sonuçlar koyu renkle belirtilmiştir. kullanırız
Anlamına geliyor .Eğitim sayısını artırmak için arayın
Önceki arama deneyleri, yeni denklemin eğitimin başında iyi çalıştığını, ancak yakınsamada geri yayılımdan daha iyi olmadığını buldu. İkinci sonuç, arama ve test mekanizmaları arasındaki uyumsuzluğa bağlı olabilir, çünkü arama, alt modeli eğitmek için 20 dönemi kullanırken, test mekanizması 100 dönemi kullanır.
Takip eden bir çözüm, bu iki mekanizmayı eşleştirmektir. İkinci arama deneyinde, her bir alt modeli eğitmek için 100 dönem kullanıldı. Eğitim için daha fazla dönem kullanılmasından dolayı deneysel süredeki artışı telafi etmek için alt model olarak daha küçük bir ağ (WRN 10-1) kullanılmıştır. Daha küçük bir model kullanmak kabul edilebilir çünkü yeni denklemler (A2) gibi daha büyük, daha gerçekçi modellere genelleme eğilimindedir.
Tablo 1'deki deneysel sonuçlar (B1) (A3) 'e benzer, yani SGD için daha iyi performans gösteren bir güncelleme kuralı bulunabilir, ancak momentumlu SGD için sonuç taban çizgisiyle karşılaştırılabilir. (A3) ve (B1) sonuçlarının benzerliği, eğitim süresindeki farkın ana hata kaynağı olmayabileceğini gösterir. Ek olarak, momentumlu SGD, farklı yeni denklemler için neredeyse sabittir.
sonuç olarak
Bu çalışmada, standart geri yayılımın yerini alabilecek bir denklemi otomatik olarak bulmak için bir yöntem önerilmiştir. Evrimsel bir denetleyici (denklem bileşeni uzayında çalışan) kullanılır ve eğitimli ağın genelleştirilmesini maksimize etmeye çalışır. Keşif araştırmasının sonuçları, belirli senaryolar için bazı denklemlerin temelden daha iyi genelleme performansına sahip olduğunu, ancak genel senaryolarda daha iyi performans gösteren bir denklem bulmak için daha fazla çalışma yapılması gerektiğini göstermektedir.
Xinzhiyuan AI WORLD 2018 Konferansı [Erken Kayıt Bileti]
Satılık!
Xinzhiyuan, AI WORLD 2018 konferansını 20 Eylül'de Pekin'deki Ulusal Kongre Merkezi'nde gerçekleştirecek ve makine öğrenimi vaftiz babası, CMU profesörü Tom Mitchell, Mikes Tekmark, Zhou Zhihua, Tao Dacheng, Chen Yiran ve diğer AI liderlerini makine zekasına dikkat etmeye davet edecek. Ve insan kaderi.
Konferans resmi web sitesi:
Şu andan 19 Ağustos'a kadar Xinzhiyuan, küresel yapay zeka liderleriyle iletişim kurmak ve küresel yapay zeka endüstrisinin sıçrama gelişimine tanık olmak için sınırlı sayıda erken kayıt bileti satacak.
Aktivite hattı bileti satın alma bağlantısı:
Aktivite satırı bilet alımı için QR kodu