Özel: Pekin Üniversitesi'nin 95 sonrası öğrencisi, ilk çalışmada yeni AI algoritmasının SGD ile karşılaştırılabilir olmasının nedenini yorumluyor

[Xinzhiyuan Kılavuzu] Pekin Üniversitesi ve Zhejiang Üniversitesi'nden iki lisans öğrencisi tarafından geliştirilen AdaBound algoritması Adam kadar hızlı ve performans açısından SGD ile karşılaştırılabilir. Yakın zamanda ICLR 2019'a dahil edildi. Netizenler bunun çok havalı ve güçlü olduğunu söyledi. Dün, makalenin ilk yazarı ve Pekin Üniversitesi'nin dördüncü öğrencisi Luo Liangchen, Xin Zhiyuan'a ayrıntılı bir yorum yaptı.

Lisans öğrencileri, AI'nın yeni sonuçlarını bir kez daha yeniledi.

Son zamanlarda Pekin Üniversitesi ve Zhejiang Üniversitesi'nden iki kişi kıdemli öğrenci , Daha hızlı eğitim hızı ve daha iyi performans sağlayabilen AdaBound adlı bir algoritma geliştirdi.Hız Adam ile karşılaştırılabilir ve performans SGD ile karşılaştırılabilir.

AdaBound algoritması ile ilgili makaleler Dinamik Öğrenme Hızına Sahip Uyarlanabilir Gradyan Yöntemleri AI Zirvesi ICLR 2019'a dahil edilmiştir.

AdaBound kodunun GitHub'da ilk kez yayınlanmasından sonra makalenin 300'den fazla beğeni aldığını belirtmekte fayda var Yorumlarda sayısız kişi kederlendi: çok havalı!

Dün Pekin Üniversitesi'nden Luo Liangchen, AdaBound algoritmasını ilk makalede Xin Zhiyuan'a açıkladı.

Onun payı şu şekildedir:

AdaBound algoritması: Adam kadar hızlı ve SGD optimize edici kadar iyi

Stokastik Gradient Descent (SGD) ile temsil edilen birinci dereceden optimizasyon algoritması, 1950'lerde önerildiğinden beri makine öğrenimi alanında yaygın olarak kullanılmaktadır ve şu anda modelleri eğitirken en yaygın kullanılan araçtır.

Bununla birlikte, SGD, parametreleri güncellerken her boyuttaki gradyanları eşit şekilde ölçeklediğinden, bu, eğitim verileri aşırı derecede eşit olmayan bir şekilde dağıtıldığında, yavaş eğitim hızına ve zayıf eğitim etkilerine yol açabilir. Bu sorunu çözmek için, son yıllarda Adam, AdaGrad ve RMSprop dahil olmak üzere birçok uyarlanabilir öğrenme yöntemi ortaya çıktı. Bunlar arasında Adam, hızlı yakınsama hızından dolayı günümüzün en popüler Doktorlarından biri haline geldi.

Bununla birlikte, en son Sanat Durumunun çoğunda, araştırmacılar yeni ve popüler uyarlanabilir öğrenme yöntemlerini kullanmazlar, ancak yine de "modası geçmiş" SGD'yi veya + momentum ve + nesterov varyantlarını kullanırlar. Neden? Aslında, Wilson ve arkadaşları NeurIPS 2017 çalışmasında uyarlanabilir yöntemin erken eğitim aşamasında hızlı yakınsama hızı gösterebilmesine rağmen, test setindeki performansının hızla duracağına ve sonunda SGD tarafından aşılacağına dikkat çekti. .

ICLR 2018'in en iyi makalesinde, yazarlar bu sorunu önlemek için AMSGrad adlı yeni bir yöntem önerdiler. Yalnızca teorik yakınsamanın kanıtını sağlar , Gerçek verilerin test seti üzerinde deney yapmak yerine. Daha sonraki araştırmacılar bazı klasik kriterleri karşılaştırdılar ve AMSGrad'ın bilinmeyen veriler üzerindeki nihai etkisinin hala SGD ile önemli bir boşluğa sahip olduğunu buldular.

Her birimiz modeli eğitirken hızlı ve iyi bir şekilde yakınlaşmayı umuyoruz, ancak ikisini de aynı anda yapmamız zor görünüyor ya da en azından mevcut optimizasyon algoritmalarının hiper parametrelerinde ince ayar yapmamız gerekiyor. Makine öğrenimi ve derin öğrenme topluluklarının artık Adam kadar hızlı ve SGD kadar iyi bir optimize ediciye ihtiyacı var.

Anahtar nokta: gerçek öğrenme oranını son derece ve son derece küçük sınırlayın

Çeşitli popüler uyarlanabilir öğrenenler ve SGD'nin en eski sistematik karşılaştırmalı analizi, yukarıda bahsedilen Wilson ve arkadaşlarından geldi.Makalelerinde, ilk kez, sistematik deneyler ve örnek problemler, uyarlanabilir yöntemlerin avantajlarına işaret etti. Performans sorunları. Wilson ve diğerleri, uyarlanabilir yöntemin zayıf genelleme performansının, eğitimin sonraki aşamasındaki dengesiz aşırı öğrenme oranından kaynaklanabileceğini de öne sürmüşlerdir. Bununla birlikte, teorik analiz veya deneyler dahil olmak üzere bu spekülasyon için daha fazla neden belirtmediler.

Bu düşünce çizgisi boyunca Dinamik Öğrenme Hızına Sahip Uyarlanabilir Gradyan Yöntemleri Bu makalede, yazarlar ilk olarak referans için ön deneyler yaptılar: ResNet-34'te 9 evrişim çekirdeği ve 1 tam bağlı katman yanlılığı vektörünü rastgele seçtiler ve her birinden rastgele bir değişken boyutu örneklediler. , CIFAR-10 eğitiminin sonunda öğrenme oranını hesaplayın.

Örnekleme parametrelerinin öğrenme hızı. Her hücre, öğrenme hızında logaritmik bir işlem gerçekleştirerek elde edilen bir değer içerir. Renk hücresi ne kadar açıksa, öğrenme oranı o kadar düşük olur.

Model yakınsamaya yaklaştığında, öğrenme oranında çok fazla uç değer olduğunu görebiliriz (çoğu durum 0.01'den küçük ve 1000'den büyük). Bu fenomen, gerçek eğitimde aşırı öğrenme oranlarının gerçekte var olduğunu göstermektedir.

Ve net olmayan iki temel konu var:

(1) Çok küçük bir öğrenme oranı, model yakınsamasını gerçekten etkiler mi?

(2) Gerçek öğrenme oranı büyük ölçüde başlangıçtaki öğrenme oranı ayarına bağlıdır. Bu etkiyi daha büyük bir öğrenme oranı belirleyerek önleyebilir miyiz?

Bu nedenle yazar teorik bir kanıt vermeye devam ediyor:

Bu sonuç, aşırı öğrenme oranının potansiyel olumsuz etkisini göstermektedir.Bu problem etkili bir şekilde çözülene kadar, yeterince iyi bir nihai model elde etmek için uyarlanabilir öğreniciyi kullanamayabiliriz; Eğitimin sonunda Adam'ın öğrenme oranını sınırlamaya çalışmalıyız.

AdaBound: Öğrenme oranını dinamik olarak uyarlayın

Bu sorunu çözmek için Adam ve SGD'nin avantajlarını, yani erken eğitim aşamasında hızlı yakınsama hızı ve eğitim sonunda iyi son performansı birleştirebilen bir optimize ediciye sahip olmayı umuyoruz. Ya da sezgisel olarak söylemek gerekirse, erkeğin erken eğitim aşamasında Adam'a ve son eğitim aşamasındaki SGD'ye daha çok benzemesini umuyoruz.

Bu fikre dayanarak, yazar öğrenme oranını dinamik olarak uyarlayarak Adam ve AMSGrad, AdaBound ve AMSBound varyantlarını önermektedir. Bu yöntem, mühendislik uygulamasında çok yaygın olarak kullanılan gradyan kırpma tekniklerinden esinlenmiştir. Sadece kırpma, gradyan yerine öğrenme hızında gerçekleşir. Aşağıdaki kırpma işlemini düşünün:

Bunlar arasında, Klip gerçek öğrenme hızını alt sınırın üst sınırıyla sınırlayabilir

arasında. SGD ve Adam'ın gradyan kırpmanın özel durumları olduğunu bulmak kolaydır: öğrenme hızı

SGD sayılabilir

Adam olarak kabul edilebilir

Aradaki diğer değerler. Ardından, yeni üst ve alt sınırlar olarak sabit değerleri değiştirmek için t ile ilgili iki işlev kullanılırsa, burada

Yavaş yavaş 0'dan

Nereden

Yavaş yavaş

Sonra Adam'dan SGD'ye dinamik geçişi başarıyla gerçekleştirdik.

Bu ayar altında, erken eğitim aşamasında, üst ve alt sınırların öğrenme hızı üzerinde çok az etkisi olduğundan, algoritma Adam'a daha yakındır ve zaman arttıkça, azaltma aralığı gittikçe daha sıkılaşır ve modelin öğrenme oranı kademeli olarak sabitlenir. SGD'ye daha yakın. AMSBound, AMSGrad'a benzer şekilde kesilebilir.

Deneysel sonuçlar

Yazar, AdaBound / AMSBound ve diğer klasik öğrencileri SGD (veya momentum varyantları), AdaGrad, Adam, AMSGrad dahil olmak üzere bazı kıyaslamalarda test etti. Aşağıda yazar tarafından makalede sağlanan öğrenme eğrisi verilmiştir.

Birkaç CV ve NLP kıyaslama görevinde, AdaBound / AMSBound'un eğitimin erken aşamasında hızlı ve sorunsuz bir şekilde birleşebildiği ve aynı zamanda SGD'ye benzer ve hatta daha iyi sonuçlar elde edebilen sonunda mükemmel nihai performans elde ettiği görülebilir. sonuç.

Ekstra sürpriz: hiperparametrelere karşı daha düşük hassasiyet

AdaBound ayrıca bize ekstra bir sürpriz de getiriyor: özellikle SGD (M) ile karşılaştırıldığında hiperparametrelere nispeten daha az duyarlı. Bu sonuç çok beklenmedik ve çok şaşırtıcı, çünkü AdaBound daha yüksek sağlamlığa sahiptir . Bu yeni tür optimize ediciyi kullanarak, hiper parametreleri ayarlamak için harcanan zamandan büyük ölçüde tasarruf edebiliriz. Yaygın durumlarda, varsayılan parametreleri kullanılarak nispeten iyi ve istikrarlı nihai sonuçlar elde edilebilir.

Elbette yazar, AdaBound'un SGD'den daha kararlı olmasına rağmen, Bu, bir kez ve herkes için yapabileceğimiz ve süper parametreleri ayarlamamız gerekmediği anlamına gelmez. Makine öğrenimi için sihirli değnek yoktur. Bir modelin nihai sonucu çeşitli faktörlere bağlıdır.Özel sorunları ve veri özelliklerini belirli analizlerle birleştirerek AdaBound'da uygun ayarlamalar yapmamız gerekiyor. AdaBound'un en büyük avantajı, burada eskisinden çok daha az zaman geçirmeniz muhtemeldir!

Kod GitHub'da açık kaynak kodludur

AdaBound'un PyTorch uygulaması GitHub'da açık kaynaklı. Yazar ayrıca basitçe pip ile kurulabilen bir sürüm de sağlar. AdaBound'u tıpkı diğer PyTorch optimize ediciler gibi kullanabilirsiniz.

Ek olarak, yazar ayrıca çok kullanışlı bir görselleştirme Jupyter not defteri ve ilgili öğrencilerin yeni optimize edicinin sonuçlarını yeniden üretmesi ve sezgisel olarak karşılaştırması için uygun olan ilgili eğitim kodunu sağlar.

Kağıt adresi:

https://openreview.net/pdf?id=Bkg3g2R9FX

GitHub adresi:

https://github.com/Luolc/AdaBound

Yukarıdakiler, yazarın yorumudur.

Bu çalışma, Reddit makine öğrenimi topluluğunda da hararetli tartışmalara neden oldu.Birçok kişi bunun çok havalı olduğunu söyledi ve bazı insanlar da önerilerde bulundu ve sorular sordu: TensorFlow uygulaması var mı? Daha büyük veri kümelerinde çalışabilir mi? GAN'da sonuç nedir ve benzeri.

Yazar daha sonra Reddit yayın güncellemesinde şunları söyledi:

Birçok kişi ve incelemecinin önerdiği gibi, AdaBound'u daha fazla ve daha büyük veri kümelerinde daha fazla modelle test etmek daha iyidir, ancak maalesef, sınırlı bilgi işlem kaynaklarına sahibim. ImageNet gibi büyük bir kıyaslama üzerinde deney yapmam neredeyse imkansız. AdaBound'u daha büyük bir karşılaştırmada test edebilen ve bana eksikliklerini veya hatalarını söyleyen biri varsa, bu harika olurdu! Bu, AdaBound'u iyileştirmek ve daha fazla çalışma için çok yararlıdır.

Bilgisayar bilimi alanında sihirli bir değnek olmadığına inanıyorum. Bu, AdaBound kullanırken parametreleri ayarlamanıza gerek olmadığı anlamına gelmez. Bir modelin performansı, görevler, model yapısı, veri dağıtımı vb. Dahil birçok şeye bağlıdır. Belirli duruma göre hangi hiperparametrelerin kullanılacağına yine de karar vermeniz gerekiyor, ancak bunun için harcanan zaman öncekinden çok daha az olabilir!

bu benim İlk kez araştırma optimizasyon yöntemi . Bu, bu alanda tamamen yeni olan bir lisans öğrencisi ekibi tarafından yapılan bir proje olduğu için AdaBound'un daha fazla iyileştirmeye ihtiyacı olduğuna inanıyorum. Bunu iyi yapmak için elimden geleni yapacağım. Yapıcı yorumlarınız için tekrar teşekkür ederiz! Bu bana çok yardımcı oluyor. : D

Yazar Zhenrong

Makale dört yazar tarafından tamamlanmıştır:

Luo Liangchen , Pekin Üniversitesi Birinci Sınıf öğrencisi, 1996 doğumlu , Şu anda Peking Üniversitesi'nde Anahtar Hesaplamalı Dilbilim Laboratuvarında araştırma görevlisidir ve danışmanı Profesör Xu Xu'dur.

Kişisel ana sayfa: https://www.luolc.com/

Yuanhao Xiong , Zhejiang Üniversitesi, Bilgi Mühendisliği Fakültesi, Bilgi Mühendisliği alanında uzmanlaşmıştır. Araştırma ilgi alanları veri madenciliği ve makine öğrenimidir.Bu makaleyi yayınlamadan önce IEEE iletişim dergilerinde bir makale yayınlamıştır.

Yan Liu

Yan Liu , Güney Kaliforniya Üniversitesi Bilgisayar Bilimleri Doçenti, Güney Kaliforniya Üniversitesi Makine Öğrenimi Merkezi Direktörü. Philip ve Cayley MacDonald'a Erken Kariyer Koltuğu Verildi.

Kişisel ana sayfa:

Sun Xu

Sun Xu , Pekin Üniversitesi Enformasyon Fakültesi'nde araştırmacı ve doktora danışmanı. Tokyo Üniversitesi Doktoru, Japonya. Araştırma alanları şunları içerir: doğal dil işleme, makine öğrenimi ve derin öğrenme.

Kişisel ana sayfa:

İki lisans öğrencisi Luo Liangchen ve Yuanhao Xiong, son sınıflarında. Luo Liangchen, Microsoft Research Asia, DiDi AI Labs ve diğer kurumlarda staj yaptı. Araştırma alanları, doğal dil işlemenin derin öğrenimidir, özellikle diyalog sistemleri ve dil anlama / temsilidir. Ayrıca optimizasyon algoritmaları gibi makine öğrenimi teorisiyle de ilgileniyor.

Bir lisans öğrencisi olarak Luo Liangchen, ICLR, AAAI, EMNLP ve diğer önemli konferanslarda 3 makale de dahil olmak üzere 4 makale yayınladı! Deneyimlemek:

Gelecek sınırsız

Almanya'nın kaybının nedenini açıklayın: orta saha oyuncusu, sağ kanadı boş olan bir çayır gibidir, rakiplerinin hızıyla yenilir
önceki
SUV satışları düşüyor, tüketiciler araba almayı mı tercih ediyor?
Sonraki
Bir yaban domuzu aniden yüksek hızda fırladı! Kadın şoför, ona mükemmel bir operasyon gerçekleştirdi ve trafik polisi bundan hoşlandı!
Sunac'ın LeTV'deki 15 milyar FireWire hissesi, sermaye krizi kalktı mı?
Dünya Kupası sıralaması: ilk beş takımın tümü en üst sırayı kaçırdı ve dört Avrupa takımı başı çekti
Çin, dünyadaki en düşük ateşli silahla suç oranına sahip ülkelerden biri haline geldi
Ben askeri gaziyim ve pişman değilim!
Sadece Fransa'nın en sevdiği altı galibiyet kazandı ve güçlü takımlar topluca zayıfladı.
Sıfır temel: Wu Enda'nın "Ulusal Yapay Zeka" kursu yeni başlatıldı ve ön kayıt devam ediyor
İkinci nesil Haima S5: Şaşırtıcı fiyat-performans oranının arkasındaki rekabet mantığı nedir?
Atipik Alman Dünya Kupası ilk maçı nadir bir yenilgidir, kapı en son 36 yıl önce açıldığında
Zenginler, 4,25 milyarlık bir bina için "Chongqing Li Ka-shing" pazarlık teklifleri almak için İngiltere'ye gidiyor
Sanayi ve Bilgi Teknolojisi Bakanlığından 310. yeni araç grubunun yorumu: Chevrolet Volando, Volkswagen Tanrong ve Qichen T60 lideri
Cai Mingin "Erkek Giysileri" nin seksi fotoğrafı şikayet edildi. Cai Ming: Ben sebze alırken giyilmişti!
To Top