Pekin Üniversitesi'nden Profesör Wang Liwei: Retrospect and Prospect of Machine Learning Theory (4)

Leifeng.com [AI Technology Review] Not: Bu makale Çin Yapay Zeka Derneği AIDL'nin ikinci aşamasına dayanmaktadır. Yapay Zeka Sınır Atölyesi * Frontier Machine Learning "Makine Öğrenimi Teorisi: İnceleme ve Beklenti" raporu derlendi ve derlendi ve Leifeng.com, değişmemiş orijinal niyet temelinde raporu biraz sildi.

Wang Liwei

Wang Liwei, ana araştırma alanı makine öğrenimi olan Peking Üniversitesi'nde profesördür. COLT, NIPS, JMLR, PAMI, vb. Dahil olmak üzere yetkili konferans dergilerinde 60'tan fazla makale yayınladı. AIın 2010'da İzlenecek 10 listesinde seçildi ve bu ödülü alan ilk Asyalı akademisyen oldu. 2012 yılında ilk Ulusal Doğa Bilimleri Vakfı Üstün Gençlik Fonu, Yeni Yüzyılda Üstün Yetenekler kazandı. NIPS gibi yetkili konferanslarda Bölge Başkanı ve birçok akademik dergide yayın kurulu üyesi olarak görev yaptı. Aşağıda, Profesör Wang Liwei tarafından yapılan ve ağırlıklı olarak Algoritmik Kararlılığın girişini kapsayan canlı konuşmanın dördüncü bölümü yer almaktadır.

| Algoritma kararlılığı

Algoritmik Kararlılık adı verilen üçüncü daha önemli öğrenme teorisinden bahsedelim.

Algoritmanın kararlılığı nedir?

Az önce makine öğrenimi teorisinin geliştirilmesinden bahsettik. En başından beri algoritmayı neredeyse umursamıyorduk ve sadece modelin karmaşıklığını düşünüyorduk. O zaman Margin aslında algoritmayla ilgilidir ve Algoritmik Kararlılık aslında algoritmanın doğasıyla ilgilidir. Benim algoritmam Ne tür özelliklere sahibiz, bu da bizi iyi bir genelleme yeteneğine sahip olmaya yöneltir.

Algoritmik Kararlılık nedir? Hala nispeten makro bir bakış açısıyla düşünüyoruz ve geri döndüğümüzde ayrıntıları kendimiz göreceğiz. Kısacası, ne tür bir algoritma kararlıdır? İşin özü, algoritma bir sonucu eğitmek için bir eğitim veri seti kullandığında, eğitim veri setim 10.000 veriye sahipse, bunların 9999'unu değiştirmeden ve 1 veriyi değiştirdiğimi söylemektir. Yeni bir Öğrenme algoritmanız tarafından öğrenilen sınıflandırıcı şu anda önemli bir değişiklik yapacak mı? Önemli bir değişiklik yoksa, öğrenme algoritması kararlıdır. Önemli bir değişiklik varsa bu algoritmanın kararlı olmadığını söylüyoruz.

Algoritmik Kararlılık, aşağıdaki ilişkiyi nicel bir perspektiften karakterize etmektir: eğitim verilerinden biri değiştirildiğinde, algoritma tarafından öğrenilen sonucun ne kadar değişeceği.

Kararlı bir algoritma daha iyi genelleme yeteneğine sahip olacaktır

Herkes düşünür, daha kararlı bir algoritmanın daha iyi genelleme yeteneği var mı, yoksa kararlı olmayan bir algoritmanın daha iyi genelleme yeteneği var mı? Sezgisel olarak düşünürsek, kararlı algoritmanın iyi bir genelleme yeteneğine sahip olduğu açıktır.

Ayrıca açıklamak için ilk "Hooke Yasası" nı kullanıyorum. Doğrusal bir model ise ve eğitim verisi bir ile değiştirilirse, düz çizgi önemli ölçüde değişmez; 100 veriye sahipsem, 100 veriyi eşleştirmek için 99 sıralı bir polinom kullanırım, 100 veriyi bir ile değiştirirsem Yeni 99 sıralı polinomun büyük değişikliklere uğrayabileceğine inanıyorum. Yani herkesin bunu yeni bir perspektiften, yani algoritmanın kararlılığından tanımlaması gerekiyor.

Algoritma kararlılığı teorisi çok nicel bir tanımdır: Algoritmamın belirli bir kararlılık derecesi varsa, o zaman algoritmanın üretim aralığı ne tür bir karakterizasyona sahip olabilir, matematik alanının ayrıntılı bir tanımını verebiliriz, Nicel bir karakterizasyon. Belirli içeriği atladım.

SVM ve SGD, algoritma ne kadar kararlı?

Bu algoritmanın kararlılığının nispeten yeni içeriğinden bahsetmeden önce, bazıları çok kararlı olan bazı çok geleneksel algoritmalardan bahsetmeme izin verin.

Örneğin, SVM çok kararlıdır. SVM matematiksel olarak, eğitim verilerinden birini değiştirirseniz, aslında elde ettiğiniz sonucun genellikle nispeten küçük, 1 / n düzeyinde değiştiğini kanıtlayabilir; burada n, veri miktarıdır. Bir veriyi değiştirmek sadece 1 / n düzeyinde değişiklik ise, algoritma kararlılığı çok iyidir. Ne tür bir algoritmanın kararlılığı kötüdür? Örneğin, eskiden karar ağacı denen bir algoritma vardı.Verilerden biri değiştirilirse, karar ağacı tamamen değiştirilebilir.

Bu algoritmadan bugün en sık kullanılan yöntemimize dönelim. Bugün, birçoğunuz derin öğrenmeyi eğitmek için Derin Öğrenmeyi kullanıyorsunuz. Derin Öğrenmeyi eğitmek için ne tür bir algoritma kullanıyorsunuz? En yaygın kullanılan algoritma SGD'dir (Stokastik Gradyan İnişi). Herkese soralım, SGD algoritması kararlı bir algoritma mı yoksa kararlı olmayan bir algoritma mı? Sezgisel olarak düşünün: Gradyan iniş (GD), mevcut gradyanını bulmak ve gradyan iniş yönünde küçük bir adım atmaktır. GD'yi bulmakta zorlandığım için, rastgele bir açıdan başlıyoruz ve SGD olan belirli bir veri noktası için bir gradyan buluyoruz.

SGD algoritması kararlı mı? Bu, geçen yıl 2016'nın bir sonucudur (yukarıda) SGD algoritmasının belirli bir kararlılığı vardır. SGD'yi dışbükey bir işlevde kullanırsanız, kararlılığı oldukça iyidir. Herkesin bildiği gibi, derin öğrenmenin kayıp işlevi dışbükey değildir ve yine de SGD'nin belirli bir kararlılığa sahip olduğunu kanıtlayabilir. Şimdilik çok yüksek bir kararlılığa sahip olduğu teoride kanıtlanamamış olsa da, İyi stabilite, pratikte stabil mi? Bence araştırma yapıyorsanız öğretmenler ve öğrenciler bu problem hakkında gerçekten düşünebilirler, derin öğrenme yaparsanız bu daha önemli bir sonuçtur.

Derin öğrenme algoritması

Daha sonra derin öğrenme algoritmasını kısaca özetleyebiliriz. Derin öğrenmeyi uygulayan birçok insan, geleneksel makine öğrenimi teorilerinin bugün derin öğrenmenin başarısını açıklayamadığını hissedecek çünkü günümüzde birçok derin öğrenme yöntemi geleneksel makine öğrenimi teorileriyle çelişiyor gibi görünüyor.

Size bir örnek vereyim, bugün herkesin kullandığı bu derin öğrenme ağının VC Boyutu nedir? Matematiksel olarak, tamamen bağlı bir ağ kullanılırsa, VC Boyutunun temelde düzenleme sayısı olduğu kanıtlanabilir, ancak bugün kullandığımız ağ için düzenleme sayısı genellikle eğitim verilerimizden daha büyük bir sıra ve düzenleme sayısı bizimdir. Parametrelerin sayısı, öyleyse aslında ne tür bir model öğreniyoruz? VC Boyutunun eğitim verilerinin yaklaşık 10 katı olduğu bir alanda yapılır.Bu, daha önce bahsettiğimizden farklıdır, eğitim verileriniz VC Boyutunun 10 katıdır. VC Boyutu, eğitim verilerinin 10 katı olduğunda, bunu en aza indirmek için eğitim hatası gibi basit bir algoritma kullanırsanız, herhangi bir iyi sonuç bekleyemezsiniz. Benim kişisel bakış açıma göre, derin öğrenmenin VC Dimension'ın veri hacminin 10 katı karmaşıklığa sahip bir modelde öğrenebilmesinin ve başarılı olabilmesinin nedeni büyük ölçüde SGD algoritmasına bağlıdır.

Bir optimizasyon algoritması tasarlarsanız, size bir veri, eğitim verisi sayısının 10 katı olan bir ağ vereceğim ve global olarak en uygun çözümü buldunuz, size nihai sonuçlarınızı sorumlu bir şekilde söyleyebilirim Çok zayıf olmalı. Bu nedenle, derin öğrenmemizin bugün iyi işleyeceğini düşünüyorum çünkü küresel en uygun çözümü bulamadı.Eğer bulunabilirse, performans bozulur veya küçük bir ağla değiştirilmesi gerekir. Öyleyse, SGD algoritması herkese ilham veriyor, araştırma yapma açısından önceki yöntemleri karşılamanın daha iyi bir yolu var mı?

Uygulamayla daha yakından entegre olabilecek bazı yönlerden bahsedeyim. Derin öğrenme deneylerinde tecrübesi olan öğretmenler ve öğrenciler varsa, bunu nasıl yapıyorsun bilmiyorum. Her neyse, bazı öğrencilerimin deneyimleri şöyle: Hiç şüphe yok ki derin öğrenme eğitimi en zor olanı ve çoğu zaman oluyor. Aşağıdaki olaylardan biri veya daha fazlası.

  • İlk olarak, aşırı uyum. Antrenman yaptığım anda antrenman hatası hızla düşüyor, ancak bir test, test veri seti ile eğitim veri seti arasında büyük bir fark olduğunu buldu. Nedeni nedir? Genellikle derin öğrenmede kullanılan ağ veya model çok karmaşık olduğundan, tüm modelde veya SGD'nizin gittiği yolda çok düşük bir eğitim kaybı noktası bulmanız gerektiğinde, algoritma kararlılığı aslında Belli bir anlam olasılığı var belki bu sefer kötü gittiniz ve pek iyi gitmediniz. Aslında istikrar yok, bu ilk fenomen. Günümüzün derin öğrenmesinde aşırı uyum hala çok yaygın bir fenomendir.

  • İkincisi, eğitim kaybı sorunudur. Uzun süre antrenman yapıyorsun ama aşağı inmiyorsun. Nedeni nedir? Ben şahsen bunun sebebinin SGD rastgele olduğu için kabul edilebilir bir noktaya düşürülecek bir kayıp olmaması olduğunu düşünüyorum.Örneğin çok düz bir alanda sıkışıp kalıyor, birçok derin öğrenme olduğunu görüyorsunuz. Bengio gibi uygulamalı araştırmacılar, çok düz bir alanda mahsur kalabileceğiniz için eğitimin sık sık düşmediğini bildiren birçok rapor verdiler.Büyük bir alanda, eğitim kaybınız pek değişmiyor. Bu sonuç doğru mu? Tamamen doğru olduğunu düşünmüyorum ve daha fazla araştırmaya ihtiyaç var.

  • Başka fenomenler de var.Örneğin, farklı hiper parametreler tarafından elde edilen eğitim sonuçları çok farklı.Herkes derin öğrenmede ayarlanması gereken birçok hiper parametre olduğunu biliyor. Numaranız farklı ve eğitim sonuçları tamamen farklı, bu yüzden bunların hepsi tamam. Teorik çalışma seviyesinden çalışmak, sadece araştırma değil, aynı zamanda gelecekte herkes için tüm rehberliğe sahip olmayı ummak, sonunda daha iyi bir hedefe ulaşmak için bu algoritmayı bu şekilde tasarlayabilirim. Akademik bir bakış açısından, bu aynı zamanda araştırmaya değer bir soru olmalıdır.Uygulama açısından, eğitimimizin verimliliğini artırmak için çok değerlidir.

Hepinizin bildiği gibi, derin öğrenme konusunda zengin deneyime sahip bir araştırmacıysanız ve aynı problem için yeni başlayan biriyseniz, aynı kodu alsanız bile, aslında aynı sonucu almak istiyorsanız, çok para gerektirir. Zaman farkı çok büyük, bu nedenle bu yönler derinlemesine tartışmaya değer.

Algoritmanın kararlılığı ve SGD'nin kendine özgü algoritması ile ilgili olarak, neden kararlı, matematikte bundan bahsetmeye pek ihtiyaç olduğunu düşünmüyorum, tekrar düşünebilirsiniz. Artık SGD'nin birçok farklı optimize edilmiş algoritması var. Bunu algoritma kararlılığı açısından düşünebilir misiniz? Bu farklı yöntemlerden hangisinin daha iyi ve hangisi daha kötü?

Aslında yine de küçük bir fark var diye düşünüyorum, bunları anlarsanız problemi çözmenize doğrudan yardımcı olmayabilir ama eğitiminizi hızlandırmanıza ve çok deneyimli bir araştırmacı olmanıza yardımcı olacaktır. Bir de daha önce bahsettiğimiz okul terkleri var: İstikrar açısından genelleme üzerinde çalışabilir mi? Aslında bu da mümkün Bu konuya pek çok farklı açıdan bakmamız tamamen mümkün.

| Derin öğrenme algoritmaları üzerine bazı tartışmalar

Son olarak, akademi dünyasındaki birçok insandan, özellikle de derin öğrenme akademisinden bahsedeceğim Belki de herkes derin öğrenmede en etkili üç araştırmacının, Hinton, LeCun ve Bengio'nun şu anda sözde derin öğrenme kaybı yüzeyini araştırmakta olduğunu biliyor. . Başka bir deyişle, amacımız bir ağın öğrenmesini optimize etmektir.Ağın öğrenilmesi süreci aslında kaybı en aza indirmeye çalışmaktır.O halde kayıp işlevini kullanabilir miyiz, tabii ki çok, çok yüksek boyutlu bir işlev, (kaç tane var Parametre ve fonksiyon nedir Bu yüksek boyutlu uzayda kayıp fonksiyonumun nasıl göründüğünü analiz edebilir miyim?

Birçok kişi, geçen yıl bir NIPS sözlü bildirisi gibi, kayıp yüzeyinin derin ağlar için kötü bir yerel minimum olmadığını kanıtlayan makaleler yazdı. Ama herkes, özellikle araştırma yapıyorsanız, bunun hakkında düşünün Aslında, eğer düşünürseniz, bunun imkansız olduğunu anlayabilmelisiniz, çünkü sonuç yanlış.

Çok basit bir örnek: Ağınızın en iyi avantajı, tüm alandaki sayı çok büyük, çünkü ağ yüksek simetriye sahip. Örneğin, benimki gibi bir ağ için, parametre ayarlarım optimal ve bu parametrelerin bir permütasyonunu rastgele yapıyorum ki bu da optimaldir Bu özelliğe sahip dışbükey olmayan bir fonksiyonun yerel bir minimum değeri vardır. Yani kayıp yüzeyinde incelenebilecek pek çok şey var, herkesin şu anda düşündüğü kadar basit değil.

Yani araştırma yapmak ve yeni yöntemler geliştirmek istiyorsanız, daha önce de söylediğimiz gibi, sorun aşırı oturmayı önlemek, diğeri ise çok düz olan ve düşmeyen bir yere gitmenizdir. Düşmesini sağlamak için mümkün olan en kısa sürede nasıl tükenir.

Bu, kişisel olarak algoritma kararlılığı perspektifinden incelenebileceğini düşündüğüm bazı noktaları tanıtmak içindir.Derin öğrenme, genelleme ve makine öğrenimi teorileri için ilginç noktaları inceleyebiliriz.

Son olarak, özetlemek gerekirse, öğrenme teorimizin şimdiye kadar derin öğrenme için iyi bir açıklaması olduğunu açıkça kabul etmemiz gerektiğini düşünüyorum Geçmiş VC teorisi, Margin Teorisi ve algoritma kararlılığı vb. Mükemmel bir şekilde açıklanamaz. Algoritmanın kararlılığı kısmen açıklanmış olsa da benim açımdan benim açımdan benimsememiz gereken tutum, öğrenme teorisinin anlamsız olduğunu söylemek değil, bence hala anlamlı, devam ediyor olmalı. Daha derinlemesine araştırmalardan sonra, daha iyi içgörüler oluşturmamıza ve daha iyi öğrenme algoritmaları tasarlamamıza yardımcı olabilir. Belki bir gün, derin öğrenme en iyi yöntem olmayabilir, hatta ortadan kaldırılabilir. Bunun tamamen mümkün olduğunu düşünüyorum, ancak Yeni ve daha iyi yöntemler olacak.

Raporum için bu kadar. hepinize teşekkür ederim!

Profesör Wang ve diğer profesörlerin konu raporuyla ilgili olarak, lütfen Leifeng.com'un takip raporunu dört gözle bekleyin.

Çince karakterlerle oynayan ve karakterleri alt üst eden Japon bir çocuk herkesi hayrete düşürdü!
önceki
Forbes, 2018'de en çok satan 10 oyuncuyu açıkladı ve listeye ilk Fulian nesli hakim!
Sonraki
Çöpleri toplamak için ünlü markaları giymelisiniz.Afrika'nın gecekondu mahallelerinden geliyorlar ...
Meizu 16 yakalanmadı, Meizu 16s Huang Zhang tarafından ifşa edildi: gelecek yıl Mayıs ayında serbest bırakıldı
Her çarpıcı saat duvar kağıdı, bilgisayarınızın daha iyi görünmesini sağlar Hafif çalışma ile
Bu gösteri zehirli! Bir kez bak ve bir kez gül! "Deformasyon Ölçer" deki şakacı
Dünyanın ilk göğsü: Çıplak fotoğraflardan utanmıyorum, seksi olduğum için de üzgünüm
Çin süper otomobiller Cenevre Otomobil Fuarı'nda görücüye çıktı: mikro gaz türbini teknolojisi, 100 kilometreden 2,5 saniyede hızlanma, 2000 kilometre dayanıklılık
Microsoft E3 oyunlarının tam bir özeti: 50 "Huge Hard" başyapıtı sırayla, hangi oyunları satın almaya değer?
Ünlü hile yaptığında, eşleri onu mazur görmek, aşk mı yoksa bir oyun mu?
Bu hayalet filmi izledikten sonra köpek gibi ağladım ...
Evoland 2: Tarihteki en klasik oyunların hepsi burada, sadece bunu oynayın
Haftanın Xbox indirimli oyunu: "Diablo 3" tam sürümüne sahip olmayacak mısınız
Qualcomm Snapdragon 855 yeni malzeme: 5G desteği yok, yeni NPU çekirdeği
To Top