Pekin Üniversitesi'nden Profesör Wang Liwei: Retrospect and Prospect of Machine Learning Theory (3)

Leifeng.com [AI Technology Review] Not: Bu makale, Profesör Wang Liwei tarafından yazılan Çin Yapay Zeka Derneği AIDL'nin ikinci aşamasına dayanmaktadır. Yapay Zeka Sınır Atölyesi * Frontier Machine Learning "Makine Öğrenimi Teorisi: İnceleme ve Beklenti" raporu derlendi ve derlendi ve Leifeng.com, değişmemiş orijinal niyet temelinde raporu biraz sildi.

Wang Liwei

Wang Liwei, ana araştırma alanı makine öğrenimi olan Pekin Üniversitesi'nde profesördür. COLT, NIPS, JMLR, PAMI vb. Dahil olmak üzere yetkili konferans dergilerinde 60'tan fazla makale yayınladı. AIın 2010'da İzlenecek 10 listesinde seçildi ve ödülü alan ilk Asyalı bilim insanı oldu. 2012'de ilk Ulusal Doğa Bilimleri Vakfı Üstün Gençlik Fonu, Yeni Yüzyılda Üstün Yetenek'i kazandı. NIPS gibi yetkili konferanslarda Bölge Başkanı ve birçok akademik dergide yayın kurulu üyesi olarak görev yaptı. Aşağıda, Profesör Wang Liwei tarafından verilen canlı konuşmanın üçüncü kısmı, Margin Teorisi, algoritma kararlılığı ve diğer ilgili konular üzerine yoğunlaştı ve derin öğrenme algoritmaları üzerine bazı tartışmalar başlattı.

| Marjin Teorisine Giriş

Daha sonra, size makine öğrenimindeki ikinci daha önemli teori - Marj Teorisi'ni tanıtacağım.

Marjin Teorisi ile VC Teorisi arasındaki fark nedir?

VC Teorisinin algoritmalarla pek ilgisi yoktur, koleksiyonun karmaşıklığını açıklar;

Marjin Teorisi farklıdır, birçok algoritma içerir. Daha sonra anlatacağım Margin Teorisi, algoritmaları tamamen tanımlamaktadır. Bu nedenle, makine öğrenimi teorisinin geliştirilmesinin bazı yapısal özelliklerin karakterize edilmesiyle başladığını ve ardından algoritmanın kendisini karakterize etmeye yavaş yavaş değiştiğini herkes anlamalıdır.

bence Şu anda, özellikle Derinliği Öğrenme açısından, en değerli öğrenme teorisi, derin öğrenme algoritmasının doğasını tanımlamak olmalıdır. . Elbette modelinizin karmaşıklığı da yararlıdır, ancak bu en önemli şey olmayabilir.

Marj nedir?

Margin Theory'yi duymuş olabilirsiniz. SVM ve Boosting gibi yöntemlerin hepsi Büyük Marj kavramını içerir. Tam olarak ne anlama geliyor?

Herkes Marj Teorisinin SVM'de nasıl kullanıldığını bilir. Bir düşünün:

Örneğin, uzayda iki tür nokta vardır ve şimdi iki tür noktayı ayırmak için bir doğru bulmamız gerekiyor. İki tür nokta bölündükten sonra, sınıflandırma yüzeyine olan mesafe ne kadar büyükse o kadar iyi olacak şekilde bir sınıflandırma yöntemi bulmak gerekir. Bu aralığa Margin denir.

Boosting için benzer kavramlar var. Daha önce de bahsetmiştim, Güçlendirme, birçok temel sınıflandırıcının doğrusal birleşimi ile elde edilen nihai bir sonuçtur.

Margin'in rolü nedir?

Örneğin, 100 sınıflandırıcıyı birleştirirseniz, 100 sınıflandırıcıdan kaçının veriyi pozitif nokta olarak ve kaçının negatif nokta olarak kabul edildiğini görmeniz gerekir.

  • % 50 pozitif olarak değerlendirilir ve% 50 negatif olarak değerlendirilirse, aslında, değerlendirme sonucunun veriler için bir marjı yoktur ve marj 0'dır;

  • % 100 pozitif olarak değerlendirilirse, marj çok büyüktür.

Böylece herkes anlayabilir, Boosting'in Marjı aslında Boosting tarafından kullanılan temel sınıflandırıcının veri sınıflandırma sonuçları üzerindeki güvenini yansıtır (güven) . % 100 pozitif olarak sınıflandırılırsa sonucun güveninin çok yüksek olduğu,% 50'ye yakın olması ise güvenin çok düşük olduğu anlamına gelir. Bu nedenle, bu güven aslında genelleme yeteneği üzerinde çok önemli bir etkiye sahip olan Margin ile ifade edilmektedir.

Neden Marjin Teorisi çalışmaya başladınız?

Herkes, Boosting'i incelemek için VC Teorisini ilk kez kullandığında, teorik sonuç, ne kadar temel sınıflandırıcılar entegre edildiyse, genelleme etkisinin o kadar kötü olması olmalıdır. Ama aslında deneysel sonuç, binlerce temel sınıflandırıcıyı sentezledikten sonra, genelleme performansının sadece kötüleşmekle kalmadı, aynı zamanda daha da iyiye gittiğidir. Bu tuhaf görünüyor, bu yüzden insanları sadece modelin karmaşıklığı hakkında düşünmeye değil, aynı zamanda algoritmanın genelleme üzerinde bir etkisi olup olmadığını da düşünmeye sevk ediyor.

Sezgisel olarak: Genellemeyi açıklamak için Margin nasıl kullanılır?

Marj, SVM ve Boosting'in genelleştirilmesini tanımlayabilir. Ama önce tüm bu teorileri unutalım ve tamamen sezgisel bir bakış açısıyla düşünelim.

Şimdi bunun gibi iki durumunuz var, hadi karşılaştıralım:

  • İlk durumda, artık verilerin çoğunda büyük bir güvene sahip olan bir sınıflandırıcım var, ya hepsi pozitif sınıflara ayrılıyor ya da hepsi negatif sınıflara ayrılıyor. Margin dilinde, bu, Margin'in çoğu veri için çok büyük olduğu anlamına gelir;

  • İkinci durumda, marj, verilerin çoğu için çok küçüktür, temelde sadece% 50'den biraz fazladır.

Bu iki sınıflandırıcı oldukça farklı olmakla birlikte, eğitim verilerindeki eğitim hata oranının bu iki durumda tamamen aynı olduğunu varsayıyoruz.

Eğitim hata oranı, yalnızca verilerin doğru mu yoksa yanlış mı sınıflandırıldığını gösterirken, güven düzeyi gerçekte belirli sınıflandırma değerinin boyutunu temsil eder. Bir düşünün, eğitim hata oranının tamamen aynı olduğu varsayımı altında, daha yüksek bir güvene sahip güçlü bir genelleme yeteneğine sahip olma olasılığı daha mı yüksek, yoksa daha düşük bir özgüvene sahip olma olasılığı daha mı yüksek? Çok sezgisel bir bakış açısıyla bile, herhangi bir teoriye girmeden, daha büyük bir güvenle genelleme yeteneğinin daha büyük olması gerektiğini bilebilirsiniz. Kenar Boşluğu Teorisi, sezgisel fikri tam şimdi kesin matematiğe dayanarak oluşturmak ve sonra onu katı bir dille ifade etmektir.

Matematiğe çok ilgi duyan öğrenciler matematiğin belirli kanıtlarını görmeye gidebilirler; eğer bununla ilgilenmezseniz, az önce söylediklerimi anlayabilirsiniz. yani Sınıflandırma sonuçları için, eğitim hata oranı gibi basit bir sayıya bakmayın, Margin'e dikkat etmeniz gerekir. Marj, güven derecesini temsil eder ve güven derecesinin genelleme yeteneği üzerinde önemli bir etkisi vardır.

Öğretmen Zhihua Zhou ve ben özellikle Boosting'i açıklarken çok çalıştık. Bu muhtemelen neredeyse on yıl önce yapılan iştir. Daha sonra Öğretmen Zhou ve öğrencileri çok daha derin ve daha rafine işler yaptılar. Yani ilgileniyorsanız, bu belgelere başvurabilirsiniz.

| Marj Teorisinin Özeti

VC Teorisi makroskopiktir, problemin en basit ifadesidir.Sadece algoritmanın her veri için doğru mu yanlış mı yargıladığını ve modelin karmaşıklığını dikkate alır. Bu iki nokta genellemeyi açıklamak için kullanılır.

ve Margin Theory, herkese algoritmanın bilgilerine daha fazla dikkat etmelerini söyler ve algoritma çok fazla güven bilgisi verir.

Aslında bugünün derin öğrenmesinde aynı sorun var: Derin öğrenmenin nihai çıktısı yalnızca doğru ya da yanlış değil, aynı zamanda gerçek bir değerdir. Bu değerin kendisi belirli bir miktarda bilgi içerir. Bu değerin boyutu aslında bir dereceye kadar Aynı zamanda güven derecesini de yansıtır. Araştırma içeriği olarak, bu değerin derin öğrenmenin genelleme yeteneği üzerinde ne gibi bir etkisi olduğunu keşfedebilirsiniz.

Boosting'in geliştirilmesinden ne tür ilham aldınız?

Marj Teorisinin hem SVM hem de Boosting için geçerli olduğunu belirttik. İkisi arasındaki ilişkiyi de tartışabilirsiniz.

Aşağıdaki, belirli Margin teorisi için Boosting hakkında matematiksel bir ifadedir Bu ifade daha karmaşıktır ve başlangıçta Boosting'in savunucuları olan Freund ve Schapire tarafından önerilmiştir. Aslında bunda pek çok hikaye var.

İçerideki hikayeyi kısaca anlatın.

Güçlendirme aslında çok ilginç Makine öğreniminin geçmişine bakarsanız, tarihin her zaman tekrarlandığını göreceksiniz. 1995 ve 1996 civarında insanlar adaBoost algoritmasını önerdi. Bu algoritma önerildikten sonra herkes şöyle düşündü, bu kadar basit bir kombinasyon performansı nasıl büyük ölçüde artırabilir? Bu sihire benziyor, bugün derin öğrenme gibi. Yöntemi aslında temel sınıflandırıcıları birleştirmektir. Derin öğrenmenin pratikte neden bu kadar iyi bir etkiye sahip olduğunu kimse açıklayamaz ve adaBoost algoritması yeni çıktığında da aynıydı. Ancak kısa süre sonra, adaBoost'un savunucuları olan Freund ve Schapire, Margin Teorisi teorisini verdiler, bu teori matematiksel olarak Boosting'in bir sınıflandırıcı alabilmesi ve Margin'in çok büyük olduğunu kanıtladı.

Ancak kısa süre sonra, rastgele orman ve torbalamanın yaratıcısı Leo Breiman, Minimum Margin adlı başka bir teori önerdi. Bu teori nicel açıdan daha iyidir, ancak deneysel sonuçlar teorinin tam tersidir - teorik olarak daha iyi Boosting algoritması, teorik olarak iyi olmayan Boosting algoritmasının deneysel sonuçlarında iyi performans göstermez. Böylece herkes şu anda deneysel sonuçların ve teorik tahminlerin tamamen çelişkili olduğunu anlayabilir Deneye mi yoksa teoriye mi inanmalıyız? Şu anda, gerçeklerden gerçeği arama ruhuna ve deneysel sonuçlara% 100 saygı duymalıyız: teoride yanlış bir şeyler olmalı. Böylece Breiman bir sonuca vardı: Marjin Teorisinin büyük bir sorunu olmalı, gerçek olguyu açıklayamaz.

Yıllar sonra, ben ve Bay Zhou Zhihua da dahil olmak üzere akademisyenler tarafından bu alanda yapılan bazı araştırmalar sonucunda, bu teori ile ilgili bir sorun olmadığını gördük. Sorun şu ki Önceki teori bunu nicel anlamda yapmadı en iyisi. Nicelleştirmeyi daha derin ve daha rafine hale getirdikten sonra, Margin'in teorisi ve deneysel gözlemlerinin birleşik olduğunu göreceksiniz. . ve bu yüzden Boosting'in geliştirme sürecinin hikayesi kişisel olarak bana ilham verdi, hatta bazen önerilen algoritma teorinin önünde. AdaBoosting çok tipik bir örnektir. Ama merak etmeyin, derinlemesine inceleyeceğiz ve yavaş yavaş anlayacağız Derin öğrenmenin aynı olduğuna inanıyorum.Yakın gelecekte teorik olarak derin öğrenme anlayışına sahip olmalıyız.

Profesör Wang ve diğer profesörlerin konu raporuyla ilgili olarak, lütfen Leifeng'in takip raporunu dört gözle bekleyin.

Gerçek adam! Yabancılar havaalanında Çin'e hakaret ediyor, Sun Jian durmaya hükmetti
önceki
618'de Zhongda böyle bir satın alma işlemini destekleyerek her dakika "100 milyon" tasarruf etti! Faydalı çalışma
Sonraki
Çince karakterlerle oynayan ve karakterleri alt üst eden Japon bir çocuk herkesi hayrete düşürdü!
Pekin Üniversitesi'nden Profesör Wang Liwei: Retrospect and Prospect of Machine Learning Theory (4)
Forbes, 2018'de en çok satan 10 oyuncuyu açıkladı ve listeye ilk Fulian nesli hakim!
Çöpleri toplamak için ünlü markaları giymelisiniz.Afrika'nın gecekondu mahallelerinden geliyorlar ...
Meizu 16 yakalanmadı, Meizu 16s Huang Zhang tarafından ifşa edildi: gelecek yıl Mayıs ayında serbest bırakıldı
Her çarpıcı saat duvar kağıdı, bilgisayarınızın daha iyi görünmesini sağlar Hafif çalışma ile
Bu gösteri zehirli! Bir kez bak ve bir kez gül! "Deformasyon Ölçer" deki şakacı
Dünyanın ilk göğsü: Çıplak fotoğraflardan utanmıyorum, seksi olduğum için de üzgünüm
Çin süper otomobiller Cenevre Otomobil Fuarı'nda görücüye çıktı: mikro gaz türbini teknolojisi, 100 kilometreden 2,5 saniyede hızlanma, 2000 kilometre dayanıklılık
Microsoft E3 oyunlarının tam bir özeti: 50 "Huge Hard" başyapıtı sırayla, hangi oyunları satın almaya değer?
Ünlü hile yaptığında, eşleri onu mazur görmek, aşk mı yoksa bir oyun mu?
Bu hayalet filmi izledikten sonra köpek gibi ağladım ...
To Top