Özel Tek bir makalede entegre öğrenme (öğrenme kaynakları ile)

(Daha büyük resmi görmek için tıklayın)

Topluluk Algoritmalarına Genel Bakış

Açıkçası, bu bir makine öğrenimi algoritması değil, daha çok bir optimizasyon yöntemi veya stratejisi gibidir. Daha güvenilir kararlar almak için genellikle birden fazla basit zayıf makine öğrenimi algoritmasını birleştirir. Bazı insanlar buna makine öğreniminde diyor "Ejderha Kılıcı" Çok yönlü ve etkilidir. Entegre model, çeşitli makine öğrenimi görevlerinin doğruluğunu artırabilen güçlü bir teknolojidir.Entegre algoritma, çoğu veri yarışmasında genellikle algoritmanın performansını iyi bir şekilde artırabilen önemli bir adımdır. Felsefe "Üç kafa Zhuge Liang'ı dövdü" . Sınıflandırma problemini bir örnek olarak ele alalım: Sezgisel anlayış, tek bir sınıflandırıcının sınıflandırmasının yanlış ve güvenilmez olabileceğidir, ancak birden fazla sınıflandırıcı oy verirse, güvenilirlik çok daha yüksek olacaktır.

Gerçek hayatta, daha güvenilir kararlar almak için genellikle oylama ve toplantıları kullanırız. Entegre öğrenme benzerdir. Entegre öğrenme, stratejik olarak bazı temel modeller oluşturmak ve ardından nihai kararı vermek için bunları stratejik olarak birleştirmektir. Entegre öğrenme, çoklu sınıflandırıcı sistem olarak da adlandırılır.

Topluluk yöntemi, çoklu zayıf model topluluk model gruplarından oluşur.Genel zayıf sınıflandırıcı, DT, SVM, NN, KNN vb. Modeller ayrı ayrı eğitilebilir ve tahminleri bir şekilde genel bir tahminde bulunmak için birleştirilebilir. Bu algoritmanın temel sorunu, hangi zayıf modellerin birleştirilebileceğini ve bunların nasıl birleştirileceğini bulmaktır. Bu çok güçlü bir teknoloji seti, bu yüzden çok popüler.

Topluluk algoritma ailesi güçlüdür ve fikirler çeşitlidir, ancak görünen o ki aynı terminoloji yoktur ve birçok kitap farklı şekilde yazılmıştır.Farklı bilim adamlarının farklı tanımlama yöntemleri vardır. En yaygın olanı, entegre düşünme mimarisine dayalı olarak üç türe ayrılmasıdır: Torbalama, Artırma ve İstifleme. Çin'de, Nanjing Üniversitesi'nden Profesör Zhou Zhihua, entegre öğrenme konusunda derinlemesine araştırma yaptı. 2009'da yayınlanan "Ensemple Learning" genel bakış makalesi bu üç mimariyi açıkça tanımladı.

Algoritma kuş bakışı

  • Torbalama: Verilerin rastgele yeniden örneklenmesine dayanan bir sınıflandırıcı oluşturma yöntemi. Eğitim setinden, her temel modelin gerektirdiği alt eğitim setini oluşturmak için alt örnekleme yapılır ve nihai tahmin sonucunu üretmek için tüm temel modellerin tahmin sonuçları sentezlenir:

  • Artırma: Eğitim süreci merdiven şeklindedir, temel model sırayla tek tek eğitilir (paralel olarak uygulanabilir), temel modelin eğitim seti her seferinde belirli bir stratejiye göre dönüştürülür ve bir önceki model her seferinde iyileştirilir. Veri kümesinin ağırlığı ve son olarak, nihai tahmin sonuçlarını üretmek için tüm temel model tahminlerinin sonuçlarının doğrusal kombinasyonu:

  • İstifleme: Eğitim bazında tüm eğitilmiş temel modelleri tahmin edin. İ-inci eğitim örneği için j-inci temel modelin tahmin edilen değeri, yeni eğitim setindeki i-inci örneklemin j-inci özellik değeri olarak kullanılacaktır ve son olarak yeni eğitim setini temel alacaktır. Eğitim düzenleyin. Aynı şekilde, tahmin süreci önce tüm temel modellerin tahminleri üzerinden yeni bir test seti oluşturmalı ve son olarak test seti üzerinde tahminler yapmalıdır:

Yığınlama algoritması 2 katmana bölünmüştür.İlk katman, T zayıf sınıflandırıcılar oluşturmak için farklı algoritmalar kullanır ve aynı zamanda orijinal veri kümesiyle aynı boyutta yeni bir veri kümesi oluşturur ve bu yeni veri kümesini ve ikinci katmanı oluşturmak için yeni bir algoritmayı kullanır Sınıflandırıcı.

Algoritmanın kuşbakışı görünümünün bazı resimleri "Sklearn-teorisi ile entegre öğrenme" @jasonfreak

(

Yaygın olarak kullanılan model füzyon geliştirme yöntemleri

  • Torbalama (Bootstrapped Aggregation)

  • Rastgele Orman

  • Artırma

  • AdaBoost (Uyarlamalı Güçlendirme)

  • Gradyan Artırma Makineleri (GBM)

  • Gradyan Artırılmış Regresyon Ağaçları (GBRT)

  • Yığın Genelleme (harmanlama)

Temel sınıflandırıcının sonuçlarını entegre etmenin ana yolu hakkında

1. Regresyon tahmini için (sayısal tahmin)

  • Basit ortalama (Basit Ortalama), her bir sınıflandırıcının sonuçlarının ortalamasını almaktır.

  • Ağırlıklı ortalama

2. Sınıflandırma için (sınıf tahmini)

  • Çoğunluk Oylama: Her sınıflandırıcının ağırlığı aynıdır, azınlık çoğunluğa itaat eder ve oyların yarısından fazlasını alan kategori sınıflandırma sonucudur.

  • Ağırlıklı Çoğunluk Oylama: Her sınıflandırıcının farklı bir ağırlığı vardır.

  • Olasılıklı oylama (Yumuşak oylama): Bazı sınıflandırıcıların çıktıları olasılık bilgisine sahiptir, bu nedenle olasılık oylaması kullanılabilir.

Entegre öğrenmenin iki temel noktası vardır:

  • Farklılaştırılmış bir sınıflandırıcı nasıl oluşturulur,

  • Bu sınıflandırıcıların sonuçları nasıl entegre edilir.

Temel öğrenciler arasında performansta büyük bir fark olmalı, aksi takdirde entegrasyon etkisi çok kötü olacaktır, yani Çeşitlilik Temel öğrenci DT, SVM, NN, KNN, vb. Olabilir veya farklı parametreler, farklı eğitim setleri veya farklı özellik seçimleri gibi farklı eğitim süreçleriyle aynı model olabilir.

Bootstrap yöntemine giriş

Bootstrap yöntemi çok kullanışlı bir istatistiksel tahmin yöntemidir. Bootstrap, parametrik olmayan bir Monte Carlo yöntemidir, özü gözlem bilgisini yeniden örneklemek ve ardından popülasyonun dağılım özellikleri hakkında istatistiksel çıkarımlar yapmaktır. İlk olarak, Bootstrap yeniden örnekleme yoluyla Çapraz Doğrulamanın neden olduğu örnek azaltma sorununu ortadan kaldırır.İkincisi, Bootstrap ayrıca verilerde rastgelelik yaratabilir. B Ootstrap, yer değiştirmeli tekrarlı bir örnekleme yöntemidir Örnekleme stratejisi basit rastgele örneklemedir.

  • Bootstrap'e dayalı torbalama algoritması

Torbalama (Bootstrapped Aggregation'ın kısaltması) Belirli bir veri işleme görevi için, birden çok model farklı modeller, parametreler ve özellikler kullanılarak eğitilir ve son olarak nihai sonuç, oylama veya ağırlıklı ortalama ile çıktıdır. Temel öğrenci aynı model veya farklı olabilir. Genel olarak, aynı temel öğrenci kullanılır ve en yaygın kullanılan, CE karar ağacıdır.

Torbalama, orijinal veri kümesini değiştirme ile örnekleyerek orijinal veri kümesi D ile aynı boyutta yeni veri kümeleri D1, D2, D3 vb. Oluşturur ve daha sonra bu yeni veri kümelerini birden çok sınıflandırıcı g1'i eğitmek için kullanır, g2, g3 ..... Değiştirilen numuneler olduğu için, bazı numuneler birden çok kez görünebilir ve bazı numuneler göz ardı edilecektir.Teorik olarak, yeni numuneler orijinal eğitim verilerinin% 67'sini içerecektir.

Torbalama, temel sınıflandırıcının varyansını azaltarak genelleme yeteneğini geliştirir. Bu nedenle, Torbalamanın performansı, temel sınıflandırıcının kararlılığına bağlıdır. Temel sınıflandırıcı kararsızsa, Torbalama, eğitim verilerinin rastgele bozulmasından kaynaklanan hatayı azaltmaya yardımcı olabilir. Ancak temel sınıflandırıcı kararlı ise, yani veri değişikliklerine duyarlı değilse, torbalama yöntemi performans artışı sağlamayacaktır.

Algoritma akışı aşağıdaki gibidir:

  • Torbalamaya Dayalı Rastgele Orman

Rastgele Orman (Rastgele Orman), birçok karar ağacının ortalamasıdır Her karar ağacı, Bootstrap aracılığıyla elde edilen rastgele örneklerle eğitilir. Ormandaki her bir ağaç, tam bir karar ağacından daha zayıftır, ancak bunları birleştirerek, çeşitlilik yoluyla daha yüksek bir genel performans elde edilebilir.

Rastgele orman ilk olarak birçok farklı karar ağacı oluşturacaktır ve her ağaçtaki değişken sayısı ( K Modelin eğitim hızını önemli ölçüde hızlandırabilen mevcut değişkenlerin sayısıdır). Genel temel sınıflandırıcıların sayısı 500 veya daha fazladır.

Rastgele orman, Kendi kendini sınama özelliklerine sahiptir. Rastgele orman Bootstrap tarafından örneklendiği için, teorik olarak, orijinal verilerin yaklaşık 1 / 3'ü seçilmemiştir.Biz buna OOB (paket dışı) diyoruz ve verilerin bu kısmı tamam. Çapraz Doğrulama rolüne benzer şekilde test için kullanılır.

Rastgele orman, bugün makine öğreniminde çok popüler bir algoritmadır. Bu, eğitilmesi (veya inşa edilmesi) çok kolay olan bir tür "küme zekası" dır ve iyi performans gösterme eğilimindedir.

Rastgele ormanın birçok avantajı vardır:

  • Tüm veriler etkili bir şekilde kullanılabilir ve çapraz doğrulama için verilerin bir kısmını manuel olarak ayırmaya gerek yoktur

  • Rastgele orman yüksek doğruluk sağlayabilir, ancak yalnızca birkaç parametresi vardır ve sınıflandırma ve regresyon için uygundur

  • Aşırı uyum konusunda endişelenmeyin,

  • Önceden özellik seçimi yapmaya gerek yoktur, her seferinde ağacı eğitmek için yalnızca rastgele birkaç özellik seçin

Dezavantajları:

  • Diğer algoritmalarla karşılaştırıldığında çıktı tahmini daha yavaş olabilir.

Entegre öğrenme

  • Artırma

Boosting (Adaptive Boosting'in kısaltması), hatalara dayalı sınıflandırıcıların performansını artırır Mevcut sınıflandırıcılar tarafından yanlış bir şekilde sınıflandırılan örneklere odaklanılarak, yeni sınıflandırıcılar oluşturulur ve entegre edilir. Buradaki fikir, modelin her yinelemeden geçmesidir. Veri örneklerinin genel işleme doğruluğunu iyileştirmek için hata örneklerinin kayıp ağırlığını ayarlayın. Güçlendirme ve Torbalama arasındaki en büyük fark Yani, Boosting seridir ve Torbalama'daki tüm sınıflandırıcılar aynı anda üretilebilir.Bunlar arasında ilişki yoktur.Araştırmada, önce ilk sınıflandırıcı üretilmeli, ardından ilk sınıflandırıcının sonucuna göre ilk sınıflandırıcı üretilmelidir. İki sınıflandırıcı sırayla gerçekleştirilir.

| Proje | Torbalama | Güçlendirme | | -------- | -----: |: ----: | | Yapı | Paralel | Seri | | Eğitim Seti | Bağımsız | Bağımlılık | | Test | Paralel | Seri gerekiyor | | İşlev | Varyansı azalt | Sapmayı azalt |

ana fikir Eğitim setini değiştirerek hedefli öğrenmeyi gerçekleştirmektir. Her yineleme ile yanlış numunenin ağırlığı artırılır ve doğru numunenin ağırlığı azaltılır. Hatalarınızı düzeltin ve daha iyi hale gelin.

Yukarıdaki resim (prml p660'dan resim) bir Güçlendirme sürecidir Yeşil çizgi mevcut modeli temsil eder (model önceki m modellerini birleştirerek elde edilir) ve noktalı çizgi mevcut modeli temsil eder. Her sınıflandırdığınızda, yanlış verilere daha fazla dikkat edeceksiniz.Yukarıdaki şekilde, kırmızı ve mavi noktalar veridir. Nokta ne kadar büyükse, ağırlık da o kadar yüksek olur. Sağ alt köşedeki resme bakın. M = 150 olduğunda, Model, kırmızı ve mavi noktaları neredeyse ayırt edebiliyor.

Algoritma akışı aşağıdaki gibidir:

Yanlış öğrenilen örneklerin ağırlığını artırmak ve doğru olduğuna karar verilen örneklerin ağırlığını azaltmak bir parça düzeltmedir ve yanlış olduğunu biliyorsanız düzeltmenin anlamı ve hedefli öğrenmeyi gerçekleştirebilirsiniz. Teoride, Boosting rastgele doğru sınıflandırıcılar oluşturabilirken, temel öğrenci keyfi olarak zayıf olabilir ve yalnızca tahmin etmekten daha iyi olması gerekir.

Artırma önyargıyı azaltırken torbalama varyansı azaltır. Belirli ayrıntılar için lütfen Zhihu netizenlerinin yanıtına bakın. "Torbalama neden varyansı azaltır ve artırma önyargıyı azaltır? -AdaBoost, Arttırmaya dayalı" (https://www.zhihu.com/question/26760839)

  • AdaBoost

AdaBoost, Boosting'deki en temsili algoritmadır. AdaBoost, Torbalamadan farklı bir Boosting yöntemidir. Adaboost'ta farklı alt modeller seri eğitim ile elde edilmelidir Her yeni alt model, eğitilen modelin performansına göre eğitilir ve Boosting algoritmasındaki temel öğrenci zayıf öğrenmedir ve bu da şu şekilde anlaşılabilir: Sadece rastgele tahmin etmekten daha iyi , İki sınıflandırma durumunda, doğru oran 0,5'ten biraz daha yüksektir.

AdaBoost'taki her eğitim örneğinin bir ağırlığı vardır ve başlangıç değeri Wi = 1 / N'dir. Adaboost'ta, her yineleme aynı eğitim verilerini kullanarak yeni bir alt model oluşturur, ancak örneğin ağırlığı farklı olacaktır. AdaBoost, yanlış numunenin ağırlığını artırma ve doğru numunenin ağırlığını azaltma prensibine göre her numunenin ağırlığını mevcut hata oranına göre güncelleyecektir. Eğitimi tekrarlayın ve eğitim hata oranı veya temel öğrenci sayısı kullanıcı tarafından belirtilen sayıya ulaşıncaya kadar ağırlıkları ayarlayın. Adaboost'un nihai sonucu, her zayıf öğrencinin ağırlıklı sonucudur.

Algoritma akışı aşağıdaki gibidir:

AdaBoost avantajları:

  • Uygulaması kolay

  • Ayarlanacak neredeyse hiç parametre yok

  • Aşırı uyum konusunda endişelenme

Dezavantajları:

  • Formüldeki yerel optimal çözümdür ve optimal çözüm olduğu garanti edilemez.

  • Gürültüye çok duyarlı

AdaBoost'un öğretmen Lin Xuantian'ın kursundaki algoritma akışını anlamak daha kolay olabilir.

  • Gradyan Artırma Makineleri (GBM)

Gradyan artırma, zayıf karar ağaçlarından oluşması açısından rastgele ormana benzer. En büyük fark, gradyan artırmada ağaçların birbiri ardına eğitilmesidir. Sonraki her ağaç, esas olarak önceki ağaç tarafından hatalı şekilde tanınan verilerle eğitilir. Hangi yapar Gradyan artırma, kolayca öngörülebilir durumlara daha az ve zor durumlara daha çok odaklanır.

Gradient Boost ile geleneksel Boost arasındaki fark, her yeni modelin gradyan yönünde önceki modelin kalıntısını azaltmasıdır. Gradient Boost ile geleneksel Boost arasındaki fark, her hesaplamanın son artığı (artık) azaltmasıdır ve artığı ortadan kaldırmak için artık azalmanın (Gradyan) gradyan yönünde yeni bir model oluşturabiliriz. . Bu nedenle, Gradient Boost'ta her yeni model, doğru ve yanlış örnekleri ağırlıklandıran geleneksel Boost'tan çok farklı olan gradyan yönünde önceki modelin kalıntısını azaltmak için oluşturulmuştur.

Gradient boost eğitim hızı da çok hızlı ve performans çok iyi. Bununla birlikte, eğitim verilerindeki küçük değişiklikler modelde radikal değişiklikler üretebilir, bu nedenle en yorumlanabilir sonuçları üretmeyebilir.

  • Gradyan Artırılmış Regresyon Ağaçları (GBRT)

Açıklanması gereken ilk şey, bu algoritmanın birçok isme sahip olduğudur, ancak aslında aynıdır ~

  • Gradyan Ağacı Güçlendirme

  • GBRT (Gradyan Arttırma Regresyon Ağacı) Gradyan Arttırma Regresyon Ağacı

  • GBDT (Gradient BoostDecision Tree) gradyan artırma karar ağacı

  • MART (MultipleAdditive Regression Tree) çoklu karar regresyon ağacı

  • Tree Net Karar Ağacı Ağı

GBRT aynı zamanda bir Boosting yöntemidir. Her bir alt model, eğitimli öğrencinin performansına dayanmaktadır ( Artık ) Eğitimli, alt model Seri eğitimle elde edildi, paralelleştirilmesi kolay değil. GBRT, artık öğrenmenin hesaplanmasına dayanır ve AdaBoost'ta numune ağırlığı kavramına sahip değildir. GBRT, gradyan yineleme ve regresyon ağacını birleştirir ve doğruluk çok yüksektir, ancak aynı zamanda aşırı uyum riski de vardır. GBRT'de yinelemeli, artığın gradyanıdır ve artık, tahmin edilen sonuç ile elde edilen tüm eğitmenlerin mevcut kombinasyonunun gerçek değeri arasındaki farktır.

GBRT çok yaygın olarak kullanılmaktadır, Sınıflandırabilir, regresyon tahmini yapabilir. GBRT bir sınıflandırma ağacı değil, bir regresyon ağacıdır. İşin özü, her ağacın önceki tüm ağaçların kalıntılarından öğrenmesidir. GBRT bir sınıflandırma ağacı değil, bir regresyon ağacıdır.

Karar ağacı ikiye ayrılmıştır: Regresyon ağacı ile Sınıflandırma ağacı :

  • Regresyon ağacı Sıcaklık, kullanıcı yaşı vb. Gibi gerçek değerleri tahmin etmek için kullanılır.

  • Sınıflandırma ağacı Hava koşulları, kullanıcı cinsiyeti vb. Gibi etiket değerlerini sınıflandırmak için kullanılır.

İki temel model kombinasyonu + karar ağacı ile ilgili algoritma biçimi vardır: Rastgele orman karşı GBDT (Gradyan Artırma Karar Ağacı). Diğer nispeten yeni model kombinasyonu + karar ağacı algoritmaları bu iki algoritmanın uzantılarıdır.

Algoritma akışı aşağıdaki gibidir:

Algoritma uygulaması dahil Torbalama ve Yükseltme mimarisi altındaki entegrasyon algoritması hakkında daha fazla ayrıntı için lütfen resmi Python web sitesinde ( makine öğrenimi paketi entegrasyon modülü sk-learn'e bakın.

  • İstifleme

Wolpert, 1992 tarihli bir makalede yığılmış genelleme yaptı. Temel fikir Çok sayıda temel sınıflandırıcı kullanır ve daha sonra, genelleme hatalarını azaltmak amacıyla tahminlerini birleştirmek için başka bir sınıflandırıcı kullanır.

İstifleme esas olarak iki bölüme ayrılmıştır. İlk katman, birçok küçük sınıflandırıcıyı eğiten geleneksel eğitimdir; ikinci katman, bu küçük sınıflandırıcıların çıktılarını yeni bir eğitim setinde yeniden birleştirmek ve daha yüksek düzeyde bir sınıflandırıcı eğitmektir; amaç, karşılık gelen Bunların ağırlığı veya aralarındaki kombinasyon.

İkinci düzey sınıflandırıcıyı eğitirken, her bir temel sınıflandırıcının çıktısı girdi olarak kullanılır, ikinci düzey sınıflandırıcının işlevi, temel sınıflandırıcının çıktısını entegre etmektir.

İfadeler:

Algoritma akışı aşağıdaki gibidir:

İstifleme, Torbalama'nın yükseltilmiş bir versiyonu gibidir. Torbalama'daki temel sınıflandırıcılar aynı ağırlıklara sahiptir, ancak İstiflemede farklıdır. İstiflemede ikinci katman öğrenme süreci, doğru ağırlıkları veya doğru kombinasyonu bulmaktır.

Bunu belirtmeye değer Yığınlama mimarisi altında Yığınlama, Karıştırma, Yığın Genelleme gibi sık görülen bazı ifadeler vardır ve birçok makale aralarındaki ilişkiyi açıkça belirtmez.

bu durumda Kesinlikle ayırt etmemek Eğer öyleyse, Yığınlama, Karıştırma ve Yığınlı Genellemenin aslında aynı algoritma için farklı isimler olduğu düşünülebilir. Geleneksel toplu öğrenmede, hedef işlevine yaklaşmak için eğitim setine uymaya çalışan birden fazla sınıflandırıcımız var. Her sınıflandırıcının kendi çıktısı olduğundan, sonuçları birleştiren bir kombinasyon mekanizması bulmamız gerekir; bu, oylama (çoğu kazanç), ağırlıklı oylama (bazı sınıflandırıcıların diğerlerinden daha fazla yetkiye sahiptir), ortalama sonuçlar vb.

Yığınlamada, kombinasyon mekanizması, bir sınıflandırıcının (seviye 0 sınıflandırıcı) çıktısının, aynı amaç fonksiyonuna yaklaşmak için başka bir sınıflandırıcının (seviye 1 sınıflandırıcı) eğitim verileri olarak kullanılmasıdır. Temel olarak, seviye 1 sınıflandırıcının birleştirme mekanizmasını bulmasına izin verin.

Yığınlama, Harmanlama ve Yığın Genelleme, farklı isimlerle aynı şeydir. Bu bir tür toplu öğrenmedir. Geleneksel topluluk öğrenmede, hedef işleve yaklaşmak için bir eğitim setine uymaya çalışan birden fazla sınıflandırıcımız var. Her sınıflandırıcı kendi çıktıları varsa, sonuçları birleştirmek için bir birleştirme mekanizması bulmamız gerekecek.Bu, oylama (çoğunluk kazanır), ağırlıklı oylama (bazı sınıflandırıcıların diğerlerinden daha fazla yetkisi vardır), sonuçların ortalamasını alma vb. yoluyla olabilir.

Yığınlama ve Karıştırma hakkında daha fazla ayrıntı için lütfen KAGGLE ENSEMBLING GUIDE, Çin kaggle rekabet entegrasyon kılavuzu @qjgods'a bakın (

Dünyaya başka bir bakış

Son olarak, öğretmen Lin Xuantian'ın kursunun açıklamasına göre makine öğrenimi entegrasyon algoritmasının bir özetini de yapabiliriz. Entegre model esas olarak iki ana hatta bölünmüştür, bir Harmanlama hattı ve bir Öğrenme hattı. Harmanlama, çeşitli temel sınıflandırıcılar elde ettiğimizi varsayar Öğrenme, temelde bir sürü veriyle karşı karşıya olduğumuz anlamına gelir ve bunları birleştirme yöntemini öğrenirken temel sınıflandırıcıları da elde etmemiz gerekir.

  • Karıştırma çerçevesi

  • Öğrenme çerçevesi

Elbette biraz daha karmaşık, yani entegre entegrasyon var.

Model değerlendirmesi

Bir modelin artılarını ve eksilerini değerlendirmek için birçok kriter vardır.

Yetersiz uydurma ve fazla uydurma, sıklıkla ortaya çıkan iki durumdur. Basit değerlendirme yöntemi, eğitim hatası ile test hatası arasındaki ilişkiyi karşılaştırmaktır. Gereksiz uydurma olduğunda, model eğitim doğruluğunu iyileştirmek için daha fazla özellik tasarlayabilirsiniz. Şu anda özellik miktarı, model testinin doğruluğunu artırmak için modelin karmaşıklığını azaltmak için optimize edilebilir.

  • Aşırı uyum ve yetersiz uyum

İfadeler:

  • Varyans ve önyargı

Makine öğrenimi modelinin Önyargı ve Varyans analizi, Önyargı-Varyans Ödünleşimini Anlamak'taki bir resim bize sapma ve varyans arasındaki ilişkiyi canlı bir şekilde gösterir:

Basitçe ifade etmek gerekirse, bir model ne kadar karmaşıksa, eğitim örnekleminin uyumu o kadar yüksek ve Önyargı da o kadar küçüktür (küçük eğitim hatası). Bununla birlikte, verilere çok duyarlı olması nedeniyle, oluşturulan model nispeten büyük bir varyasyon aralığına (daha büyük Varyans) sahip olabilir ve bu da test verilerinin performansında yüksek belirsizliğe yol açabilir.

Kaynaklar

  • Çevrimiçi kurs

  • Makine Öğreniminin Temel Taşı Teknikleri Tayvan Üniversitesi Öğretmeni Lin Xuantian

Bu iki kurs, Ulusal Tayvan Üniversitesi'nden Öğretmen Lin Xuantian tarafından sunulan başlangıç seviyesinde makine öğrenimi kurslarıdır. Köşe taşı sınıfı teoriye odaklanır ve VC Boyut, Aşırı Uyum, Düzenlilik ve Doğrulama gibi çok temel konuları kapsar.Teknik sınıfı, SVM, AdaBoost, Karar Ağacı, Rastgele Orman, Derin Öğrenme, RBF Ağı gibi çok sayıda pratik algoritmayı tanıtmak için üç kategoriye ayırır. Her algoritma derinlemesine konuşur, çok sayıda matematiksel türetme içerir ve modeller ile algoritmalar arasındaki ilişkiye büyük önem verir. Kurs slaytları güzelce hazırlanmış ve dersler basit terimlerle açıklanmıştır. Ödevi çok zordur ve çok zaman alır. Entegrasyon öğrenimi (toplama) ile ilgili olarak, Bay Lin Xuantian, entegrasyon algoritmasının ilgili ayrıntılarını ve arkasındaki matematiksel ilkeleri tam olarak anlamak için yaklaşık beş saat süren teknik sınıfındaki 7. dersi 11. derse ayarladı, böylece daha iyi uygulanabilsin. İçinde entegre algoritmalar kullanın.

Ders videoları ve ders notları:

forum:

https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/

Kaynak kitap:

Ödev referansı:

  • Veri Madenciliği: Teori ve Algoritma (Yuan Bo) School Online Edition

Veri Madenciliği Kursu:

Samanyolu'nun soyundan gelen Öğretmen Yuan Bo, açıkça güçlü bir gruptur, ancak o idol yoluna gitmek istiyor. Öğretmen Yuan Bo, veri madenciliğiyle ilgili diğer ders ve ders kitaplarında nadiren yer alan temel fikirleri, anahtar teknolojileri ve bazı önemli bilgi noktalarını canlı ve mizahi bir şekilde tanımladı. Bütünleşik öğrenme modülü kursun sekizinci haftasında.

  • Önerilen kitaplar:

  • Topluluk Yöntemleri: Temeller ve Algoritmalar (Chapman ve Hall / CRC Veri Madenciliği ve Bilgi Keşfi Serisi) 1. Baskı, Zhi-Hua Zhou (Yazar)

  • Genişletilmiş okuma:

  • XGBoost ve Yükseltilmiş Ağaç Chen Tianqi

    (Http://www.52cs.org/?p=429)

  • XGBoost: Ölçeklenebilir Ağaç Güçlendirme Sistemi

    (Https://arxiv.org/abs/1603.02754)

  • Örnek öğrenme

    (Http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/springerEBR09.pdf)

  • Örnek

    (Http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/SpringerEDBS09a.pdf)

  • Artırma

    (Http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/SpringerEDBS09b.pdf)

  • AdaBoost

    (Http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/top10chapter.pdf)

  • Makine öğrenimi algoritmalarında GBDT ve XGBOOST arasındaki farklar nelerdir?

    (Https://www.zhihu.com/question/41354392)

  • Profesör Zhou Zhihua tarafından önerilen Derin Orman modeli nasıl değerlendirilir? Mevcut sıcak derin öğrenme DNN'nin yerini alacak mı?

    (Https://www.zhihu.com/question/56474891)

  • SINIFLANDIRICILAR İÇİN TOPLANMA YÖNTEMLERİ

    (Https://datajobs.com/data-science-repo/Ensemble-Methods-%5BLior-Rokach%5D.pdf)

  • Veri Bilimi Bilgi Deposu

    (Https://datajobs.com/data-science-repo/)

  • Regresyon için Model Toplama Yöntemlerinin Karşılaştırması

    (Https://datajobs.com/data-science-repo/Boosting-and-Bagging-%5BBarutcuoglu-and-Alpaydin%5D.pdf)

  • Breimanın Rastgele Orman Makine Öğrenimi Algoritmasının Uygulanması

    (Https://datajobs.com/data-science-repo/Random-Forest-%5BFrederick-Livingston%5D.pdf)

  • Rasgele Ormana Göre Sınıflandırma ve Regresyon

    (Https://datajobs.com/data-science-repo/Random-Forest-%5BLiaw-and-Weiner%5D.pdf)

  • Topluluk Modelleme Teknikleri Hakkında Bir Veri Bilimcisine sorulacak 40 Soru (Beceri Testi Çözümü)

    (Https://www.analyticsvidhya.com/blog/2017/02/40-questions-to-ask-a-data-scientist-on-ensemble-modeling-techniques-skilltest-solution/)

  • KAGGLE TOPLAMA KILAVUZU

    (Http://mlwave.com/kaggle-ensembling-guide/)

Bu makale referansları:

Toplu öğrenmeyi öğrenmeye nasıl başlanır?

Makine Öğreniminde Algoritmalar (1) -Rastgele Orman ve GBDT @ SolTNotKarar Ağacı Modeli Kombinasyonu Kolaylığı

Makine Öğreniminde Matematik (3) -SolNotEasy'de Model Birleştirme Modelinin Artırılması ve Gradyan Artırılması

Entegre öğrenme teorisi için sklearn kullanın @jasonfreak

Entegre öğrenme yöntemi (

Topluluk öğrenme (Entegre Öğrenme @ GJS Blog)

Makine Öğrenimi Teknikleri - Füzyon Modeli @

kaggle rekabet entegrasyon kılavuzu @qjgods

Yığınlama, Karıştırma ve Yığınlı Genelleme

Diğer programcıların nasıl itiraf ettiğini görün! (Öğretici ile ~)
önceki
Özel Size kendi veri kümenizi oluşturmak için Scrapy'yi kullanmayı öğretin
Sonraki
The New York Times: 2016'nın en unutulmaz bilim haberleri
Bugün, Bai Yansong, Mulan Dağı Maratonuna katıldı.
Manyetik Rezonans Plak Görüntülemenin Özel Teknik Ar-Ge, Durumları ve Veri Zorlukları
Sıcak kış güneşini hissedin 2018 Panzhihua Mutlu Güneş Festivali 28 Kasım'da başlıyor
Google'ın anne-baba mağazasının tek boynuzlu at yolu, 23andMe'nin genetik testi nasıl geçtiğini görün
Parktaki kadına saldıran adam, şüphelinin izini takip ederek kıyafetlerini değiştirdi ve kaçtı.
Özel TensorFlow'u uygulamalı öğretin (kodla)
Isınma maçı Iron Gate 2, Giroud Grim Reaper'a yardımcı oldu, Arsenal'in 3-1 sezon öncesi iki maçlık galibiyet serisini attı
Uzun süredir beklenen "Blade Runner 2049", sıfır spoyler derinlemesine analiziyle nihayet burada!
GIF-Milli futbolcu genç kız şaşırttı, Luneng AFC Şampiyonlar Ligi'nde 3 dakikada 2 gol, Kashima'nın 0-2 gerisinde kaybetti!
Yao Kizhi'nin Yunqi Konferansı'nda yaptığı konuşma: Neden bu finansal teknolojinin "yeni" altın çağı olduğunu söylüyorum
Bahar Şenliğini hangi ritüeller temsil edebilir?
To Top