Makine öğrenimi yarışmalarında popüler olan boosting, tek bir makalede açıklamak için yeterli

Yazar | AISHWARYA SINGH

Çevirmen | Wu Mingli, sorumlu editör | Xi Yan

Üretildi | AI Teknolojisi Ana Kampı (ID: rgznai100)

En az iki tür makine öğrenimi sayabilir misiniz? Artırma ?

Güçlendirme uzun yıllardır var, ancak ancak son zamanlarda makine öğrenimi topluluğunda ana akım haline geldi. Peki bu Boost'lar neden bu kadar popüler?

Boosting'in popülaritesinin ana nedenlerinden biri makine öğrenimi yarışmalarıdır. Güçlendirme, makine öğrenimi modellerine tahmin doğruluğunu iyileştirme konusunda süper güç verir. Kaggle yarışmasına ve DataHack hackathonuna hızlıca bir göz atın - güçlendirme çok popüler!

Kısacası, Boosting genellikle lojistik regresyon ve karar ağaçları gibi basit modellerden daha üstündür. Aslında, DataHack platformundaki en iyi ürünlerin çoğu, bir tür Boosting veya birden fazla Boosting türünün bir kombinasyonu kullanılarak uygulanır.

Bu makalede yazar, bir sonraki makine öğrenimi hackathon'unuzda veya projenizde kullanabileceğiniz dört popüler Boosting'i tanıtacak.

Artırmaya Hızlı Başlangıç (Artırma Nedir? )

Şu senaryoyu hayal edin:

Doğrulama veri setinin doğruluğunu% 77'ye ulaştırabilecek doğrusal bir regresyon modeli oluşturdunuz. Daha sonra, aynı veri kümesi üzerinde bir k-en yakın komşu algoritma (KNN) modeli ve bir karar ağacı modeli oluşturarak veri kümenizi genişletmeye karar verirsiniz. Bu modellerin doğrulama setindeki doğruluk oranları sırasıyla% 62 ve% 89'dur.

Açıkçası, üç model tamamen farklı çalışıyor. Örneğin, doğrusal regresyon modelleri verilerdeki doğrusal ilişkileri yakalamaya çalışırken, karar ağacı modelleri verilerdeki doğrusal olmayanlıkları yakalamaya çalışır.

Son tahminde bulunmak için bu modellerden herhangi birini kullanmak yerine tüm bu modellerin bir kombinasyonunu kullanmaya ne dersiniz?

Bu modellerin ortalama tahminini düşünüyorum. Bu şekilde, verilerden daha fazla bilgi yakalayabileceğiz.

Bu esas olarak entegre öğrenmenin arkasındaki fikirdir. Peki, Boosting nerede görünür?

Güçlendirme, entegre öğrenme kavramını kullanan teknolojilerden biridir. Güçlendirme, nihai çıktıyı oluşturmak için birden fazla basit modeli (zayıf öğrenenler veya temel tahmin ediciler olarak da adlandırılır) birleştirir.

Bu makalede bazı önemli Boost'ları tanıtacağız.

4 Makine öğreniminde güçlendirme

  • Gradyan Kaldırma Makinesi (GBM)

  • Extreme Gradient Kaldırma Makinesi (XGBM)

  • Hafif Gradyan Kaldırma Makinesi (LightGBM)

  • Sınıflandırma desteği (CatBoost)

1, Gradyan Kaldırma Makinesi (GBM)

Gradyan artırma makinesi (GBM), nihai tahmini oluşturmak için birden çok karar ağacından gelen tahminleri birleştirir. Gradyan artırma makinesindeki tüm zayıf öğrencilerin karar ağaçları olduğunu unutmayın.

Fakat aynı algoritmayı kullanırsak, tek bir karar ağacından çok yüz karar ağacı kullanmak daha mı iyidir? Farklı karar ağaçları, verilerden farklı sinyalleri / bilgileri nasıl yakalar?

Bu hiledir - karar ağacındaki her düğüm, en iyi bölünmeyi seçmek için farklı bir işlev alt kümesi kullanır. Bu, ağaçların tam olarak aynı olmadığı anlamına gelir, bu nedenle verilerden farklı sinyaller yakalayabilirler.

Ek olarak, her yeni ağaç, önceki ağacın yaptığı hataları hesaba katar. Bu nedenle, birbirini izleyen her karar ağacı, bir önceki ağacın hatasına dayanır. Gradient Boosting'deki ağaç sıralı olarak böyle inşa edilir.

2, Extreme Gradient Kaldırma Makinesi (XGBM)

Extreme Gradient Boosting Machine (XGBoost) bir başka popüler Boosting'dir. Aslında, XGBoost, GBM algoritmasının yalnızca geliştirilmiş bir sürümüdür! XGBoost'un çalışma süreci, GBM ile aynıdır. XGBoost'taki ağaç, önceki ağaçtaki hataları düzeltmek için inşa etme girişimidir.

Bununla birlikte, XGBoost'un bazı özellikleri GBM'den biraz daha iyidir:

1) En önemli nokta, XGBM'nin paralel ön işlemeyi (düğüm düzeyinde) gerçekleştirmesidir, bu da onu GBM'den daha hızlı yapar.

2) XGBoost ayrıca fazla uydurmayı azaltmak ve genel performansı iyileştirmek için çeşitli düzenleme teknikleri içerir. XGBoost algoritmasının hiperparametrelerini ayarlayarak düzenlileştirme tekniğini seçebilirsiniz.

Ek olarak, XGBM algoritmasını kullanıyorsanız, veri kümesine eksik değerleri girme konusunda endişelenmenize gerek yoktur. XGBM modeli eksik değerleri kendi başına halledebilir. Eğitim süreci boyunca model, eksik değerin sağ düğümde mi yoksa sol düğümde mi olduğunu öğrenecektir.

3. Hafif Gradyan Kaldırma Makinesi (LightGBM)

Hızı ve verimliliği nedeniyle, LightGBM Boosting artık giderek daha popüler hale geliyor. LightGBM, büyük miktarda veriyi kolayca işleyebilir. Bununla birlikte, bu algoritmanın birkaç veri noktasında iyi performans göstermediğini unutmayın.

Bunun neden olduğunu anlamak için biraz zaman ayıralım.

LightGBM'deki ağaçlar yatay büyüme yerine yaprak odaklı büyümeye sahiptir. İlk bölünmeden sonra, sonraki bölünme yalnızca daha büyük kayıplara sahip yaprak düğümlerinde gerçekleştirilir.

Aşağıdaki şekilde gösterilen örneği düşünün:

İlk bölünmeden sonra, sol düğümün kaybı daha yüksektir, bu nedenle bir sonraki bölünme için seçilir. Şimdi, üç yaprak düğümümüz var ve en yüksek kayıp orta yaprak düğümüne sahip. LightGBM algoritmasının yaprak segmentasyonu, büyük veri kümelerini işlemesini sağlar.

Eğitim sürecini hızlandırmak için, LightGBM, en iyi segmentasyonu seçmek için histogram tabanlı bir yöntem kullanır . Tek tek değerler kullanmak yerine sürekli değişkenler için bu değişkenler bölmelere veya gruplara bölünecektir. Bu şekilde eğitim süreci daha hızlıdır ve hafıza yükü azalır.

4. Sınıflandırma Boost Algoritması (CatBoost)

Adından da anlaşılacağı gibi, CatBoost, verilerdeki kategorik değişkenleri işleyen bir Boosting'dir. Çoğu makine öğrenimi algoritması, verilerdeki dizeleri veya kategorileri işleyemez. Bu nedenle, kategorik değişkenleri sayısal değerlere dönüştürmek önemli bir ön işleme adımıdır.

CatBoost, verilerdeki kategorik değişkenleri dahili olarak işleyebilir. Bu değişkenleri sayısal değişkenlere dönüştürmek için özellik kombinasyonları hakkında çeşitli istatistiksel bilgileri kullanın.

Bu kategorileri sayılara nasıl dönüştüreceğinizi öğrenmek istiyorsanız, lütfen aşağıdaki makaleleri okuyun:

https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html#algorithm-main-stages_cat-to-numberic)

CatBoost'un yaygın olarak kullanılmasının bir başka nedeni de, varsayılan hiperparametre setini çok iyi idare edebilmesidir. Bu nedenle, kullanıcılar olarak, hiperparametreleri ayarlamak için çok fazla zaman harcamak zorunda değiliz.

sonuç olarak

Bu makalede, topluluk öğreniminin temellerini tanıttık ve 4 çeşit Boosting'i inceledik. Diğer entegre öğrenme yöntemlerini öğrenmekle ilgileniyor musunuz? Aşağıdaki makaleleri kontrol etmelisiniz:

Kapsamlı öğrenim kılavuzu (Python kodu ile): https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/?utm_source=blogutm_medium=4-boosting-algorithms-machine-learning

Başka ne tür Boosting kullandınız? Bu Boosting'i başarıyla kullandınız mı? Aşağıdaki yorumlarda düşüncelerinizi ve deneyimlerinizi bizimle paylaşmaya hoş geldiniz.

orijinal:

https://www.analyticsvidhya.com/blog/2020/02/4-boosting-algorithms-machine-learning/

Yoğun Bakım Ünitesinde saat on iki: Zhejiang Üniversitesi Birinci Hastanesinden hemşireler "salgın" tüm hava koşullarını kaydetti
önceki
Savaş Salgını · "Ka" da Aşk Var
Sonraki
Docker-Compose temelleri ve gerçek savaş, sadece bunu okuyun | Güç Projesi
Poyang, Jiangxi: Önleme ve Kontrol "Geçici Parti Şubesi" köy sakinlerinin sağlığına eşlik ediyor
iPhone 93 Nisan'da piyasaya sürülebilir; Kopyala ve yapıştırın babası Larry Tesler vefat etti; Android 11 geliştirici önizlemesi burada! | Geek Başlıklar
Savaş Salgını · Jiashan Sıcak! 240'dan fazla parti üyesi ve genç gönüllü bedava kan bağışlıyor
Kaynak kodunu okumak geliştiriciler için önemli mi?
Savaş Salgını Jiashan28 gün ve gece, kuru fırının kart noktası başarıyla kaldırıldı
sadece! 2019 Küresel AI Raporu yayınlandı, bu 8 pozisyon 2020'de popüler olacak
Programcının pişmanlığı: Veri analizini neden erken öğrenmedim?
Komik: "Dize eşleme algoritması" nasıl optimize edilir?
Wuhan'da 10 adet daha kare kabinli hastane inşa edilecek ve Hankou'daki kuzey kabin hastanesi bugün teslim edilecek
Bu yeterli! Bizans Generalleri Sorunu'nu bir makalede anlayın
Evden çalışmanın buz kıranı
To Top