Büyük envanter: rastgele ormanların avantajları ve dezavantajları ve bunların Python'da nasıl açıklanacağı

Tam metin 1755 kelimedir ve beklenen öğrenme süresi 3 dakikadır.

Bu makale, farklı geçmişlere sahip insanlar için kavramlar, yöntemler, algoritmalar ve bunların Python veya R kodunda uygulanmasını içeren etkileşimli yol haritaları oluşturmayı amaçlayan yeni bir açık kaynak projesi olan The Learning Machine'den geliyor. açıklaması.

Rastgele orman

Rastgele Orman, esnek ve kullanımı kolay bir makine öğrenimi algoritmasıdır. Hiperparametre ayarı olmasa bile çoğu durumda iyi sonuçlar verir. Sınıflandırma ve regresyon görevleri için kullanılabilir. Bu makale sayesinde, rastgele orman algoritmasının sınıflandırma ve regresyon problemlerini nasıl çözdüğünü öğreneceksiniz.

Rastgele bir orman algoritmasının ne olduğunu anlamak için önce karar ağaçlarına aşina olmak gerekir.

Karar ağaçları, özellikle tüm veri kümelerine sahip olan karar ağaçlarında genellikle aşırı uyan sorunlar üretir. Bazen karar ağacı yalnızca verileri hatırlıyor gibi görünüyor. Aşağıdakiler, hem kategorik veriler hem de sürekli verilerle aşırı uygun karar ağaçlarının bazı tipik örnekleridir.

1. Sınıflandırma verileri:

15-25 yaş arası Amerikalı bir adam dondurma yemeyi seviyorsa, 25 Ağustos 2012'de kuşlardan nefret eden bir Alman arkadaşı varsa ve krep yemişse, muhtemelen Pokemon'u indirecektir. Git.

2. Sürekli veriler:

Rastgele orman, bu tür bir sorunun ortaya çıkmasını engeller: yalnızca tek bir karar ağacı değil, birden çok karar ağacının birleşimidir. Rastgele orman algoritması altında ne kadar çok karar ağacı olursa, genelleme sonucu o kadar iyi olur.

Daha doğrusu rastgele ormanın çalışma prensibi şu şekildedir:

1. Veri kümesinden (tablo), toplam m özelliği (burada k m'den küçük veya m'ye eşittir) rastgele k özelliği (sütun) seçin. Sonra bu k özelliklerine dayalı bir karar ağacı oluşturun.

2. n kez tekrarlanan bu k özellikler, n tane karar ağacı (veya önyükleme örneği olarak adlandırılan farklı rastgele veri örnekleri) oluşturmak için farklı rastgele kombinasyonlarla oluşturulur.

3. Her bir karar ağacına sonucu tahmin etmek için rastgele değişkenler aktarın. Tüm tahmin edilen sonuçları (hedefleri) depolayarak, n karar ağacından n tür sonuç alabilirsiniz.

4. Tahmin edilen her hedef için oy sayısını hesaplayın ve modu seçin (en yaygın hedef değişken). Diğer bir deyişle, yüksek oy sayısına sahip tahmin hedefi, rastgele orman algoritmasının nihai tahmini olarak kullanılır.

* Regresyon problemleri için, rastgele ormandaki karar ağacı Y'nin değerini (çıktı değeri) tahmin edecektir. Nihai tahmin edilen değer, rastgele ormandaki tüm karar ağaçlarının tahmin edilen değerlerinin ortalaması ile hesaplanır. Sınıflandırma problemleri için, rastgele ormandaki her karar ağacı, en son verilerin hangi sınıflandırmaya ait olduğunu tahmin eder. Sonunda, en çok hangi kategori seçildi, en son verilerin hangi kategoriye ait olduğunu tahmin edin.

misal:

James, Paris'teki haftasında hangi turistik yerleri ziyaret edeceğine karar vermek zorundadır. Bir yıldır Paris'te yaşayan bir arkadaşını ziyaret etti ve ona hangi turistik yerleri ziyaret ettiğini ve ilginç bulup bulmadığını sordu. Kendi deneyimine dayanarak, bu arkadaş James'e bazı tavsiyelerde bulunacaktır.

Bu tipik bir karar ağacı algoritması yöntemidir. Kendi deneyimine göre, James'in arkadaşları James'e hangi turistik yerleri ziyaret edebileceğini söyledi.

Daha sonra James, Paris'te bulunan birçok arkadaşına öneriler sordu ve ziyaret ettikleri yerleri tavsiye ettiler. Daha sonra James, tipik bir rastgele orman algoritması olan en çok tavsiye edilen turistik yerleri seçti.

Bu nedenle, rastgele orman, toplam m özelliğe sahip olan ve n tane karar ağacı oluşturmak için k özelliği rastgele seçen ve ardından tahmin sonuç modunu seçen (eğer bir regresyon problemiyse, ortalama değeri seçin) bir tür karar ağacıdır.

Lehte ve aleyhte olanlar

avantaj:

1. Sınıflandırma ve regresyon problemlerini çözmek için kullanılabilir: Rastgele orman hem sınıflandırmayı hem de sayısal özellikleri idare edebilir.

2. Aşırı uydurma önleme yeteneği: karar ağaçlarının ortalamasını alarak aşırı uydurma riskini azaltın.

3. Yanlış tahminler, yalnızca temel sınıflandırıcıların yarısından fazlasında hata olduğunda yapılacaktır: Rastgele Orman çok kararlıdır, veri setinde yeni bir veri noktası görünse bile, algoritmanın tamamı çok fazla etkilenmez, yalnızca Bir karar ağacını etkiler, tüm karar ağaçlarını etkilemek zordur.

Dezavantajları:

1. Gözlemlere göre, bazı sınıflandırma / regresyon problemlerinin eğitim verilerinde gürültü varsa, rastgele ormandaki veri seti aşırı uyumlu olacaktır.

2. Karar ağacı algoritmasından daha karmaşıktır ve daha yüksek hesaplama maliyetine sahiptir.

3. Karmaşıklıkları nedeniyle, eğitmek için diğer benzer algoritmalardan daha fazla zamana ihtiyaç duyarlar.

Önemli hiperparametreler

Rastgele ormandaki hiperparametreler, modelin tahmin yeteneğini geliştirmek ve modellemeyi hızlandırmak için kullanılabilir. Aşağıda, sklearn'ın yerleşik rastgele orman işlevinin hiperparametreleri açıklanmaktadır:

1. Tahmin yeteneğini geliştirin

· Alt model sayısı: Tahmin etmek için maksimum oy sayısını veya ortalamayı kullanmadan önce oluşturmak istediğiniz alt ağaçların sayısı. Genel olarak konuşursak, alt ağaçların sayısı ne kadar büyükse, performans o kadar iyileştirilebilir ve tahminin doğruluğu o kadar kararlıdır, ancak aynı zamanda hesaplama sürecini de yavaşlatacaktır.

· Bir düğüm bölündüğünde yargılamaya katılan maksimum özellik sayısı: Rastgele orman, tek bir karar ağacının maksimum sayıda özelliği kullanmasına izin verir. Sklearn, belgelerde açıklandığı gibi çeşitli seçenekler sunar.

· Yaprak düğümler için minimum örnek sayısı: dahili düğümleri alt bölümlere ayırmak için gereken minimum örnek sayısı.

2. Modellemeyi hızlandırın

· Paralel sayı: izin verilen işlemci sayısı. Çıkış değeri 1 ise, yalnızca bir işlemci kullanılabilir. -1 çıkış değeri, sınır olmadığı anlamına gelir.

· Rastgele sayı üreteci: modelin çıktısını tekrarlanabilir hale getirin. Model belirli bir rastgele sayıya sahip olduğunda ve aynı hiperparametreler ve aynı eğitim verileri verildiğinde, model her zaman aynı sonucu verecektir.

· Torba dışı puanın hesaplanıp hesaplanmayacağı: torba dışı örnekleme olarak da adlandırılır - rastgele bir orman çapraz doğrulama yöntemidir. Bu örnekte, verilerin yaklaşık üçte biri modeli eğitmek için değil, modelin performansını değerlendirmek için kullanılmaktadır. Bu örneklere torba dışı örnekler denir. Bu yöntem, çapraz doğrulamaya çok benzer, ancak neredeyse hiç ek hesaplama yükü yoktur.

Python uygulaması

Git deposunda bulunan rastgele orman şablonunu görüntüleyin / indirin:

https://github.com/the-learning-machine/ML-algorithms-python/blob/master/Classification/random_forests.ipynb

Kaynaklar:

https://www.kdnuggets.com/education/online.html

https://www.kdnuggets.com/software/index.html

Yorum bırak Arkadaş çevresi gönder
Yapay zeka öğrenme ve geliştirmenin kuru mallarını paylaşalım
Yapay zeka öz medya "temel okuma" nın tamamını takip etmeye hoş geldiniz
Zhang Junning çok "yeryüzünde", bol bir palto ve kot pantolon giyiyor, havaalanında yürürken parlak bir tat yok
önceki
Huawei'nin ilk 5G cep telefonu İsviçre pazarı için satışa çıktı ve ağ hız testi 1,5 Gbps'yi aşıyor!
Sonraki
Jiang Xin'in trendi takip eden kısa saç kesimi, "yüz germenin başarısızlığı" gibidir. Bol üst ve kot pantolonla daha da güçlüdür.
Bugün Xinsheng | Huawei bilgilerini sızdıran kişi öğrendi!
OnePlus 7 Pro ekran onarım maliyetleri 1.500 yuan'a yakın, UFS 3.0 genel hız artışına yardımcı olacak!
Kedileri, köpekleri ve yabani otları tespit etmek, bilgisayarla görme uygulamaları bunlardan çok daha fazlasıdır
İmparator ağlamaz! Seksi prenses şampiyonluğu kaybetmez!
Zhou Yutongun aurası çok güçlü, beyaz pantolonlu renkli bir süveter giymiş, Han Huohuodan daha yakışıklı
Meizu Technology yeni yatırımcıları tanıttı ve Li Nan'ın mevcut durumu netizenlerin spekülasyon yapmasına neden oldu!
Python ve veri bilimi arasındaki "belirsizlik" hakkında 14 QA
Masu kendini serbest mi bıraktı? Büyük bir takım elbise giymek kendisini bir "cüce" yapar ve bir çöp tenekesi giymek büyülü bir şey değildir
Xiaomi Technology, IDC'nin 2019 Q1 gönderi istatistiklerini düzeltmek için gönüllü bir açıklama yaptı!
Kısa şortlu ayı süveter giyen "Creation 101" ile ortadan kaldırılan havalimanı özçekimi çok şirin
Ortaokul çocuğu boğuluyor ve herkes nefesini geri kazanmasına yardımcı olmak için on dakika boyunca kurtarmayı sürdürüyor
To Top