g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Özet | Karar Ağacı Algoritmalarının Özeti

Önsöz

Karar ağacı, makine öğrenimi modelinin yaygın olarak kullanılan bir yöntemidir. Öğretmen Li Hang'ın "İstatistiksel Öğrenme Yöntemi", karar ağacının oluşturulmasını ve budanmasını ayrıntılı olarak açıklar. Bu makale, kitabın içeriğine göre karar ağacını özetlemektedir.

içindekiler

Karar Ağacının Belirsizlik Ölçüm Yöntemi

Karar ağacı için özellik seçim kriterleri

Karar fonksiyonunun kayıp fonksiyonu değerlendirmesi

Optimal karar ağacı modelinin inşa aşamaları

Karar ağaçlarının avantaj ve dezavantajlarının analizi

Karar Ağacının Belirsizlik Ölçüm Yöntemi

1. Belirsizliğin anlaşılması

Aşağıdaki şekil, A olayının meydana gelip gelmediğine ilişkin olasılık dağılımını gösterir ve olayın meydana gelmesi 1 olarak kaydedilir. tartışmak A olayının belirsizliği.

(1) Ekstrem bir durumu ele alırız, p = 1 veya p = 0 ise, bu, A olayının olması gerektiği veya A olayının gerçekleşemeyeceği anlamına gelir, yani belirsizlik sıfırdır.

(2) Mümkünse > 1/2, yani, A olayının gerçekleşme olasılığı, A olayının meydana gelmeme olasılığından daha büyüktür, A olayının meydana geleceğini tahmin etme eğilimindeyiz; eğer p < 1/2, yani, A olayının meydana gelmeme olasılığı, A olayının meydana gelme olasılığından daha azdır A olayının meydana gelmeyeceğini tahmin etme eğilimindeyiz. P = 1/2 ise, yani, A olayının olasılığı, A olayının gerçekleşmeme olasılığına eşitse, bir öngörü yapamayız, yani A olayının belirsizliği maksimuma ulaşır, böylece tahmin edemeyiz veya A olayının çok karmaşık olduğu anlaşılabilir. Ancak durum karmaşıktır, A olayının şans eseri olup olmayacağını ancak tahmin edebiliriz.

2. Karar ağacında belirsizlik ölçüm yöntemi

Bu makale, veri setinin belirsizliğini ölçmek için entropi ve Gini indeksini kullanır.Veri setinin K kategorilerini içerdiği ve her bir kategorinin boyut ve oranının sırasıyla Di ve pi, i = 1,2, ... K olduğu varsayılmaktadır.

(1) Entropi belirsizlik ölçüm yöntemi

Bilgi teorisi ve olasılık teorisi istatistiklerinde entropi, rastgele değişkenlerin belirsizliğinin bir ölçüsüdür. Entropi H (p) olsun, o zaman:

Entropi ne kadar büyükse, veri setinin belirsizliği o kadar büyük olur.

(2) Gini endeksinin belirsizlik ölçüm yöntemi

Veri kümesinin Gini indeksi şu şekilde tanımlanır:

Gini endeksi ne kadar büyükse, veri kümesinin belirsizliği o kadar büyük olur.

Karar ağacı için özellik seçim kriterleri

Veri kümesi A'da xi, i = 1,2, ... K olarak gösterilen K özelliği olduğunu varsayalım. Veri kümesi A'nın belirsizliği ne kadar büyükse, veri kümesi A o kadar fazla bilgi içerir. Veri kümesi A'nın bilgisinin H (A) olduğunu varsayarsak, xi özelliği tarafından filtrelenen bilgi H (A | xi) ve bilgi kazancı g (A, xi) ikisi arasındaki fark olarak tanımlanır:

g (A, xi) = H (A) -H (A | xi)

Veri kümesi A'nın bilgi kazancını maksimize eden özellik, tarama özelliği olarak seçilmiştir ve matematiksel ifade şöyledir:

x = maks (g (A, xi)) = maks (H (A) -H (A | xi)) Karar ağacının kayıp fonksiyonunun değerlendirilmesi Karar ağacının yaprak düğümlerinin sayısı T olsun ve kayıp işlevi:

C (T) 'nin karar ağacının eğitim hatası olduğu ve karar ağacı modelinin belirsizlikle temsil edildiği yerlerde Belirsizlik ne kadar büyükse eğitim hatası o kadar büyük olur. T, karar ağacının karmaşıklık cezasını temsil eder; parametresi, eğitim verilerinin eğitim hatası ile model karmaşıklığı arasındaki ilişkiyi tartar ve anlam, düzenleme parametresine eşdeğerdir.

Ekstrem durumları göz önünde bulundurun: 0 eğilimi gösterdiğinde, optimal karar ağacı modelinin eğitim hatası 0'a yakın ve model gereğinden fazla uyuyor; sonsuza eğilimli olduğunda, optimum karar ağacı modeli kök düğümlerden oluşan tek bir düğümdür ağaç.

Optimal karar ağacı modelinin inşa aşamaları

Veri seti A, belirli bir oran üzerinden bir eğitim seti ve bir test setine bölünmüştür.

Karar ağacının kayıp işlevi:

Karar ağacının optimal modelinin yapım aşamaları eğitim aşamasını ve test aşamasını içerir:

Eğitim aşaması:

(1) Karar ağacının belirsizlik değerinin en aza indirilmesiyle elde edilen üretim modeli, yani karar ağacı oluşturma;

(2) Karar ağacı budaması yoluyla, farklı düzenleme parametreleri altında optimal karar ağacı modeli, yani karar ağacı budaması elde edilir.

Aşağıda, eğitim aşamasındaki karar ağacı oluşturma adımları ve karar ağacı budama adımlarına odaklanmaktadır.

Karar ağacı oluşturma adımları:

(1) Karar ağacının özellik seçim kriterlerine göre, veri setinin en büyük bilgi kazanımına sahip özelliği seçin;

(2) Tüm yaprak düğümlerinin belirsizliği sıfır olana kadar ilk adımı tekrarlayın.

Karar ağacı budama adımları:

(1) Düzenleme parametresi 'yı küçükten büyüğe farklı aralıklara bölün

, Karar ağacının yaprak olmayan düğümlerini budamak, bu düğüm T olsun ve kök düğüm Tt olduğu için bu düğüme sahip alt ağaç olsun.

(2) aşağıdaki koşulları sağladığında:

Yani, tek bir düğüm ağacının kayıp fonksiyonu, Tt alt ağacının kayıp fonksiyonuna eşittir ve budama sonrası karmaşıklık azaltılır ve genelleme performansı daha iyidir, bu nedenle düğüm budanır.

(3) Tüm yaprak olmayan düğümleri çaprazlayın ve her budama işleminden sonra en uygun alt ağacı ve ilgili parametresini elde edin.

Açıklamalar: Karar ağacı oluşturma ve budama adımları yalnızca genel bir çerçeve verir. Ayrıntılar için lütfen Li Hang'ın "İstatistiksel Öğrenme Yöntemine" bakın.

Test aşaması:

Test seti aracılığıyla farklı parametreleri altında optimum karar ağacı modelini değerlendirin ve en küçük test hatası ve karşılık gelen düzenleme parametresi ile optimum karar ağacı modelini seçin.

Karar ağaçlarının avantaj ve dezavantajlarının analizi

avantaj:

Algoritma basit ve model oldukça yorumlanabilir

Sınıflandırma ve regresyon problemleri için kullanılabilir

Dezavantajları:

Karar ağacı modeli aşırı uyuma eğilimlidir, yani eğitim veri setinin eğitim hatası küçüktür, test veri setinin test hatası büyüktür ve farklı eğitim veri setleriyle oluşturulan modeller de çok farklıdır. Gerçek projelerde, genellikle karar ağacı modelini tek başına kullanmıyoruz Karar ağacının aşırı uyumunu önlemek için, karar ağacını torbalama ve güçlendirme algoritmaları gibi entegre algoritmalarla birlikte kullanmak gerekir.

Referans: Li Hang "İstatistiksel Öğrenme Yöntemleri"

Kaynak: makine öğrenimi algoritmalarıyla ilgili şeyler

30 yaşındaki Hainan tamamen açık ve tüm dünya kıskanç!

Huawei'nin yeni akıllı şehir modeli