Önsöz
Karar ağacı, makine öğrenimi modelinin yaygın olarak kullanılan bir yöntemidir. Öğretmen Li Hang'ın "İstatistiksel Öğrenme Yöntemi", karar ağacının oluşturulmasını ve budanmasını ayrıntılı olarak açıklar. Bu makale, kitabın içeriğine göre karar ağacını özetlemektedir.
içindekiler
1. Belirsizliğin anlaşılması
(1) Ekstrem bir durumu ele alırız, p = 1 veya p = 0 ise, bu, A olayının olması gerektiği veya A olayının gerçekleşemeyeceği anlamına gelir, yani belirsizlik sıfırdır.
(2) Mümkünse > 1/2, yani, A olayının gerçekleşme olasılığı, A olayının meydana gelmeme olasılığından daha büyüktür, A olayının meydana geleceğini tahmin etme eğilimindeyiz; eğer p < 1/2, yani, A olayının meydana gelmeme olasılığı, A olayının meydana gelme olasılığından daha azdır A olayının meydana gelmeyeceğini tahmin etme eğilimindeyiz. P = 1/2 ise, yani, A olayının olasılığı, A olayının gerçekleşmeme olasılığına eşitse, bir öngörü yapamayız, yani A olayının belirsizliği maksimuma ulaşır, böylece tahmin edemeyiz veya A olayının çok karmaşık olduğu anlaşılabilir. Ancak durum karmaşıktır, A olayının şans eseri olup olmayacağını ancak tahmin edebiliriz.
2. Karar ağacında belirsizlik ölçüm yöntemi
Bu makale, veri setinin belirsizliğini ölçmek için entropi ve Gini indeksini kullanır.Veri setinin K kategorilerini içerdiği ve her bir kategorinin boyut ve oranının sırasıyla Di ve pi, i = 1,2, ... K olduğu varsayılmaktadır.
(1) Entropi belirsizlik ölçüm yöntemi
Entropi ne kadar büyükse, veri setinin belirsizliği o kadar büyük olur.
(2) Gini endeksinin belirsizlik ölçüm yöntemi
Gini endeksi ne kadar büyükse, veri kümesinin belirsizliği o kadar büyük olur.
Veri kümesi A'da xi, i = 1,2, ... K olarak gösterilen K özelliği olduğunu varsayalım. Veri kümesi A'nın belirsizliği ne kadar büyükse, veri kümesi A o kadar fazla bilgi içerir. Veri kümesi A'nın bilgisinin H (A) olduğunu varsayarsak, xi özelliği tarafından filtrelenen bilgi H (A | xi) ve bilgi kazancı g (A, xi) ikisi arasındaki fark olarak tanımlanır:
Veri kümesi A'nın bilgi kazancını maksimize eden özellik, tarama özelliği olarak seçilmiştir ve matematiksel ifade şöyledir:
C (T) 'nin karar ağacının eğitim hatası olduğu ve karar ağacı modelinin belirsizlikle temsil edildiği yerlerde Belirsizlik ne kadar büyükse eğitim hatası o kadar büyük olur. T, karar ağacının karmaşıklık cezasını temsil eder; parametresi, eğitim verilerinin eğitim hatası ile model karmaşıklığı arasındaki ilişkiyi tartar ve anlam, düzenleme parametresine eşdeğerdir.
Ekstrem durumları göz önünde bulundurun: 0 eğilimi gösterdiğinde, optimal karar ağacı modelinin eğitim hatası 0'a yakın ve model gereğinden fazla uyuyor; sonsuza eğilimli olduğunda, optimum karar ağacı modeli kök düğümlerden oluşan tek bir düğümdür ağaç.
Veri seti A, belirli bir oran üzerinden bir eğitim seti ve bir test setine bölünmüştür.
Karar ağacının optimal modelinin yapım aşamaları eğitim aşamasını ve test aşamasını içerir:
Eğitim aşaması:
(1) Karar ağacının belirsizlik değerinin en aza indirilmesiyle elde edilen üretim modeli, yani karar ağacı oluşturma;
(2) Karar ağacı budaması yoluyla, farklı düzenleme parametreleri altında optimal karar ağacı modeli, yani karar ağacı budaması elde edilir.
Aşağıda, eğitim aşamasındaki karar ağacı oluşturma adımları ve karar ağacı budama adımlarına odaklanmaktadır.
Karar ağacı oluşturma adımları:
(1) Karar ağacının özellik seçim kriterlerine göre, veri setinin en büyük bilgi kazanımına sahip özelliği seçin;
(2) Tüm yaprak düğümlerinin belirsizliği sıfır olana kadar ilk adımı tekrarlayın.
Karar ağacı budama adımları:
(1) Düzenleme parametresi 'yı küçükten büyüğe farklı aralıklara bölün
, Karar ağacının yaprak olmayan düğümlerini budamak, bu düğüm T olsun ve kök düğüm Tt olduğu için bu düğüme sahip alt ağaç olsun.
Yani, tek bir düğüm ağacının kayıp fonksiyonu, Tt alt ağacının kayıp fonksiyonuna eşittir ve budama sonrası karmaşıklık azaltılır ve genelleme performansı daha iyidir, bu nedenle düğüm budanır.
(3) Tüm yaprak olmayan düğümleri çaprazlayın ve her budama işleminden sonra en uygun alt ağacı ve ilgili parametresini elde edin.
Açıklamalar: Karar ağacı oluşturma ve budama adımları yalnızca genel bir çerçeve verir. Ayrıntılar için lütfen Li Hang'ın "İstatistiksel Öğrenme Yöntemine" bakın.
Test aşaması:
Test seti aracılığıyla farklı parametreleri altında optimum karar ağacı modelini değerlendirin ve en küçük test hatası ve karşılık gelen düzenleme parametresi ile optimum karar ağacı modelini seçin.
avantaj:
Algoritma basit ve model oldukça yorumlanabilir
Sınıflandırma ve regresyon problemleri için kullanılabilir
Dezavantajları:
Karar ağacı modeli aşırı uyuma eğilimlidir, yani eğitim veri setinin eğitim hatası küçüktür, test veri setinin test hatası büyüktür ve farklı eğitim veri setleriyle oluşturulan modeller de çok farklıdır. Gerçek projelerde, genellikle karar ağacı modelini tek başına kullanmıyoruz Karar ağacının aşırı uyumunu önlemek için, karar ağacını torbalama ve güçlendirme algoritmaları gibi entegre algoritmalarla birlikte kullanmak gerekir.
Referans: Li Hang "İstatistiksel Öğrenme Yöntemleri"Kaynak: makine öğrenimi algoritmalarıyla ilgili şeyler