Özet | Karar Ağacı Algoritmalarının Özeti

Önsöz

Karar ağacı, makine öğrenimi modelinin yaygın olarak kullanılan bir yöntemidir. Öğretmen Li Hang'ın "İstatistiksel Öğrenme Yöntemi", karar ağacının oluşturulmasını ve budanmasını ayrıntılı olarak açıklar. Bu makale, kitabın içeriğine göre karar ağacını özetlemektedir.

içindekiler

  • Karar Ağacının Belirsizlik Ölçüm Yöntemi
  • Karar ağacı için özellik seçim kriterleri
  • Karar fonksiyonunun kayıp fonksiyonu değerlendirmesi
  • Optimal karar ağacı modelinin inşa aşamaları
  • Karar ağaçlarının avantaj ve dezavantajlarının analizi
  • Karar Ağacının Belirsizlik Ölçüm Yöntemi

    1. Belirsizliğin anlaşılması

    Aşağıdaki şekil, A olayının meydana gelip gelmediğine ilişkin olasılık dağılımını gösterir ve olayın meydana gelmesi 1 olarak kaydedilir. tartışmak A olayının belirsizliği.

    (1) Ekstrem bir durumu ele alırız, p = 1 veya p = 0 ise, bu, A olayının olması gerektiği veya A olayının gerçekleşemeyeceği anlamına gelir, yani belirsizlik sıfırdır.

    (2) Mümkünse > 1/2, yani, A olayının gerçekleşme olasılığı, A olayının meydana gelmeme olasılığından daha büyüktür, A olayının meydana geleceğini tahmin etme eğilimindeyiz; eğer p < 1/2, yani, A olayının meydana gelmeme olasılığı, A olayının meydana gelme olasılığından daha azdır A olayının meydana gelmeyeceğini tahmin etme eğilimindeyiz. P = 1/2 ise, yani, A olayının olasılığı, A olayının gerçekleşmeme olasılığına eşitse, bir öngörü yapamayız, yani A olayının belirsizliği maksimuma ulaşır, böylece tahmin edemeyiz veya A olayının çok karmaşık olduğu anlaşılabilir. Ancak durum karmaşıktır, A olayının şans eseri olup olmayacağını ancak tahmin edebiliriz.

    2. Karar ağacında belirsizlik ölçüm yöntemi

    Bu makale, veri setinin belirsizliğini ölçmek için entropi ve Gini indeksini kullanır.Veri setinin K kategorilerini içerdiği ve her bir kategorinin boyut ve oranının sırasıyla Di ve pi, i = 1,2, ... K olduğu varsayılmaktadır.

    (1) Entropi belirsizlik ölçüm yöntemi

    Bilgi teorisi ve olasılık teorisi istatistiklerinde entropi, rastgele değişkenlerin belirsizliğinin bir ölçüsüdür. Entropi H (p) olsun, o zaman:

    Entropi ne kadar büyükse, veri setinin belirsizliği o kadar büyük olur.

    (2) Gini endeksinin belirsizlik ölçüm yöntemi

    Veri kümesinin Gini indeksi şu şekilde tanımlanır:

    Gini endeksi ne kadar büyükse, veri kümesinin belirsizliği o kadar büyük olur.

    Karar ağacı için özellik seçim kriterleri

    Veri kümesi A'da xi, i = 1,2, ... K olarak gösterilen K özelliği olduğunu varsayalım. Veri kümesi A'nın belirsizliği ne kadar büyükse, veri kümesi A o kadar fazla bilgi içerir. Veri kümesi A'nın bilgisinin H (A) olduğunu varsayarsak, xi özelliği tarafından filtrelenen bilgi H (A | xi) ve bilgi kazancı g (A, xi) ikisi arasındaki fark olarak tanımlanır:

    g (A, xi) = H (A) -H (A | xi)

    Veri kümesi A'nın bilgi kazancını maksimize eden özellik, tarama özelliği olarak seçilmiştir ve matematiksel ifade şöyledir:

    x = maks (g (A, xi)) = maks (H (A) -H (A | xi))
    Karar ağacının kayıp fonksiyonunun değerlendirilmesi
    Karar ağacının yaprak düğümlerinin sayısı T olsun ve kayıp işlevi:

    C (T) 'nin karar ağacının eğitim hatası olduğu ve karar ağacı modelinin belirsizlikle temsil edildiği yerlerde Belirsizlik ne kadar büyükse eğitim hatası o kadar büyük olur. T, karar ağacının karmaşıklık cezasını temsil eder; parametresi, eğitim verilerinin eğitim hatası ile model karmaşıklığı arasındaki ilişkiyi tartar ve anlam, düzenleme parametresine eşdeğerdir.

    Ekstrem durumları göz önünde bulundurun: 0 eğilimi gösterdiğinde, optimal karar ağacı modelinin eğitim hatası 0'a yakın ve model gereğinden fazla uyuyor; sonsuza eğilimli olduğunda, optimum karar ağacı modeli kök düğümlerden oluşan tek bir düğümdür ağaç.

    Optimal karar ağacı modelinin inşa aşamaları

    Veri seti A, belirli bir oran üzerinden bir eğitim seti ve bir test setine bölünmüştür.

    Karar ağacının kayıp işlevi:

    Karar ağacının optimal modelinin yapım aşamaları eğitim aşamasını ve test aşamasını içerir:

    Eğitim aşaması:

    (1) Karar ağacının belirsizlik değerinin en aza indirilmesiyle elde edilen üretim modeli, yani karar ağacı oluşturma;

    (2) Karar ağacı budaması yoluyla, farklı düzenleme parametreleri altında optimal karar ağacı modeli, yani karar ağacı budaması elde edilir.

    Aşağıda, eğitim aşamasındaki karar ağacı oluşturma adımları ve karar ağacı budama adımlarına odaklanmaktadır.

    Karar ağacı oluşturma adımları:

    (1) Karar ağacının özellik seçim kriterlerine göre, veri setinin en büyük bilgi kazanımına sahip özelliği seçin;

    (2) Tüm yaprak düğümlerinin belirsizliği sıfır olana kadar ilk adımı tekrarlayın.

    Karar ağacı budama adımları:

    (1) Düzenleme parametresi 'yı küçükten büyüğe farklı aralıklara bölün

    , Karar ağacının yaprak olmayan düğümlerini budamak, bu düğüm T olsun ve kök düğüm Tt olduğu için bu düğüme sahip alt ağaç olsun.

    (2) aşağıdaki koşulları sağladığında:

    Yani, tek bir düğüm ağacının kayıp fonksiyonu, Tt alt ağacının kayıp fonksiyonuna eşittir ve budama sonrası karmaşıklık azaltılır ve genelleme performansı daha iyidir, bu nedenle düğüm budanır.

    (3) Tüm yaprak olmayan düğümleri çaprazlayın ve her budama işleminden sonra en uygun alt ağacı ve ilgili parametresini elde edin.

    Açıklamalar: Karar ağacı oluşturma ve budama adımları yalnızca genel bir çerçeve verir. Ayrıntılar için lütfen Li Hang'ın "İstatistiksel Öğrenme Yöntemine" bakın.

    Test aşaması:

    Test seti aracılığıyla farklı parametreleri altında optimum karar ağacı modelini değerlendirin ve en küçük test hatası ve karşılık gelen düzenleme parametresi ile optimum karar ağacı modelini seçin.

    Karar ağaçlarının avantaj ve dezavantajlarının analizi

    avantaj:

    Algoritma basit ve model oldukça yorumlanabilir

    Sınıflandırma ve regresyon problemleri için kullanılabilir

    Dezavantajları:

    Karar ağacı modeli aşırı uyuma eğilimlidir, yani eğitim veri setinin eğitim hatası küçüktür, test veri setinin test hatası büyüktür ve farklı eğitim veri setleriyle oluşturulan modeller de çok farklıdır. Gerçek projelerde, genellikle karar ağacı modelini tek başına kullanmıyoruz Karar ağacının aşırı uyumunu önlemek için, karar ağacını torbalama ve güçlendirme algoritmaları gibi entegre algoritmalarla birlikte kullanmak gerekir.

    Referans: Li Hang "İstatistiksel Öğrenme Yöntemleri"

    Kaynak: makine öğrenimi algoritmalarıyla ilgili şeyler

    30 yaşındaki Hainan tamamen açık ve tüm dünya kıskanç!
    önceki
    Huawei'nin yeni akıllı şehir modeli
    Sonraki
    Çin sermayesi artık İsrail'in teknoloji efsaneleriyle kolayca karıştırılmıyor ve İsrail şirketleri için bir cennet haline geliyor
    En çok tavsiye edilen antik şehrin aslında bu küçük kasabada olduğunu biliyorum! Phoenix'ten sessiz, Guilin'den daha çekici
    Lüks evlerin fiyatlarının yaklaşık 30 milyon yuan düşürülmesini kimse umursamıyor. Avustralya emlak alıcılarına ders verebilir
    Messi ve Ronaldo'nun farklı olduğu söyleniyor ama ortak paydalarını buldum
    Dakongyi adında bir çocukluk olduğunu hatırlıyor musun?
    Güzel ağlama! Binlerce kiraz çiçeği çiçek açmış durumda ve gitmezsen çok geç olacak!
    Odak - ABD altıncı nesil süpersonik gizli avcı
    Çip alanı çok büyük! Samsung Exynos 9820 çekirdek fotoğrafları ortaya çıktı
    Çift, 400 gün boyunca arkadaş çevresinden kayboldu, 300.000 harcadı ve ardından herkesi şaşırtan fotoğraflar gönderdi.
    Doların açık pozisyonu yeniden bahis olabilir, yabancı medya: veya% 11 düşüş yaşayacak
    Dikkat Görüntü tanımanın geleceği: fırsatlar ve zorluklar bir arada var olur
    Diğer insanların borsaları: ABD hisse senetleri birinci sırada, hatta Hindistan borsası bile çok heyecan verici!
    To Top