g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Makine öğreniminin en yaygın on algoritmasını kolayca anlayın

Bu makale, size yaygın olarak kullanılan on algoritmayı ve bunların sınıflandırma problemlerindeki uygulama örneklerini tanıtmak için yalnızca diyagramları kullanır.

Bu makale sayesinde herkes, makine öğreniminin ortak algoritmaları hakkında bir sağduyu anlayışı oluşturabilir. Kod yoktur, karmaşık teorik türetme yoktur, sadece diyagramlar, bu algoritmaların ne olduğunu ve nasıl uygulandığını açıklar (örnekler çoğunlukla sınıflandırma problemleridir). Gelecekte tek bir algoritmayı derinlemesine analiz etme şansı olacak.

Yaygın olarak kullanılan on algoritma aşağıdaki gibidir:

1. Karar ağacı

İkincisi, rastgele orman algoritması

Üç, lojistik regresyon

Dört, SVM

Beş, Naif Bayes

Altı, K en yakın komşu algoritması

Yedi, K-demek algoritma

Sekiz, Adaboost algoritması

Dokuz, sinir ağı

10. Markov

detaylar aşağıdaki gibidir:

1. Karar ağacı

Bazı özellik sınıflandırmasına göre, her düğüm yargılama yoluyla bir soru sorar, veriler iki kategoriye ayrılır ve ardından soru sormaya devam eder. Bu sorunlar mevcut verilere göre öğrenilir ve yeni veri yatırımı yapıldığında veriler ağaçtaki problemlere göre uygun yapraklara bölünebilir.

İkincisi, rastgele orman algoritması

Birkaç alt küme oluşturmak için kaynak verilerden rastgele veri seçin

S matrisi kaynak verilerdir, 1-N veri vardır, A B C özelliktir ve son sütun C kategoridir

S'den rastgele M alt matrisleri oluşturun

Bu M alt kümeleri M karar ağacını alır

Bu M ağaçlarına yeni veriler koyun, M sınıflandırma sonuçlarını alın ve hangi kategorinin en fazla sayıda tahmine sahip olduğunu görmek için sayın ve bu kategoriyi nihai tahmin sonucu olarak kullanın

Üç, lojistik regresyon

Tahmin hedefi olasılık olduğunda, değer aralığı 0'dan büyük veya 0'a eşit ve 1'den küçük veya eşit olmalıdır. Aralığı belirtin.

Bu nedenle, şu anda bu şekilde bir modele ihtiyaç duymak daha iyidir

Peki böyle bir modeli nasıl elde edersiniz?

Bu modelin iki koşulu karşılaması gerekir: 0'dan büyük veya eşit ve 1'den küçük veya eşit.

0'dan büyük veya 0'a eşit modeller mutlak değeri, kare değeri seçebilir, burada üstel işlevi kullanır, 0'dan büyük olmalıdır

1'den küçük veya ona eşit olarak bölün, pay kendisidir ve paydanın kendisi artı 1'dir, bu nedenle 1'den küçük olmalıdır.

Biraz daha dönüşüm yapın ve lojistik regresyon modelini edinin

İlgili katsayı, kaynak veriler hesaplanarak elde edilebilir

Sonunda lojistik grafiği alın

Dört, SVM

destek vektör makinesi

İki türü ayırmak için, bir alt düzlem elde etmek için en uygun alt düzlem, iki türün kenar boşluğunu en üst düzeye çıkarmaktır ve kenar boşluğu, aşağıdaki şekilde gösterildiği gibi, alt düzlem ile en yakın nokta arasındaki mesafedir, Z2 > Z1, yani yeşil hiper düzlem daha iyi

Bu hiper düzlemi doğrusal bir denklem olarak ifade edin, çizginin üstündeki denklem 1'den büyük veya 1'e eşit ve diğeri -1'den küçük veya eşit.

Noktadan yüzeye olan mesafe şekildeki formüle göre hesaplanır.

Yani toplam marjı elde etmek için ifade aşağıdaki gibidir, amaç bu marjı maksimize etmek, paydayı en aza indirmeniz gerekir, bu yüzden bir optimizasyon problemi olur

Örneğin, üç nokta ile en uygun hiper düzlemi bulun ve ağırlık vektörünü tanımlayın = (2,3) - (1,1)

Ağırlık vektörünü (a, 2a) olarak alın, denklemde iki noktayı değiştirin, (2, 3) ve değerini = 1, (1, 1) ve değerini = -1 olarak değiştirin ve a'yı bulun ve w0'ı kesin. Değer ve sonra hiper düzlem ifadesini alın.

A hesaplandıktan sonra, destek vektörünü elde etmek için (a, 2a) yerine

A ve w0'ın hiper düzleme denklemi, destek vektör makinesidir

Beş, Naif Bayes

NLP'de başvuru yapın

Metnin tutumu olumlu ya da olumsuz olsun, bir parça metin verin, duyarlılık sınıflandırmasına geri dönün

Bu sorunu çözmek için bazı kelimelere bakabilirsiniz.

Bu metin yalnızca bazı kelimeler ve sayıları ile temsil edilecek

Asıl soru şudur: size bir cümle verin, bu hangi kategoriye ait?

Bayes kuralları sayesinde, nispeten basit ve bulması kolay bir sorun haline gelir

Soru, bu kategorideki bu cümlenin olasılığı nedir, tabii ki formüldeki diğer iki olasılığı da unutmayın

Kestane: Olumlu durumda aşk kelimesinin olasılığı 0,1, olumsuz durumda olma olasılığı 0,001'dir.

Altı, K en yakın komşu algoritması

k en yakın komşular

Yeni bir veri parçası verirken, en yakın k nokta arasından hangi kategori daha fazla, verilerin hangi kategoriye ait olduğu

Kestane: Kedi ve köpekleri ayırt etmek için, pençelerin ve sesin iki özelliğine göre karar verirseniz, daireler ve üçgenler zaten sınıflandırılmıştır, bu durumda bu yıldız hangi türü temsil ediyor?

K = 3 olduğunda, üç çizgiyle bağlantılı noktalar en yakın üç noktadır, bu nedenle daha fazla daire vardır, bu nedenle bu yıldız kediye aittir.

Yedi, K-demek algoritma

Bir veri kümesini üç kategoriye bölmek istiyorum, pembe değer büyük, sarı değer küçük

İlk olarak en mutlu olanı, en basit 3, 2, 1 başlangıç değerleri olarak seçilir

Kalan verilerde, her biri üç başlangıç değerinden uzaklığı hesaplar ve ardından bunları en yakın başlangıç değeri kategorisine ayırır.

Sınıflandırmadan sonra, her sınıfın ortalamasını yeni raundun merkez noktası olarak hesaplayın.

Birkaç turdan sonra gruplandırma artık değişmiyor, durabilirsiniz

reklâm

Makine öğrenme Yazar: Vlachs (Peter Flach)

Jingdong

Sekiz, Adaboost algoritması

adaboost, bosting yöntemlerinden biridir

Bosting, sınıflandırmada iyi olmayan bir dizi sınıflandırıcıyı dikkate almaktır ve daha iyi bir sınıflandırıcı elde edersiniz.

Aşağıdaki şekilde, soldaki ve sağdaki iki karar ağacı tek tek bakıldığında çok etkili değildir, ancak aynı veriyi içine koymak ve iki sonucu birlikte değerlendirmek güvenilirliği artıracaktır.

Adaboost kestanesinde, el yazısı tanımada, başlangıç noktasının yönü, başlangıç noktası ile bitiş noktası arasındaki mesafe gibi birçok özellik çizim tahtasında yakalanabilir.

Eğitim sırasında her özelliğin ağırlığını alırsınız.Örneğin, 2 ve 3'ün başlangıcı çok benzerdir.Bu özelliğin sınıflandırma üzerinde çok az etkisi vardır ve ağırlığı daha küçük olacaktır.

Ve bu alfa açısı çok tanınabilir, bu özelliğin ağırlığı daha büyük olacaktır ve nihai tahmin sonucu, bu özelliklerin kapsamlı bir şekilde değerlendirilmesinin sonucudur.

Dokuz, sinir ağı

Sinir Ağları, en az iki kategoriye girebilecek bir girdi için uygundur.

NN, birkaç nöron katmanından ve bunlar arasındaki bağlantılardan oluşur

İlk katman giriş katmanı ve son katman çıktı katmanıdır

Hem gizli katman hem de çıktı katmanı kendi sınıflandırıcısına sahiptir

Giriş, ağa girilir ve etkinleştirilir, hesaplanan puan bir sonraki katmana geçirilir ve sonraki sinirsel katman etkinleştirilir.Çıktı katmanının düğümlerindeki puanlar, her bir kategoriye ait puanları temsil eder.Aşağıdaki örnek, sınıf 1 olarak sınıflandırma sonucunu gösterir.

Aynı girdi farklı düğümlere iletilir ve her düğümün farklı ağırlıkları ve önyargıları olduğu için farklı sonuçlar elde edilir.

Bu ileriye doğru yayılmadır

10. Markov

Markov Zincirleri durum ve geçişlerden oluşur

Kestane, "hızlı kahverengi tilki tembel köpeğin üzerinden atlar" cümlesine göre, markov zincirini almalısın

Adım, önce her kelimeyi bir duruma ayarlayın ve ardından durumlar arasında geçiş olasılığını hesaplayın

Bu, tek bir cümlede hesaplanan olasılıktır.İstatistik yapmak için büyük miktarda metin kullandığınızda, daha büyük bir durum geçiş matrisi elde edersiniz, örneğin bundan sonra bağlanabilen kelimeler ve karşılık gelen olasılık