Bu makale, size yaygın olarak kullanılan on algoritmayı ve bunların sınıflandırma problemlerindeki uygulama örneklerini tanıtmak için yalnızca diyagramları kullanır.
Bu makale sayesinde herkes, makine öğreniminin ortak algoritmaları hakkında bir sağduyu anlayışı oluşturabilir. Kod yoktur, karmaşık teorik türetme yoktur, sadece diyagramlar, bu algoritmaların ne olduğunu ve nasıl uygulandığını açıklar (örnekler çoğunlukla sınıflandırma problemleridir). Gelecekte tek bir algoritmayı derinlemesine analiz etme şansı olacak.
Yaygın olarak kullanılan on algoritma aşağıdaki gibidir:
1. Karar ağacı
İkincisi, rastgele orman algoritması
Üç, lojistik regresyon
Dört, SVM
Beş, Naif Bayes
Altı, K en yakın komşu algoritması
Yedi, K-demek algoritma
Sekiz, Adaboost algoritması
Dokuz, sinir ağı
10. Markov
detaylar aşağıdaki gibidir:
1. Karar ağacı
Bazı özellik sınıflandırmasına göre, her düğüm yargılama yoluyla bir soru sorar, veriler iki kategoriye ayrılır ve ardından soru sormaya devam eder. Bu sorunlar mevcut verilere göre öğrenilir ve yeni veri yatırımı yapıldığında veriler ağaçtaki problemlere göre uygun yapraklara bölünebilir.
İkincisi, rastgele orman algoritması
Birkaç alt küme oluşturmak için kaynak verilerden rastgele veri seçin
S matrisi kaynak verilerdir, 1-N veri vardır, A B C özelliktir ve son sütun C kategoridir
S'den rastgele M alt matrisleri oluşturun
Bu M alt kümeleri M karar ağacını alır
Bu M ağaçlarına yeni veriler koyun, M sınıflandırma sonuçlarını alın ve hangi kategorinin en fazla sayıda tahmine sahip olduğunu görmek için sayın ve bu kategoriyi nihai tahmin sonucu olarak kullanın
Üç, lojistik regresyon
Tahmin hedefi olasılık olduğunda, değer aralığı 0'dan büyük veya 0'a eşit ve 1'den küçük veya eşit olmalıdır. Aralığı belirtin.
Bu nedenle, şu anda bu şekilde bir modele ihtiyaç duymak daha iyidir
Peki böyle bir modeli nasıl elde edersiniz?
Bu modelin iki koşulu karşılaması gerekir: 0'dan büyük veya eşit ve 1'den küçük veya eşit.
0'dan büyük veya 0'a eşit modeller mutlak değeri, kare değeri seçebilir, burada üstel işlevi kullanır, 0'dan büyük olmalıdır
1'den küçük veya ona eşit olarak bölün, pay kendisidir ve paydanın kendisi artı 1'dir, bu nedenle 1'den küçük olmalıdır.
Biraz daha dönüşüm yapın ve lojistik regresyon modelini edinin
İlgili katsayı, kaynak veriler hesaplanarak elde edilebilir
Sonunda lojistik grafiği alın
Dört, SVM
destek vektör makinesi
İki türü ayırmak için, bir alt düzlem elde etmek için en uygun alt düzlem, iki türün kenar boşluğunu en üst düzeye çıkarmaktır ve kenar boşluğu, aşağıdaki şekilde gösterildiği gibi, alt düzlem ile en yakın nokta arasındaki mesafedir, Z2 > Z1, yani yeşil hiper düzlem daha iyi
Bu hiper düzlemi doğrusal bir denklem olarak ifade edin, çizginin üstündeki denklem 1'den büyük veya 1'e eşit ve diğeri -1'den küçük veya eşit.
Noktadan yüzeye olan mesafe şekildeki formüle göre hesaplanır.
Yani toplam marjı elde etmek için ifade aşağıdaki gibidir, amaç bu marjı maksimize etmek, paydayı en aza indirmeniz gerekir, bu yüzden bir optimizasyon problemi olur
Örneğin, üç nokta ile en uygun hiper düzlemi bulun ve ağırlık vektörünü tanımlayın = (2,3) - (1,1)
Ağırlık vektörünü (a, 2a) olarak alın, denklemde iki noktayı değiştirin, (2, 3) ve değerini = 1, (1, 1) ve değerini = -1 olarak değiştirin ve a'yı bulun ve w0'ı kesin. Değer ve sonra hiper düzlem ifadesini alın.
A hesaplandıktan sonra, destek vektörünü elde etmek için (a, 2a) yerine
A ve w0'ın hiper düzleme denklemi, destek vektör makinesidir
Beş, Naif Bayes
NLP'de başvuru yapın
Metnin tutumu olumlu ya da olumsuz olsun, bir parça metin verin, duyarlılık sınıflandırmasına geri dönün
Bu sorunu çözmek için bazı kelimelere bakabilirsiniz.
Bu metin yalnızca bazı kelimeler ve sayıları ile temsil edilecek
Asıl soru şudur: size bir cümle verin, bu hangi kategoriye ait?
Bayes kuralları sayesinde, nispeten basit ve bulması kolay bir sorun haline gelir
Soru, bu kategorideki bu cümlenin olasılığı nedir, tabii ki formüldeki diğer iki olasılığı da unutmayın
Kestane: Olumlu durumda aşk kelimesinin olasılığı 0,1, olumsuz durumda olma olasılığı 0,001'dir.
Altı, K en yakın komşu algoritması
k en yakın komşular
Yeni bir veri parçası verirken, en yakın k nokta arasından hangi kategori daha fazla, verilerin hangi kategoriye ait olduğu
Kestane: Kedi ve köpekleri ayırt etmek için, pençelerin ve sesin iki özelliğine göre karar verirseniz, daireler ve üçgenler zaten sınıflandırılmıştır, bu durumda bu yıldız hangi türü temsil ediyor?
K = 3 olduğunda, üç çizgiyle bağlantılı noktalar en yakın üç noktadır, bu nedenle daha fazla daire vardır, bu nedenle bu yıldız kediye aittir.
Yedi, K-demek algoritma
Bir veri kümesini üç kategoriye bölmek istiyorum, pembe değer büyük, sarı değer küçük
İlk olarak en mutlu olanı, en basit 3, 2, 1 başlangıç değerleri olarak seçilir
Kalan verilerde, her biri üç başlangıç değerinden uzaklığı hesaplar ve ardından bunları en yakın başlangıç değeri kategorisine ayırır.
Sınıflandırmadan sonra, her sınıfın ortalamasını yeni raundun merkez noktası olarak hesaplayın.
Birkaç turdan sonra gruplandırma artık değişmiyor, durabilirsiniz
reklâm
Makine öğrenme Yazar: Vlachs (Peter Flach)
Jingdong
Sekiz, Adaboost algoritması
adaboost, bosting yöntemlerinden biridir
Bosting, sınıflandırmada iyi olmayan bir dizi sınıflandırıcıyı dikkate almaktır ve daha iyi bir sınıflandırıcı elde edersiniz.
Aşağıdaki şekilde, soldaki ve sağdaki iki karar ağacı tek tek bakıldığında çok etkili değildir, ancak aynı veriyi içine koymak ve iki sonucu birlikte değerlendirmek güvenilirliği artıracaktır.
Adaboost kestanesinde, el yazısı tanımada, başlangıç noktasının yönü, başlangıç noktası ile bitiş noktası arasındaki mesafe gibi birçok özellik çizim tahtasında yakalanabilir.
Eğitim sırasında her özelliğin ağırlığını alırsınız.Örneğin, 2 ve 3'ün başlangıcı çok benzerdir.Bu özelliğin sınıflandırma üzerinde çok az etkisi vardır ve ağırlığı daha küçük olacaktır.
Ve bu alfa açısı çok tanınabilir, bu özelliğin ağırlığı daha büyük olacaktır ve nihai tahmin sonucu, bu özelliklerin kapsamlı bir şekilde değerlendirilmesinin sonucudur.
Dokuz, sinir ağı
Sinir Ağları, en az iki kategoriye girebilecek bir girdi için uygundur.
NN, birkaç nöron katmanından ve bunlar arasındaki bağlantılardan oluşur
İlk katman giriş katmanı ve son katman çıktı katmanıdır
Hem gizli katman hem de çıktı katmanı kendi sınıflandırıcısına sahiptir
Giriş, ağa girilir ve etkinleştirilir, hesaplanan puan bir sonraki katmana geçirilir ve sonraki sinirsel katman etkinleştirilir.Çıktı katmanının düğümlerindeki puanlar, her bir kategoriye ait puanları temsil eder.Aşağıdaki örnek, sınıf 1 olarak sınıflandırma sonucunu gösterir.
Aynı girdi farklı düğümlere iletilir ve her düğümün farklı ağırlıkları ve önyargıları olduğu için farklı sonuçlar elde edilir.
Bu ileriye doğru yayılmadır
10. Markov
Markov Zincirleri durum ve geçişlerden oluşur
Kestane, "hızlı kahverengi tilki tembel köpeğin üzerinden atlar" cümlesine göre, markov zincirini almalısın
Adım, önce her kelimeyi bir duruma ayarlayın ve ardından durumlar arasında geçiş olasılığını hesaplayın
Bu, tek bir cümlede hesaplanan olasılıktır.İstatistik yapmak için büyük miktarda metin kullandığınızda, daha büyük bir durum geçiş matrisi elde edersiniz, örneğin bundan sonra bağlanabilen kelimeler ve karşılık gelen olasılık
Hayatta klavye giriş yönteminin alternatif sonucu aynı prensiptir, model daha gelişmiş olacaktır