Bu makaleyi yazmanın amacı, makine öğreniminin yaygın olarak kullanılan algoritmalarını sağduyulu bir anlayışa sahip olmaktır. Kod yoktur ve karmaşık teorik türetme yoktur. Sadece bu algoritmaların ne olduğunu ve nasıl uygulandığını göstermek için. Örnekler temelde sınıflandırma problemleridir. .
Her algoritma için birkaç video bulundu ve popüler bilimi kolaylaştırmak için en net ve ilginç olanlar seçildi.
Gelecekte tek bir algoritmanın derinlemesine analizini yapmak için zaman olacak.
Bugünün algoritması şu şekilde analiz edilmektedir:
1. Karar ağacı
Bazı özellik sınıflandırmalarına göre, her düğüm yargılama yoluyla bir soru sorar, veriler iki kategoriye ayrılır ve ardından soru sormaya devam eder. Bu problemler mevcut verilere göre öğrenilir ve yeni veri yatırıldığında veriler ağaçtaki problemlere göre uygun yapraklara bölünebilir.
2. Rastgele orman
Video: https://www.youtube.com/watch?v=loNcrMjYh64Birkaç alt küme oluşturmak için kaynak verilerden rastgele veri seçin
S matrisi kaynak verilerdir, 1-N veri vardır, A B C özelliktir ve son sütun C kategoridir
S'den rastgele M alt matrisleri oluşturun
Bu M alt kümeleri M karar ağacını alır
Bu M ağaçlarına yeni veriler ekleyin, M sınıflandırma sonuçlarını alın ve hangi kategorinin en fazla sayıda tahmine sahip olduğunu görmek için sayın ve bu kategoriyi nihai tahmin sonucu olarak kullanın
3. Lojistik regresyon
Video: https://www.youtube.com/watch?v=gNhogKJ_q7UTahmin hedefi olasılık olduğunda, değer aralığının 0'a eşit veya 0'dan büyük ve 1'e eşit veya daha küçük olması gerekir. Şu anda, basit bir doğrusal model bunu yapamaz, çünkü tanım alanı belirli bir aralık içinde olmadığında, değer aralığı da aşar Aralığı belirtin.
Bu nedenle, şu anda bu şekle sahip bir modele ihtiyaç duymak daha iyidir
Peki böyle bir modeli nasıl elde edersiniz?
Bu modelin iki koşulu karşılaması gerekir: 0'dan büyük veya eşit ve 1'den küçük veya eşit.
0'dan büyük veya 0'a eşit modeller mutlak değeri, kare değeri seçebilir, burada üstel işlevi kullanır, 0'dan büyük olmalıdır
1'den küçükse veya 1'e eşitse, bölme yöntemini kullanın, pay kendisidir ve payda 1'den küçük olması gereken artı 1'dir.
Biraz daha dönüşüm yapın ve lojistik regresyon modelini edinin
İlgili katsayı, kaynak veriler hesaplanarak elde edilebilir
Sonunda lojistik grafiği alın
4. SVM (destek vektör makinesi)
Video: https://www.youtube.com/watch?v=1NxnPkZM9bcİki türü ayırmak için, bir alt düzlem elde etmek için, en uygun alt düzlem, iki türün kenar boşluğunu en üst düzeye çıkarmaktır ve kenar boşluğu, aşağıdaki şekilde gösterildiği gibi alt düzlem ile en yakın nokta arasındaki mesafedir, Z2 > Z1, yani yeşil hiper düzlem daha iyi
Bu hiper düzlemi doğrusal bir denklem olarak ifade edin
Noktadan yüzeye olan mesafe şekildeki formüle göre hesaplanır.
Yani toplam marjı elde etmek için ifade aşağıdaki gibidir, amaç bu marjı maksimize etmek, paydayı en aza indirmeniz gerekir
Yani bir optimizasyon problemi haline geliyor:
Bir kestane alın, üç noktalı optimal hiper düzlemi bulun ve ağırlık vektörünü tanımlayın = (2, 3) - (1, 1)
Ağırlık vektörünü (a, 2a) olarak alın, denklemde iki noktayı değiştirin, (2, 3) ve değerini = 1, (1, 1) ve değerini = -1 olarak değiştirin ve a'yı bulun ve w0'ı kesin. Değer ve sonra hiper düzlem ifadesini alın.
A bulduktan sonra, destek vektörü almak için (a, 2a) yerine koyun
A ve w0'ın hiper düzleme denklemi, destek vektör makinesidir
5. Naif Bayes
Video: https://www.youtube.com/watch?v=TpjPzKODuXoNLP'de başvuru yapın
Bir paragraf metin verin, duyarlılık sınıflandırmasına dönün, metnin tutumu olumlu veya olumsuzdur
Bu sorunu çözmek için bazı kelimelere bakabilirsiniz.
Bu metin yalnızca bazı kelimeler ve sayıları ile temsil edilecek
Asıl soru şudur: size bir cümle verin, hangi kategoriye ait?
Bayes kuralları sayesinde, nispeten basit ve bulması kolay bir sorun haline gelir
Soru, bu kategorideki bu cümlenin olasılığı nedir, tabii ki formüldeki diğer iki olasılığı da unutmayın
Kestane: Pozitif olması durumunda aşk kelimesinin olasılığı 0.1, negatif olması durumunda ortaya çıkma olasılığı 0.001
6. K en yakın komşu (k en yakın komşu)
Video: https://www.youtube.com/watch?v=zHbxbb2ye3EYeni bir veri parçası verildiğinde, en yakın k nokta arasından hangi kategoride daha fazla yer varsa, veriler hangi kategoriye aittir.
Kestane: Kedi ve köpekleri ayırt etmek için, pençelerin ve sesin iki özelliğine göre karar verirseniz, daireler ve üçgenler zaten sınıflandırılmıştır, öyleyse bu yıldız hangi türü temsil ediyor?
K = 3 olduğunda, üç çizgiyle bağlantılı noktalar en yakın üç noktadır, bu nedenle daha fazla daire vardır, bu nedenle bu yıldız kediye aittir.
7. K demek
Video: https://www.youtube.com/watch?v=zHbxbb2ye3EBir veri kümesini üç kategoriye bölmek istiyorum, pembe değer büyük, sarı değer küçük
İlk olarak başlatmaktan en mutlu olanı, işte başlangıç değerleri olarak en basit 3, 2, 1
Kalan verilerde, her biri üç başlangıç değerine olan mesafeyi hesaplar ve ardından bunları en yakın başlangıç değeri kategorisine sınıflandırır.
Sınıflandırmadan sonra, her sınıfın ortalama değerini yeni raundun merkez noktası olarak hesaplayın.
Birkaç turdan sonra, gruplandırma artık değişmiyor, durdurabilirsiniz
8. Adaboost
Video: https://www.youtube.com/watch?v=rz9dnmHmZsYAdaboost, bostlama yöntemlerinden biridir. Bosting, sınıflandırmada iyi olmayan bir dizi sınıflandırıcıyı dikkate almaktır ve daha iyi bir sınıflandırıcı elde edersiniz.
Aşağıdaki şekilde, soldaki ve sağdaki iki karar ağacı tek tek bakıldığında çok etkili değildir, ancak aynı veriyi içine koymak ve iki sonucu birlikte değerlendirmek güvenilirliği artıracaktır.
Adaboost kestanesinde, el yazısı tanımada başlangıç noktasının yönü, başlangıç noktası ile bitiş noktası arasındaki mesafe gibi birçok özellik çizim tahtasında yakalanabilir.
Eğitim sırasında her özelliğin ağırlığını alırsınız.Örneğin, 2 ve 3'ün başlangıcı çok benzerdir.Bu özelliğin sınıflandırma üzerinde çok az etkisi vardır ve ağırlığı daha küçük olacaktır.
Ve bu alfa açısı çok tanınabilir, bu özelliğin ağırlığı daha büyük olacaktır ve nihai tahmin sonucu, bu özelliklerin kapsamlı bir şekilde değerlendirilmesinin sonucudur.
9. Sinir ağı
Video: https://www.youtube.com/watch?v=CEv_0r5huTYlist=PLjJh1vlSEYgvGod9wWiydumYl8hOXixNuindex=3Sinir Ağları, en az iki kategoriye girebilecek bir girdi için uygundur.
NN, birkaç nöron katmanından ve bunlar arasındaki bağlantılardan oluşur.İlk katman giriş katmanı ve son katman çıktı katmanıdır.Hem gizli katman hem de çıktı katmanı kendi sınıflandırıcılarına sahiptir.
Giriş, ağa girilir ve etkinleştirilir, hesaplanan puan bir sonraki katmana geçirilir ve sonraki sinirsel katman etkinleştirilir.Son olarak, çıktı katmanının düğümlerindeki puanlar, her bir kategoriye ait puanları temsil eder. Aşağıdaki örnek, sınıf 1 olarak sınıflandırma sonucunu gösterir.
Aynı girdi farklı düğümlere iletilir ve her düğümün farklı ağırlıkları ve önyargıları olduğu için farklı sonuçlar elde edilir, bu da ileri yayılımdır.
10. Markov
Video: https://www.youtube.com/watch?v=56mGTszb_iMMarkov Zincirleri durum ve geçişlerden oluşur
Kestane, "hızlı kahverengi tilki tembel köpeğin üzerinden atlar" cümlesine göre, markov zincirini elde etmek için, adımlar - önce her kelimeyi bir duruma ayarlar ve sonra durumlar arasında geçiş olasılığını hesaplar
Bu, tek bir cümlede hesaplanan olasılıktır.İstatistik yapmak için büyük miktarda metin kullandığınızda, daha büyük bir durum geçiş matrisi elde edersiniz;
Hayatta klavye giriş yönteminin alternatif sonucu aynı prensiptir, model daha gelişmiş olacaktır
Kaynak | Makine Öğrenimi Projesi X