Denetimli öğrenme için en yaygın beş algoritma, kaç tanesini biliyorsunuz?

Lei Feng Net Not: Bu makalenin yazarı Li Dongxuan, orijinal metin yazar tarafından yayınlandı kişisel blog Leifeng.com yetkilendirildi.

Makine öğreniminde, denetimsiz öğrenme kümelemedir. Örneklerin türünü önceden bilmiyorsunuz ve benzer örnekleri bir yöntemle bir kategoriye koyabilirsiniz; denetimli öğrenmede ise Öznitelik etiketleri olan eğitim örnekleri, girdileri ve çıktıları olan örnekler olarak da anlaşılabilir.

Tüm regresyon algoritmaları ve sınıflandırma algoritmaları denetimli öğrenmedir. Regresyon ve sınıflandırma algoritmaları arasındaki fark, çıktı değişkeninin türüdür. Nicel çıktıya regresyon veya sürekli değişken tahmini; nitel çıktıya sınıflandırma veya ayrık değişken tahmini denir.

Aşağıda yaygın olarak kullanılan bazı denetimli öğrenme yöntemleri verilmiştir.

1. K-En Yakın Komşular (KNN)

K-en yakın komşu bir sınıflandırma algoritmasıdır. Fikir şudur: Bir özellik uzayındaki en benzer k örneklerin çoğu (yani özellik uzayındaki en yakın komşular) belirli bir kategoriye aitse, örnek de bu kategoriye aittir. kategori. K genellikle 20'den büyük olmayan bir tamsayıdır. KNN algoritmasında, seçilen komşular, doğru şekilde sınıflandırılmış tüm nesnelerdir. Bu yöntem, sınıflandırmaya karar verirken yalnızca en yakın bir veya birkaç numunenin kategorisine göre sınıflandırılacak numunenin kategorisini belirler.

Yukarıdaki şekilde gösterildiği gibi, yeşil daire hangi sınıfa atanmalıdır, kırmızı üçgen mi yoksa mavi kare mi? K = 3 ise kırmızı üçgenin oranı 2/3 olduğu için yeşil daireye kırmızı üçgen kategorisi, K = 5 ise mavi karenin oranı 3/5 olduğu için yeşil daireye mavi kare atanacaktır. Kare sınıf.

Algoritmanın adımları:

(1) Test verileri ile her eğitim verisi arasındaki mesafeyi hesaplayın;

(2) Artan mesafe ilişkisine göre sıralayın;

(3) En küçük mesafeye sahip K noktasını seçin;

(4) İlk K noktasının kategorisinin ortaya çıkma sıklığını belirleyin;

(5) Test verilerinin tahmin edilen kategorisi olarak ilk K noktaları arasında en yüksek frekansa sahip kategoriyi döndürün.

2. Karar Ağaçları (Karar Ağaçları)

Karar ağacı, yaygın bir sınıflandırma yöntemidir ve fikri, "insanların aşamalı olarak analiz edip karşılaştırması ve sonra sonuç çıkarması" sürecine çok benzer. Karar süreci aşağıdaki şekle benzer.

Karar ağacı bir ağaç yapısıdır (ikili ağaç veya ikili olmayan ağaç olabilir). Yaprak olmayan her düğüm, karakteristik bir öznitelik üzerindeki bir testi temsil eder, her dal, belirli bir değer aralığında bu karakteristik özniteliğin çıktısını temsil eder ve her yaprak düğüm bir kategori depolar. Karar vermek için bir karar ağacı kullanma süreci, kök düğümden başlamak, sınıflandırılacak öğelerdeki karşılık gelen özellik özniteliklerini test etmek ve yaprak düğüme ulaşılıncaya kadar çıktı dalını değerine göre seçmek ve yaprak düğümde depolanan kategori karar sonucu olarak kullanılır.

Bayes algoritmasından farklı olarak, karar ağacının oluşturulma süreci alan bilgisine dayanmaz, grupları farklı sınıflara en iyi şekilde bölen öznitelikleri seçmek için öznitelik seçim ölçüsünü kullanır. Sözde karar ağacının yapımı, her bir karakteristik özellik arasındaki topolojik yapıyı belirlemek için nitelik seçim ölçümünü gerçekleştirmektir.

Peki veriler nasıl bölünmeli? Her özelliğin önceliği nasıl sıralanır? Veri kümelerini bölmek için yaygın olarak kullanılan yöntemler ID3 ve C4.5'tir.

(1) ID3 algoritması

Veri setini bölmenin en büyük prensibi, verileri daha düzenli hale getirmektir. Entropi (entropi), bilginin belirsizliğini (dağınıklık derecesini) tanımlayan bir değerdir. S, mevcut verilerin altındaki bölüm olsun, o zaman S'nin bilgi entropisi aşağıdaki gibi tanımlanır:

Burada, n, kategori sayısıdır ve p (xi), xi kategorisi seçme olasılığını temsil eder (mevcut kategori sayısının toplam tahmin sayısına bölünmesi).

Şimdi S'nin A özelliğine bölündüğünü varsayıyoruz, bu durumda S'nin koşullu bilgi entropisi (beklenen bilgi bölü A'dan S'ye):

Burada, A özniteliğinin koşulu altında, veriler m kategorisine ayrılır (örneğin, A özniteliği ağırlıktır, hafif, orta ve ağır olmak üzere üç seçenek vardır, ardından m = 3), p (tj) tj kategorisini (öznitelik A J-inci karakteristiğine sahip tüm verilerin sayısının toplam S, H (tj) sayısına oranı tj alt kategorisinin entropisini temsil eder.

Bilgi kazancı (Bilgi kazancı), aşağıdaki gibi tanımlanan veri setinin bölünmesinden önce ve sonra bilgi değişimini ifade eder:

ID3 algoritmasında, geri kalan tüm özniteliklerin bilgi kazancı her yineleme sırasında hesaplanır ve daha sonra en büyük kazanıma sahip öznitelik, veri setini bölmek ve sonuna kadar yinelemek için seçilir. İşte örnek bir ID3 algoritması süreci.

(2) C4.5 algoritması

D3 algoritmasıyla ilgili bir sorun, çok değerli özniteliklere karşı önyargılı olmasıdır.Örneğin, benzersiz bir kimlik özniteliği kimliği varsa, ID3 bunu bölme özniteliği olarak seçecektir.Bu, bölmeyi yeterince saf hale getirir, ancak bu bölme sınıflandırma için neredeyse yararsızdır. ID3'ün ardıl algoritması C4.5, bu önyargının üstesinden gelmeye çalışmak için kazanç oranı (kazanç oranı) bilgi kazanımı genişletmesini kullanır. Açıkça söylemek gerekirse, C4.5, ID3'ün geliştirilmiş bir algoritmasıdır.

ID3'teki yönteme göre bilgi kazancını elde ettikten sonra, bölünmüş bilgiyi tanımlayın (Bölünmüş Bilgi):

Ardından kazanç oranını (Kazanç Oranı) tanımlayın:

C4.5, kazanç oranını bir bölünme özelliği olarak seçer (sürekli özellikler, kazanç oranı ile ayrıklaştırılmalıdır). C4.5 algoritması aşağıdaki avantajlara sahiptir: oluşturulan sınıflandırma kurallarının anlaşılması kolaydır ve doğruluk yüksektir. Dezavantajı şudur: Ağacı oluşturma sürecinde, veri setinin birden çok kez taranması ve sıralanması gerekir, bu da algoritmanın verimsizliğine yol açar. Ayrıca, C4.5 yalnızca bellekte bulunabilen veri kümeleri için uygundur ve eğitim kümesi belleğe sığmayacak kadar büyük olduğunda program çalışamaz.

Tüm öznitelikler bölme öznitelikleri olarak kullanılıyorsa, ancak bazı alt kümeler salt kümeler değilse, yani kümedeki öğeler aynı kategoriye ait değildir. Bu durumda, kullanılacak daha fazla bilgi olmadığından, genellikle bu alt kümeler üzerinde "çoğunluk oyu" yapılır, yani bu alt kümede en çok meydana gelen kategori düğüm kategorisi olarak kullanılır ve daha sonra bu düğüm bir yaprak düğüm olarak kullanılır.

Bir karar ağacının gerçek inşasında, verilerdeki gürültü ve aykırı değerlerin neden olduğu aşırı uydurma sorunuyla başa çıkmak için genellikle budanır. İki tür budama vardır: ilk budama - yapım sürecinde, bir düğüm budama koşulunu karşıladığında, bu dalın yapımı doğrudan durdurulur; budama işleminden sonra - önce tüm karar ağacı ve sonra biraz Budama için ağacı koşullu olarak çaprazlayın. Kötümser hata budama PEP algoritması, yaygın bir ölüm sonrası budama stratejisidir.

3. Saf Bayesgil

Bayes sınıflandırması, bir dizi sınıflandırma algoritması için genel bir terimdir.Bu algoritmalar Bayes teoremine dayanmaktadır, bu nedenle topluca Bayes sınıflandırması olarak adlandırılırlar. Naive Bayesian, en yaygın kullanılan sınıflandırma algoritmalarından biridir. Naive Bayes sınıflandırıcısı basit bir varsayıma dayanmaktadır: hedef değer verildiğinde nitelikler koşullu olarak birbirinden bağımsızdır. Naive Bayes'in temel düşüncesi, sınıflandırılacak belirli bir madde için sınıflandırılacak maddenin her bir kategorinin ortaya çıkma olasılığını çözmektir, hangisi en büyükse, sınıflandırılacak maddenin hangi kategoriye ait olduğu kabul edilir.

İlk olarak, koşullu olasılık tanımı verilmiştir. P (AB), B meydana geldiğinde A olayının koşullu olasılığını temsil eder ve formülü şöyledir:

Bayes teoremi, iki koşullu olasılık arasındaki ilişkiyi tanımlamak için kullanılır Bayes teoreminin formülü şöyledir:

Saf Bayes sınıflandırma algoritmasının spesifik adımları aşağıdaki gibidir:

(1) x = {a1, a2, ..., am} sınıflandırılacak bir öğe olsun ve a1, a2, ..., am, x'in m öznitelikleri olsun;

(2) Kategori kümesi C = {y1, y2, ..., yn} olarak ayarlayın, yani toplamda n kategori vardır;

(3) x'in her bir kategoriye ait olduğu koşullu olasılığı hesaplayın, yani P (y1x), P (y2x), ..., P (ynx) hesaplayın:

Algoritmanın bir sonraki adımının bu sonuçların büyüklüğünü karşılaştırmak olduğuna dikkat edin Paydaların tümü P (x) olduğundan, paydayı hesaplamaya gerek yoktur. Pay kısmında P (yn) ve P (aiyn) numune seti istatistikleri ile elde edilir.P (yn) değeri, numune setindeki yn sayısının toplam numune sayısına oranıdır, P (aiyn ) Değeri, yn sınıfındaki tatmin edici ai özniteliğinin sayısının yn sınıfındaki toplam örnek sayısına oranıdır.

Bu hesaplama yöntemi, karakteristik özelliğin ayrı bir değer olması durumuna uygundur. Karakteristik özellik sürekli bir değer ise, genellikle değerinin Gauss dağılımına (normal dağılım da denir) uyduğu varsayılır, yani:

O halde P'nin (aiyn) değeri:

Bunlar arasında, yn ve yn, sırasıyla eğitim örneğinin yn kategorisindeki ai özelliği öğelerinin ortalama ve standart sapmasıdır.

P (ay) = 0 durumunda, belirli bir kategori altında belirli bir özellik öğesi bölümü görünmediğinde, bu fenomen meydana gelir ve bu da sınıflandırıcının kalitesini büyük ölçüde azaltır. Bu nedenle, Laplace kalibrasyonu, hiçbir kategori altındaki tüm bölümlerin sayılarına 1 eklemek için tanıtıldı, böylece eğitim numune setlerinin sayısı yeterince büyükse, sonuçları etkilemeyecek ve ürünün 0 olduğu durumdan kaçınacaktır.

(4) (3) 'teki tüm koşullu olasılıkların boyutunu karşılaştırın, en büyüğü tahmin edilen sınıflandırma sonucudur, yani:

İşte saf Bayes sınıflandırmasına bir örnek: SNS topluluklarında yanlış hesapların tespiti.

4. Lojistik Regresyon

Doğrusal regresyonun, verilere mümkün olduğu kadar uyması ve kayıp fonksiyonunu en aza indirgemek için bilinen bir veri setine dayalı lineer bir fonksiyon bulmak olduğunu biliyoruz Yaygın olarak kullanılan lineer regresyon optimal yöntemleri, en küçük kareler ve gradyan inişini içerir. Lojistik regresyon, lineer olmayan regresyon modelidir.Doğrusal regresyon ile karşılaştırıldığında, ekstra sigmoid fonksiyona (veya Lojistik fonksiyon adı verilir) sahiptir. Lojistik regresyon, esas olarak iki sınıflandırma problemi için kullanılan bir sınıflandırma algoritmasıdır. Lojistik regresyonun spesifik adımları aşağıdaki gibidir:

(1) Hipotez fonksiyonunu h tanımlayın (yani hipotez)

Sigmoid işlevinin görüntüsü bir sigmoiddir ve tahmin işlevi, sigmoid işlevi g (x) 'deki bağımsız değişken x'i aşağıdaki gibi sınır işlevi (x) ile değiştirmektir:

Burada h (x), sonucun 1 olma olasılığını temsil eder, dolayısıyla x girdisinin kategori 1 ve kategori 0 olarak sınıflandırılma olasılığı şöyledir:

(2) function (x) sınır fonksiyonunu tanımlayın

İki boyutlu veriler için, önceden belirlenmiş bir doğrusal doğrusal sınır ise, sınır işlevi şu şekildedir:

Önceden belirlenmiş doğrusal olmayan doğrusal bir sınır ise, sınır işlevinin daha fazla formu vardır, örneğin:

Şimdi çözeceğimiz şeyin resimdeki 0 veya 1'i tanımlamak olduğunu (örnek kitaplığın yalnızca 0 ve 1 resimleri vardır) ve resim boyutunun 20 * 20 olduğunu, o zaman 400 öznitelik vektörü olduğunu varsayalım, o zaman sınır işlevi:

(3) Bir kayıp fonksiyonu oluşturmak (maliyet fonksiyonu, kayıp fonksiyonu)

Kayıp fonksiyonunun boyutu, sınır fonksiyonunun parametrelerinin optimal olup olmadığını yansıtabilir. Doğrusal regresyon için kayıp fonksiyonu Öklid mesafe indeksidir, ancak böyle bir Maliyet Fonksiyonu lojistik regresyon için uygun değildir, çünkü lojistik regresyonda kare fark kaybı fonksiyonu dışbükey değildir.Lojistik regresyonun maliyet fonksiyonunu sağlamak için diğer Maliyet Fonksiyonu formlarına ihtiyacımız var Dışbükey bir fonksiyondur.

Log-likelihood loss fonksiyonunu seçiyoruz:

Lojistik regresyonun Maliyet Fonksiyonu şu şekilde ifade edilebilir:

Burada m, m örnek olduğu anlamına gelir ve y, yalnızca 0 veya 1 olabilen ve iki farklı kategoriyi temsil eden ikili verilerdir.

(4) En uygun olanı bulun

En uygun sınır fonksiyonu parametrelerini bulmak için, J () 'yi en küçük yapın. Optimize edilmiş ifade şudur:

Doğrusal regresyona benzer şekilde, gradyan iniş yöntemi en iyiyi bulmak için kullanılabilir veya diğer yöntemler kullanılabilir.Ayrıntılar için aşağıda listelenen beşinci referans web sitesine bakın.

Referans malzemeleri:

Makine öğrenimi (1) K-en yakın komşu (KNN) algoritması

Adres:

Algoritmik bakkal-Sınıflandırma algoritmasının karar ağacı

Adres:

Karar ağacı algoritması özeti

Adres:

Algoritmik bakkal-Sınıflandırma algoritmasının Naif Bayes sınıflandırması (Naif Bayes sınıflandırması)

Adres:

Coursera Açık Ders Notları: Stanford Üniversitesi Makine Öğrenimi Ders 6 "Lojistik Regresyon"

Adres:

TensorFlow ve Neural Network Algorithm Advanced Application Class "başlayacak!

Başlangıçtan ileri düzeye, teori + gerçek savaş, TensorFlow'u tek noktadan derinlemesine anlama!

Bu kurs, derin öğrenme geliştiricilerine yöneliktir ve TensorFlow'un görüntü tanıma ve metin analizi gibi belirli sorunları çözmek için nasıl kullanılacağını öğretir. Kurs 10 haftayı kapsıyor.TensorFlow'un ilkeleri ve temel pratik becerileriyle başlayacak ve öğrencilere TensorFlow'da adım adım CNN, kendi kendine kodlama, RNN, GAN ve diğer modellerin nasıl oluşturulacağını öğretecek ve son olarak TensorFlow'a dayalı eksiksiz bir derin öğrenme geliştirme setinde ustalaşacak. beceri.

İki öğretim görevlisi Tong Da ve Bai Fachuan, ThoughtWorks'ün kıdemli teknik uzmanlarıdır ve büyük veri platformları ve derin öğrenme sistemi geliştirme projeleri oluşturma konusunda zengin deneyime sahiptir.

Saat: Her Salı ve Perşembe gecesi 20: 00-21: 00

Kurs süresi: Toplam 20 saat, 10 haftada tamamlandı, haftada 2 kez, her seferinde 1 saat

Çevrimiçi öğretim adresi:

Leifeng.com'da İlgili Okumalar:

İlk on makine öğrenimi algoritması nerede kutsaldır? Okuduktan sonra anlayacaksın

Veri bilimcileri tarafından en yaygın olarak kullanılan en son yayınlanan ilk on algoritma

Yaklaşan bu sert bilim kurgu filmi bir canlanmanın habercisi oldu
önceki
Yılın En İyi On Model Çalışanı Geçen yılki çekimler dışında, gerçekten hiçbir şey yapmadılar
Sonraki
Orta yaşlı ve yaşlı insanların uyanışı: dede ve teyzenin Alipay kırmızı zarflarını sırf lahana için sıraya koyması
TensorFlow'da sıfırdan RNN (tam kod) oluşturmayı öğretin!
"The Crew 2" çıkış tarihi onaylandı, her versiyonun ayrıntıları açıklandı
Kötü haber! Linkin Park'ın baş şarkıcısı Chester Bennington 41 yaşında intihar etti
"Super Bomberman R" Haziran ayında PS4 / Xbox One / PC'ye çıkacak
Na Ying, "Three Lives Three Worlds Ten Miles of Peach Blossom" filminin aynı isimli tema şarkısını söyledi.
Camera 360 selfie küçük sınıf: Bunun erkeklerin en çok ilgisini çeken selfie pozu olduğu söyleniyor
FC tabanlı video aktarım gösteri modülünün tasarımı ve uygulaması
Yeni telefon resmi olarak ön satışa açıldı.OPPO K1, 1599 yuan'dan itibaren her şeye sahip!
Sobel Algoritmasına Dayalı Görüntü Kenarı Algılamanın FPGA Uygulaması
Bu makaleyi okuduktan sonra, yapmak istediğim tek şey kendime bir kase erişte yapmak.
Bugün "Plants vs. Zombies" in net güvenlik versiyonunu, hücum ve defansif yüzleşmenin "Star Wars" versiyonunu gördüm ve içeceklere para harcamayan otomatlar var.
To Top