Koleksiyon Veri analistleri için en yaygın kullanılan 10 makine öğrenimi algoritması! (Resimlerle açıklama)

Kaynak: Udacity

Bu makale hakkında 3700 kelime 7 dakika okumanız tavsiye edilir.

Bu makale, veri bilimcileri tarafından kullanılan en iyi on makine öğrenimi algoritmasını ve özelliklerini tanıtır.

Makine öğrenimi alanında "dünyada bedava öğle yemeği yok" diye bir söz vardır Kısacası bu, hiçbir algoritmanın her problem üzerinde en iyi etkiye sahip olamayacağı anlamına gelir.Bu teori denetimli öğrenmede. Düşünmek özellikle önemlidir.

Örneğin, sinir ağlarının her zaman karar ağaçlarından daha iyi olduğunu söyleyemezsiniz ve bunun tersi de geçerlidir. Model çalışması, veri setinin boyutu ve yapısı gibi birçok faktörden etkilenir.

Bu nedenle, probleminize göre birçok farklı algoritma denemeli ve performansı değerlendirmek ve en iyisini seçmek için veri test setini kullanmalısınız.

Elbette, denediğiniz algoritma probleminizle uyumlu olmalı ve kapı, makine öğreniminin ana görevidir. Örneğin evi temizlemek istiyorsanız elektrik süpürgesi, süpürge ya da paspas kullanabilirsiniz ama kesinlikle kürekle çukur kazmaya başlamazsınız.

Makine öğreniminin temellerini anlamaya istekli olan makine öğrenimine yeni başlayanlar için, işte veri bilimcileri tarafından kullanılan en iyi on makine öğrenimi algoritması. Herkesin daha iyi anlayabilmesi ve uygulayabilmesi için size bu on algoritmanın özelliklerini tanıtın. Gelin ve bir göz atın.

1. Doğrusal regresyon

Doğrusal regresyon, istatistik ve makine öğreniminde muhtemelen en iyi bilinen ve en anlaşılır algoritmalardan biridir.

Çünkü tahmine dayalı modelleme, esas olarak model hatalarını en aza indirmeye veya yorumlanabilirlik pahasına en doğru tahminleri yapmaya odaklanır. Bazı istatistiksel bilgiler de dahil olmak üzere birçok farklı alandan algoritmaları ödünç alacak, yeniden kullanacak ve kötüye kullanacağız.

Doğrusal regresyon, girdi değişkeninin özgül ağırlığını (B) bularak girdi değişkeni (x) ile çıktı değişkeni (y) arasındaki doğrusal ilişkiyi tanımlayan bir denklemle ifade edilir.

Doğrusal Regresyon

Örnek: y = B0 + B1 * x

X girdisi verildiğinde, y'yi tahmin edeceğiz.Doğrusal regresyon öğrenme algoritmasının amacı, B0 ve B1 katsayılarının değerlerini bulmaktır.

Verilerden doğrusal regresyon modellerini öğrenmek için, sıradan en küçük kareler için doğrusal cebirsel çözümler ve gradyan iniş optimizasyonu gibi farklı teknikler kullanılabilir.

Doğrusal regresyon 200 yıldan fazla bir süredir mevcuttur ve kapsamlı bir şekilde araştırılmıştır. Mümkünse, bu tekniği kullanırken bazı temel kurallar, çok benzer (ilişkili) değişkenleri kaldırmak ve verilerdeki paraziti gidermektir. Bu hızlı ve basit bir teknik ve iyi bir ilk algoritmadır.

2. Lojistik regresyon

Lojistik regresyon, makine öğreniminin istatistik alanından ödünç aldığı başka bir tekniktir. Bu, iki sınıflandırma problemi için özel bir yöntemdir (iki sınıf değeri problemi).

Lojistik regresyon, doğrusal regresyona benzer, çünkü her ikisinin de amacı, her bir girdi değişkeninin ağırlık değerini bulmaktır. Doğrusal regresyondan farklı olarak, çıktı tahmini, lojistik işlev adı verilen doğrusal olmayan bir işlev kullanılarak dönüştürülmeye değer.

Mantık işlevi büyük bir S'ye benzer ve herhangi bir değeri 0 ile 1 aralığına dönüştürebilir. Bu yararlıdır çünkü mantık fonksiyonunun çıktısına karşılık gelen kuralları uygulayabilir, değerleri 0 ve 1 olarak sınıflandırabiliriz (örneğin, IF 0,5'ten küçükse, çıktı 1) ve sınıf değerini tahmin edebiliriz.

Lojistik regresyon

Modelin benzersiz öğrenme yöntemi sayesinde, lojistik regresyon ile yapılan tahmin, sınıf 0 veya sınıfa ait olma olasılığını hesaplamak için de kullanılabilir. Bu, birçok temel ilke gerektiren sorular için çok kullanışlıdır.

Doğrusal regresyon gibi, lojistik regresyon da çıktı değişkeni ile ilgili olmayan nitelikleri ve birbirine çok benzer (ilişkili) nitelikleri kaldırdığınızda gerçekten daha iyidir. Bu, hızlı öğrenme ve ikili sınıflandırma problemlerinin etkili bir şekilde ele alınması için bir modeldir.

3. Doğrusal Ayrımcı Analizi

Geleneksel lojistik regresyon, iki sınıflandırma problemiyle sınırlıdır. İkiden fazla sınıfınız varsa, doğrusal ayırıcı analiz algoritması (LDA olarak anılan Doğrusal Ayrım Analizi) tercih edilen doğrusal sınıflandırma tekniğidir.

LDA'nın temsili çok basittir. Verilerinizin her bir kategoriye göre hesaplanan istatistiksel özelliklerinden oluşur. Tek bir giriş değişkeni için bu şunları içerir:

  • Her kategorinin ortalaması.
  • Tüm kategorilerde hesaplanan varyans.

Doğrusal Ayrımcı Analizi

LDA, her bir sınıfın ayırt edici değeri hesaplanarak ve maksimum değerle sınıfı tahmin ederek gerçekleştirilir. Bu teknik, verilerin bir Gauss dağılımına (çan eğrisi) sahip olduğunu varsayar, bu nedenle, önce veriden aykırı değerleri manuel olarak kaldırmak en iyisidir. Bu, sınıflandırma öngörücü modelleme problemlerinde basit ve güçlü bir yöntemdir.

4. Sınıflandırma ve regresyon ağaçları

Karar ağacı, makine öğreniminin önemli bir algoritmasıdır.

Karar ağacı modeli bir ikili ağaç ile temsil edilebilir. Evet, algoritmalardan ve veri yapılarından oluşan ikili bir ağaçtır, özel bir şey değildir. Her düğüm tek bir giriş değişkenini (x) ve bu değişkendeki sol ve sağ çocukları temsil eder (değişkenin bir sayı olduğu varsayılarak).

Karar ağacı

Ağacın yaprak düğümleri, tahmin yapmak için kullanılan çıktı değişkenini (y) içerir. Tahmin, ağacın üzerinden geçerek, belirli bir yaprak düğümüne ulaşıldığında durarak ve yaprak düğümün sınıf değerini çıkararak gerçekleştirilir.

Karar ağacı öğrenme hızı hızlıdır ve tahmin hızı hızlıdır. Çoğu sorun için tahmin genellikle doğrudur ve veriler için özel bir hazırlık yapmanız gerekmez.

5. Naif Bayes

Naive Bayes, basit ama son derece güçlü bir tahmine dayalı modelleme algoritmasıdır.

Model, doğrudan eğitim verilerinizden hesaplanabilen iki tür olasılıktan oluşur: 1) her kategorinin olasılığı; 2) her bir x değerinin belirli bir kategorisinin koşullu olasılığı. Hesaplandıktan sonra, olasılık modeli Bayes teoremini kullanarak yeni verileri tahmin etmek için kullanılabilir. Verileriniz sayısal olduğunda, bu olasılıkların kolayca tahmin edilebilmesi için genellikle bir Gauss dağılımını (çan eğrisi) varsayarsınız.

Bayes teoremi

Naive Bayes, her giriş değişkeninin bağımsız olduğunu varsaydığı için Naive olarak adlandırılır. Bu, gerçek veriler için pratik olmayan güçlü bir varsayımdır, ancak teknik, büyük ölçekli karmaşık problemler için hala çok etkilidir.

6. K komşu

KNN algoritması çok basit ve çok etkilidir. KNN modeli tüm eğitim veri setiyle temsil edilir. Çok basit mi

Eğitim setinin tamamında K en benzer örnekleri (komşular) arayarak ve bu K örneklerinin çıktı değişkenlerini özetleyerek, yeni veri noktaları tahmin edilir. Regresyon problemleri için, yeni nokta ortalama çıktı değişkeni olabilir ve sınıflandırma problemleri için yeni nokta mod kategori değeri olabilir.

Başarının püf noktası, veri örnekleri arasındaki benzerliğin nasıl belirleneceğidir. Niteliklerinizin hepsi aynı orandaysa, en kolay yol, her girdi değişkeni arasındaki farka göre doğrudan hesaplanabilen Öklid mesafesini kullanmaktır.

K-En Yakın Komşular

KNN, tüm verileri depolamak için çok fazla bellek veya alan gerektirebilir, ancak yalnızca tahminler gerektiğinde hesaplamalar (veya öğrenme) gerçekleştirecektir. Tahminin doğruluğunu korumak için eğitim setinizi istediğiniz zaman güncelleyebilir ve yönetebilirsiniz.

Mesafe veya yakınlık kavramı, yüksek boyutlu bir ortamda (çok sayıda girdi değişkeni), algoritmayı olumsuz etkileyecek şekilde daralabilir. Bu tür olaylara Boyutluk Laneti denir. Ayrıca, yalnızca tahmin edilen çıktı değişkenleriyle en alakalı olan girdi değişkenlerini kullanmanız gerektiği anlamına gelir.

7. Vektör nicemlemesini öğrenin

K-en yakın komşuların dezavantajı, tüm eğitim veri setini korumanız gerekmesidir. Öğrenme vektör niceleme algoritması (veya kısaca LVQ), herhangi bir sayıda eğitim örneğini askıya almanıza ve bunları doğru bir şekilde öğrenmenize olanak tanıyan yapay bir sinir ağı algoritmasıdır.

Vektör Nicemlemeyi Öğrenme

LVQ, bir kod kitabı vektörleri koleksiyonuyla temsil edilir. Vektör başlangıçta rastgele seçilir ve daha sonra eğitim veri setine uyum sağlamak için birçok kez yinelenir. Öğrendikten sonra, kod kitabı vektörü K-en yakın komşular gibi tahmin için kullanılabilir. Her kod çizelgesi vektörü ile yeni veri örneği arasındaki mesafeyi hesaplayarak en benzer komşuyu (en iyi eşleşme) bulun ve ardından en iyi eşleşen birimin kategori değerini veya bir tahmin olarak regresyon durumunda gerçek değeri döndürün. Verileri aynı aralıkla sınırlarsanız (0 ile 1 arasında gibi), en iyi sonuçları elde edebilirsiniz.

KNN'nin veri kümenizde iyi sonuçlar verdiğini fark ederseniz, tüm eğitim veri kümesini depolamak için bellek gereksinimlerini azaltmak için LVQ kullanmayı deneyin.

8. Destek Vektör Makinesi

Destek vektör makineleri, belki de en popüler ve tartışılan makine öğrenimi algoritmalarından biridir.

Hiper düzlem, girdi değişken uzayını bölen çizgidir. SVM'de, giriş değişken uzayındaki noktaları kategorilerine göre (kategori 0 veya kategori 1) ayırmak için bir hiper düzlem seçilir. İki boyutlu uzayda bir çizgi olarak kabul edilebilir ve tüm giriş noktaları bu çizgi ile tamamen ayrılabilir. SVM öğrenme algoritması, hiper düzlemin kategoriler arasında en iyi ayrıma sahip olmasını sağlayan katsayıyı bulmaktır.

Destek Vektör Makinesi

Alt düzlem ile en yakın veri noktası arasındaki mesafeye sınır denir ve en büyük sınıra sahip alt düzleme en iyi seçimdir. Aynı zamanda, sadece bu yakın veri noktaları, hiper düzlemin tanımı ve sınıflandırıcının yapısı ile ilgilidir.Bu noktalara destek vektörleri adı verilir ve altdüzlemi destekler veya tanımlarlar. Spesifik uygulamada, sınırı maksimize eden katsayı değerini bulmak için optimizasyon algoritmaları kullanacağız.

SVM, muhtemelen kullanıma hazır en güçlü sınıflandırıcılardan biridir ve veri kümeniz üzerinde denemeye değer.

9. Torbalama ve rastgele orman

Rastgele orman, en popüler ve güçlü makine öğrenimi algoritmalarından biridir. Bootstrap Aggregation veya Bagging adı verilen entegre bir makine öğrenimi algoritmasıdır.

Bootstrap, ortalama gibi bir veri örneğinden belirli bir miktarı tahmin etmek için kullanılan güçlü bir istatistiksel yöntemdir. Gerçek ortalamayı daha doğru bir şekilde tahmin etmek için çok sayıda örnek veri alacak, ortalamayı hesaplayacak ve ardından tüm ortalamaların ortalamasını alacaktır.

Aynı yöntem torbalamada da kullanılır, ancak karar ağacı en yaygın olarak tüm istatistiksel modeli tahmin etmek yerine kullanılır. Verileri çoklu örnekleme için eğitir ve ardından her veri örneği için bir model oluşturur. Yeni veriler üzerinde tahminler yapmanız gerektiğinde, her model gerçek çıktı değerini daha iyi tahmin etmek için tahminler yapar ve tahmin sonuçlarının ortalamasını alır.

Rastgele Orman

Rastgele orman, karar ağacının bir düzenlemesidir.En iyi ayırma noktasının seçilmesiyle karşılaştırıldığında, rastgele orman, rastgelelik getirerek optimumun altında bölünmeyi başarır.

Bu nedenle, her bir veri örneği için oluşturulan modeller arasındaki farklar daha büyük, ancak yine de kendi anlamlarında doğru olacaktır. Tahmin sonuçlarını birleştirmek, doğru potansiyel çıktı değerini daha iyi tahmin edebilir.

İyi sonuçlar elde etmek için yüksek varyanslı bir algoritma (bir karar ağacı gibi) kullanırsanız, bu algoritmayı ekledikten sonra etki daha iyi olacaktır.

10. Artırma ve AdaBoost

Güçlendirme, bazı zayıf sınıflandırıcılardan güçlü bir sınıflandırıcı oluşturan bir topluluk tekniğidir. İlk olarak eğitim verilerinden bir model oluşturur ve ardından ilk modelin hatalarını düzeltmeye çalışmak için ikinci bir model oluşturur. Eğitim seti mükemmel şekilde tahmin edilinceye veya üst limite eklenene kadar model eklemeye devam edin.

AdaBoost, iki sınıflandırma için geliştirilen gerçekten başarılı ilk Boosting algoritmasıdır ve aynı zamanda Boosting'i anlamak için en iyi başlangıç noktasıdır. AdaBoost'u temel alan en ünlü algoritma, stokastik gradyan artırmadır.

AdaBoost

AdaBoost, genellikle kısa karar ağaçları ile kullanılır. İlk ağaç oluşturulduktan sonra, ağaçtaki her eğitim örneğinin performansı, sonraki ağaç için eğitim örneğine ne kadar dikkat edilmesi gerektiğini belirler. Tahmin edilmesi zor olan eğitim verilerine daha fazla ağırlık verilirken, tahmin edilmesi kolay örneklere daha az ağırlık verilecektir. Modeller sırayla oluşturulur ve her model güncellemesi, sıradaki bir sonraki ağacın öğrenme etkisini etkiler. Tüm ağaçları oluşturduktan sonra, algoritma yeni verileri tahmin eder ve her ağacın performansını eğitim verilerinin doğruluğuna göre ağırlıklandırır.

Algoritma, hata düzeltmeye büyük önem verdiğinden, aykırı değerler içermeyen temiz bir veri çok önemlidir.

Sonuna yaz

Yeni başlayanlar tarafından çeşitli makine öğrenimi algoritmalarıyla karşılaştıklarında sorulan tipik bir soru "Hangi algoritmayı kullanmalıyım?" Sorusudur. Sorunun cevabı aşağıdakiler dahil birçok faktöre bağlıdır:

  • Verilerin boyutu, kalitesi ve niteliği;
  • Kullanılabilir hesaplama süresi;
  • Görevin aciliyeti;
  • Verilerle ne yapmak istiyorsunuz?

Deneyimli bir veri bilimcisi bile, farklı algoritmaları denemeden önce hangi algoritmanın en iyi performansı göstereceğini bilemez. Diğer birçok makine öğrenimi algoritması olmasına rağmen, bu algoritmalar en popüler olanlardır. Makine öğreniminde yeniyseniz, bu iyi bir başlangıç noktasıdır.

kaynak:

https://medium.com/@james_aka_yale

İlk Milano Badem Müzik Festivali tutku dolu
önceki
Çinli turistler üst düzey adaların peşinde Tahiti Adaları, Çin rehberi uygulamasını başlattı
Sonraki
Makine öğrenimini anlamak kolay! 3 durum kümeleme, regresyon ve sınıflandırma algoritmalarını ayrıntılı olarak açıklar
Yerlileri takip edin! Podolski Japonya'ya geldikten sonra spora aşık oldu!
Dünyanın en büyük bitmemiş projesi Dubai "Dünya Adası": 15 yıllık inşaatın maliyeti 80 milyar alıcı intihar etti
Veri bilimi uzmanı olmak ister misiniz? Blog yazmakla başlamalısınız (bağlantıyla)
CCTV bu gece Almanya VS Hollanda'nın odağını yayınlayacak Van Dijk, Neuer'in golünü üst üste dört kez kırabilecek mi?
Batı Süper Kupası: Cristiano Ronaldo gol attı + kırmızı Real Madrid ilk maçında 3-1 Barcelona! Juventus 2-3 Sinirli Süper Kupa
Beşeri Bilimler Qilu | Lao O stand-up komedisi "Picture Friends", Qilu Üniversitesi Çin Bölümü'nde gülüyor
Koleksiyon 15 CNN anahtar cevabından oluşan bir koleksiyon, 2019 okul işe alım görüşmeleri için bir zorunluluktur!
Avrupa elemeleri şok edici bir üzüntü yaşadı: dünyanın 182.'si ilk olarak kazanır, arazi alanı Haidian Bölgesi kadar büyük değildir!
Neymar'ın Paris'teki ilk maçı 1 gol ve 1 asist sunuyor! Grand Paris 3-0 kazandı! Lukaku 2 gol Manchester United 4-0
8 yaşındaki kız ortadan kayboldu ve eksik bilgiler şehirde büyük bir aramayı tetikledi.
Milli takım arka arkaya 5 maç + birinci olarak aktif serviste gol attı, Real Madrid kaptanı en çok gol atan defans oyuncusu!
To Top