Veri bilimcilerinin bilmesi gereken 10 istatistiksel analiz yöntemi (öğrenme kaynakları ile)

Yazar: James Le

Çeviri: He Zhonghua

Redaksiyon: Ding Nanya

Bu makale var 6000 kelime , Okumanız tavsiye edilir 10+ dakika .

Bu makale, okuyucuların sezgisel bir izlenim oluşturmalarına yardımcı olmak için veri biliminde yaygın olarak kullanılan teknik yöntemlerden bazılarını bir istatistikçinin bakış açısından özetlemektedir. İçeriğe karşılık gelen R kodu, yazarın GitHub'ında bulunabilir.

Veri bilimindeki konumunuz ne olursa olsun, verilerin önemini göz ardı edemezsiniz. Bir veri bilimcinin işi analiz , organizasyon ile uygulama Bu veriler.

Tanınmış iş sitesi Glassdoor, veri bilimcilerini büyük istihdam verilerine ve çalışanların geri bildirimlerine göre Amerika Birleşik Devletleri'ndeki en iyi 25 iş olarak sıralamaktadır. İsim küçük olmasa da, veri bilimcileri tarafından yapılan belirli çalışmaların sürekli olarak gelişmekte olduğuna şüphe yok. Makine öğrenimi gibi teknolojiler gittikçe daha popüler hale geldikçe ve derin öğrenme gibi yeni ortaya çıkan alanlar araştırmacılar, mühendisler ve onları işe alan şirketler arasında yeni favoriler haline geldikçe, veri bilimcileri yenilik ve teknolojik ilerleme dalgasında ortaya çıkmaya devam edecek.

Güçlü programlama becerilerine sahip olmak önemli olsa da, veri bilimcilerinin yazılım mühendisi olmaları gerekmez (aslında yola çıkmak için Python'u kullanabilirsiniz). Veri bilimcileri programlama, istatistik ve eleştirel düşüncenin kesişme noktasındadır. Josh Wills'in dediği gibi: "Bir veri bilimcisi, istatistiği herhangi bir programcıdan daha iyi bilen bir kişidir ve programlamayı herhangi bir istatistikçiden daha iyi bilir."

Veri bilimcisi olmak isteyen birçok yazılım mühendisi tanıyorum. Verileri işlemek için TensorFlow veya Apache Spark gibi makine öğrenimi çerçevelerini körü körüne kullanıyorlar, ancak arkasındaki istatistiksel teori hakkında derin bir anlayışa sahip değiller. Yani bu makale hakkında konuşacak İstatistiksel öğrenme İstatistiklerden ve fonksiyonel analizlerden türetilen bir makine öğrenimi teorik çerçevesidir.

Neden istatistiksel öğrenmeyi incelemelisiniz?

Her şeyden önce, çeşitli analitik yöntemlerin nasıl ve ne zaman kullanılacağını bilmek için, çeşitli analitik yöntemlerin arkasındaki fikirleri anlamak önemlidir. Daha sofistike yöntemlerde ustalaşmak için önce daha basit yöntemleri anlamalısınız; ikinci olarak, bir analitik yöntemin etkisini doğru bir şekilde değerlendirmek istediğinizde, ne kadar iyi veya ne kadar kötü çalıştığını bilmeniz gerekir; üçüncü olarak, Bu bilim, endüstri ve finans alanlarında önemli uygulamaları olan heyecan verici bir araştırma alanıdır. Son olarak, istatistiksel öğrenme aynı zamanda modern bir veri bilimcinin önemli bir özelliğidir. İstatistiksel öğrenmenin bazı temsili soruları şunları içerir:

  • Prostat kanseri için yüksek risk faktörlerini belirleyin

  • Bir fonemi log periodogramına göre sınıflandırın

  • Demografik verilere, diyete ve klinik ölçüm verilerine dayanarak bir kişinin kalp hastalığına sahip olup olmayacağını tahmin edin

  • Bir spam algılama sistemini özelleştirin

  • El yazısı posta kodu numaralarını tanıyın

  • Bir doku örneğinin hangi kanser türüne ait olduğunu belirleyin

  • Nüfus sayımı verilerinde maaş ve demografik değişkenler arasındaki ilişkiyi kurun

Üniversitenin son döneminde, veri madenciliği üzerine bağımsız bir çalışma kursunu tamamladım. Bu kurs, 3 kitaptan birçok materyali kapsar: "İstatistiksel Öğrenmeye Giriş" (Hastie, Tibshirani, Witten, James), "Bayesian Veri Analizi Yapma" (Kruschke) ve "Zaman Serisi Analizi ve Uygulamaları" (Shumway, Stoffer) ). Bayes analizi, Markov zinciri, Monte Carlo, hiyerarşik modelleme, denetimli öğrenme ve denetimsiz öğrenmede birçok alıştırma yaptık.

Bu deneyimler, veri madenciliğine olan ilgimi derinleştirdi ve beni bu alana daha fazla odaklanmaya ikna etti. Yakın zamanda Stanford Lagunita'nın bağımsız çalışma kursunda okuduğum "İstatistiksel Öğrenmeye Giriş" in tüm içeriğini kapsayan çevrimiçi istatistiksel öğrenme kursunu tamamladım. Bu kitapla iki kez iletişime geçtikten sonra bu kitaptaki 10 istatistiksel analiz yöntemini paylaşmak istiyorum.Büyük veri kümeleri ile daha etkin ilgilenmek isteyen her veri bilimcinin bu yöntemleri öğrenmesi gerektiğine inanıyorum.

Bu 10 analiz yöntemini tanıtmadan önce, istatistiksel öğrenme ile makine öğrenimi arasında bir ayrım yapmak istiyorum. Bir zamanlar makine öğrenimi üzerine çok popüler bir makale yazmıştım, bu yüzden ikisini ayırt etme konusunda profesyonel yeteneğe sahip olduğuma inanıyorum:

  • Makine öğrenimi, yapay zekanın bir alt alanıdır ve istatistiksel öğrenme, istatistiğin bir alt alanıdır;

  • Makine öğrenimi, büyük ölçekli uygulama ve tahmin doğruluğunu vurgularken, istatistiksel öğrenme modelleri ve bunların yorumlanabilirliğini, kesinliğini ve belirsizliğini vurgular.

Ancak bu ayrım gittikçe bulanıklaştı ve birçok kesişim noktası var. Ek olarak, makine öğreniminin pazarlanması daha iyidir.

Doğrusal regresyon

İstatistikte doğrusal regresyon, bağımlı değişken ile bağımsız değişken arasındaki en iyi doğrusal ilişkiyi uydurarak hedef değişkeni tahmin etme yöntemidir. En iyi uyum, her gerçek gözlem noktasından takılan şekle kadar olan mesafelerin toplamının mümkün olduğunca küçük olmasıyla yapılır. En iyi uyum, başka hiçbir şeklin daha küçük hatalar üretemeyeceği anlamına gelir. İki ana doğrusal regresyon türü şunlardır: Basit doğrusal regresyon (Basit Doğrusal Regresyon) ve Çoklu doğrusal gerileme (Çoklu doğrusal gerileme). Basit doğrusal regresyon, en iyi doğrusal ilişkiyi uydurarak bağımlı değişkeni tahmin etmek için tek bir bağımsız değişken kullanır. Çoklu doğrusal regresyon, bağımlı değişkeni tahmin etmek için en iyi doğrusal ilişkiye uyması için birden çok bağımsız değişken kullanır.

Günlük yaşamınızda kullandığınız iki ilgili şeyi seçin. Örneğin, son 3 yıldaki aylık giderlerim, aylık gelirim ve aylık seyahat sayım hakkında verilerim var.Şimdi aşağıdaki soruları cevaplamak istiyorum:

  • Önümüzdeki yıl aylık giderlerim ne olacak?

  • Aylık giderlerimi belirlemede hangi faktör (aylık gelir veya aylık seyahatler) daha önemlidir?

  • Aylık gelir ve aylık seyahatler aylık giderlerle nasıl ilişkilidir?

sınıflandırma

Sınıflandırma, daha doğru tahmin ve analiz elde etmek için bir veri kümesinin kategorisini belirleyen bir veri madenciliği tekniğidir. Sınıflandırma bazen büyük veri kümelerini analiz etmek için güçlü araçlardan biri olan karar ağacı olarak adlandırılır. Yaygın olarak kullanılan iki sınıflandırma yöntemi vardır: Lojistik regresyon ile Diskriminant analizi (Diskriminant analizi).

Bağımlı değişken bir ikili değişken olduğunda lojistik regresyon uygundur. Tüm regresyon analizleri gibi, lojistik regresyon da öngörücü bir analizdir. Lojistik regresyon, verileri tanımlamak ve bir ikili bağımlı değişken ile bir veya daha fazla nominal, seri, zaman aralığı veya orandan bağımsız değişken arasındaki ilişkiyi açıklamak için kullanılır. Lojistik regresyonun cevaplayabileceği sorular şunlardır:

  • Her kilo almak ve günde içilen paket sayısı akciğer kanseri olasılığını nasıl etkiler?

  • Kalori alımı, yağ alımı ve yaş kalp krizini etkiler mi?

Diskriminant analizinde, iki veya daha fazla grup veya kategori (küme) önceden bilinir ve ardından bir veya daha fazla yeni gözlem nesnesi, ölçülen özelliklere dayalı olarak bilinen bir kategoride sınıflandırılır. Diskriminant analizi, her bir kategori altındaki yordayıcı değişkenlerin X dağılımını modeller ve daha sonra bu değişkenleri belirli bir X değeri için karşılık gelen kategorinin olasılık tahminlerine dönüştürmek için Bayes teoremini kullanır. Bu modeller doğrusal veya ikinci dereceden olabilir:

Doğrusal diskriminant analizi (Doğrusal Ayrımcı Analizi) Hangi kategoriye ait olması gerektiğini belirlemek için her gözlem için "ayrım puanını" hesaplayın. Diskriminant puanı, bağımsız değişkenlerin doğrusal bir kombinasyonunu bularak elde edilir. Her kategorideki gözlemlerin çok değişkenli bir Gauss dağılımından geldiğini ve yordayıcı değişkenin kovaryansının yanıt değişkeni Y'nin tüm k seviyelerinde aynı olduğunu varsayar.

İkincil diskriminant analizi (Kuadratik Ayrımcı Analizi) Alternatif bir yöntem sağlar. Doğrusal diskriminant analizi gibi, ikinci dereceden diskriminant analizi, her Y kategorisinin gözlemlenen değerinin bir Gauss dağılımından geldiğini varsayar. Daha sonra, doğrusal diskriminant analizinden farklı olarak, ikinci dereceden diskriminant analizi, her sınıfın kendi kovaryans matrisine sahip olduğunu varsayar. Başka bir deyişle, yordayıcı değişkenler Y'deki tüm k seviyelerinde ortak bir varyans varsaymaz.

Yeniden örnekleme yöntemi (Yeniden Örnekleme Yöntemleri)

Yeniden örnekleme, orijinal verilerden tekrar tekrar örnek toplama yöntemidir. Bu, parametrik olmayan istatistiksel bir çıkarım yöntemidir. Diğer bir deyişle, yeniden örnekleme yöntemi, yaklaşık bir p olasılık değerini hesaplamak için genel bir dağılım tablosu kullanmayı içermez.

Yeniden örnekleme, gerçek verilere göre bir tane oluşturur sadece Örnekleme dağılımı . Benzersiz örnek dağılımları oluşturmak için analitik yöntemler yerine deneysel yöntemler kullanır. Tarafsız bir tahmin üretir, çünkü araştırmacı tarafından incelenen verilerin tüm olası sonuçlarına dayanan tarafsız bir örneklemdir. Yeniden örnekleme kavramını anlamak için, Bootstrapping ve Cross-Validation terimlerini anlamanız gerekir.

Önyükleme, model performansını değerlendirmek, model entegrasyonu (topluluk yöntemleri), model sapmasını ve varyansı tahmin etmek gibi birçok durumda yararlı bir yöntemdir. Çalışma mekanizması gerçekleştirmek Geri koy Örnekleme ve "seçilmemiş" veri noktalarını test senaryoları olarak kullanın. Bunu birçok kez yapabilir ve ortalama puanı model performansının bir tahmini olarak hesaplayabiliriz.

Çapraz doğrulama Model performansını değerlendirin Eğitim verilerini, eğitim seti olarak k-1 parçalarını kullanarak ve ayrılmış parçayı test seti olarak kullanarak k parçaya bölme yöntemi. Tüm süreci farklı şekillerde k kez tekrarlayın. Son olarak, k puanlarının ortalaması, model performansının bir tahmini olarak kullanılır.

Doğrusal modeller için sıradan en küçük kareler Verileri sığdır Ana standart. Bununla birlikte, sonraki üç yöntem, doğrusal modeller için daha iyi tahmin doğruluğu ve model yorumlanabilirliği sağlayabilir.

Alt Küme Seçimi

Bu yöntem ilk olarak bağımlı değişkenle ilgili p bağımsız değişkenlerin bir alt kümesini belirler ve ardından modele uyması için alt küme özelliklerinin en küçük karelerini kullanır.

  • En İyi Alt Küme Seçimi Nihai model uydurma etkisini kontrol etmek için p bağımsız değişkenlerin tüm olası kombinasyonları üzerinde en küçük kareler regresyonu gerçekleştirin. Algoritma 2 aşamaya ayrılmıştır:

  • Tüm modelleri k bağımsız değişkenle uydurun; burada k, modelin maksimum uzunluğudur;

  • En iyi modeli seçmek için çapraz doğrulama hatasını kullanın.

Modeli değerlendirmek için eğitim hatası yerine test hatası veya doğrulama hatası kullanmak önemlidir, çünkü değişken arttıkça RSS ve R2 monoton olarak artacaktır. En iyi yol, en yüksek R2 ve en düşük RSS test hatasına sahip modeli çapraz doğrulamak ve seçmektir.

  • Öne çık (İleri Adım Yönlü Seçim), bağımsız değişkenlerin daha küçük bir alt kümesini kullanır. Bağımsız değişkenler içermeyen ve bağımsız değişkenleri modele tek tek, tüm bağımsız değişkenler modele girene kadar ekleyen bir modelle başlar. Çapraz doğrulama hatası modeli geliştirmek için daha fazla değişken bulamayıncaya kadar, modele her seferinde yalnızca modelin performansını en üst düzeye çıkarabilen değişkenler eklenir.

  • Adım adım geri seç (Geriye Doğru Adım Yönlü Seçim) başlangıçta tüm p bağımsız değişkenleri içerir ve ardından en yararsız bağımsız değişkenleri tek tek kaldırır.

  • Hibrit yöntem (Hibrit Yöntemler) ileriye doğru adım adım seçim ilkesini izler, ancak her yeni değişken eklendikten sonra, bu yöntem model uydurmaya katkıda bulunmayan değişkenleri de kaldırabilir.

Özellik azaltma (Büzülme)

Bu yöntem, modele uyması için tüm p bağımsız değişkenleri kullanır, ancak en küçük kareler tahminiyle karşılaştırıldığında, bu yöntem bazı bağımsız değişkenlerin tahmin edilen katsayılarının sıfıra doğru zayıflamasını sağlar. Bu zayıflama, varyansı azaltma etkisine sahip olan Regularization olarak da bilinir. Kullanılan indirgeme yöntemine bağlı olarak, bazı katsayıların sıfır olduğu tahmin edilebilir. Bu nedenle bu yöntem değişken seçimi için de kullanılır. En yaygın kullanılan iki azaltma faktörü şunlardır: Ridge regresyonu (Ridge regresyon) ve L1 normalleştirme (Kement).

Ridge regresyonu en küçük karelere benzer, ancak orijinal terime düzenli bir terim eklenir. En küçük kareler yöntemi gibi, sırt regresyonu da RSS'nin parametre tahminini en aza indirmeyi amaçlar, ancak tahmin edilecek parametre 0'a yakın olduğunda, bir Küçültme cezası . Bu ceza, parametrenin azaltılmasını sıfıra yakın tahmin edilmeye zorlayacaktır. Matematik okyanusunun derinliklerine gitmenize gerek yok, sadece sırt regresyonunun modelin varyansını azaltarak özellikleri azalttığını bilin. Temel bileşen analizinde olduğu gibi, sırt regresyonu verileri d boyutlu bir alana yansıtır ve ardından ortadan kaldırmak ve filtrelemek için düşük varyans (minimum ana bileşen) ve yüksek varyans (maksimum ana bileşen) katsayılarını karşılaştırır.

Ridge regresyonunun en az bir dezavantajı vardır: nihai modeli tüm p bağımsız değişkenleri içerir. Ceza terimi, birçok katsayıyı 0'a yakın yapar, ancak asla 0'a yaklaştırmaz. Bu genellikle tahmin doğruluğu için bir sorun değildir, ancak modelin yorumlanmasını daha zor hale getirebilir. Düzenlilik bu eksikliğin üstesinden gelir, s yeterince küçük olduğu sürece belirli katsayıları sıfıra zorlayabilir. S = 1 geleneksel en küçük kareler regresyonudur, s 0'a yakın olduğunda katsayı 0'a doğru azalır. Bu nedenle, düzenleme aynı zamanda değişken seçimine eşdeğerdir.

Boyut Azaltma

Boyut azaltma, tahmini p + 1 katsayılarını M + 1 katsayılarına düşürür, burada M < s. Bu, değişkenlerin M farklı doğrusal kombinasyonlarının veya projeksiyonlarının hesaplanmasıyla elde edilir. Daha sonra, bu M projeksiyonları tahmin değişkenleri olarak kullanılır ve en küçük kareler doğrusal regresyon modeline uyması için kullanılır. Yaygın olarak kullanılan iki boyut azaltma yöntemi şunlardır: Ana bileşen regresyonu (Ana bileşen regresyon) ve Kısmi en küçük kareler (Kısmi en küçük kareler).

Yapabilmek Temel bileşen regresyonu, çok sayıda değişkenden düşük boyutlu özellik kümelerini türetmenin bir yöntemi olarak tanımlanır. . Verinin ilk temel bileşeninin yönü, gözlenen değerin en çok değiştiği yöndür. Başka bir deyişle, ilk temel bileşen, verilere mümkün olduğunca uyan düz bir çizgidir. P farklı ana bileşenlere uyabilir. İkinci temel bileşen, birinci temel bileşenle ilgili olmayan ve en büyük varyansa sahip olan değişkenlerin doğrusal bir kombinasyonudur. Temel bileşen analizi fikri, verilerdeki maksimum varyansı yakalamak için ortogonal yönlerde doğrusal bir veri kombinasyonu kullanmaktır. Bu şekilde, ilgili değişkenlerin etkileri, mevcut verilerden daha fazla bilgi çıkarmak için birleştirilebilir.Geleneksel en küçük karelerde, ilgili değişkenlerden birini atmamız gerekir.

Temel bileşen analizi, X tahmin değişkenini en iyi temsil eden doğrusal kombinasyonu tanımlar. Bu kombinasyonlar (yönler) denetimsiz bir şekilde tanımlanır ve yanıt değişkeni Y, ana bileşenlerin yönünü belirlemeye yardımcı olmak için kullanılmaz, bu nedenle tahmin değişkenini en iyi açıklayan yönün aynı zamanda tahminde de en iyi olduğu garanti edilmez (bu genellikle varsayılsa da) . Kısmi en küçük kareler yöntemi, temel bileşen analizine göre denetimli bir öğrenme alternatifidir. Aynı zamanda bir boyut indirgeme yöntemidir.İlk olarak, orijinal özelliklerin doğrusal bir kombinasyonu olan yeni bir daha küçük özellik seti tanımlar ve ardından yeni M unsurlarına uyan en küçük karelerle doğrusal bir model sentezler. Temel bileşen analizi yönteminin aksine, kısmi en küçük kareler yöntemi, yeni özellikleri tanımlamak için yanıt değişkenini kullanır.

Doğrusal Olmayan Modeller

İstatistikte doğrusal olmayan regresyon, bir regresyon analizi biçimidir Gözlemlenen veriler, bir veya daha fazla bağımsız değişkenin doğrusal olmayan bir kombinasyon fonksiyonu ile modellenir. Veriler birbirini izleyen yaklaşım yöntemleriyle uydurulur. Aşağıdakiler doğrusal olmayan modellerle uğraşmak için bazı önemli yöntemlerdir:

Gerçek sayı alanındaki bir işlev, yarı açık aralıkta gösterge işlevi olarak kullanılabilirse Sonlu sıralı doğrusal kombinasyon İfade etmek için, buna adım işlevi (adım işlevi) denir. Daha az resmi bir şekilde, adım fonksiyonu, sonlu parçalı sabit fonksiyonların bir kombinasyonudur.

Parçalı işlev, birden çok Alt işlev tanımı Her alt işlev, ana işlev alanının belirli bir aralığına uygulanır. Segmentasyon aslında fonksiyonları ifade etmenin bir yoludur, fonksiyonun kendisinin özelliklerini değil, ek kısıtlamalarla fonksiyonun özelliklerini de tanımlayabilir. Örneğin, parçalı bir polinom işlevi, her alt etki alanında bir polinom olan, ancak her alt etki alanında farklı bir işlev olabilecek bir işlevdir.

Spline eğrisi (spline) şunlardan oluşur: Polinom parçalı tanım Özel fonksiyon. Bilgisayar grafiklerinde, spline, parçalı bir polinom parametre eğrisini ifade eder. Basit yapıları, basit ve doğru uydurmaları nedeniyle, eğri uydurmada ve etkileşimli eğri tasarımında karmaşık şekillere yaklaşabilirler Spline eğrileri çok popüler eğrilerdir.

Genelleştirilmiş katkı modeli (Genelleştirilmiş katkı modeli) bir Genelleştirilmiş doğrusal model Doğrusal yordayıcı değişkenin, bazı yordayıcı değişkenlerin bilinmeyen düz işlevine bağlı olduğu ve bu düz işlevlerin gerekçelendirilmesine odaklandığı durumlarda.

Ağaç Tabanlı Yöntemler

Ağaç yöntemleri, regresyon ve sınıflandırma problemleri için kullanılabilir. Bu, tahmin alanını birkaç basit bölgeye ayırmayı veya bölmeyi içerir. Tahmin alanını bölmek için kullanılan ayırma kuralı seti bir ağaca genelleştirilebildiğinden, bu tür yönteme karar ağacı yöntemi denir. Aşağıdaki yöntemler, önce birden fazla ağaç oluşturmak ve ardından bu ağaçları tek bir fikir birliği tahmini oluşturmak için birleştirmektir.

Torbalama, ham verilerden ek eğitim verisi oluşturma yöntemidir. Tahmin varyansını azaltın Orijinal verilerle aynı çeşitliliği oluşturmak için tekrarlanan kombinasyonları kullanır. Eğitim setinin boyutunu artırarak, modelin tahmin gücü geliştirilemese de varyansı azaltabilir ve tahmini beklenen sonuca göre ayarlayabilir.

Güçlendirme, birden çok farklı model kullanarak çıktı hesaplama ve ardından Ağırlıklı ortalama yöntemi sonuçların ortalamasını alır . Ağırlıklandırma formülünü değiştirerek, bu modellerin avantajlarını ve dezavantajlarını birleştirerek ve farklı ince ayar modellerini kullanarak, daha geniş bir giriş verileri aralığı için iyi bir tahmin gücü sağlayabilir.

Rastgele orman algoritması, Torbalama'ya çok benzer. Önce eğitim setinin rastgele önyükleme örneklerini toplayın ve ardından tek bir ağacı eğitmek için rastgele özellik alt kümelerini toplayın; torbalama sırasında tüm özellikler her ağaca verilir. Geleneksel torbalama ile karşılaştırıldığında rastgele özellik seçimi nedeniyle, Ağaçlar daha çok bağımsız , Bu genellikle daha iyi tahmin performansına (daha iyi varyans sapması değiş tokuşu nedeniyle) ve daha hızlı eğitime yol açar, çünkü her ağaç yalnızca bir özellik alt kümesinden öğrenir.

Vektör makineleri desteklemek

Destek vektör makinesi, makine öğreniminde denetimli öğrenme modeline ait bir sınıflandırma teknolojisidir. Layman'ın terimleriyle, bulur Alt düzlem (İki boyutta çizgiler, üç boyutlu düzlemler ve daha yüksek boyutlarda hiper düzlemler. Daha biçimsel olarak, bir hiper düzlem, n boyutlu bir uzayın n-1 boyutlu bir alt uzaydır) ve Maksimum sınır (Kenar boşluğu) iki tür noktayı bölmek için. Özünde, kısıtlı bir optimizasyon problemidir, çünkü sınır maksimizasyonu, veri noktalarının dağılımı (katı sınırlar) ile sınırlandırılmıştır.

Bu hiper düzlemi "destekleyen" veri noktalarına "destek vektörleri" denir. Yukarıdaki resimde, dolu mavi daire ve iki dolu kare destek vektörleridir. İki tür verinin doğrusal olarak ayrılamadığı durumda, bu noktalar doğrusal olarak ayrılabilecekleri daha yüksek boyutlu bir alana yansıtılacaktır. Çoklu sınıflandırma problemleri, çoklu bire bir veya bire bir ikili sınıflandırma problemlerine ayrıştırılabilir.

Denetimsiz öğrenme

Şimdiye kadar sadece denetimli öğrenmeyi tartıştık, yani veri kategorileri biliniyor ve algoritmanın amacı, gerçek veriler ile ait oldukları kategoriler arasındaki ilişkiyi bulmak. Kategori bilinmediğinde, denetimsiz öğrenme adı verilen başka bir yöntem kullanırız çünkü bu, öğrenme algoritmasının verilerdeki kalıpları kendi başına bulmasına izin verir. Kümeleme, farklı verilerin birbiriyle yakından ilişkili gruplar halinde kümelendiği denetimsiz öğrenmenin bir örneğidir. Aşağıda, en yaygın kullanılan denetimsiz öğrenme algoritmalarının bir listesi verilmiştir:

  • Temel bileşenler Analizi: En büyük varyans ve ilintisiz özelliklerle bir dizi doğrusal kombinasyon tanımlayarak veri setinin düşük boyutlu bir temsilini oluşturun. Bu yöntem, denetimsiz bir ortamda değişkenlerin potansiyel etkileşimini anlamaya yardımcı olur.

  • k-kümeleme anlamına gelir: Veriler, küme merkez noktasının mesafesine göre k farklı kümeye bölünmüştür.

  • Hiyerarşik kümeleme: Bir kümeleme ağacı oluşturarak çok seviyeli bir hiyerarşik yapı oluşturun.

Yukarıdakiler, veri bilimi proje yöneticilerinin / yöneticilerinin veri bilimi ekiplerinin operasyonlarının ardında neyin gizli olduğunu daha iyi anlamalarına yardımcı olabilecek bazı temel istatistiksel tekniklerin bir özetidir. Aslında, bazı veri bilimi ekipleri algoritmaları tamamen python ve R kitaplıkları aracılığıyla çalıştırır. Birçoğunun arkasındaki matematiksel ilkeleri düşünmesi bile gerekmiyor. Bununla birlikte, istatistiksel analizin temellerini anlamak, ekibinize daha iyi bir yaklaşım sağlayabilir. Küçük bir parçayı derinlemesine anlamak, manipüle etmeyi ve soyutlamayı kolaylaştırır. Umarım bu temel veri bilimi istatistik kılavuzu size iyi bir anlayış sağlayabilir!

Not: Tüm sunum slaytlarını ve RStudio oturumlarını GitHub kaynak kodumdan alabilirsiniz. Cevabınız için teşekkürler!

Bu yazıyı beğendiyseniz sosyal medyada paylaşabilirsiniz, çok sevinirim. Kodumu GitHub'da bulabilirsiniz:

https://github.com/khanhnamle1994/statistical-learning

Ve kişisel web sitemde daha fazla yazı ve proje:

https://jameskle.com/)

Orijinal başlık: Veri Bilimcilerin Uzmanlaşması Gereken 10 İstatistiksel Teknik

Orijinal bağlantı: https://www.codementor.io/james_aka_yale/the-10-statistical-techniques-data-scientists-need-to-master-fvj4dx78a

Çevirmen Profili

Ve Zhonghua, Almanya'da Yazılım Mühendisliği Yüksek Lisansı. Makine öğrenimine olan ilgiden dolayı, yüksek lisans tezi, geleneksel anlamlarını geliştirmek için genetik algoritma fikirlerini kullanmayı seçti. Şu anda Hangzhou'da büyük veri ile ilgili uygulamalar yapıyor. Datapie'ye katılmak THU, BT çalışanları için üzerine düşeni yapmayı ve aynı zamanda benzer düşünen birçok arkadaş edinmeyi umuyor.

Oyuncu Dağcı Yang Xiaohua, Uçurumdaki Yardım Elçisi (2. Kısım)
önceki
Hahahaha! Bu Audi sahibi o kadar komik ki akıllı Günaydın Wuhan
Sonraki
GIF-Alman Ligi komik sahnesi! Boş kaleyi kaçırdı ve sadece takım arkadaşlarını dışarıda bırakmak ve gol atmak için sinirlendi.
Minjiang Gece Sohbeti: Tsinghua Üniversitesi'nin sesini dinleyin ve Dijital Çin'in geleceği hakkında konuşun
Üç yıllık artış aniden durdu İtalya'nın üçüncü çeyrekte GSYİH'si yine durgunlaştı!
Epilepsili adam otoyolda araç kullanırken devrildi, iki kadın ön camı kırdı ve onu kurtardı
2019 Görünümü: Ekonomik kış yaklaşıyor, VC'ler bunun yerine "açgözlü" olmalı
Kaybet ve kaybet! Milan'da iki general arasında riske karşı şiddetli bir çatışma sahnesi
Birim fiyatı 29222 yuan / ! Chengdu Emlak Yeni Anlaşması doğduğundan beri yüksek katlı konut binalarında en yüksek rekor!
ABD Hava Kuvvetleri, IBM'in en yeni insan benzeri beyin çipini, tank tanımlama için% 95 doğrulukla başarıyla test etti
Zidane, 6 günde 2 süperstar elde etti! 1 kişi sadece Real Madrid'i seviyor, kapı tanrısı tekrar bankta oturmak zorunda kalabilir
BAT'ın AI alanındaki yatırımı ve satın almaları dibe vuruyor: AI hakkında konuşurken ne yapmak istiyoruz?
Yoldaş Obama bir bilim kurgu kahvesidir
Self servis kiosklar ve manuel pencereler mevcut değil ve yabancı turistler Wuhan Geçidi'nin kiralık versiyonunu kullanmayı dört gözle bekliyorlar
To Top