g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

ML: size verileri işlemek için bir öğrenme modeli oluşturmayı ve kümelemeyi öğretir (veri seti eklenmiştir)

Çeviri: Wang Yutong

Düzeltme: Gu Jiani

Bu makale hakkında 1500 kelime Önerilen Okuma 6 dakika.

Bu makale, verileri kümelemek ve bir regresyon modeli oluşturmak için Ames konut veri kümesini örnek olarak alır.

Özet

Bu makale, 41 tanımlayıcı sınıflandırma özelliğinin boyutlarına göre gözlemleri gruplandırmak için denetimsiz temel bileşen analizi (PCA) ve hiyerarşik kümeleme yöntemlerini kullanacaktır. Kümeleme verileri, verileri basit çok değişkenli doğrusal modellerle daha iyi tanımlayabilir veya diğer modeller için daha uygun olan anormal grupları belirleyebilir. Bu yöntem, gelecekte grid aramasına benzer parametre optimizasyonu elde etmek için bir python sınıfında yazılmıştır.

sonuçlar ve tartışma

Bu projede, 41'i de dahil olmak üzere evlerin satış fiyatını tahmin etmek için 79 açıklayıcı değişken kullanarak Ames konut veri setine makine öğrenimi teknolojisini uyguluyoruz. Kategorik değişkenler (Türe göre değişken), 38 Sürekli sayısal değişken (Sürekli değişken). İlk keşifsel veri analizi (EDA) ve özellik seçimi sürecinde, verileri daha iyi anlamak için, verileri ve modeli üç boyutlu bir dağılım grafiği aracılığıyla yansıtmak için verileri sığdırmak için yalnızca iki sürekli değişken kullandık. Sırasıyla 38 sürekli sayısal değişkenin tüm iki değişkenli permütasyonlarını ve kombinasyonlarını sıralayarak ve doğrusal regresyon modellerini uydurarak, satış fiyatlarını tahmin etmek için en güçlü yeteneğe sahip iki değişken seçtik. Eğitim setinin tamamı göz önüne alındığında, yer üstü yaşam alanı ve genel kalite parametreleri en iyi tahmin edicilerdir, ancak bu, konut satış fiyatındaki varyansın yalnızca% 73,9'unu açıklamaktadır. Veri kümesindeki grupları tanımlamak için 41 sınıflandırma özelliğini kullanarak, veri kümesini daha küçük varyanslı alt kümelere ayırabilir ve her bir özel ev alt kümesini daha iyi tanımlayan bir model bulabiliriz.

Ekli Ames konut veri seti:

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

Basit bir doğrusal regresyon modeli, yer üstü yaşam alanı ve genel kalitenin konut satış fiyatları üzerindeki etkisini yansıtabilir ve bu da konut fiyat değişikliklerinin% 74'ünü açıklar.

Ames konut piyasasındaki çok sayıda kategorik değişken ve sınırlı uzmanlık nedeniyle, değişkenlerdeki kalıpları bulmak ve bunları bu temelde gruplandırmak için denetimsiz bir kümeleme yöntemi kullanıyoruz. İlk olarak, PCA, çok sayıda kategorik değişkenin neden olduğu "boyutsal felaket" etkisinden kaçınmak için veri setinin boyutluluğunu azaltmak için kullanılır. PCA'nın başka faydaları da vardır ve genel varyansa katkıda bulunmayan değişkenlerin sayısını en aza indirebilir. Ve boyutu üç boyuta indirin, böylece kümeleme algoritmasının grafik gösterimini sezgisel olarak geliştirebiliriz (Ve boyutu üç boyutluya düşürmek, sezgisel iyileştirmeler yapmak için bize grafiksel bir sınıflandırma efekti görüntüsü verdi). Aşağıdaki şekil, kategorik değişkenleri 3 boyuta indirgeyen PCA'nın grafiğini göstermektedir:

41 kategorik değişkenle yoğunlaştırılmış üç boyutlu PCA uzamsal verilerle temsil edilir

Bu grafiğin ön gözlemi yoluyla, verilerdeki farklılıkların çoğu yeni Y (dikey) boyutunda yansıtılır. X (genişlik) ve Z (derinlik) boyutlarında, fark set kategorisinden gelir ve bu da verilerin dikey şeritler oluşturmasına neden olur. Kümenin anizotropisi nedeniyle, Grupları tanımlamak için k-en yakın komşu bağlayıcı parametrelerine sahip hiyerarşik bir kümeleme algoritması kullanırız, böylece şerit birden fazla parçaya bölünmez. (Dikey şeritleri kesmeden her grubu yeniden tanımlamak için hiyerarşik kümeleme algoritmasındaki k-neighbor algoritmasını kullanıyoruz.) (Python'un sklearn kitaplığında, kümeleme için AglomerativeClustering yöntemi kullanılabilir. Bu durumda, Ward bağlantı standardına göre, sınıfların sayısı 6'ya ayarlanır ve bağlantı dizisi, n_neighbors parametresinin 20'ye ayarlandığı Kneighbors_graph paketi tarafından oluşturulur).

Hiyerarşik kümeleme gruplamasının PCA uzay gösterimi

Komşu alanların renklendirilmesine ve PCA boyutluluğunun azaltılmasına dayanan gözlemler, boyut azaltma ve kümelenmeyi etkileyen faktörleri keşfetmeye yardımcı olur

PCA ve kümeleme yöntemleriyle oluşturulan kümeler, gruplamadaki dikey "şeritleri" çok iyi ayırt eder. Denetimsiz kümeler ve bunlara karşılık gelen ev özellikleri arasındaki benzerlikleri bulmak için, bu kümeler ayrıca her bir kategorik değişkene göre renklendirilir. Renkli dağılım grafiklerinden bazıları denetimsiz kümelemeye benzer ve bu belirli ev özelliklerinin her veri noktası için son PCA vektörünü belirlemede daha büyük bir rol oynadığını gösterir. Denetimsiz yönteme benzer şekilde dikey gruplamayı vurgulayan mahalle renklendirmesine özel dikkat gösterilmektedir, bu da mahallenin ayrışma alt kümesini etkileyen önemli bir faktör olduğunu gösterir. Bu tür uygulamalar için, her faktörün nihai PCA boyutuna genel "katkısını" belirlemek için daha kesin yöntemler tasarlamamız gerekir.

Her bir gruptaki hangi iki faktörün satış fiyatlarının en iyi belirleyicisi olduğunu belirlemek için, bu 6 kümeyi sürekli sayısal verileri alt kümelere ayırmak ve basit bir ikili doğrusal regresyon modeli varsaymak için kullanıyoruz.

Grup

En etkili bağımsız değişken

Determinasyon katsayısı

Genel Kalite: GrLivArea

% 79.5

Genel Kalite: GarageArea

% 68,2

Genel Kalite: GarageCars

% 73.5

Genel Kalite: 1stFlrSF

% 62.5

Genel Kalite: GarageCars

% 85.9

Bazı düğümler doğrusal regresyon için diğerlerinden daha uygun olsa da, bu kümeleri bir bütün olarak işlemekle karşılaştırıldığında bu kümeleri bir modele uydurmada doğruluk açısından kümülatif bir fark yoktur. Bununla birlikte, bu yalnızca kavram kanıtının ilk yinelemesidir ve n_nodes gibi anahtar parametreler, ( Düğüm sayısı ), PCA boyutları ( PCA boyutu ) Ve KNN bağlantı parametreleri ( KNN bağlantısı ). Bu yöntemlerin bir python sınıfına kodlanması, ızgara aramasına benzer bir optimizasyon süreci kullanarak en iyi küme parametrelerinin belirlenmesine yardımcı olabilir ve böylece basit doğrusal regresyon modellerinin doğruluğunu en üst düzeye çıkarabilir. Lütfen aşağıdaki GitHub bağlantısında "MC_regressor_Code.ipynb" bölümüne bakın:

https://github.com/dgoldman916/housing-ml.

Gelecek iş

Şu anda, "kavram kanıtı" nın temel eksikliği, yeni verileri eğitme ve sınıflandırma becerisidir. Test setini tanıtırken, yeni veriler eğitimden elde edilen parametrelere göre etiketlenmiş gruplara bölünmelidir. Bu, karar ağaçları veya destek vektör makineleri (SVM) gibi denetimli bir kümeleme yöntemi gerektirir. Bu tür işlevleri ekledikten sonra, bunları gruptaki diğer iş akışlarına uygulayabilirsiniz. Beklenen son yineleme yoluyla düğümler aracılığıyla daha karmaşık modelleri sığdırabilir ve bu modellerin sonuçlarını bir araya getirebiliriz.

Orjinal başlık:

Makine Öğrenimi: Havuzlanmış regresyon modelleri için verileri işlemek için denetimsiz boyut küçültme ve kümeleme

Orijinal bağlantı:

https://nycdatascience.com/blog/student-works/machine-learning-unsupervised-dimension-reduction-and-clustering-to-process-data-for-pooled-regression-models/

Çevirmen Profili

Wang Yutong , İstatistik okumak, veri bilimi alanında yüksek lisans yapmak, aralıksız koşmak, piyano çalmaktan daha fazlası. Veri görselleştirmeyi bir sanat olarak ele almayı hayal ediyorum ve şimdi çeneme dokunarak makine öğrenimini izliyorum.

Yifen Lunar New Year 7 "Lens": Yeni Yılda nasıl çıtır saksı yapılacağını öğretir, lezzetli ve basit

Serie A 1 yarışması kızışıyor! 36 yaşındaki eski oyuncu Cristiano Ronaldo'yu 21-19 önde götürüyor ve bir harika haberimiz daha var!