g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Makine öğrenimi algoritmalarının K-ortalamalı kümeleme uygulaması için pratik beceriler

Editörün notu: Bu makalenin yazarı Amerikalı bir veri analizi uzmanı olan Bilal Mahmood, bir kullanıcı veri analiz platformu olan Bolt'un kurucularından biridir. Bu makalede, algoritmanın etkisinin nasıl ölçüleceğini ve üretmeniz gereken veri segment kümelerinin sayısını nasıl belirleyeceğinizi içeren K-Ortalama Kümeleme (k-ortalamalı kümeleme) adlı bir algoritmayı detaylandırdı. Leifeng.com, AI geliştirme hakkında daha fazla teknik makale derleyip derledi ve AI Araştırma Topluluğu'na (WeChat ID: okweiwu) dikkat etti.

Bilal Mahmood: Yaptığımız en yaygın analizlerden biri, verilerden örüntüler çıkarmak. Örneğin, bir şirketin müşterileri hangi pazar segmentlerine girebilir? Kullanıcı ağında belirli grup kümelerini nasıl buluruz?

Makine öğrenimi aracılığıyla bu soruların yanıtlarını alabiliriz. Hangi belirli veri segmentlerinin aranması gerektiğini bilmediğimizde veya veri formatımız yapılandırılmamış veri olduğunda bile, makul veri modellerini ve verilerdeki uygun veri segmentlerini algoritmik olarak analiz etmek için hepimiz böyle teknik bir araca sahip olabiliriz. Ve sınıflandırma sonuçları.

Bu makalede, K-Means Clustering (K-Means Clustering) algoritmasını, etkisinin nasıl ölçüleceğini ve üretmek istediğimiz veri segment setlerinin sayısını nasıl belirleyeceğimizi ayrıntılı olarak tanıtacağız.

Denetimli ve denetimsiz öğrenme

Veri sınıflandırması alanında iki etkili makine öğrenimi yöntemi vardır.

Denetimli öğrenim yoluyla, hangi girdilerin hangi ayrı veri bölümleriyle eşleştirilebileceğini belirlerseniz, sonuçların sınıflandırılması hakkında tahminlerde bulunabilirsiniz. Ancak çoğu durumda, bu önceden tanımlanmış etiketler değil, yalnızca yapılandırılmamış veriler olacaktır - hiç tanımlanmış veri segmenti yoktur. Şu anda, etiketlenmemiş verilerden hedef veri segmentlerini çıkarmak için denetimsiz öğrenmeyi kullanmanız gerekebilir.

Daha net olmak gerekirse, örnek olarak tişört bedenlerinin sınıflandırmasını alalım

Şekil 1A'da gösterilen veri setini alırsak, bir dizi genişlik (X1) ve uzunluk (X2) girişine ve bunlara karşılık gelen tişört boyutuna (S (mavi) L (yeşil)) sahip olacağız. Bu durumda, lojistik regresyon gibi denetimli öğrenme teknikleriyle net bir karar sınırı çizebilir ve çeşitli tişört türlerini ayırabiliriz.

Ancak Şekil 1B'de gösterildiği gibi bir veri seti elde edersek, bir dizi genişlik (X1) ve uzunluk (X2) girdisi elde ederiz, ancak karşılık gelen tişört boyutu etiketi yoktur. Bu durumda, benzer tişörtler bulmak ve bunları küçük (mavi daireler) ve büyük (yeşil daireler) kategorilere ayırmak için K-ortalamalı kümeleme gibi denetimsiz öğrenme tekniklerini kullanmamız gerekir.

Pek çok gerçek dünya uygulamasında, Şekil 2A'da gösterilen durumla karşılaşacaksınız, bu nedenle yapılandırılmamış verilerden yapının nasıl çıkarılacağını bulmak çok faydalı olacaktır.

K-kümeleme anlamına gelir

K-ortalama kümeleme, denetimsiz makine öğrenimi için çok sezgisel bir uygulama sağlar ve yapılandırılmamış verilerde yapıyı tetikler,

K-mean kümeleme, adından da anlaşılacağı gibi, verilerinizdeki benzer gözlemleri aynı kümeye atayacaktır. Her bir gözleme en yakın (ortalama) mesafe ile kümeyi yinelemeli olarak değerlendirmek için 4 basit tekrarlı adımdan oluşur. Bu nedenle, bir dizi gözlem birbirine yakınsa, bunlar bir dizi kümeye ait olabilir.

Algoritmayı aşamalı olarak ayrıntılı olarak anlayalım. İlk adım, bir dizi küme merkezini (yukarıdaki Şekil 2A'da X) veya başka bir deyişle her kümenin merkezlerini rasgele olarak başlatmaktır. Başlamadan önce, bu küme merkezlerini herhangi bir yere ayarlayabilirsiniz, ancak bunları başlattığınızda, belirlediğiniz gözlemlerle eşleşen rastgele noktalar kullanmanızı öneririz. Sırayla bu küme merkezlerini, gözlemlerinizi gruplandırmak ve küme merkezine en yakın ortalama uzaklıkla (Şekil 2B'deki mavi ve yeşil daireler) bu gözlemlerin küme niteliğini belirlemek için kullanacaksınız.

Bu adım, verileri birkaç küme halinde başlatır ve verilerinizdeki sınıfın merkezine en yakın olan gözlemleri toplar. Ancak ilk tahsisin ardından bu veri kümeleri çok uygun olmayabilir. Yani bir sonraki adımda, kümelenmiş veri kümenizi daha yakın ve daha uygun bir konuma taşıyacaksınız. Yani, mevcut her kümedeki ortalama gözlem değerini bulun ve ardından kümenizin merkezini bu konuma getirin (Şekil 2C). Ardından, yeni küme merkezine dayalı olarak, en yakın ortalama mesafeye sahip gözlem değerini bulun ve yeni kümeye atayın (Şekil 2D)

Bu işlemi tekrarlayabilirsiniz: küme tahsisi-yakınsamaya ulaşılana kadar ortalama mesafe taşıma küme merkezlerini bulun. Bir dizi küme bulduğunuzda ve içindeki tüm gözlemler en yakın küme merkezini bulduğunda, en yakın ortalama mesafeyi ve hareketi değerlendirmeye devam etmenize gerek yoktur. Birlikte gruplanan gözlemler, girdideki benzerlikleri paylaşabilmeleri için (aynı küme merkezine yakınlıkları gibi) kümelenecek ve verileriniz için uygun bir küme buldunuz. Kümeleme yöntemi.

Kaç küme kullandınız?

K-ortalama kümeleme, verileriniz için iyi bir kümeleme yöntemi bulmak için etkili bir yöntemdir. Ama yine de bir soru var: İlk etapta kaç tane küme kullanacağınıza nasıl karar veriyorsunuz?

Yapılandırılmamış veri kümelerinin etiketini veya sınıflandırmasını bilmediğinizde, yardımcı olması için denetimsiz öğrenme yöntemlerine (K-ortalama kümeleme gibi) ihtiyacınız vardır. Bu nedenle, verilerin kendisi size doğru küme sayısının (veya etiketinin) ne olduğunu söylemeyecektir.

Peki, verilerinizin kaç küme kullandığını nasıl ölçersiniz? En basit yöntem, ölçüm kümesinin hatasını aşağıdaki gibi kullanmaktır:

Bu işlev, gözlenen değer (X) ile belirlenmiş küme merkezi () arasındaki mesafeyi karşılaştırarak küme hatasını değerlendirir. Karşılık gelen her bir küme merkezi en düşük mesafeyi veya en düşük genel hatayı gösteriyorsa, bu küme merkezleri, verilerle en iyi eşleşen kümeleme sonuçlarıdır.

Tişört boyutu örneğimize geri dönersek, bu hata işlevini doğru küme sayısını belirlemek için nasıl kullanacağız? Yöntemlerden biri, yukarıdaki Şekil 3'te gösterildiği gibi "dirsek kuralı" dır. Verilerin hatasını başlattığınız küme sayısına göre çizerek, hata oranının en keskin noktasını bulabilirsiniz. Şekil 3, küçük ve büyüğe bölünebilmemiz gerektiğini gösteren iki kümede görünüyor.

Leifeng.com, bu yöntemin dikkat edilmesi gerektiğini hatırlatır: genellikle hata eğrinizde belirgin bir bükülme noktası yoktur. Bu nedenle, uygun küme sayısını belirlemek için dirsek kuralını kullanmak her zaman mümkün değildir.

Bu durumda, sezginize veya çözülecek sorunun bağlamına güvenmeniz önerilir. Örneğin, T-shirt boyutu durumunda, Tişörtü süper küçük, küçük, orta, büyük ve süper büyük olmak üzere 5 bedene bölmek istediğinize açık olabilirsiniz. Ancak bu, verilerden net değil, ancak sezginize dayanarak, küme sayısını beşe çıkarabilir ve uygun kümeleri elde edebilirsiniz.

Sonuç olarak, bir kümeleme problemi için K-ortalama kümeleme, verilerin yapısını keşfetmek için yinelenebilir ve etkili bir algoritma sağlar.

Lei Feng Net Not: Bu blog yayını, Wu Endanın Makine öğrenimi kursları Profesör kavramı.

kdnuggets aracılığıyla

Endüstriyel İnternet ile yüzleşen Tencent, "kaplan" inine girer Titanyum Medya Derinliği

Şüphe etmeyin, bu cinsel taciz!