g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Herkesin sık sık çağırdığı "makine öğreniminin" algoritması ve sınıflandırması nedir?

Farklı öğrenme yöntemlerine göre, makine öğrenimi geleneksel olarak ayrılabilir Makine öğrenimi, derin öğrenme, diğer makine öğrenimi . Kaggle Makine Öğrenimi Anketi'ne bakıldığında, geleneksel ve klasik makine öğrenimi algoritmaları veri biliminde daha yaygındır. Basit doğrusal ve doğrusal olmayan sınıflandırıcılar, veri bilimindeki en yaygın algoritmalardır ve güçlü entegrasyon yöntemleri de çok popülerdir.

En yaygın kullanılan veri bilimi yöntemi lojistik regresyondur, ulusal güvenlik alanı ise sinir ağlarını daha sık kullanır. Genel olarak, sinir ağı modellerinin mevcut kullanım sıklığı, destek vektör makinelerininkinden daha yüksektir Bunun nedeni, son zamanlardaki çok katmanlı algılayıcıların, çekirdek işlevleriyle SVM'nin kullanımından daha kapsamlı performansa sahip olması olabilir.

1. Geleneksel makine öğrenimi

Geleneksel makine öğrenimi, bazı gözlem (eğitim) örneklerinden başlar, ilke analiziyle elde edilemeyen yasaları keşfetmeye ve gelecekteki veri davranışının veya eğilimlerinin doğru tahminini gerçekleştirmeye çalışır.

Geleneksel makine öğrenimi, öğrenme sonuçlarının etkinliğini öğrenme modellerinin yorumlanabilirliği ile dengeler ve sınırlı örneklemlerle öğrenme problemlerini çözmek için bir çerçeve sağlar.Özellikle sınırlı örneklem olması durumunda örüntü sınıflandırması, regresyon analizi ve olasılık yoğunluğu tahmini için kullanılır.

Geleneksel makine öğrenimi yöntemlerinin önemli teorik temellerinden biri, doğal dil işleme, konuşma tanıma, görüntü tanıma, bilgi alma ve biyolojik bilgi gibi birçok bilgisayar alanında yaygın olarak kullanılan istatistiktir.

İlgili algoritmalar arasında lojistik regresyon, gizli Markov yöntemi, destek vektör makinesi yöntemi, K en yakın komşu yöntemi, üç katmanlı yapay sinir ağı yöntemi, Adaboost algoritması, Bayes yöntemi ve karar ağacı yöntemi bulunmaktadır.

(1) Sınıflandırma yöntemi

Sınıflandırma yöntemleri, makine öğrenimi alanında en yaygın kullanılan tekniklerden biridir. Sınıflandırma, şeyleri karakterize eden sınıf işaretleri oluşturmak ve ardından gelecekteki verilerin sınıflandırmasını tahmin etmek için tarihsel verilere dayanmaktadır. Amaç, veri kümesindeki şeyleri belirli bir kategorideki belirli bir sınıfa eşleştirebilen bir sınıflandırma işlevi veya sınıflandırma modeli (sınıflandırıcı olarak da adlandırılır) öğrenmektir.

Sınıflandırma modelinde, kategoriyi nesnelerin, olayların veya bağlamın niteliklerini temsil eden bir dizi özelliğe dayalı olarak değerlendirmeyi umuyoruz.

(2) Kümeleme yöntemi

Kümeleme, fiziksel veya soyut koleksiyonları benzer nesnelerden oluşan birden fazla sınıfta gruplama sürecini ifade eder. Küme tarafından oluşturulan küme, bir dizi veri nesnesinin bir koleksiyonudur.Bu nesneler, aynı kümedeki nesnelere benzer ve diğer kümelerdeki nesnelerden farklıdır. Birçok uygulamada, bir kümedeki veri nesneleri bir bütün olarak ele alınabilir.

Makine öğreniminde kümeleme bir tür denetimsiz öğrenmedir.Veri sınıflandırması önceden bilinmeden veriler arasındaki benzerlik derecesine göre bölünür.Amaç aynı kategorideki veri nesneleri arasındaki farkı olabildiğince küçük yapmaktır. Farklı veri nesnesi kategorileri arasındaki fark olabildiğince büyüktür.

Kümeleme için genellikle KMeans kullanılır.Kümeleme algoritması LDA, metin modellemede SVD ve PLSA gibi modellere benzer şekilde iyi bilinen bir modeldir. .

(3) Regresyon yöntemi

Regresyon, mevcut değerlere (davranışa) dayalı olarak bilinmeyen değerleri (davranışı) tahmin etme sürecidir.Sınıflandırma modeli analizinden farklı olarak, öngörücü analiz daha çok "niceleme" üzerine odaklanır. Genel olarak, sınıflandırma yönteminin sınıflandırma etiketini (veya ayrık değeri) tahmin etmek için ve regresyon yönteminin sürekli veya sıra değerini tahmin etmek için kullanıldığına inanılmaktadır. Örneğin, kullanıcının bu film için değerlendirmesi nedir? Kullanıcının yarın belirli bir ürünü (cep telefonu) kullanma olasılığı nedir?

Ortak tahmin modelleri, gelecekteki hedef verilerin tahmin edilen değerini belirlemek için verilerin yasalarını ve eğilimlerini bulmak için model eğitimi ve öğrenimi yoluyla giriş kullanıcı bilgilerine dayanır.

(4) İlişkilendirme kuralları

İlişkilendirme kuralları, verilerdeki çok sayıda öğe kümesi arasında ilginç ilişkilerin veya ilgili bağlantıların keşfedilmesine atıfta bulunur. Madencilik ilişkilendirme kurallarının adımları şunları içerir: En az önceden tanımlanmış minimum destek sayısı kadar sık görünen tüm sık kullanılan öğe setlerini bulun; Sık öğe setlerinden güçlü ilişkilendirme kuralları oluşturulur ve bu kurallar minimum desteği ve Minimum güven.

Büyük miktarda verinin sürekli olarak toplanması ve depolanmasıyla, sektördeki birçok insan veri setlerinden madencilik birliği kurallarına giderek daha fazla ilgi duyuyor. Çok sayıda ticari işlem kaydından ilginç ilişkiler keşfetmek, birçok iş kararının alınmasına yardımcı olabilir.

İlişkilendirme analizi yoluyla, zamana, yere ve kişiye göre kişiselleştirilmiş itmeyi gerçekleştirmek için sık meydana gelen şeyleri, davranışları ve fenomenleri keşfedin ve sahneler (zaman, konum, kullanıcının cinsiyeti vb.) İle kullanıcıların iş kullanımı arasındaki ilişki ilişkisini keşfedin.

(5) İşbirlikçi filtreleme

İnternetteki içeriğin giderek artmasıyla birlikte, insanların her geçen gün aldığı bilgi, insanoğlunun bilgi işleme kapasitesinin çok ötesine geçmekte ve aşırı bilgi yüklemesi giderek daha ciddi hale gelmekte, bu nedenle bilgi filtreleme sistemleri ortaya çıkmıştır. Bilgi filtreleme sistemi, kullanıcıların görmek istemedikleri içeriği filtrelemek için anahtar kelimelere dayanır ve yalnızca kullanıcıların ilgilendiği içeriği gösterir, bu da kullanıcıların bilgileri filtreleme maliyetini büyük ölçüde azaltır.

İşbirlikçi filtreleme bilgi filtrelemeden kaynaklanır. Bilgi filtrelemeden farklıdır. İşbirliğine dayalı filtreleme, kullanıcı ilgi alanlarını analiz eder ve kullanıcı ilgi modelleri oluşturur.Kullanıcı grubunda benzer ilgi alanlarına sahip kullanıcıları bulur ve bu benzer kullanıcıların değerlendirmelerini belirli bir bilgi üzerinde entegre eder ve sistem bunu öngörür. Kullanıcının bu bilgiler için tercihini belirtin ve ardından içeriği kullanıcının tercihine göre kullanıcıya görüntüleyin.

(6) Özellik boyutluluğunu azaltma

Özellik boyutluluğunun azaltılması 1970'lerden bu yana yoğun bir şekilde incelenmiştir.Özellikle son yıllarda, metin analizi, görüntü alma ve tüketici ilişkileri yönetimi gibi uygulamalarda veri örneklerinin ve özellik verilerinin sayısı önemli ölçüde artmıştır. Verilerin çokluğu, çok sayıda makine öğrenimi algoritmasının ölçeklenebilirlik ve öğrenme performansında ciddi sorunlara sahip olmasına neden olur.

Örneğin, yüzlerce veya binlerce özelliğe sahip yüksek boyutlu bir veri seti, büyük miktarda alakasız bilgi ve fazlalık bilgi içerecektir, bu da öğrenme algoritmasının performansını büyük ölçüde azaltabilir. Bu nedenle, yüksek boyutlu verilerle karşılaşıldığında, özellik boyutunun azaltılması makine öğrenimi görevleri için çok önemlidir.

Özellik boyutluluğunu azaltma Özellik alanını belirli değerlendirme kriterlerine göre optimize etmek ve azaltmak için, genellikle makine öğreniminin bir ön işleme adımı olarak, ilk yüksek boyutlu özellik kümesinden düşük boyutlu bir özellik kümesi seçme süreci. Birçok araştırma ve uygulama, özellik boyutunun azaltılmasının ilgisiz ve gereksiz özellikleri etkili bir şekilde ortadan kaldırabildiğini, madencilik görevlerinin verimliliğini artırabildiğini, tahmin doğruluğu gibi öğrenme performansını iyileştirdiğini ve öğrenme sonuçlarının anlaşılma kolaylığını artırdığını kanıtladı.

2. Derin öğrenme

Derin sinir ağı olarak da bilinen derin öğrenme (3'ten fazla katmana sahip bir sinir ağını ifade eder), derin bir yapı modeli oluşturmak için bir öğrenme yöntemidir. Makine öğrenimi araştırmalarında ortaya çıkan bir alan olarak derin öğrenme, Hinton ve diğerleri tarafından 2006 yılında önerildi. Derin öğrenme, çok katmanlı sinir ağlarından kaynaklanır ve özü, özellik gösterimi ile öğrenmeyi birleştirmek için bir yol vermektir.

Derin öğrenmenin özelliği, yorumlanabilirliği terk etmek ve basitçe öğrenmenin etkililiğini sürdürmektir. Yıllarca süren deney ve araştırmalardan sonra, derin inanç ağları, evrişimli sinir ağları, kısıtlı Boltzmann makineleri ve tekrarlayan sinir ağları dahil olmak üzere birçok derin sinir ağı modeli üretildi. Bunlar arasında, evrişimli sinir ağı ve döngüsel sinir ağı iki tipik modeldir.

Evrişimli sinir ağları genellikle uzamsal olarak dağıtılmış verilere uygulanır; döngüsel sinir ağları, sinir ağlarına bellek ve geri bildirim sağlar ve genellikle geçici olarak dağıtılmış verilere uygulanır.

Derin öğrenme çerçeveleri genellikle genel sinir ağı algoritma modellerini içerir, kararlı derin öğrenme API'leri sağlar ve sunucular ile GPU'lar ve TPU'lar arasında eğitim modellerinin dağıtılmış öğrenimini destekler. Bazı çerçeveler, mobil cihazlar ve bulut platformları dahil çeşitli uygulamalarda da mevcuttur. Platformda çalışan transplantasyon yeteneği, derin öğrenme algoritmalarına benzeri görülmemiş bir çalışma hızı ve pratiklik getiriyor.

Mevcut ana akım açık kaynak algoritma çerçeveleri arasında TensorFlow, Caffe / Caffe2, CNTK, MXNet, PaddlePaddle, Torch / PyTorch, Theano vb.

Derin öğrenme, makine öğrenimi araştırmasının bir dalıdır. Motivasyonu, analiz ve öğrenme için insan beyninin sinir ağını kurmak ve simüle etmektir. Görüntüler, sesler ve metin gibi verileri yorumlamak için insan beyninin mekanizmasını taklit eder. Teknik bir bakış açısından, derin öğrenme, esasen çok katmanlı işlev yuvalama ile oluşturulan bir veri modeli olan "çok katmanlı" bir sinir ağıdır.

Bulut bilişim ve büyük veri çağının ortaya çıkması ve bilgi işlem gücündeki önemli artışla birlikte, derin öğrenme modelleri bilgisayarla görme, doğal dil işleme ve konuşma tanıma gibi birçok alanda büyük başarı elde etti.

3. Diğer makine öğrenimi

Ek olarak, makine öğrenimine yönelik yaygın algoritmalar arasında aktarım öğrenimi, aktif öğrenme ve evrimsel öğrenim bulunur.

(1) Transfer öğrenimi

Transfer öğrenimi, bazı alanlarda model eğitimi için yeterli veri elde etmenin imkansız olduğu durumlarda başka bir alandaki verilerden elde edilen ilişkiyi kullanarak öğrenmeyi ifade eder. Geçiş öğrenimi, eğitilen model parametrelerini yeni bir modele aktarabilir, yeni modelin eğitimine rehberlik edebilir, temel kuralları daha etkili bir şekilde öğrenebilir ve veri miktarını azaltabilir.

Mevcut aktarım öğrenme teknolojisi, ağırlıklı olarak sensör ağı tabanlı konumlandırma, metin sınıflandırması ve görüntü sınıflandırması gibi sınırlı değişkenlere sahip küçük ölçekli uygulamalarda kullanılır. Gelecekte, transfer öğrenimi, video sınıflandırma, sosyal ağ analizi ve mantıksal akıl yürütme gibi daha zorlu sorunları çözmek için yaygın olarak kullanılacaktır.

(2) Aktif öğrenme

Aktif öğrenme, en kullanışlı etiketlenmemiş örnekleri sorgulamak ve bunları etiketleme için uzmanlara teslim etmek için belirli bir algoritma kullanır ve daha sonra, modelin doğruluğunu artırmak için sınıflandırma modelini eğitmek için sorgulanan örnekleri kullanır. Aktif öğrenme, seçici olarak bilgi edinebilir ve daha az eğitim örneği yoluyla yüksek performanslı modeller elde edebilir En yaygın kullanılan strateji, belirsizlik kriterleri ve fark kriterleri aracılığıyla etkili örneklemler seçmektir.

(3) Evrimsel öğrenme

Evrimsel öğrenme, evrimsel algoritmalar tarafından sağlanan optimizasyon araçlarına dayalı olarak makine öğrenimi algoritmaları tasarlar.Makine öğrenimi görevlerinde çok sayıda karmaşık optimizasyon problemini hedefler ve makine öğrenimi ve sınıflandırma, kümeleme, kural keşfi ve özellik seçimi gibi veri madenciliği problemlerine uygulanır.

Evrimsel algoritmalar genellikle bir dizi çözümü korur ve mevcut çözümlerden yeni çözümler üretmek için sezgisel operatörler kullanır ve bir sonraki döngüye girmek için daha iyi çözümler seçerek çözümlerin kalitesini iyileştirmeye devam eder. Evrimsel algoritmalar, parçacık sürüsü optimizasyon algoritmalarını ve çok amaçlı evrimsel algoritmaları içerir.

03 Makine öğrenimi sınıflandırması

Makine öğrenimi, denetimli öğrenme, denetimsiz öğrenme, yarı denetimli öğrenme ve pekiştirmeli öğrenmeye bölünebilen öğrenme formuna göre sınıflandırılır. Aradaki fark, denetimli öğrenmenin etiketli örnek setleri sağlaması, denetimsiz öğrenmenin etiketli örnek setler sağlamasına gerek olmaması, az sayıda etiketli örnek sağlamak için yarı denetimli öğrenme ihtiyaçları ve pekiştirmeli öğrenmenin bir geri bildirim mekanizmasına ihtiyaç duymasıdır.

1. Denetimli öğrenme

Denetimli öğrenme, yeni verilerin / örneklerin etiketlenmesini (sınıflandırılmasını) / haritalandırılmasını gerçekleştirmek için belirli bir öğrenme stratejisi / yöntemi aracılığıyla bir model oluşturmak için işaretli sınırlı eğitim veri kümesini kullanmaktır. Denetimli öğrenme, eğitim örneğinin sınıflandırma etiketinin bilinmesini gerektirir.Sınıflandırma etiketinin doğruluğu ne kadar yüksekse, örnek o kadar temsili ve öğrenme modelinin doğruluğu o kadar yüksek olur. Denetimli öğrenme, doğal dil işleme, bilgi alma, metin madenciliği, el yazısı tanıma ve istenmeyen posta algılama gibi alanlarda yaygın olarak kullanılmaktadır.

Denetimli öğrenmenin girdisi, etiketli sınıflandırma etiketlerinden oluşan örnek bir settir, meslekten olmayanların terimleriyle, bir dizi standart yanıt verilir. Denetimli öğrenme, sınıflandırma etiketi verilen örnek kümesinden bir işlevi öğrenir.Yeni veriler geldiğinde, bu işleve dayalı olarak yeni verilerin sınıflandırma etiketini tahmin edebilir. Denetimli öğrenme süreci Şekil 1-5'te gösterilmektedir.

Şekil 1-5 Denetimli öğrenme akış şeması

Denetimli öğrenme altında, girdi verileri "eğitim verileri" olarak adlandırılır ve her eğitim verisi kümesi, istenmeyen posta önleme sisteminde "istenmeyen posta" ve "istenmeyen posta olmayan" sınıflandırması gibi açık bir tanıma veya sonuca sahiptir.

Tahmine dayalı bir model oluştururken, denetimli öğrenme, tahmine dayalı sonuçları "eğitim verilerinin" gerçek sonuçlarıyla karşılaştıran ve modelin tahmine dayalı sonucu beklenen bir doğruluk oranına ulaşana kadar tahmine dayalı modeli sürekli olarak ayarlayan bir öğrenme süreci kurar.

En tipik denetimli öğrenme algoritmaları, regresyon ve sınıflandırmayı içerir.

2. Denetimsiz öğrenme

Denetimsiz öğrenme, etiketlenmemiş verilerde gizlenmiş yapıyı / kuralları açıklamak için etiketlenmemiş sınırlı verilerin kullanılmasıdır. Denetimsiz öğrenme, eğitim örneklerini ve manuel olarak etiketlenmiş verileri gerektirmez; bu, veri depolamayı sıkıştırmak, hesaplama miktarını azaltmak, algoritma hızını artırmak ve pozitif ve negatif örnek ofsetlerinden kaynaklanan sınıflandırma hatalarını önlemek için uygundur. Esas olarak ekonomik tahmin, anormallik tespiti ve veri madenciliği için kullanılır Görüntü işleme, örüntü tanıma ve büyük bilgisayar kümelerinin organizasyonu, sosyal ağ analizi, pazar bölümlemesi, astronomik veri analizi vb. Gibi diğer alanlar.

Denetimli öğrenmeyle karşılaştırıldığında, denetimsiz öğrenmenin örneklem setinde önceden etiketlenmiş bir sınıflandırma etiketi yoktur, yani önceden belirlenmiş standart bir cevap yoktur. Bilgisayara ne yapması gerektiğini söylemez, bunun yerine bilgisayarın verileri kendi kendine nasıl sınıflandıracağını öğrenmesine izin verir ve ardından bu doğru sınıflandırma davranışları için bir tür teşvik kullanır.

Denetimsiz öğrenmede, veriler özel olarak tanımlanmaz ve öğrenme modeli, verilerin bazı iç yapısını çıkarır. Yaygın uygulama senaryoları, ilişkilendirme kurallarının öğrenilmesini ve kümelemeyi içerir. Yaygın algoritmalar arasında Apriori algoritması, KMeans algoritması, rastgele orman (rastgele orman), temel bileşen analizi (temel bileşen analizi) vb. Bulunur.

3. Yarı denetimli öğrenme

Yarı denetimli öğrenme, denetimli öğrenme ile denetimsiz öğrenme arasındadır. Asıl sorunu, etiketleme maliyetini düşürmek ve öğrenme yeteneğini geliştirmek için eğitim ve sınıflandırma için az sayıda etiketli örnek ve çok sayıda etiketlenmemiş örnek kullanmaktır.

Bu öğrenme modunda, girdi verilerinin bir kısmı tanımlanır ve bir kısmı tanımlanmaz.Bu öğrenme modeli tahmin yapmak için kullanılabilir, ancak modelin verileri makul bir şekilde düzenleyebilmesi için verilerin iç yapısını öğrenmesi gerekir.

Uygulama senaryoları sınıflandırma ve regresyonu içerir.Algoritmalar yaygın olarak kullanılan denetimli öğrenme algoritmalarına bazı uzantılar içerir.Bu algoritmalar önce tanımlanamayan verileri modellemeye çalışır ve ardından tanımlanan verileri bu temelde tahmin eder. Grafik çıkarımı (grafik çıkarımı) algoritması veya Laplacian destek vektör makinesi (Laplacian SVM) vb.

4. Pekiştirmeli öğrenme

Takviye öğrenme, takviye sinyali işlevinin değerini en üst düzeye çıkarmak için çevreden davranış haritalamaya kadar akıllı sistemin öğrenilmesidir. Dış çevre çok az bilgi sağladığı için, pekiştirmeli öğrenme sistemi kendi deneyimlerinden öğrenmelidir.

Pekiştirmeli öğrenmenin amacı, çevrenin durumundan davranışa haritalandırmayı öğrenmektir, böylece temsilci tarafından seçilen davranış çevrenin maksimum ödülünü alabilir ve dış çevrenin öğrenme sistemini belirli bir anlamda değerlendirmesi en iyisidir. Robot kontrolü, insansız sürüş, satranç, endüstriyel kontrol ve diğer alanlarda başarıyla uygulanmıştır.

Bu öğrenme modunda, girdi verileri modele geri bildirim olarak kullanılır, denetlenen modelin aksine, girdi verileri yalnızca modelin doğru mu yanlış mı olduğunu kontrol etmenin bir yolu olarak kullanılır. Takviyeli öğrenme altında, girdi verileri doğrudan modele geri beslenir ve modelin hemen üzerinde ayarlamalar yapması gerekir. Yaygın uygulama senaryoları arasında dinamik sistemler ve robot kontrolü bulunur.

Bir moda dergisi stajyeri olmak ister misiniz? Ne söyleyeceklerini duyalım!

GUCCI "Artist Dasein" izleme noktaları