Liberal sanat öğrencileri tarafından anlaşılabilen makine öğrenimi dersleri: gradyan iniş, doğrusal regresyon, lojistik regresyon

Kaynak: Xinzhiyuan

Bu makale yaklaşık 4200 kelimedir , 10+ dakika için önerilen okuma .

Bu makale, makine öğrenimini kolay anlaşılır bir şekilde açıklar ve bilim geçmişi olmayan okuyucular tarafından anlaşılmaya çalışır.

Wu Enda ve diğer uzman kursları da dahil olmak üzere Coursera, MIT ve UC Berkeley'de birçok makine öğrenimi kursu bulunmasına rağmen, bunların tümü belirli bir bilim geçmişine sahip profesyoneller içindir. Bu makale, makine öğreniminin ezoterik seyrini daha basit ve anlaşılır bir şekilde sunmaya çalışmaktadır, böylece bilim geçmişi olmayan okuyucular bunu anlayabilir.

Karmaşık şeyleri, profesyonel olmayanların kısa sürede anlayabilmesi ve aniden farkına varan bir ifade göstermesi için basitleştirmek çok güçlü bir beceridir.

Örneğin. Bir makine öğrenimi mühendisi için başvuruyorsunuz ve liberal sanatlar geçmişine sahip bir İK ile karşı karşıyasınız.Profesyonel yeteneklerinizi en kısa sürede anlamasına izin verirseniz, mülakat başarı oranını büyük ölçüde artırabilirsiniz.

Artık makine öğrenimi çok popüler olduğu için, giderek daha fazla insan sektöre girmek istiyor, ancak daha fazla insanın kafası karışıyor. Halkın makine öğreniminin ne yaptığını anlaması zor olduğu için mi? Lojistik regresyon ve gradyan iniş gibi gizemli ve bulanık kavramlar nelerdir?

23 yaşındaki bir farmakoloji öğrencisi, bir makine öğrenimi eğitim kursuna katılmak için gittiğinde, kendisini evde modern teknolojiyi anlamayan büyükanne gibi hissettiğini söyledi.

Bu yüzden Audrey Lorberfeld adlı bir mezun, halkla makine öğrenimi arasındaki boşluğu doldurmaya çalıştı. Yani bir dizi makale var.

Bu serinin ilk dersi:

  • Dereceli alçalma
  • Doğrusal regresyon
  • Lojistik regresyon
Algoritma ve model

Makine öğrenimini anlamadan önce, iki temel kavramı anlamamız gerekir: algoritmalar ve modeller.

Modeli girdi (para) ve çıktı (Kola) olan bir satış makinesi olarak düşünebiliriz. Algoritma bu modeli eğitmek için kullanılır,

Verilen girdiye dayanarak, model beklenen çıktıyı elde etmek için ilgili kararları alır. Örneğin, bir algoritma, yatırılan miktara ve Kolanın birim fiyatına göre paranın yeterli olup olmadığına ve daha fazlası varsa ne kadar para bulunması gerektiğine karar verir.

Sonuç olarak, algoritmalar modelin arkasındaki matematiksel canlılıktır. Model olmadan algoritma sadece matematiksel bir denklemdir. Farklı modeller, kullanılan farklı algoritmalara bağlıdır.

Gradyan iniş / en uygun çizgi

(Bu, geleneksel olarak bir makine öğrenimi algoritması olarak görülmese de, gradyanı anlamak, kaç tane makine öğrenimi algoritmasının mevcut olduğunu ve nasıl optimize edileceğini bilmek için gereklidir.) Gradyan inişi, bazı verilere dayanarak en doğru tahminleri elde etmemize yardımcı olur.

Örneğin. Tanıdığınız herkesin boyu ve kilosunun geniş bir listesine sahipsiniz. Ardından aşağıdaki dağıtım haritasını yapın:

Grafikteki rakamlar tuhaf mı? Bu detaylar için endişelenmeyin.

Şimdi, topluluğun mahalle komitesi boyuna göre ağırlığı tahmin etmek için bir yarışma düzenleyecek ve kazanana kırmızı bir zarf verilecek. Sadece bu resmi kullan. sen ne yapardın?

Grafiğin üzerine bir çizgi çizmek isteyebilirsiniz.Bu çizgi boy ve kilo arasındaki ilişkiyi mükemmel bir şekilde gösteriyor.

Örneğin bu mükemmel çizgiye göre 1.5 metre boyundaki bir kişi temelde yaklaşık 60 kg ağırlığındadır. Ah, öyleyse, bu mükemmel ipliği nasıl buldunuz? Cevap: Gradyan iniş.

Önce RSS (karelerin artık toplamı) adlı bir kavramdan bahsedelim. RSS, nokta ve doğru arasındaki farkın karelerinin toplamıdır ve bu değer, noktanın ve doğrunun ne kadar uzakta olduğunu temsil eder. Gradyan inişi, RSS'nin minimum değerini bulmaktır.

Bu satır için bulduğumuz farklı parametreleri her seferinde görselleştiriyoruz ve maliyet eğrisi adı verilen bir şey elde ediyoruz. Bu eğrinin noktası bizim RSS minimumumuzdur.

İnanılmaz veri bilimcisi Bhavesh Bhatt'tan Gradient Descent görselleştirme (MatplotLib kullanarak)

Gradyan inişinin "adım boyutu" ve "öğrenme hızı" (yani, dibinin altına hangi yönde gitmek istediğimiz) gibi başka alt bölümleri de vardır.

Kısacası, veri noktası ile en uygun çizgi arasındaki en küçük boşluğu bulmak için gradyan inişini kullanırız ve en iyi siz ve çizgi, tahminimizin doğrudan temelini oluşturur.

Doğrusal regresyon

Doğrusal regresyon, bir değişken ile bir veya daha fazla değişken (bağımsız değişkenler) arasındaki ilişkinin gücünü analiz etme yöntemidir.

Doğrusal regresyonun işareti, adından da anlaşılacağı gibi, bağımsız değişken ile sonuç değişkeni arasındaki ilişkinin doğrusal olmasıdır, bu da değişkenler arasındaki ilişkinin düz bir çizgi olabileceği anlamına gelir.

Bu yukarıda yaptığımıza benziyor! Bunun nedeni, doğrusal regresyondaki "regresyon çizgimizden" önceki en iyi uygulama çizgisidir. En iyi uyum çizgisi, noktalarımız arasındaki en iyi doğrusal ilişkiyi gösterir. Bu da bizim tahminlerde bulunmamızı sağlıyor.

Doğrusal regresyonla ilgili bir diğer önemli nokta, "diğer değişkenlere göre değişen" (biraz dolambaçlı) sonuç değişkeni veya değişkeninin her zaman sürekli olmasıdır. Ama bu ne anlama geliyor?

New York Eyaletindeki yağışları etkileyen faktörleri ölçmek istediğimizi varsayalım: Ortaya çıkan değişken, en çok ilgilendiğimiz şey olan yağış miktarıdır ve yağışları etkileyen bağımsız değişken rakımdır.

Sonuç değişkeni sürekli değilse, belirli bir irtifada görünebilir ve sonuç değişkeni yoktur, bu da bizi tahminlerde bulunmamıza neden olur.

Tersine, herhangi bir yükseklikte tahminlerde bulunabiliriz. Bu, doğrusal regresyonun en havalı kısmı!

Ridge Regresyon ve LASSO Regresyon

Artık doğrusal regresyonun ne olduğunu bildiğimize göre, sırt regresyonu gibi daha soğuk olanlar da var. Ridge regresyonunu anlamaya başlamadan önce, ilk olarak regresyonu anlayalım.

Basitçe söylemek gerekirse, veri bilimcileri, modelin yalnızca sonuç değişkeni üzerinde önemli bir etkisi olabilecek bağımsız değişkenlere odaklanmasını sağlamak için düzenlileştirmeyi kullanır.

Ancak, sonuçlar üzerinde önemli bir etkisi olmayan bu bağımsız değişkenler, düzenleme ile göz ardı edilecek mi? Tabii ki değil! Sebepleri daha sonra detaylı olarak tartışacağız.

Prensip olarak, bu modelleri yaratır, verileri besler ve ardından modellerimizin yeterince iyi olup olmadığını test ederiz.

Bağımsız değişkenlerin alakalı olup olmadığına bakılmaksızın, sonunda eğitim verilerini işlerken modelin harika olduğunu bulacağız; ancak test verilerimizi işlemek çok kötü.

Bunun nedeni, modelimizin yeterince esnek olmaması ve yeni verilerle karşılaştığında biraz kayıp gibi görünmesidir. Şu anda biz buna "Overfit" diyoruz, bu "overfit" anlamına geliyor.

Sonra, aşırı uydurma deneyimi için aşırı uzun bir örnek kullanıyoruz.

Örneğin, yeni bir annesiniz ve bebeğiniz erişteyi seviyor. Son birkaç aydır, temiz havayı sevdiğiniz için mutfakta beslenme ve pencereyi açma alışkanlığı geliştirdiniz. Sonra yeğeniniz bebeğinize yemek yerken vücudunun her yerine gelmemesi için bir önlük verir ve sonra yeni bir alışkanlık geliştirirsiniz: Bebek eriştelerinizi beslerken önlük takmanız gerekir. Sonra bir sokak köpeği evlat edinirsiniz, bebek her yediğinde, köpek bebek sandalyesinin yanında çömelir ve bebeğin düştüğü erişteyi yemeyi bekler. Yeni bir anne olarak bebeğinizin mutlu bir şekilde erişte yemesi için açık bir pencere + önlük + bebek sandalyesinin altındaki bir köpeğin gerekli koşullar olduğunu düşüneceksiniz. Bir gün hafta sonu doğum evinize dönene kadar. Mutfakta pencere olmadığını fark ettiğinizde biraz panikliyorsunuz; o zaman aniden önlüğünüzü aceleyle getirmediğinizi hatırlıyorsunuz; en korkunç olanı da köpeğe komşular tarafından bakılıyor. O kadar panik yaparsınız ki ne yapacağınızı bilemezsiniz ve bebeğinizi beslemeyi unutursunuz, bu yüzden onu yatağa yatırırsınız. Bak, tamamen yeni bir sahneyle karşılaştığınızda kötü davranıyorsunuz. Evde tamamen farklı bir resim tarzı. Modeli yeniden tasarladıktan ve tüm gürültüyü (ilgisiz veriler) filtreledikten sonra, bebeğin kendi yaptığınız erişteleri sevdiğini fark edersiniz. Ertesi gün, bebeğinize önlük takmadan ve köpeğiniz olmadan penceresiz bir mutfakta bebeğinize rahatça besleyebilirsiniz.

Makine öğreniminin düzenli hale getirilmesinin yaptığı şey budur: modelinizin yalnızca yararlı verilere odaklanmasına ve dikkat dağıtıcı öğeleri yok saymasına izin verin.

Solda: LASSO regresyonu (kırmızı adımlarla temsil edilen katsayıların y eksenini geçerken sıfıra eşit olabileceğini görebilirsiniz) Sağda: sırt regresyonu (katsayıların birbirine yakın olduğunu ancak asla sıfıra eşit olmadığını görebilirsiniz, çünkü hiçbir zaman y eksenini geçmezler ) Resim kaynağı: "Makine Öğreniminde Düzenlemeler", Prashant Gupta

Çeşitli normalleştirmeler arasında, bazı sözde ceza faktörleri vardır (Yunanca lambda: ). Bu ceza faktörünün işlevi, matematiksel hesaplamalarda verilerdeki gürültüyü azaltmaktır.

Bazen "L2 regresyonu" olarak adlandırılan mahya regresyonunda, ceza faktörü, değişken katsayıların karesi alınmış değerlerinin toplamıdır. Ceza faktörü, bağımsız değişkenlerin katsayılarını azaltır, ancak asla tamamen ortadan kaldırmaz. Bu, sırt regresyonunda modelinizdeki gürültünün modeliniz tarafından her zaman hesaba katılacağı anlamına gelir.

Başka bir düzenleme türü LASSO veya "L1" düzenlemesidir. LASSO düzenlemesinde, verilerdeki her özelliği cezalandırmak yerine yalnızca yüksek katsayılı özellikler cezalandırılır.

Ek olarak, LASSO katsayıyı sıfıra indirebilir. Bu temelde bu özellikleri veri kümesinden çıkarır çünkü "ağırlıkları" artık sıfırdır (yani gerçekte sıfır ile çarpılırlar).

LASSO regresyonu sayesinde model, veri setindeki gürültünün çoğunu ortadan kaldırabilir. Bu, bazı durumlarda çok kullanışlıdır!

Lojistik regresyon

Artık doğrusal regresyonun = belirli değişkenlerin başka bir değişken üzerindeki etkisi olduğunu biliyoruz ve 2 varsayım var:

  • Sonuç değişkeni süreklidir;
  • Değişken ile sonuç değişkeni arasındaki ilişki doğrusaldır.

Peki ya sonuç değişkeni sürekli değilse de kategorikse? Şu anda lojistik regresyon kullanılmaktadır.

Kategorik değişkenler sadece tek bir kategoriye ait değişkenlerdir. Örneğin, her hafta pazartesiden pazara 7 gündür, bu durumda şu anki gün sayısına göre tahmin yapamazsınız.

Haftanın ilk günü Pazartesi'dir ve Pazartesi günü olan, Pazartesi günü olan şeydir. Yanlış bir şey yok.

Lojistik regresyon modelleri, normal değerler yerine yalnızca bir veya diğer kategorideki bir veri noktasının olasılığını verir. Lojistik regresyon modelinin esas olarak sınıflandırma için kullanılmasının nedeni budur.

Lojistik regresyon dünyasında, sonuç değişkeninin ve bağımsız değişkenin log-olasılıkları doğrusal bir ilişkiye sahiptir.

  • Oran (oran)

Lojistik regresyonun özü olasılıktır. Örneğin:

Bir sınıfta 6 kız 13 erkek olmak üzere 19 öğrenci bulunmaktadır. Kadınların testi geçme olasılığının 5: 1 ve erkeklerin testi geçme olasılığının 3:10 olduğunu varsayalım. Bu, 6 kadından 5'inin testi geçebileceği ve 13 erkekten 3'ünün testi geçebileceği anlamına gelir.

Öyleyse, olasılıklar olasılıktan farklı mı? Pek sayılmaz.

Olasılık, olayların meydana gelme sayısının her şeyin toplam oluşum sayısına oranını ölçer.Örneğin, 40 jeton atma ve 10 kez tura olma olasılığı% 25; olasılık, olay sayısının atma gibi olay sayısına oranını ölçer 30 defadan 10'u tura, olasılık 10 tura atıfta bulunur: 30 ters.

Bu, olasılığın her zaman 0-1 aralığıyla sınırlı olmasına rağmen, oranların sürekli olarak 0'dan pozitif sonsuza kadar büyüyebileceği anlamına gelir!

Bu, lojistik regresyon modelimiz için bir problem teşkil etmektedir, çünkü beklenen çıktımızın bir olasılık olduğunu biliyoruz (yani 0-1 arası bir sayı).

Öyleyse, olasılıklardan olasılığa nasıl geçeceğiz?

Bir sınıflandırma problemi düşünelim, diyelim ki favori futbol takımınız başka bir takıma karşı oynadı ve 6 maç kazandı. Takımınızın kaybetme ihtimalinin 1: 6 veya 0.17 olduğunu söyleyebilirsiniz.

Takımınızın kazanma şansı, çünkü harika bir takımlar, 6: 1 veya 6. Gosterildigi gibi:

Resim kaynağı: https://www.youtube.com/watch?v=ARfXDSkQf1Y

Şimdi, modelinizin takımınızın gelecekteki maçlarda kazanacağını tahmin etmesini istemiyorsunuz, çünkü geçmişte kazanma şansları geçmişte kaybetme şanslarını çok aşıyor, değil mi?

Modelde dikkate alınması gereken daha fazla faktör var (belki hava durumu, belki başlangıç oyuncusu, vb.)! Bu nedenle, oranların büyüklüğünü eşit olarak dağıtmak veya simetrik yapmak için, log-olasılık adı verilen bir şeyi hesaplıyoruz.

  • günlük oranlar

"Normal dağılım" dediğimiz şey: klasik çan eğrisi!

Log-oran, doğal logaritma oranlarının kısaltmasıdır. Bir şeyin doğal logaritmasını aldığınızda, onu temelde daha normal dağıtılmış hale getirebilirsiniz. Daha normal dağıtılmış bir şey yaptığımızda, onu kullanımı çok kolay bir ölçeğe koyarız.

Log-olasılıkları benimsediğimizde, olasılık aralığını 0 pozitif sonsuzdan negatif sonsuza ve pozitif sonsuza çeviririz. Bu, yukarıdaki çan eğrisinde görülebilir.

Çıktının 0-1 arasında olmasına hala ihtiyacımız olsa bile, log-olasılıklar elde ederek elde ettiğimiz simetri bizi istediğimiz çıktıya öncekinden daha yakın hale getiriyor!

  • Logit işlevi

"Logit işlevi", log-olasılıkları elde etmek için yaptığımız matematiksel bir işlemdir!

Korkunç tarif edilemez matematik. Logit işlevini kastediyorum.

logit işlevi, grafikle gösterilmiştir

Yukarıda görebileceğiniz gibi, logit işlevi, doğal logaritmasını alarak olasılıklarımızı negatif sonsuzdan pozitif sonsuza ayarlar.

  • Sigmoid işlevi

Tamam, ama modelin bize olasılığı verdiği noktaya ulaşmadık. Şimdi, tüm sayılarımız negatif sonsuzdan pozitif sonsuza kadar olan sayılardır. Adlandırılmış: sigmoid işlevi.

Sigmoid işlevi, çizildiği zamanki şeklinden sonra adlandırılır, log-olasılıkların yalnızca tersidir. Log-olasılıkların karşılığını alarak, değerimizi negatif sonsuzdan pozitif sonsuza 0-1'e eşleriz. Karşılığında, olasılığı elde edelim, tam da istediğimiz şey bu!

Y değerimizin negatif sonsuzdan pozitif sonsuzluğa değiştiği logit fonksiyonunun grafiğinin aksine, sigmoid fonksiyonumuzun grafiğinin y değeri 0-1'dir. harika!

Bununla, artık herhangi bir x değerini ekleyebilir ve tahmin edilen y değerine kadar izini sürebiliriz. Y değeri, x değerinin bir kategoride veya başka bir kategoride olma olasılığı olacaktır.

  • Maksimum olasılık tahmini

RSS'yi en aza indirerek (bazen "sıradan en küçük kareler" veya OLS yöntemi olarak adlandırılır) doğrusal regresyonda en uygun çizgiyi nasıl bulduğumuzu hatırlıyor musunuz?

Burada, en doğru tahmini elde etmek için Maksimum Olabilirlik Tahmini (MLE) adı verilen bir şey kullanıyoruz.

MLE, verilerimizi en iyi tanımlayan olasılık dağılım parametrelerini belirleyerek bize en doğru tahminleri sağlar.

Verilerin dağılımını nasıl belirleyeceğimizi neden önemsemeliyiz? Çünkü havalı! (Değil)

Sadece verilerimizin kullanımını kolaylaştırır ve modelimizin birçok farklı veriye genelleştirilmesine izin verir.

Genel olarak, verilerimizin MLE'sini elde etmek için, veri noktalarını s eğrisine yerleştiririz ve bunların günlük olasılığını ekleriz.

Temel olarak, verilerin günlük olasılığını en üst düzeye çıkaran s eğrisini bulmak istiyoruz. Maksimum sayıyı elde edene kadar her bir log-olasılık satırı için log olasılığını hesaplamaya devam ediyoruz (her lineer regresyondaki en uygun çizginin RSS'si için yaptığımıza benzer şekilde).

Şimdiye kadar gradyan inişinin, doğrusal regresyonun ve mantıksal incelemenin ne olduğunu biliyoruz Bir sonraki derste, kardeş Audrey karar ağaçlarını, rastgele ormanları ve SVM'yi açıklayacak.

Referans bağlantısı:

https://towardsdatascience.com/machine-learning-algorithms-in-laymans-terms-part-1-d0368d769a7b

Editör: Huang Jiyan redaksiyonu: Lin Yilin - Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Kurak bölgelerde hızla "havadan su alın", bu sihir değil, prototip doğrulandı ve etkili oldu!
önceki
2017'de İsrail'deki 25 son teknoloji girişiminin envanteri, hangisi devlerin bir sonraki sevgilisi olacak?
Sonraki
5. Ulusal İşçi Fotoğraf Sergisi için "Çin Rüyası Emek Güzeli" ücretsiz ziyaret edilebilir
Veri bilimi endüstrisi kalabalık mı oldu? Xiaobai için bu 4 öneri
8:1 KryptonLei Jun, Redmi'nin uygun maliyetli olacağını söyledi; iPhone talebi durgun; Ctrip, bu yıl Yeni Yıl için 400 milyondan fazla insanın seyahat etmesini bekliyor
Elektronik ekranda fırça yazısı, derin deniz operasyonunun VR simülasyonu, 40 yıllık reform ve açılım, yüksek teknoloji etkileşimli deneyim sayısız göze çarpıyor
[Bir Haftada Finansman Gelirleri] 2 ortak şemsiye finansman vakası, finans sektörü soğuk
Çin Lejyonu okuduğunu anlama yarışmasına hakim YARIŞ: Lise öğrencileri Tencent Cornell United'ı yendi
China AI Innovator Forum başarıyla düzenlendi! İşte AI eğitimi ve tıbbi bakım için gizli bir kitap
Shenhua hayranları kızgın! Oyuncuları sorgulamak için sahayı terk etmeyi reddetmek: Formaya layık mısınız? Dön ve eğil!
Süper Lig'in en çılgın takımı! 4 maçta 4 durma süresi golü, 96 dakikalık hikaye ile arka arkaya 2 iç saha maçı
Adidas, dünyanın ilk 3D baskılı seri üretim ayakkabısını piyasaya sürdü, bir çift 20 dakikada basılabiliyor
4 yıllık utanç verici rekor doğdu! Maçtan sonra, Shenhua'nın dış yardımının CCTV canlı görüntüleri tarafından kaydedilen kabalığın açığa çıktığından şüphelenildi.
Büyük veri yönetişimi: Yeni nesil yapay zeka uygulamalarının inişini destekleyen temel taş
To Top