Bir model oluşturun, ezberlemeyi durdurarak başlayın

Makine öğrenimi / veri bilimi araştırmacıları için regresyon analizi en temel görevlerden biridir ve çoğu makine öğrenimi / veri bilimi araştırması için başlangıç noktası olarak kabul edilebilir.

Bu makalenin yazarı Kevin Hannay, biyolojiden matematiğe ve veri bilimine kadar bir araştırmacıdır. "Sınır ötesi" olmayı seçmesinin nedeni, matematiğin ezberleme denizinden kaçıp tamamen imaja geri dönmesine izin vermesidir. Sonuç çıkarmak için bu şekilde analiz edin.

Ona göre temelde tüm sorunlar regresyon analizi düşüncesi ile çözülebilir. Makine öğrenimi / veri bilimi modellerinin oluşturulmasında, ezberlemeyi durdurarak ve regresyon analizi düşüncesinin daha fazla kullanılması gerektiğine inanıyor.

Onun paylaşımının size ilham verebileceğine inanıyorum, hadi paylaşımına bakalım:

1. Uvertür

Hafızam kötü.

Üniversitede "ilk aşkım" biyolojiydi ama sonunda hafızayı vurguladıkları için bu kurslardan uzaklaştım. Daha sonra matematik konusunu "ilk görüşte seviyorum", çünkü herhangi bir bilgiyi ezberlemek zorunda değilim. Matematiğin cazibesi, sonuca varma şeklimize dikkat etmesidir. Eğer bir sonucu kendi başınıza kanıtlayamazsanız, henüz anlamadığınız anlamına gelir.

Bazı nedenlerden dolayı, istatistikler hala çeşitli senaryolarda uygulanan testleri listeleyerek öğretilmektedir. Örneğin, aşağıdaki şekilde gösterilen karmaşık akış şeması ve daha spesifik bir istatistiksel test.

Ortalama hipotezi test etmek için istatistiksel akış şeması

Bu, istatistiksel testlerin kafa karışıklığına ve yanlış kullanımına yol açabilir. Ama önemli değil çünkü herkese müjde vereceğim. Temel istatistikler açıklamak için üç bölüme ayrılabilir: örnekleme, güven aralığı ve regresyon.

Bu, veri bilimi ve / veya makine öğrenimi konusunda geçmişi olan herkes için iyi bir haber. Regresyon çoğu makine öğrenimi araştırması için başlangıç noktası olduğundan bu, farkında olmadan istatistiksel hipotez testi yapıyor olabileceğiniz anlamına gelir.

Bu makalede, istatistiksel testlerin son adımına odaklanmak için regresyon perspektifinden yaygın istatistiksel testlerin nasıl ele alınacağını göstermek için örnekler kullanacağım.

2. Doğrusal regresyonun hızlı bir incelemesi

Doğrusal regresyonda, özellik x ile yanıt değişkeni y arasındaki ilişkinin doğrusal bir modelini oluşturuyoruz.

Bu model istatistiksel olarak anlamlıdır çünkü

Rastgele bir parametre olarak ayarlanmıştır.

Sıradan en küçük kareler yöntemindeki (OLS) gürültü teriminin normal dağıldığı varsayılır

Bu matematiksel bir modeldir ve aynı zamanda veri seti hakkındaki varsayımlarımızı doğru bir şekilde temsil etmenin bir yoludur. Ne zaman bir model inşa edersek, George Box'ın şu ünlü sözünü hatırlamakta fayda var:

Tüm modeller yanlış, ancak bazıları kullanışlıdır. (Tüm modeller yanlış, ancak bazıları kullanışlıdır)

Bir model, gerçek dünyanın karmaşıklığının bir soyutlaması ve basitleştirilmesidir.Sadece bir basitleştirme olduğu için, model her zaman gerçek sorunları tam olarak yansıtmayabilir, ancak onları kullanmak bazı önemli fikirleri yakalayabilir.

İlk olarak 1991'den 2018'e kadar NBA Taslağının bir veri seti örneğine bakalım. Draft seçim sayısı ile oyun başına ortalama profesyonel puanlar arasındaki ilişkiye bakabiliriz.Aşağıdaki dağılım grafiği ve verinin en uygun regresyon çizgisi bu ilişkiyi gösterir.

1991'den 2018'e kadar 737 NBA oyuncusunun draft sayısının ve maç başına profesyonel ortalama puanlarının (PPG) doğrusal regresyon analizi

Dağılım grafiğinde üst üste binmekten kaçınmak için bu noktaların rastgele titreştiğini unutmayın.

En uygun regresyon denklemi aşağıdaki gibidir:

En uygun doğrusal regresyon modeli

Doğrusal regresyonun en iyi uyumu genellikle artık terimin karesini en aza indirerek elde edilir.

N veri noktasının doğrusal regresyon maliyet fonksiyonu

Burada maliyet fonksiyonunun gerçek minimizasyon ilkesini tartışmayacağım. Bazı doğrusal cebir tekniklerini kullanarak, bu maliyet fonksiyonunun global minimumunun hızlı bir şekilde bulunabileceği söylenebilir, bu da bize en iyi eğim ve kesişim uydurma parametrelerinden bazılarını sağlar.

Üç, kategorik değişken regresyon

Doğası gereği kategorik olan özellikler üzerinde de regresyon gerçekleştirebiliriz.Buradaki püf noktası, kategorik değişkenler üzerinde sözde tek sıcak kodlama yapmaktır. Buradaki fikir, sınıflandırma seviyelerini gösterge değişkenlerine dönüştürmektir (

). Giriş belirtilen seviyeye aitse, bu değerler 1, aksi takdirde 0'dır.

Örneğin, NBA taslak verileri için, "çekiliş numarası" sütunu piyango çekilişlerine (14) ve loto dışı çekilişlere (NL) bölünebilir.

Ardından, bu iki oyuncu grubu arasındaki oyun başına ortalama puan farkını bulabiliriz.

Regresyon modeli kodlama, bir piyango bölgesi değilse gösterge değişkeni 0, aksi takdirde 1

Aşağıda regresyon çizgisini gösteren bir veri grafiği bulunmaktadır.

Eğim terimi , her oyunda piyango dışı çekiliş (x = 0) ve piyango kuralı (x = 1) arasındaki ortalama puan farkını yansıtır. Buradaki hafif yükseliş eğilimi, piyango tasarlayanların kariyerleri boyunca daha yüksek ortalama puanlara sahip olma eğiliminde olduklarına dair kanıtımız olduğu anlamına geliyor.

Tabii ki, bu trend analizi rastgele örneklenen oyunculara dayanıyor, bu yüzden yeni bir örnek toplarsak bu yükseliş trendi ortadan kalkabilir. Rastgele örneklemeden kaynaklanan bu değişikliği hesaba katmak için, eğim için bir güven aralığı oluşturabiliriz.

Yukarıdaki piyango draft örneği için, aşağıdaki parametreler için% 95 güven aralığını bulduk:

Bu bize, piyango draft oyuncularının profesyonel PPG'sinin eksi piyango dışı draft oyuncularının profesyonel PPG'sinin ortalama 3,48 ila 4,78 olabileceğini söylüyor. Bu bize sonucun eğilimini (pozitif) ve sonucun boyutunu (3,5-4,8 puan) anlamamızı sağlar.

Eğim aralığının 0 içermediğini görebiliriz, bu, veriler yeniden örneklenirse, bu eğilimin tersine dönme olasılığının düşük olduğu anlamına gelir. Güven seviyesini% 95'ten% 99'a yükseltirseniz, güven aralığının genişliğinde bir artış göreceksiniz. Hataları azaltmak için daha geniş bir güven seviyesi değerleri aralığı gereklidir.

Aralığın sol tarafı 0'a ulaşana kadar güven aralığının% güven düzeyini (100-p) artırma oyununu oynayabiliriz. Bu andaki parametre değerine p-değeri denir.

Sıfır hipotez eğimi sıfır olan p değeri, boş hipotez alanına dokunana kadar güven aralığının genişliğini sürekli olarak artırarak belirlenebilir.

P değeri, sıfır hipotezi doğru olduğunda (yani Ho: = 0) gözlemlenen verilerin P (D | Ho) olasılığını verir.

Dört, iki örnekli t testi

Bazı durumlarda, iki örneklemli t testinin istatistiksel test kategorisine ait olan sonuçların boyutu değil, yalnızca sonuçların eğilimiyle ilgilenebiliriz. Temel istatistik dersinde, ortalamadaki farkı kanıtlamak için bu iki koşul altında toplanan verileri değerlendirmek için iki örneklemli t-testini kullanmayı öğrendik: kontrol grubu ve deney grubu.

Bu testi R'de gerçekleştirmek için, önce oldukça büyük bir taslak veri kümesinden daha küçük bir veri kümesi oluşturun. Aşağıdaki komut, karşılaştırmamız için yalnızca rastgele 100 oyuncudan oluşan bir alt küme oluşturur ve ayrıca iyi hesaplamalar için veri kümesinde bir piyango sütunu oluşturur.

İki örneklemli bir t testi için iki grup oluşturun ve benimki ile aynı sonucu elde etmek için aynı rastgele çekirdek değerini kullanın

Artık t testini R dilinde çalıştırmaya hazırsınız.

Piyango ve piyango dışı NBA oyuncularının oyun başına ortalama profesyonel puanlarındaki farkı bulmak için iki örnekli bir t testi yapın

Şimdi sonuçlardaki p-değerine dikkat edin Buradaki görece küçük değer, verilerin boş hipotez altında p-değerine ulaşma ihtimalinin düşük olduğunu gösterir.

Şimdi, bunu kategorik özelliklerle doğrusal bir regresyon olarak test edin.

Aşağıdakiler, basit doğrusal regresyonun özet komutunun sonuçlarını görüntülemek için R dilini kullanacaktır.

Önemli nokta yukarıda vurgulanmıştır.İki örneklemli t-testini kullanarak elde ettiğimiz sonuçlarla karşılaştırın. T-değeri (işarete kadar) ve p-değeri aynı!

Ek olarak, R dilini kullanarak regresyonun özet sonuçlarını görüntülerken, özet sonuçların son satırının aynı p değerini tekrarladığını fark ettim, bu da tüm regresyon modelinde F testinin çalıştırılmasının sonucudur.

Test yoluyla, modeldeki herhangi bir özelliğin istatistiksel anlamda sıfırdan sapıp sapmadığını bilebiliriz. Bu basit örnekte, yalnızca bir özellik vardır, bu nedenle modele dayalı F testi, loto bölgesi özelliğine dayalı T testine eşdeğerdir, ancak ikisi çoklu regresyonda farklı olacaktır (1'den fazla özellik).

Beş, varyans analizi ve çoklu regresyon

Oyuncu pozisyonlarının profesyonel ortalama puanları üzerindeki etkisini değerlendirmek istediğimizi varsayalım. Öncelikle, veri setindeki konum sütununun seviyesini temizlemeliyiz.

Konum (Konum) sütununun seviyesini temizlemek için R'deki forcats paketini kullanın.Burada, konum olarak C, F, G'yi elde etmek için bazı kategoriler birleştirilir.

Ardından, konuma göre kariyer puanlarının bir kutu grafiğini çizebiliriz:

Pozisyonun NBA oyuncunun profesyonel skoru üzerindeki etkisinin kutu grafiği

Bu grupların araçlarının gerçekten farklı olup olmadığını veya gözlenen farklılıkların örnekleme hatasıyla da açıklanıp açıklanamayacağını bilmek isteyebiliriz. Klasik istatistikte, genellikle tek yönlü varyans analizi (varyans analizi) gerçekleştiririz. R dilini kullanarak uygulamak kolaydır:

Varyans analizi yapmak için R dilini kullanın, p değerinin en sağda olduğuna dikkat edin ve p = 0,0813

Aynı zamanda bir regresyon problemi olarak da ele alınabilir. Regresyon modeli aşağıdaki formlara sahiptir:

Merkezin ortalama değeri, alfa kesişme değeri yoluyla bilinebilir ve merkez değerine göre nokta, iki eğim aracılığıyla bilinebilir.

Yukarıdaki işlemler R dilinin altında yapılır, aşağıdaki çıktıdır:

Lei Feng Ağı Lei Feng Ağı

Regresyon çıktısındaki son satırı ve ANOVA çıktısını (F testi) karşılaştırın ve aynı sonucu tekrar görüyoruz!

Buradan, tek yönlü varyans analizinin yalnızca ikiden fazla sınıflandırma özelliği düzeyine sahip doğrusal bir regresyon modeli olduğunu biliyoruz. Kullanılan test, tüm eğimlerin sıfır olduğuna dair boş bir hipoteze sahiptir.

Altı, iki faktörlü varyans analizi

İki yönlü varyans analizinde, sürekli yanıt değişkenlerini tahmin etmek için iki kategorik özellik kullanılır.

Taslak veri kümesini işlemek için Tm (taslak ekibi) sütununu ve Konum (konum) sütununu kullanın. İki yönlü ANOVA, modele uyması için daha fazla veri gerektirir, bu nedenle azaltılmış veri kümesi yerine tam veri kümesini kullanacağız . İki sınıflandırma özelliği seviyesini temizlemek için önce aşağıdaki iki komutu çalıştırın.

Tüm taslak veri kümesinin ekip sütununu ve konum sütununu temizlemek için forcats paketini kullanın

Bu durumda, doğrusal modelin biçimi şöyledir:

İlk toplam, sanal kodlanmış takım değişkenlerinin üst üste binmesidir ve ikinci toplam, konum kategorilerinin üst üste binmesidir. Yukarıdaki sonuçlar, R dilinin altında iyi bir şekilde tamamlanmıştır. Analiz için, doğrusal bir model oluşturmak için aşağıdaki yöntemleri kullanabiliriz:

Doğrusal varyans modelinin iki yönlü bir analizini oluşturun

Buradaki tek değişiklik, modelde aşağıdaki sonuçları gösterecek olan genel özet komutu yerine anova komutunun kullanılması gerektiğidir:

Tm ve Pos satırlarındaki veriler, pozisyonun profesyonel noktalarla yakından ilişkili olduğunu doğrulamaktadır, ancak ekibin profesyonel noktalarla ilgili olduğuna dair yeterli kanıt yoktur. Artık, çok değişkenli varyans analizi gerçekleştirmek için çoklu regresyonun nasıl kullanılacağını görebilirsiniz.

Yedi, kovaryans analizi

Regresyona sürekli bir özellik eklerseniz, bu bir kovaryans analizi (ANCOVA) olur. Kovaryans analizinin amacı, pozisyonun NBA oyuncularının PPG'si ile yüksek oranda ilişkili olduğunu bilmektir, ancak bunun nedeni yalnızca belirli pozisyonlardaki oyuncuların diğer pozisyonlardaki oyunculardan daha fazla oyun zamanı harcaması olabilir.

Bu özelliği modele ekleyerek oyun dakikalarının etkisini kontrol edebilirsiniz. İlk olarak, ortalama sıfır ve standart sapma 1 olacak şekilde MP sütununu yeniden ölçeklendirin. Bu ayarın amacı, lineer modeldeki kesişme, profesyonel PPG'yi oyun başına ortalama 0 dakika olan merkeze getireceğinden, başka yönlerden gerçekten hiçbir etkisinin olmamasıdır.

Şimdi, durdurma bilgisi, oyun başına ortalama oyun süresi olan bir merkezin ortalama PPG'sinin anlamını açıklamak için kullanılabilir. Sadece küçük bir kısmı açıklayabilir, ancak model anlayışı için daha anlamlıdır.

"Oynanan dakika" sütununu yakınlaştırın

Bu, oyun süresi ile her oyunun skoru arasındaki ilişkinin bir grafiğidir ve pozisyon renkli olarak gösterilir.

Şimdi doğrusal bir model oluşturmak için:

Aşağıdaki sonuçları verecektir:

İlk veri satırından, oyun süresini kontrol ettikten sonra bile, pozisyonun profesyonel PPG üzerinde istatistiksel olarak önemli bir etkisi olduğunu görebiliriz.

8. Oran ve Genelleştirilmiş Doğrusal Model

Diğer temel istatistiksel süreçleri regresyon olarak da ifade edebiliriz. Bununla birlikte, daha fazla araştırma için sözde genelleştirilmiş doğrusal modeli (GLM) kullanmamız gerekiyor.

İlk olarak, bir sözde veri seti oluşturulmalıdır. Aşağıdaki komut, A ve B oyuncularının her birinin 100 serbest atış attığı varsayımsal oyunun serbest atış sonuçlarını ve oyuncu isimlerini saklamak için bir R veri çerçevesi oluşturur.

Oyuncu B'nin atış oranı sadece% 77 iken, Oyuncu A'nın atış oranı% 80'dir, ancak bir örnekleme hatası vardır. Rastgele çizimin sonuçlarını görüntülemek için R'deki tablo komutunu kullanabilirsiniz:

İki oyuncunun yüzdelerinin farklı olduğu hipotezini test etmek için iki numuneli oran testi yapmak gerekli olabilir.

Testi tamamlamak için R dilinde prop.test komutunu kullanabilirsiniz.

R dili ile iki kuyruklu oran testinin sonuçları, burada test etmek için basitçe iki eşit oranın sıfır hipotezini kullanın veya aynı p değeriyle ki-kare testi olarak yapılabilir.

Şimdi bu regresyon yöntemidir Yukarıda belirtildiği gibi, yanıt değişkeni artık sürekli olmadığından, regresyonun ikili çıktıyı işleyecek şekilde ayarlanması gerekir. Aslında, modelin bir olasılık üretmesini istiyoruz

.

Lojistik regresyon burada kullanılabilir. Olağan regresyon formu:

Lojistik regresyonda çıktı

Vermeli

Özellik süresi

Değerin 1 olma olasılığı. Yukarıda belirtildiği gibi, modelin sağ tarafındaki çıktı nedeniyle sorularımız olacak.

Aralığın değeri ve sol taraf, aralık içinde olmalıdır.

Bu nedenle, yukarıdaki modeli kullanmak için çıktının tüm gerçek sayı R aralığına dönüştürülmesi gerekir. Logit işlevi en iyi seçimdir çünkü lojistik regresyon eşlemesi: R.

Bu nedenle, çıktı logit işlevi tarafından sağlanırsa

Oluşturuldu, birden çok regresyon tekniği kullanabilirsiniz. Lojistik regresyonun temel fikri budur:

Son olarak, gerçek olasılığı elde etmek için logit işlevinin karşılığını kullanabilirsiniz:

onların arasında,

Veren:

Lojistik regresyon, bir dizi genelleştirilmiş doğrusal model (GLM) tekniğinin bir örneğidir. Genelleştirilmiş doğrusal model, doğrusal bir tahmin işlevi içerir

Ve doğrusal tahmin işlevini yanıt değişkenine eşleyen bir bağlantı işlevi g:

Bunun R dilinde uygulanması kolaydır, sadece lm işlevini glm işlevine değiştirin ve kullanılacak bağlantı işlevini belirtin.

İki örnekli oran testi yapmak için lojistik regresyon ve model karşılaştırmasını kullanın, p değerinin yukarıda elde edilen sonuçla eşleşmesine dikkat edin

Yukarıdaki durumda, aslında iki lojistik regresyon uydururuz, ilki aslında inşa etmek istediğimiz modeldir ve ikincisi iki örneklem oran testinin sıfır hipotezine eşdeğerdir. Sadece engellemeye uyun (yukarıda ~ 1), her iki oyuncu için serbest atış yüzdesi aynı olmalıdır.

Ardından, oluşturulan modeli boş hipotez modeliyle karşılaştırmak için anova işlevini kullanın ve varyans analizi için olabilirlik oran testini (LRT) belirtin. Tabii ki, genellikle yukarıdaki oran testi ile aynı p değerini almaya dikkat edin.

Ek olarak, bu örnek model seçimi için regresyon modellerinin ve anova komutunun nasıl kullanılacağını gösterir. Aslında, üzerinde çalıştığımız yön budur, çünkü sıfır hipotezi her zaman bir model olmuştur ve bunu daha önce anova komutunda belirtmeye gerek yoktu.Bu aynı zamanda, kurulu modeli daha karmaşık bir boş hipotez modeliyle karşılaştırmaya nasıl başlayacağımızı da gösterir. .

Model seçimi, modelleri karşılaştırmanıza ve sıradan boş hipotez modelinin ötesine geçmenize olanak tanır.

9. Bu neden önemlidir?

Matematiksel modelin doğal ilerlemesinin süslü diyagramı aşağıdaki gibidir:

RIP modeli, bu derin öğrenme araştırması için bir uyarı olsun!

İstatistiksel testi matematiksel bir model olarak ele almak zorunda kaldığımızda, hipotezler en merkezi kısım haline gelir. Araştırmacıların umduğu şey, model yaşam döngüsünün ilk iki aşamasında daha uzun süre dayanabileceğidir. Dahası, bu, bir dizi istatistiksel test bilgisini ezberlemeyi bırakabileceğimiz anlamına gelir.

Bir model oluşturun, ezberlemeyi durdurarak başlayın.

Bu konuyu öğrenmeye devam etmek istiyorsanız, Jonas Lindeløv'un web sitesine bakmanızı şiddetle tavsiye ederim:

  • https://lindeloev.github.io/tests-as-linear/

Ders kitapları açısından, "İstatistiksel Yeniden Düşünme" ve diğer temel istatistik kitaplarını tavsiye ederim, "Tüm İstatistikler" i ve daha gelişmiş bazı regresyon analizi kitaplarını okumayı deneyebilirsiniz; Gelman ve Hill'e dikkat etmenizi öneririm. akademisyen.

https://towardsdatascience.com/everything-is-just-a-regression-5a3bf22c459c?gi=fdba1e4d53ca Lei Feng Net Lei Feng Net Lei Feng Net aracılığıyla

Öz dikkat ajanı, küçük boyut, büyük yetenek
önceki
Today Paper | RevealNet; zaman serisi tahmini; denetimsiz soru ve cevap; gerçek zamanlı anlamsal stereo eşleştirme, vb.
Sonraki
Dikkatli ol! Enfekte bir kişi 49 gün boyunca detoksifiye edildi ve 30 gün boyunca asemptomatik kaldı. Zhang Wenhong: Belki de tarihteki en zor virüs
Türler arası yaratma, AI zürafa resimlerini kuşlara dönüştürür ve ayrıca insanları ve makineleri kandırır
Huawei, ikinci 5G işlemcisi Kirin 820'yi piyasaya sürdü, Honor 30S
Shandong Eyaleti, Xin İlçesi, Zhangzhai Kasabası: "Yoksulluğu Azaltma Çalıştayı" meşgul
Dezhou'da 100 dönümlük kolza çiçeği denizi "çevrimiçi", ziyaretçiler baharın tadını çıkarıyor
OPPO Enco W31 gerçek kablosuz kulaklık: düşük gecikme süresi, üç renk
Tekrarlanmalı, açılmalı, açılmalı, kapatılmalı kapatılmalı! Teksas kültürel seyahat endüstrisi, düzenli bir şekilde çalışmaya ve üretime devam ediyor
Salgının sorumlusu Çin'de üretildi: Ülkenin ihtiyacı olanı üreteceğim
Haftalık Arazi Edinimi | Arazi arzı ve cirosu Ocak ayında keskin bir düşüşle önceki aya göre% 60'ın üzerinde düşüş gösterdi
Prospective Medical Device Industry Global Weekly Report No. 15: Moderna'nın ilk parti yeni koroner pnömoni aşıları üretildi ve insan denemelerine hazır
Kiangsi'de bir araba sahibi içki içmeye ve araba kullanmamaya mahkum edildi! Sorun ne?
Taibai Gölü kıyısında, güzel bir yaşamla buluşan Lakeside Yunlu Geçici Kabul Merkezi halka açık
To Top