Veri bilimcilerin bilmesi gerekenler: merkezi sınır teoremi

Tam metin 1222 Kelimeler, tahmini öğrenme süresi 4 dakika

Kaynak: Pexels

Veri bilimcilerin bilmesi gerekenler: merkezi limit teoremi. Anlıyor musun?

Kodlamadan önce hızlı bir inceleme

Bugün, Merkezi Limit Teoremini (CentralLimit Teoremi) ve teorem ile veri bilimcilerinin büyük çalışmaları arasındaki ilişkiyi yeniden yapılandırmak istiyorum.

Histogramı inceleyin

Her şeyden önce, herhangi bir veri bilimcisi için temel araç bir histogramdır - çok basit bir çizelge. Kesinlikle birçok histogram görecek olsak da, genellikle önemini gözden kaçırıyoruz. Histogramın temel amacı, belirli bir veri setinin dağılımını anlamaktır.

Histogram, x ekseninde bulunan değişkeni ve farklı değerlerinin y ekseninde görünme sayısını temsil eder.

Bu, veri kümesindeki benzin galonu başına mil sayısının toplam araba sayısı içindeki dağılımını anlamak istiyorsanız bir örnektir. Buradaki mtcars veri setini kullanarak, grafiğin sağ tarafında bir kuyruk görebilirsiniz Bu histogram, sözde sağa sapma olarak adlandırılır. Bunun arkasındaki konsept şudur: bazı arabaların son derece yüksek yakıt tüketimi vardır, ancak bu arabalar çok azdır.

Standart normal dağılım

Az önce gördüğünüze benzer şekilde, klasik dağılım, çan eğrisi veya standart normal dağılım olarak da adlandırılan normal dağılımdır. Temel kavram, olayların "dağılımının" "simetrik" olmasıdır.

Aşağıdaki histogram öncekine benzer, ancak burada daha simetriktir.

Merkezi limit teoremi nedir?

Merkezi limit teoremi, örnek ortalamasının dağılımının yaklaşık olarak normal olması gerektiğini belirtir.

Uygulamada teorem

Şu örneği düşünün: Bir üniversitede çalıştığınızı ve mezunların okulu bıraktıkları ilk yıldaki gelir dağılımını öğrenmek istediğinizi varsayalım.

Gerçek şu ki, bu veri noktasını her mezundan toplayamayacaksınız. Alternatif olarak, her "numune" için ayrı bir örnek ortalama elde etmek için popülasyonu birden çok kez örnekleyebilirsiniz.

Şimdi, histogram aracılığıyla örnek ortalamasını çizerek, normal bir dağılımın görünümünü görebilirsiniz.

Buradaki kilit nokta, girdi değişkeni normal olarak dağıtılmasa bile, örnekleme dağılımının standart normal dağılıma yakın olacağıdır.

kodlama!

Fikrin son göstergesi olarak, MPG'nin dağılımı ilk olarak mtcars veri setinden türetilmiş ve grafiğe dökülmüştür. Burada, her bir mpg örneği için bir vektörü bölün ve 50 örneği çaprazlayın. Her örnek, veri setindeki ortalama 10 rastgele kaydı alır. Normal dağılımın göründüğünü görebilmeniz için bunları tekrar histogram olarak çizin.

mpg_samples < (1: 50'de i) {mpg_samples için -c () = Ortalama (örnek (mtcars $ mpg, 10, değiştir = DOĞRU)))} hist (mpg_samples, col = 'mor', xlab = "MPG")

Merkezi limit teoremi, veri bilimi eğitiminde temel bir kavram olarak kullanılır. Bu teorem, hipotez testlerinin, deneylerin ve diğer veri bilimi yöntem ve tekniklerinin temelidir.

Aynı zamanda anlamanız ve ustalaşmanız gereken bir şeydir.

Kaynak: Pexels

Okuduğunuz için teşekkürler, umarım bu makale size yardımcı olur!

Yorum Beğen Takip Et

Yapay zeka öğrenme ve geliştirmenin kuru mallarını paylaşalım

Yeniden yazdırıyorsanız, lütfen arka planda bir mesaj bırakın ve yeniden yazdırma şartnamelerine uyun

Bugünün Core Sound | Haftada iki kez Fuse! Beş büyük teknoloji devinin piyasa değeri bir gecede buharlaştı
önceki
Not! Salgın sırasında bu "yeni dolandırıcılık rutinlerine" dikkat edin! Birçok insan kandırıldı!
Sonraki
Hazır? 2020'de beş büyük teknolojik yenilik
Gelecekte hızlı değişikliklere yol açan yapay zeka trendleri
Tatil bildirimi ... yine burada!
bak! Pekin'in manolya çiçeği!
Pekin dün yakın zamanda teyit edilmiş bir ithal yeni koroner pnömoni vakası bildirdi ve 8 vaka tedavi edildi ve taburcu edildi
Pekin "Sağlık Hizmetleri" nin kullanımı nedir? Giriş ve çıkış sertifikası olarak kullanılabilir mi? Yeşil devletin artık izole edilmesine gerek yok mu?
Xiangtan Yaowan turistik cazibe merkezinin yeniden açıldığı ilk günkü duruma bir göz atalım
Araba dinamikleri: BYD Song Classic ön satış; Chevrolet Traverse resmi haritası; yeni Q7 sınırlı sayıda
Yeni nesil Citroen C4 ortaya çıktı, 1.2T arayacağı tahmin ediliyor
Yeni Baojun: Asla yenilgiyi kabul etmediğini açıklamak için eylemi kullanın
Lincolnün yeni maceracı, gerçekten "maceracı"
Mercedes-Benz GLC: 140.000 adetlik yıllık satışın bir nedeni var
To Top