Kuru ürünler Bir makale sizi istatistiklere götürür (kaynaklarla birlikte)

Kaynak: Büyük Veri Özeti

Bu makale Toplamda 3559 kelime 7 dakika okumanız tavsiye edilir.

Bu makale iki büyük istatistik okulunun temel görüşlerini tanıtır: frekans okulu ve Bayes okulu Büyük kahvelerin istatistiksel terminolojiyi nasıl açıkladığına bir göz atalım.

Hipotez testi, P değeri, anlamlılık seviyesi, güven aralığı, güç analizi tam olarak nedir? İşte anlaşılması kolay bir açıklama kılavuzu. Bu makale iki büyük istatistik okulunun temel görüşlerini tanıtır: frekans okulu ve Bayes okulu Büyük kahvelerin istatistiksel terminolojiyi nasıl açıkladığına bir göz atalım.

İstatistiğin önemi nedir? Bu tembel rehberin size tüm temel istatistik fikirlerini anlatması 8 dakika sürecektir! Aceleniz varsa, cesur içeriği izleyin, bir dakika yeter!

İlgili Bağlantılar:

https://medium.com/@kozyrkov/whats-the-point-of-statistics-8163635da56c

İstatistik nedir? Bazı insanlar istatistiğin veri işleme ve analiz ile ilgili bir bilim olduğunu söyler. Doğru! Tanım açısından bu yorum tamamen doğrudur. Şimdi özel içeriğine daha derin bir göz atalım.

İstatistik, yerleşik fikirleri değiştirmekle ilgili bir konudur.

Normal şartlar altında, olaylara (istatistiksel parametreler) dayalı kararlar vermemiz hala zordur, bazen karşılık gelen olaylara sahip olmadığımızdan bahsetmiyorum bile. Aksine, bildiğimiz kısmi olaylar (istatistiksel örnek) ile bilmek istediğimiz genel olaylar (istatistiksel popülasyon) arasında büyük farklılıklar olabilir. Bu, ölçümün kendisinde belirsizlik olduğu anlamına gelir.

İstatistik, belirsizlik koşulları altında olaylara bakış açınızı değiştirebilen bir bilimdir. Elbette emin olmanız gereken ilk şey şudur: mevcut görüşleriniz nereden geliyor? Hipotez testine mi yoksa önceki inançlara mı dayanıyor? Ya da belki hiçbir fikriniz yok ve beyniniz boş.

Bayes okulu, sorunu a priori inanç perspektifinden ele alır.

Bayes istatistikleri, verileri birleştirerek insanların şeyler hakkındaki önceki inançlarını günceller. Bayes okulu, sonuçları ifade etmek için güven aralıklarını (yani, iki sayı arasındaki aralığı) kullanma eğilimindedir.

Frekans okulu, sorunlara sıklık açısından bakmayı savunur.

İstatistik okulu, bir kişinin seçimlerini değiştirmeye odaklanır. İnsanların bilinçaltında seçimler yapmak için önceden herhangi bir inanca ihtiyaçları olmadığı gibi herhangi bir veriyi analiz etmeleri de gerekmez. Sık okul istatistikleri (klasik istatistik olarak da adlandırılır) çoğunlukla günlük yaşamda veya STAT101 gibi istatistiklere giriş derslerinde görülür, bu nedenle bu makale bu tür klasik teorileri de tanıtmaktadır.

Bir hipotez, gerçek dünyanın "olası" bir açıklamasıdır.

Boş hipotez, varsayılan bir durumu, yani varsayılan seçimi tanımlar; alternatif hipotez, boş hipoteze zıt olan bir veya daha fazla başka durumdur. "Boş hipotez" in doğru olmadığını kanıtlamak için verileri kullanırsam, "boş hipotezi" reddedebilir ve alternatif hipotezi kabul edebilirsiniz.

Örneğin: her sabah hazırlık için 15 dakikadan az zaman harcarsanız (boş hipotez), sınıfa birlikte gidebiliriz (varsayılan). Bununla birlikte, gerçekler (veriler) hazırlanmak için daha uzun (alternatif hipotez) almanız gerektiğini kanıtlarsa, yalnızca kendiniz gidebilirsiniz, çünkü siz hazır olmadan çoktan ayrıldım (alternatif durum) .

Kısacası, hipotez testinin amacı şudur: "Olgusal kanıtlarımız boş hipotezi reddedebilir mi?"

Tüm hipotez testleri şu soruyu soruyor: Kanıtlarımız boş hipotezi reddedebilir mi? Boş hipotezi reddetmek, bir şeyler öğrendiğimiz ve zihniyetimizi değiştirmemiz gerektiği anlamına gelir. Boş hipotezi reddetmemek, yeni bir şey öğrenmediğimiz anlamına gelir.

Tıpkı ormanda yürüyüş yaparken olduğu gibi, etrafta başka insanları görmemek yeryüzünde hiç insan olmadığını kanıtlamaz, bu sadece insan faaliyetlerinin kapsamı hakkında yeni bilgiler öğrenmediğimiz anlamına gelir. Yeni bir bilgi öğrenmediyseniz, hayal kırıklığına uğramanıza gerek yok, çünkü zaten tam olarak nasıl başa çıkacağınızı biliyorsunuz. Yeni bilgiler öğrenmediğiniz için fikrinizi değiştirmenize gerek yok, bu yüzden varsayılan yaklaşımı kullanmaya devam edin.

Öyleyse yeni içerik öğrenip öğrenmediğimize nasıl karar vereceğiz? Sözde "yeni içerik", varsayılan seçeneğe tamamen aykırıdır ve yeni bilgilere izin verir. Yukarıdaki sorunun cevabını alabilmek için iki istatistiksel parametreyi, P değerini ve güven aralığını görüntüleyebiliriz.

P değeri teorisi, istatistiğin önemli bir parçasıdır.

P değeri, böyle bir istatistiksel parametreyi açıklar: boş hipotez kabul edilirse, gözlem örneğinin boş hipoteze destek derecesi. P değeri, hipotezin doğru olup olmadığını belirlemek için kullanılabilir. P değeri ne kadar küçükse, varsayılan sonucun görünme olasılığı o kadar küçük, "yeni içeriğin" görünme olasılığı o kadar büyük ve istatistikler de o kadar önemli olup, önceki fikirlerinizi değiştirmeniz gerektiğini belirtir.

Hipotez testi yapmak için sadece P değerini anlamlılık seviyesiyle karşılaştırmamız gerekir. Bu, riskimizin boyutunu kontrol etmek için kullanılabilecek bir düğme gibidir. Anlamlılık seviyesi, insanların doğru olduğunda sıfır hipotezini reddederek hata yapma olasılığını ifade eder. Anlamlılık düzeyini 0 olarak ayarlarsanız, alternatif hipotezi reddetmişsiniz demektir. O zaman yazmayı bırak! Verileri analiz etmeyin, sadece varsayılan yöntemi izleyin. (Ancak varsayılan uygulamaya bağlı kalmak da yanlış olabilir.)

Hipotez testinin sonuçlarını elde etmek için P değeri nasıl kullanılır? P değeri anlamlılık düzeyinden düşükse sıfır hipotezini reddedin; P değeri anlamlılık düzeyinden büyükse sıfır hipotezini kabul edin.

Güven aralığı, hipotez testinin sonucunu ifade etmek için kullanılabilir. Kullanımı, sıfır hipoteziyle örtüşüp örtüşmediğini test etmektir. Örtüşüyorlarsa, yeni bir sonuca varmadığımız anlamına gelir. Çakışma yoksa lütfen fikrinizi değiştirin.

Güven aralığı boş hipotez ile çakışmıyorsa, fikrinizi değiştirin.

Bir güven aralığı tanımının anlaşılması zor olsa da, verilerin özelliklerini tanımlamaya yardımcı olan iki ana avantajı vardır: (1) aralık her zaman en makul varsayımları içerir (2) veri miktarı ne kadar büyükse aralık o kadar dar olur. Güven aralığı ve P değerinin kısa ve öz bir tanımının olmadığını lütfen unutmayın, çünkü bu iki istatistiksel parametrenin tasarlanmasının amacı öğretimi kolaylaştırmak değildi. Bunlar sadece test sonuçlarını özetleme yöntemleridir. (Bir istatistik dersi alırsanız ve bu tanımları hiç hatırlayamadığınızı fark ederseniz, nedeni budur. İstatistikler adına söyleyeyim: bu sizin potunuz değil, kendi potumdur.)

Bunun önemi, az önce anlattığım yönteme göre test yaparsanız, matematik hata yapma riskinizin seçtiğiniz önem düzeyiyle sınırlı olmasını sağlayabilir (bu nedenle önem düzeyini kendiniz belirlemeniz önemlidir ... Hesaplama, seçtiğiniz risk ayarının gerçekleştirilmesini sağlamak içindir. Seçme zahmetine girmezseniz, anlamsız olacaktır.)

Matematiksel teori, aynı zamanda P-değeri teorisinin kaynağı olan boş hipotezin kurulmasının temelidir.

Matematik, boş hipotezin "oyuncak evrenini" yaratabilir ve test edebilir (sevgili istatistikçiler, bu ne kadar havalı !? Çok havalı!) Ve benzerliği mevcut veri setiyle karşılaştırmak için veri üretebilir. Eğer boş hipotez oyuncak evreninizin gerçek verilere benzeme olasılığı çok düşükse, P değeriniz çok düşük olacak ve sonunda boş hipotezi reddedeceksiniz ... Sonra fikrinizi değiştirin ve alternatif hipotezi kabul edin!

Bu çılgın formüller, olasılıklar ve dağılımlar ne için kullanılır? Boş hipotez dünyasını yöneten kurallar dizisini tanımlamamıza ve böylece boş hipotezin gerçek dünya ile tutarlı olup olmadığını belirlememize izin verir. Değilse, bağırabilirsiniz: "Bu çok saçma! Çıkarın ve kesin!" Eğer uyuyorsa, yeni bilgiler öğrenmediğiniz için pişmanlık duyarak omuz silkiyorsunuz. Bu konuyu daha sonra derinlemesine tartışacağız.

Şimdilik, matematiğin rolünü, oyuncak dünyasına gerçek verileri koymanın makul olup olmadığını test etmemize ve görmemize yardımcı olarak, birden fazla küçük oyuncak dünyası oluşturmamıza yardımcı olmak olarak düşünün. P değeri ve güven aralığı, özetlemenize yardımcı olacak yollar olduğundan, dünyanın uzun bir tanımını okumak için gözlerinizi kısmanıza gerek kalmaz. Nihai yargıyı temsil ederler: varsayılan kursunuzu alıp almadığınızı görmek için bunları kullanın. görev tamamlandı!

Hazırlık çalışmalarını yaptık mı? Etkinlik ölçülen şey budur.

Bir dakika bekleyin, kavramlarımızı yeterince güvenle değiştirebilmemiz için yeterli kanıt topladığımızdan emin olmak için yeterince hazırlık yaptık mı? Bu sorunun cevabı etkinlik kavramı ile ölçülür. Onu destekleyecek kanıt aramadığınız sürece zihniyetinizi değiştirmemek kolaydır. Etkinliğiniz ne kadar büyükse, zihniyetinizi değiştirmek için kendinize o kadar çok fırsat verirsiniz. Güç, sıfır hipotezinin reddedilme ve sonucun doğru olma olasılığıdır.

Varsayılan yaklaşımı benimsemeye devam ettiğimizde, çok şey öğrenmemiş olsak da, boş hipotezi güçle ölçersek daha iyi hissetmemizi sağlayabilir. En azından yeterince hazırlık yaptık ve denedik. Etkinlik ile ölçülmezsek, kesinlikle fikrimizi değiştirmeyeceğiz. Bu şekilde verileri analiz etmenize bile gerek kalmaz.

Güç analizi, devam etmeden önce yeterli veri hazırlayıp hazırlamadığınızı kontrol etmek için kullanılır.

Güç analizi, belirli bir miktarda verinin beklenen gücünü tespit etme yöntemidir.Araştırma planı yapmak için güç analizini kullanabilirsiniz.

Belirsizlik, dünyadaki en iyi matematiksel yönteme sahip olsanız bile, yanlış sonuçlar çıkarabileceğiniz anlamına gelir.

İstatistik nedir? Belirsizlikte kesinliğin büyüsünü bulun. Ancak bunu yapabilecek sihir yoktur, insanlar her zaman hata yapar. Hatalar söz konusu olduğunda, sıklık istatistiklerinde sıklıkla ortaya çıkan iki tür hata vardır.

İlk hata türü, orijinal hipotezin doğru olduğuna işaret eder, ancak orijinal hipotezi reddediyoruz. Muhtemelen dostum, bu varsayılan yaklaşımdan memnun olmana rağmen, matematiksel hesaplamaların seni bundan vazgeçmeye ikna ediyor. İkinci tür hata, orijinal hipotezin yanlış olduğuna işaret eder, ancak orijinal hipotezi kabul ederiz. (Biz istatistikçiler isimlendirme konusunda gerçekten yaratıcıyız. Tahmin edin hangi hata daha kötü? İlk tür? Evet, çok yaratıcı.)

İlk hata türü, masum bir kişiyi mahkum etmeye benzer, ikinci tür hata ise suçlu bir kişiyi mahkum edememektir. Bu iki tür hatayı yapma olasılığı dengelidir (kötü insanları yakalama olasılığını artırmak, iyi insanları yanlış yargılama olasılığını da artırır), daha fazla kanıtınız yoksa (veriler!), Her iki tür hatayı da yapma olasılığını azaltabilirsiniz. , Genel sonuç daha iyi olacaktır. Bu nedenle istatistikçiler çok sayıda zengin veriye sahip olmanızı istiyor! Daha fazla veriye sahip olduğunuzda, her şey daha iyi hale gelir!

Ne kadar fazla veri olursa, yanlış sonuçları önlemek o kadar kolay olur.

Çoklu karşılaştırma düzeltmesi (çoklu karşılaştırma düzeltmesi) nedir? Aynı konu grubu için birden fazla soru sormayı planlıyorsanız, farklı, sürekli ayarlanmış bir şekilde sormalısınız. Masum şüphelileri defalarca sorgularsanız (verilerinizi araştırmaya devam ederken), sonunda rastgele bazı olaylar vakayı her zaman suçlu gösterecektir.

"İstatistiksel olarak anlamlı" terimi, boş hipotez dünyasında önemli şeylerin olduğu anlamına gelmez, sadece görüşlerimizi değiştirdiğimiz anlamına gelir. Bu değişiklik de yanlış olabilir, sinir bozucu belirsizliği suçlayın!

Yanlış soruları titizlikle cevaplamak için zamanınızı boşa harcamayın, istatistiksel yöntemleri deneyin!

Peki üçüncü hata türü nedir? Bu istatistiksel bir şakadır: Yanlış boş hipotezin doğru bir şekilde reddedilmesi anlamına gelir. Başka bir deyişle, kullanılan matematiksel yöntemler doğrudur, ancak yanlış sorulara cevap verirler.

Bu yanlış sorunu çözmenin bir yolu "Karar İstihbarat Mühendisliği" videosunda bulunabilir. Akıllı karar mühendisliği, iş sorunlarını çözmek ve karar vermeyi optimize etmek için veri bilimini kullanan yeni bir disiplindir. Akıllı karar verme yönteminde ustalaşarak, üçüncü tür hatalar yapmaktan ve gereksiz veri analizlerinden kaçınabilirsiniz.

İlgili Bağlantılar:

https://www.youtube.com/watch?v=x1k37Na1iLct=374s

Sonuç olarak, istatistik, zihniyetinizi değiştiren bir bilimdir. Şu anda iki okul var, daha yaygın olanı, boş hipotezinizi reddetmeniz gerekip gerekmediğini test etmek için sıklık istatistikleri okuludur. Bayes istatistik okulu, verilere dayanarak önceki inançları günceller. Verileri analiz etmeye başlamadan önce beyniniz boşsa, önce verilerinize bakın ve içgüdülerinizi takip edin.

İlgili raporlar:

https://towardsdatascience.com/statistics-for-people-in-a-hurry-a9613c0ed0b

Zidane çok acımasız! Göreve geldikten 10 günden kısa bir süre sonra Real Madrid, Premier Lig'in en iyi 5 devini oylayacak
önceki
İkinci el bir kitapçının yöneticisi olan Fu Tianbin: "Ben bir koleksiyoncu değil, bir kitap koleksiyoncuyum"
Sonraki
4 satır kodlu (kaynaklarla) metin oluşturmak için RNN'yi eğitmeye götürün
2 süperstar pozlama Mourinho 1 acımasız hareket! İbrahimoviç onun için ölmeye istekliydi, Pogba bile ikna oldu
Almanya'da bir başka toplu cinsel saldırı vakası! Münih'teki bir apartman dairesinde 6 erkek bir kıza tecavüz etti
Makineler insanlarla aynı bilince sahip olabilir mi? Uzun Bilim Makalelerinin Yorumlanması
İkinci el kitabevinin yöneticisi Fu Tianbin: Son 20 yılda dolaşımda olan 2 milyon kopya, Liushahe "Maobian Kitabevi" ni yazdı
2 ay önce Asya Kupası'nda ölümcül bir hata yapan oyuncu hala milli futbol takımının kaptanı!
Özel Egzersiz veri setinizi nasıl geliştirebilirsiniz? (Ekli dava)
"Pekin Yapay Zeka Sektörü Geliştirme Teknik Raporu" yayınlandı (indirme ektedir)
2017 Ultimate Science Fiction Watching Guide - Sahnede görücüye çıkan yeni diziler
Nut Pro siparişleri de ödüyor mu? Luo Yonghao, işin çok zor olduğunu söyledi ve biz yapmadık
100'den fazla şair "Çinli Şair" in doğum gününü kutladı
Makine öğreniminde güven aralığının derinlemesine analizi (kodla)
To Top