g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

İstatistiksel bilginin özeti (çerçeve diyagram formülü ile)

Kaynak: PMCAFF

Bu makale yaklaşık olarak 6000 kelime , Okumanız tavsiye edilir 10 dakika

Bu makalenin içeriği istatistik ve olasılık teorisi anlayışının bir özetidir.

Önsöz

Tao Te Ching şöyle der: "Dao bir, bir iki, iki üç, üç her şeydir". Aynısı bilgi öğrenmek için de geçerlidir Bir kavram iki kavramı türetir, iki kavram daha küçük alt kavramlara dönüşür ve daha sonra tüm bilgi sistemi türetilir.

Yazar, bu makaleyi yazmak için kendi istatistik anlayışını ve olasılık teorisini aşağıdaki hedeflerle birleştirdi:

Yalnız git : Okuyucuların bu bilgi sistemi hakkında net bir görüşe sahip olmalarını sağlayan anlaşılır bir bilgi yapısı oluşturun

Hedef iki : Veri analizi çalışmasında her bilginin kullanım senaryolarını ve sınır koşullarını açıklamaya çalışın

Hedef üç : Okuyucular için "teori" ile "uygulama" arasında bir köprü oluşturun

Not: Bu makale kavramların ve yöntem formüllerinin türetilmesini içermez, ilgilenen okuyucular kendi başlarına "Olasılık ve İstatistik" e başvurabilirler.

Genel Bakış

"Nesnen" kim?

Bu nesne diğer "nesne" değildir. "Olasılık ve istatistik" çalışmamızın amacı, onu "nesneler" çalışmasına uygulamaktır.Yazar, incelemek istediğimiz "nesneleri" boyutlarına göre iki kategoriye ayırır.

Tek boyutlu: Şu anda önümüzde duran "bir grup", "bir yığın" veya hatta bir "yığın". Burada bu tür nesneleri incelemek için istatistiksel bilgileri kullanacağız.

İki boyutlu: Belli bir "olayı" incelemektir Yazar, olayın "zaman eksenine" dayandığına inanır Geçmişte oldu mu? Şu anda meydana gelebilecek birkaç durum var ve her bir durumun gelecekte olması ne kadar muhtemel? Bu tür sorunlar, olasılık teorisi kategorisine aittir.

Bu nedenle veri analizi araştırması yapmadan önce, öncelikle araştırmamızın nesnesinin hangi kategoriye ait olduğunu bulmalı ve ardından sorunu çözmek için kullanmamız gereken bilgi veya yöntemi almak için bu dalı takip etmeliyiz.

Analiz, "aşık" ın portresini çizmek gibidir

Bir kızı görünüş açısından tanımlayın, genel olarak yüzüne ne dersiniz? Figürün nasıl? Tanımlanacak iki boyut. Tıpkı bir portre resmi yapmak gibi, araştırmamızın "nesnesi" de betimsel analizde iki boyutta tanımlanmaktadır: "merkezi eğilim-temsili değer", "dağılım ve derece".

Bu kavramlara aşina mısınız? Yazar, tanımlayıcı bir analizin, incelemek istediğiniz nesnenin neye benzediğini bu iki boyuttan açıklığa kavuşturmak olduğuna inanıyor. Hangi özelliklerle başlayacağınıza gelince? Yaygın olarak kullanılan kavramlar "ortalama", "varyans" ve benzerleridir. Aşağıda konuya giriyoruz, yazar tüm bilgi yapısını detaylandıracak.

ilk kısım

"Veri" nin açıklayıcı analizi

Veri analizinde en yaygın durum; örneğin, bir grup, grup veya veri yığınınız varsa, veri analizi süreci, bu verilerden elde edilen ve genellikle iki boyutta tanımlanabilen bilgileri "açıklamaktır":

1. Merkezi eğilim ölçümü: bu veri grubu için "temsilcilerini" bulun

Ortalama değer ()

Ortalamanın sınırlamaları

Ortalama, en yaygın kullanılan ortalamalardan biridir, ancak bunun sınırlaması, "ortalamayla açıklanan verilerde aykırı değerler varsa, sapmalar olacaktır"; örneğin, aşağıdaki veri kümesi ortalamanın temsil edilmesi için uygun değildir

Bu 5 kişinin yaş ortalaması: 31,2

Açıkçası, bu veri kümesinde, çoğu insan 10'lu yaşlardaki gençler, ancak E'nin yaşı aykırı değer olarak 100 yaşında. Yaşlarını tanımlamak için ortalamanın kullanılması 31,2 yaşında. Açıkçası, ortalama bunu açıklamak için kullanılır. Veri kümesi uygun değil, öyleyse bu veri kümesini nasıl doğru bir şekilde nitelendirebiliriz? ? ?

medyan

Orta nokta olarak da bilinen medyan, medyan. Sırayla düzenlenmiş bir veri kümesinin ortasındaki sayıdır.

Medyanın sınırlamaları

Önceki örneğe dönersek, bu veri kümesinin ortalama yaşını temsil etmek için medyan kullanılırsa, medyan 15 ile daha makul hale gelir.

Öyleyse aşağıdaki veri kümesine bakıyoruz, medyan nasıl performans gösteriyor?

Medyan: 45

Bu veri setinin medyanı 45'tir, ancak 45'in medyanı bu veri setini temsil etmez.

Bu veri kümesi iki gruba bölündüğünden, iki grup çok farklıdır. Peki bu tür verilerle nasıl başa çıkılır? Ardından üçüncü ortalama tanıtılır.

Mod

Mod, frekans dağılım tablosunda en sık örnek gözlemleri olan grubun medyan değeridir.

Ortalama, bir veri kümesinin tipik değerini temsil edebilir, ancak ortalama tek başına bize yeterli bilgi sağlayamaz ve ortalama, bir grup verinin dağılım derecesini temsil edemez.

2. Dağılım ve değişkenlik ölçüleri

(Tam aralık, mini aralık, çeyreklik, standart sapma, standart puan)

Tam mesafe = maks-min

Tam aralık da "çok zayıf" olarak adlandırılır. Bir veri kümesindeki maksimum değer ile minimum değer arasındaki farktır. Verilerin dağılım derecesini ölçmek için kullanılabilir.

Tam mesafe sınırlamaları

Tüm aralığın çözümü kolay ve hızlı olsa da, sınırlaması "verilerde aykırı değerler varsa sapmalar olacaktır. Aykırı değerlerin neden olduğu parazitlerden kurtulmak için, örneğin aşağıdaki iki veri kümesine bakalım. Sadece bir tane ekleyin. Aykırı değerler, iki veri setinin tamamı büyük bir fark yarattı.

Çeyrek

Tüm gözlemler küçükten büyüğe sıralanır ve dört eşit parçaya bölünür ve üç bölme noktasındaki değerler çeyreklerdir: Q1, Q2 ve Q3.

S1: "Daha küçük çeyrek" olarak da bilinen birinci çeyrek (Q1), azalan sırada örnekteki tüm değerlerin 25. yüzdesine eşittir.

S2: "Medyan" olarak da bilinen ikinci çeyrek (Q2), azalan sırada örnekteki tüm değerlerin 50'nci yüzdesine eşittir.

S3: "Daha büyük çeyrek" olarak da bilinen üçüncü çeyrek (Q3), azalan sırada örnekteki tüm değerlerin 75'inci yüzdesine eşittir.

Mini mesafe, "çeyrekler arası aralık" olarak da adlandırılır

Mini saha. Bir veri kümesindeki daha küçük çeyrek ile daha büyük çeyrek arasındaki farktır.

Yani: mini mesafe = üst çeyrek-alt çeyrek

Mini mesafe, verilerin ortadaki% 50'sini yansıtabilir.Çok büyük veya çok küçük bir aykırı değer varsa,% 50 merkezi verilerden çıkarılır. Bu nedenle, mini mesafenin kullanılması verilerdeki aykırı değerleri ortadan kaldırabilir.

Tam aralık, çeyrekler arası aralık, kutu grafikleri, bir veri kümesinin maksimum ve minimum değerleri arasındaki fark aralığını karakterize edebilir; bu, verilerin belirli bir dereceye kadar dağılma derecesini yansıtır, ancak bize bu değerlerin gerçekte göründüğünü tam olarak söyleyemez. Nasıl nitelendiriyoruz?

Her veri grubundaki değerlerin "varyasyonunu" ölçüyoruz derece Zaman, Her veri ve ortalama arasındaki mesafe gözlemlenerek belirlenebilir Her değer ile ortalama arasındaki mesafe ne kadar küçükse, değişkenlik ne kadar küçükse, veriler o kadar yoğunlaşır, mesafe o kadar büyük ve değişkenlik o kadar büyük olur. Varyans ve standart sapma, veri varyasyonunun derecesini karakterize etmek için kullanılan böyle bir kavram çiftidir.

varyans

Varyans, değer ile ortalama arasındaki mesafenin karesinin ortalama değeri olan veri dağılımının bir ölçüsüdür.

Standart sapma

Standart sapma, varyansın köküdür.

Varyans ve standart sapma yoluyla, artık bir veri değerleri kümesinin varyasyon derecesini karakterize edebiliriz. Öyleyse birden fazla veri setini farklı araçlarla ve farklı standart sapmalarla nasıl karşılaştırırız?

Standart puan - ortalamadan standart sapmaların sayısını temsil eder

Standart, çözümler sağladığımıza bölünmüştür, Farklı ortalama ve standart sapmalara sahip veri setlerini karşılaştırırken, bu değerleri aynı standarttan veri setleri olarak ele alabilir ve sonra karşılaştırabiliriz. Standart puan, her veri kümesini karşılaştırma için ortak bir dağıtım modeline dönüştürür.

Standart puanın da önemli bir işlevi vardır, normal dağılımı daha sonra tanıtılacak olan standart bir normal dağılıma dönüştürebilir.

Bölüm Bir

Bir veri kümesini tanımlayın ve merkezi eğilim analizi yoluyla "temsili değerini" bulun; dağılım ve değişkenliğin açıklaması yoluyla bu veri kümesinin dağılma derecesini kontrol edin.

Merkezi eğilim parametreleri: ortalama, medyan, mod.

Dağılım ve değişkenlik parametreleri: tam aralık, çeyrekler arası aralık, varyans, standart sapma, standart puan.

ikinci kısım

"Olaylar" üzerine araştırma ve analiz

Olasılık teorisi

1. Bir olayın durumu

Okuyucuların daha iyi anlayabilmesi için yazarın olasılık teorisindeki en temel kavramlar ve kavramlar arasındaki ilişki aşağıdaki şekilde çizilir, ardından yazar "hikayeyi anlatmaya" başlar.

Etkinlik: Olasılığı olan bir şey, bir şeyin birçok sonucu olabilir, sonuç ve sonuç tamamen tükenmeli ve birbirinden bağımsız olmalıdır.

Olasılık: Her sonucun olasılığı. Tüm sonuçların olasılığının toplamı 1'dir, bu kaçınılmazdır! ! !

Olasılık dağılımları: Bu olayın olasılık dağılımı olan olayları ve bunlara karşılık gelen olasılıkları organize ediyoruz.

Olasılık dağılımı bir görüntü veya bir tablo olabilir. Şekil 1 ve Tablo 2'de gösterildiği gibi, her ikisi de olasılık dağılımları olarak kabul edilebilir

beklemek: Olayın çeşitli sonuçlarını ve sonuca karşılık gelen olasılığı kapsamlı bir şekilde değerlendirdikten sonra olayın kapsamlı etki değerini karakterize eder. (Bir olayın beklentisi, istatistikteki ortalama değere benzer şekilde olayın "temsili değeridir")

varyans: Bir olayın farklı sonuçları arasındaki farkın veya dağılımın derecesini karakterize eder.

2. Ayrıntılı dağıtım

İdeal doludur, gerçeklik çok zayıftır. Gerçek hayatta, bırakın bir olayın beklentisini hesaplamak bir yana, bu olayın olasılık dağılımı tam olarak ifade edilse bile, her olayın olasılık değeri zaten büyük bir şeydir.

Bu nedenle olayların olasılık dağılımını daha hızlı ve doğru bir şekilde çözmek için, Belirli olaylar belirli belirli koşulları karşıladığında, bu olayların dağılımını, beklentisini ve varyansını çözmek için bu koşullara dayalı olarak bazı sabit formülleri doğrudan uygulayabiliriz.

"Ayrık" veriler ile "sürekli" veriler arasındaki fark

Dağıtım bilgisini genişletmeden önce, bir ön bilgi ekleyelim, ayrık veri nedir, sürekli veri nedir ve aralarındaki fark nedir?

Ayrık veri: Parçalı, ayrıntılı veriler, ayrık verilerdir.

Sürekli veriler: Bir dizi, bir veri dizisi sürekli verilerdir.

Tamam, şaka yapıyorum! ! ! Bana vurmayın, kuru malları aşağıda paylaşın! ! !

Aslında yukarıdaki açıklama yanlış değildir, ayrık ve sürekli veriler bir çifttir Bağıl kavram Aynı veriler, ayrı veriler veya sürekli veriler olabilir. Bir verinin sürekli mi yoksa kesikli mi olduğuna karar vermek için en önemli faktör, bir veri grubundaki verilerin genel büyüklüğü ile veri granülerliği arasındaki farktır. Fark ne kadar büyükse, sürekli veriye ne kadar yakınsa, fark ne kadar küçükse, ayrık verilere o kadar yakın olur.

Örneğin

Bir aile için kişi birimi ayrı verilerdir. Bir ailede 3 kişi, 4 kişi, 5 kişi olabilir ... vb.

Bir ülke için sürekli bir veridir Ülkemiz 1,4 milyar nüfusa sahiptir, bu nedenle birey bir birim olarak bu büyüklükteki bir veri grubunda sürekli veridir.

Ayrık ve sürekli veriler arasındaki farkı bilerek, popüler bilimde yaygın olarak kullanılan özel dağıtımlara bir göz atalım.

Ayrık dağıtım

Ayrık verilerin olasılık dağılımı, ayrık dağılımdır. Bu üç tür ayrık dağılım "0-1 olaylarında" kullanılabilir, yani bir şey için yalnızca iki başarı ve başarısızlık durumu vardır.

Sürekli dağıtım

Sürekli dağılım, esasen sürekli bir veri bölümünün olasılık dağılımını bulmaktır.

Normal dağılım

f (x) ---- X olayının olasılık yoğunluğu işlevi

--- Anlamına gelmek

^ 2 ---varyans

---Standart sapma

Yeşil bölge alanı --- Aralığın olasılığı

Normal dağılım olasılığı nasıl bulunur

Aşama 1 --- Dağılımı ve aralığı belirleyin, ortalama ve varyansı bulun

Adım 2 --- Normal dağılımı standart bir normal dağılıma dönüştürmek için standart puanları kullanın (İlk bölümdeki standart puanları hatırlıyor musunuz?)

Aşama 3 --- Olasılığı bulmak için tabloya bakın

Kesikli dağılım normal dağılım (kesikli dağılım normal dağılıma dönüştürülür)

Harika yer burası Yazar sürekli verilerin ve ayrık verilerin bir çift göreceli kavram olduğunu açıklamıştır. Yani bu, belirli "sınır" koşulları altında, ayrık dağıtım ve sürekli dağıtımın karşılıklı olarak dönüştürülebileceği anlamına gelir. Olasılık dağılımının hesaplanmasını daha da basitleştirin. Burada artık tembel değilim ve doğrudan sabun pullarını koyuyorum (formül kusmak üzere !!!)

3. Birden fazla olay durumu: "Olasılık Ağacı" ve "Bayes Teoremi"

Birden çok olayın, olaylar ve olaylar arasındaki ilişkiyi keşfetmesi gerekir

Karşıt olaylar: Bir olay, A , A'nın içermediği tüm olasılıkları içeriyorsa, o zaman A ve Ayı zıt olaylar olarak adlandırırız.

Kapsamlı olaylar: A ve B nasıl ayrıntılı olaylardır, o zaman A ve B'nin birleşimi 1'dir

Birbirini dışlayan olaylar: A ve B nasıl birbirini dışlayan olaylar, o zaman A ve B'nin herhangi bir kesişimi yok

Bağımsız olaylar: A olayının sonucu, B olayının sonucunun olasılık dağılımını etkilemiyorsa, o zaman A ve B bağımsız olaylardır.

Örnek: 10 top, rastgele bir tane çekerim ve 10 topu geri koyarım İkinci rastgele çekiliş veya 10'dan 1'i seçtikten sonra birinci ve ikinci çekiliş olayları bağımsızdır.

İlgili olaylar: A olayının sonucu, B olayının olasılık dağılımını etkiliyorsa, A ve B bağımsız olaylardır.

Örnek: 10 top, rastgele bir tane çekiyorum ve geri koymazsam hala 10 topum var.İkinci rastgele çekiliş 1'de 9, yani birinci ve ikinci çekiliş olayları birbiriyle ilişkili.

Koşullu olasılık (koşullu olasılık, olasılık ağacı, Bayes formülü)

Koşullu olasılık şunları temsil eder: B olayının bilinen meydana geldiği koşullar altında A olayının gerçekleşme olasılığı

Olasılık Ağacı --- Koşullu olasılığı açıklamak için bir grafik araç.

Diyelim ki bir tatlı dükkanı var, müşterilerin çörek satın alma olasılığı 3/4; çörek olmadan doğrudan kahve alma olasılığı 1/3; aynı anda kahve ve çörek satın alma olasılığı 9/20.

Şekilde aşağıdaki iki bilgiyi bulabiliriz

1. Müşterilerin çörek alıp almaması, kahve içme olasılığını etkileyebilir, bu nedenle etkinlik çörekleri ve etkinlik kahvesi bir dizi ilgili olaydır.

2. Olasılık ağacının her seviye dalının olasılıklarının toplamı 1'dir.

Bayes formülü ---- ters koşullu olasılığı hesaplamak için bir yöntem sağlar

Bayes formülü aşağıdaki senaryolarda kullanılır: B'nin A'nın öncülüne göre oluşma olasılığını bildiğimizde, B'nin meydana gelmesi koşuluyla A'nın gerçekleşme olasılığını hesaplamak için Bayes formülünü kullanabiliriz.

Bölüm iki

1. Olaylar, olasılık ve olasılık dağılımı arasındaki ilişki

2. Beklenti, varyansın anlamı

3. Sürekli veriler ile ayrık veriler arasındaki fark ve bağlantı

4. Geometrik dağılım, binom dağılımı, Poisson dağılımı, normal dağılım, standart normal dağılım

5. Kesikli dağılım ve normal dağılım dönüştürülebilir

6. Birden çok olay, ilgili olaylar ve bağımsız olaylar, koşullu olasılık ve Bayes formülü arasındaki ilişki

üçüncü bölüm

"Büyük nüfus" tahmini "küçük örneklem" hakkında

Gerçek hayatta nüfus sayısı çok fazla ise popülasyondaki her bir verinin değerini alamayız, popülasyonun özelliklerini çıkaramayız ve analiz çalışmasını tamamlayamayız. Daha sonra bu bölümdeki bilgiler daha sonra kullanılacaktır.

1. Örnek alın

genel olarak: Çalıştığınız tüm olayların koleksiyonu;

örneklem: Nüfusun kendisi hakkında sonuçlara varmak için popülasyondan nispeten küçük bir set seçin;

Önyargı: Örnek, hedef popülasyonu temsil edemez, bu da örneğin önyargılı olduğunu gösterir;

Basit rastgele örnekleme: Bir örnek oluşturmak için rastgele birimler seçin.

Bölünmüş örnekleme: Popülasyon, birkaç gruba veya katmana bölünür ve her katmanda basit rastgele örnekleme gerçekleştirilir.

Sistematik örnekleme: Bir K parametresi seçin ve her Kth örnekleme biriminde bir örnek alın.

2. Popülasyonu tahmin edin (nokta tahmini tahmini, aralık tahmini tahmini)

Nokta tahmincisi --- Toplam parametrenin nokta tahmincisi, toplam parametrenin değerini tahmin etmek için kullanılabilen bir fonksiyon veya formüldür.

sahne 1: Örnek tarafsız olduğunda, örnek bilinir ve popülasyonun ortalaması ve varyansı tahmin edilir.

(1) Numunenin ortalama değeri = popülasyonun tahmini ortalama değeri (popülasyon ortalamasının nokta tahmini) popülasyonun gerçek ortalama değeri (hatanın kabul edilebilir olup olmadığı)

(2) Nüfus varyansı Tahmini nüfus varyansı

Senaryo 2: Popülasyonu bilin, örneklemin olasılık dağılımını inceleyin

Orantılı örnekleme dağılımı: Aynı popülasyondan tüm olası büyüklükteki örnekleri almayı düşünün ve bu örneklerin oranlarıyla bir dağılım oluşturulur Bu "orantılı örnekleme dağılımı" dır. Örneklem oranı rastgele bir değişkendir.

Bir kestane alın: Tüm şeker toplarında (toplamda) kırmızı şeker topları oranının 0.25 olduğu bilinmektedir. Popülasyondan rastgele n tane şeker topu alın ve orantılı örnekleme dağılımını kullanarak çeşitli olası kırmızı top oranlarına karşılık gelen n şeker topunun olasılıklarını bulabiliriz.

Örnek ortalama dağılımı: Aynı popülasyondaki tüm olası n boyutu örneklerini düşünün ve sonra bir dağılım oluşturmak için bu örneğin ortalamasını kullanın Bu dağılım "örnek ortalama dağılımdır" ve örneğin ortalaması rastgele bir değişkendir.

Merkezi limit teoremi: Normal olmayan X popülasyonundan bir örnek alınmışsa ve örnek çok büyükse (en az 30'dan büyükse), picture.png'nin dağılımı yaklaşık olarak normaldir.

Aralık tahmincisi --- nokta tahmincisi, popülasyonu tahmin etmek için bir numune kullanır ve aralık tahmini, numuneyi tahmin etmek için numuneden oluşan bir aralığı kullanır.

Bir kestane ver: Öğleden sonra 3'te yağmur yağar, öğleden sonra 3'ten 4'e yağmur yağar. Amacımız mümkün olduğu kadar doğru tahmin etmekse, hangi ifadeyi kullanırdınız?

Güven aralığı nasıl bulunur? (Burada yazar fikirden bahsedecek. Ben formül çizmeyeceğim. Eğer ilgilenirseniz ders kitabına başvurabilirsiniz)

Güven aralığını bulmak için basit formül (doğrudan sabun tabletlerinde)

C değeri parametresiyle ilgili olarak: Güven seviyesi% 90 C = 1.64,% 95 C = 1.96,% 99 C = 2.58

Bir eklenecek bilgi (t dağıtım)

Önceki aralık tahminimiz, merkezi limit teoremini kullanmak olan bir önermeye sahiptir.Örnek boyutu yeterince büyük olduğunda (genellikle 30'dan büyük), ortalama örnekleme dağılımı normal dağılıma yakındır. Ya örnek boyutu yeterince büyük değilse? Bu aynı fikirdir, ancak örnek ortalama dağılımı daha doğru olması için başka bir dağılıma, yani t dağılımına benzer olacaktır. Yazar buraya herhangi bir genişletme olmaksızın doğrudan bir resim koyar.

Eklenecek bilgi 2 (Ki-kare dağılımı) ---- Eklenmenin önemli olmadığı anlamına gelmediğine dikkat edin, çünkü yazarın düzey olarak sınırlı olması ve şu anda özü basit bir dille özetlemek mümkün değildir.

Ki-kare dağılımının tanımı

Eğer n karşılıklı bağımsız rastgele değişkenler , , ..., n standart normal dağılıma uyuyorsa, bu n rastgele değişkenin karelerinin toplamı standart normal dağılıma uyarsa yeni bir rastgele değişken oluşturur ve dağılım yasası olarak adlandırılır. Ki-kare dağılımıdır.

Ki-kare dağılımı uygulama senaryoları

1'i kullanın: Uyumun iyiliğini test etmek için kullanılır. Yani, belirli bir veri kümesi ile belirtilen dağıtım arasındaki uyum derecesini test etmek;

2'yi kullanın: İki değişkenin bağımsızlığını test etmek için. Ki-kare dağılımı, değişkenler arasında belirli bir ilişki olup olmadığını kontrol etmek için kullanılabilir:

3. Doğrulama sonucu (hipotez testi)

Hipotez testi, sonuçların doğru ve güvenilir olup olmadığını doğrulamak için kullanılan bir yöntemdir. Spesifik işlem altı adıma bölünmüştür.

İki tür hata --- Bir "hipotez testi" gerçekleştirmiş olsak bile, kararın% 100 doğru olduğunu garanti edemeyiz ve iki tür hata olacaktır

Birinci tip hatası : Doğru bir hipotezi reddettiler ve yanlışlıkla iyi bir insanı öldürdüler

İkinci tür hata : Yanlış bir varsayımı kabul ettim, kötü adamı bırak

Üçüncü Bölüm

1. Tarafsız örnekleme

2. Nokta tahmincisi tahmini (bilinen örnek popülasyonu tahmin eder, bilinen popülasyon tahmin örneği)

3. Aralık tahmincisi tahmini (güven aralığı arayan)

4. Hipotez testi

dördüncü bölüm

Korelasyon ve regresyon (y = ax + b)

Burada sunulan korelasyon ve regresyon, iki boyutlu iki değişkenli üzerindeki en basit ve en pratik lineer regresyonlardır.Doğrusal olmayan regresyon burada genişletilmeyecektir.

Dağılım çizelgesi: İki değişkenli veri modu görüntülenir.

Korelasyon: Değişkenler arasındaki matematiksel ilişki.

Doğrusal korelasyon: İki değişken arasındaki doğrusal korelasyon.

En uygun düz çizgi: Veri noktasına en iyi uyan çizgi. (Yani, her bir bağımlı değişkenin değeri ile gerçek değer arasındaki hataların karesi toplamı en küçük olanıdır)

Hata kare toplamı SSE:

Doğrusal regresyon yöntemi: En uygun düz çizgiyi (y = ax + b) bulma yöntemi, a ve b parametrelerini bulmaktır.

Eğim bir formül:

b formülü:

Korelasyon katsayısı r: Tanımlanan verilerin en uygun çizgiden saptığı mesafeyi karakterize edin. (R = -1 tamamen negatif korelasyon, r = 1 tamamen pozitif korelasyon, r = 0 alakasız)

r formülü:

son sözler

Yazar, istatistik ve olasılıkla ilgili en temel kavramsal bilgileri burada sıraladı ve bu kavramsal bilgi ile uygulama senaryoları arasındaki ilişkiyi net bir şekilde açıklamaya çalıştı. Düşük seviyeli konsept, üst seviye uygulamanın temelidir. Bugünün aceleci "makine öğrenimi", "sinir ağı" ve "AI uyarlanabilir" bu uzun anahtar kelimeler gökyüzünün her yerine uçuyor. Yazar, yukarı doğru gelişmenin tek yolunun sağlam bir temel oluşturmak olduğuna inanıyor.

Editör: Yu Tengkai

Redaksiyon: Lin Yilin

-Bitiş-

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Yeni koronavirüs pnömonisinden etkilenen 1183 yardım arayanların veri portreleri

Salgınla karşı karşıya kalan tıbbi robotlar, sağlık personelinin enfeksiyonlarını nasıl önler ve tedavi eder?

: Vulcan Mountain Hospital'ın Çin hızı Li Chi D-Hub hızla yardımcı oluyor

: Derin öğrenmede anlaşılması gereken 13 olasılık dağılımı (bağlantı ile)

: Tsinghua Üniversitesi, Doğa Üzerine Mikroelektronik Enstitüsü'nün yeni araştırması olan CNN'i uygulamak için memristörleri tam olarak kullanın

: Yeni taç virüsü Ermenistan'da ortaya çıkarsa, programcılar simülasyon için Python kullanır (kod eklenmiştir)

: Üretken modeller ve GAN'lar nelerdir? Bilgisayar vizyonunun büyüsünü deneyimlemek için bir makale (bağlantı ile)

: Kaçak pangolinler koronavirüs taşır ve 2019-nCoV'a oldukça benzerdir

: Wu Enda AI öğrenme rotası, ML, DL ve diğer kurslar ve kaynak önerileri! "Ekli bağlantı"

: Sorumlu planlayıcı, elinde bir resim ve bir dip ile eski şehir için bir "önleme ve kontrol haritası" çizer.

: Jiu San Society'nin Tai'an Belediye Partisi Komitesinin Gençlik Çalışma Komitesi, grup acil kan bağışı etkinlikleri düzenlemektedir.

: Salgından sonra aşkı daha iyi anlıyoruz: Bahar çiçek açıyor, hadi evlenelim

: En sevimli insanı önemsiyorum! Jining First People's Hospital'ın en yüksek nezaketi, Hubei kahramanlarının fiziksel muayenesidir.

: Çiftçilerin çevrimiçi ve çevrimdışı birlikte çalışmasına yardımcı olmayı seviyorum, 100.000 kedi Laiyang armudu iki haftadan kısa bir süre içinde tükendi

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

İstatistiksel bilginin özeti (çerçeve diyagram formülü ile)

İlgili bilgi

Taian, yeni bir derinlik modeli oluşturmak için bin kişilik bir bulut üniversitesinde eğitim ve araştırma başlattı

Nuobixing'in bebek cilt bakım ürünlerinin, uyuşturucu denetim departmanı tarafından "klotrimazol" ve diğer yasaklanmış maddeler içerdiği tespit edildi. Üretici Tengyue Bio, geçen yıl düzeltme amacıyl

Yapay zeka çiplerinin bilgi işlem gücünü büyük ölçüde artırması beklenen ilk çok dizili memristor depolama ve hesaplama entegre sistemi

Çizgi grafik nedir? Python ile nasıl çizilir? nasıl kullanılır? Biri sonunda anladı

2020'de en yüksek potansiyele sahip en iyi 44 açık kaynaklı proje

Huawei: Yeni bir dijital altyapı otoyolu inşa etmek "yıldızlar" gerektirir

400'den fazla gazete dolandırıcılığa maruz kaldı, Çin'in Shandong kentinde yoğunlaştı, düzinelerce hastane karıştı

PySpark ve SparkSQL temelleri: Spark'ı çalıştırmak için Python programlamayı kullanma (kodla)

Çin'in yüz verileriyle ilgili ilk ceza davası: 3D avatar yapmak için yüz verilerini yasadışı olarak çalmak

LSTM'nin babası 2010-2020'yi yayınlıyor, gözlerimde derin öğrenmenin kısa bir tarihi