Kaynak: PMCAFF
Bu makale yaklaşık olarak 6000 kelime , Okumanız tavsiye edilir 10 dakika
Bu makalenin içeriği istatistik ve olasılık teorisi anlayışının bir özetidir.
Önsöz
Tao Te Ching şöyle der: "Dao bir, bir iki, iki üç, üç her şeydir". Aynısı bilgi öğrenmek için de geçerlidir Bir kavram iki kavramı türetir, iki kavram daha küçük alt kavramlara dönüşür ve daha sonra tüm bilgi sistemi türetilir.
Yazar, bu makaleyi yazmak için kendi istatistik anlayışını ve olasılık teorisini aşağıdaki hedeflerle birleştirdi:
Yalnız git : Okuyucuların bu bilgi sistemi hakkında net bir görüşe sahip olmalarını sağlayan anlaşılır bir bilgi yapısı oluşturun
Hedef iki : Veri analizi çalışmasında her bilginin kullanım senaryolarını ve sınır koşullarını açıklamaya çalışın
Hedef üç : Okuyucular için "teori" ile "uygulama" arasında bir köprü oluşturun
Not: Bu makale kavramların ve yöntem formüllerinin türetilmesini içermez, ilgilenen okuyucular kendi başlarına "Olasılık ve İstatistik" e başvurabilirler.
Genel Bakış
"Nesnen" kim?
Bu nesne diğer "nesne" değildir. "Olasılık ve istatistik" çalışmamızın amacı, onu "nesneler" çalışmasına uygulamaktır.Yazar, incelemek istediğimiz "nesneleri" boyutlarına göre iki kategoriye ayırır.
Tek boyutlu: Şu anda önümüzde duran "bir grup", "bir yığın" veya hatta bir "yığın". Burada bu tür nesneleri incelemek için istatistiksel bilgileri kullanacağız.
İki boyutlu: Belli bir "olayı" incelemektir Yazar, olayın "zaman eksenine" dayandığına inanır Geçmişte oldu mu? Şu anda meydana gelebilecek birkaç durum var ve her bir durumun gelecekte olması ne kadar muhtemel? Bu tür sorunlar, olasılık teorisi kategorisine aittir.
Bu nedenle veri analizi araştırması yapmadan önce, öncelikle araştırmamızın nesnesinin hangi kategoriye ait olduğunu bulmalı ve ardından sorunu çözmek için kullanmamız gereken bilgi veya yöntemi almak için bu dalı takip etmeliyiz.
Analiz, "aşık" ın portresini çizmek gibidir
Bir kızı görünüş açısından tanımlayın, genel olarak yüzüne ne dersiniz? Figürün nasıl? Tanımlanacak iki boyut. Tıpkı bir portre resmi yapmak gibi, araştırmamızın "nesnesi" de betimsel analizde iki boyutta tanımlanmaktadır: "merkezi eğilim-temsili değer", "dağılım ve derece".
Bu kavramlara aşina mısınız? Yazar, tanımlayıcı bir analizin, incelemek istediğiniz nesnenin neye benzediğini bu iki boyuttan açıklığa kavuşturmak olduğuna inanıyor. Hangi özelliklerle başlayacağınıza gelince? Yaygın olarak kullanılan kavramlar "ortalama", "varyans" ve benzerleridir. Aşağıda konuya giriyoruz, yazar tüm bilgi yapısını detaylandıracak.
ilk kısım
"Veri" nin açıklayıcı analizi
Veri analizinde en yaygın durum; örneğin, bir grup, grup veya veri yığınınız varsa, veri analizi süreci, bu verilerden elde edilen ve genellikle iki boyutta tanımlanabilen bilgileri "açıklamaktır":
1. Merkezi eğilim ölçümü: bu veri grubu için "temsilcilerini" bulun
Ortalama değer ()
Ortalamanın sınırlamaları
Ortalama, en yaygın kullanılan ortalamalardan biridir, ancak bunun sınırlaması, "ortalamayla açıklanan verilerde aykırı değerler varsa, sapmalar olacaktır"; örneğin, aşağıdaki veri kümesi ortalamanın temsil edilmesi için uygun değildir
Bu 5 kişinin yaş ortalaması: 31,2
Açıkçası, bu veri kümesinde, çoğu insan 10'lu yaşlardaki gençler, ancak E'nin yaşı aykırı değer olarak 100 yaşında. Yaşlarını tanımlamak için ortalamanın kullanılması 31,2 yaşında. Açıkçası, ortalama bunu açıklamak için kullanılır. Veri kümesi uygun değil, öyleyse bu veri kümesini nasıl doğru bir şekilde nitelendirebiliriz? ? ?
medyan
Orta nokta olarak da bilinen medyan, medyan. Sırayla düzenlenmiş bir veri kümesinin ortasındaki sayıdır.
Medyanın sınırlamaları
Önceki örneğe dönersek, bu veri kümesinin ortalama yaşını temsil etmek için medyan kullanılırsa, medyan 15 ile daha makul hale gelir.
Öyleyse aşağıdaki veri kümesine bakıyoruz, medyan nasıl performans gösteriyor?
Medyan: 45
Bu veri setinin medyanı 45'tir, ancak 45'in medyanı bu veri setini temsil etmez.
Bu veri kümesi iki gruba bölündüğünden, iki grup çok farklıdır. Peki bu tür verilerle nasıl başa çıkılır? Ardından üçüncü ortalama tanıtılır.
Mod
Mod, frekans dağılım tablosunda en sık örnek gözlemleri olan grubun medyan değeridir.
Ortalama, bir veri kümesinin tipik değerini temsil edebilir, ancak ortalama tek başına bize yeterli bilgi sağlayamaz ve ortalama, bir grup verinin dağılım derecesini temsil edemez.
2. Dağılım ve değişkenlik ölçüleri
(Tam aralık, mini aralık, çeyreklik, standart sapma, standart puan)
Tam mesafe = maks-min
Tam aralık da "çok zayıf" olarak adlandırılır. Bir veri kümesindeki maksimum değer ile minimum değer arasındaki farktır. Verilerin dağılım derecesini ölçmek için kullanılabilir.
Tam mesafe sınırlamaları
Tüm aralığın çözümü kolay ve hızlı olsa da, sınırlaması "verilerde aykırı değerler varsa sapmalar olacaktır. Aykırı değerlerin neden olduğu parazitlerden kurtulmak için, örneğin aşağıdaki iki veri kümesine bakalım. Sadece bir tane ekleyin. Aykırı değerler, iki veri setinin tamamı büyük bir fark yarattı.
Çeyrek
Tüm gözlemler küçükten büyüğe sıralanır ve dört eşit parçaya bölünür ve üç bölme noktasındaki değerler çeyreklerdir: Q1, Q2 ve Q3.
S1: "Daha küçük çeyrek" olarak da bilinen birinci çeyrek (Q1), azalan sırada örnekteki tüm değerlerin 25. yüzdesine eşittir.
S2: "Medyan" olarak da bilinen ikinci çeyrek (Q2), azalan sırada örnekteki tüm değerlerin 50'nci yüzdesine eşittir.
S3: "Daha büyük çeyrek" olarak da bilinen üçüncü çeyrek (Q3), azalan sırada örnekteki tüm değerlerin 75'inci yüzdesine eşittir.
Mini mesafe, "çeyrekler arası aralık" olarak da adlandırılır
Mini saha. Bir veri kümesindeki daha küçük çeyrek ile daha büyük çeyrek arasındaki farktır.
Yani: mini mesafe = üst çeyrek-alt çeyrek
Mini mesafe, verilerin ortadaki% 50'sini yansıtabilir.Çok büyük veya çok küçük bir aykırı değer varsa,% 50 merkezi verilerden çıkarılır. Bu nedenle, mini mesafenin kullanılması verilerdeki aykırı değerleri ortadan kaldırabilir.
Tam aralık, çeyrekler arası aralık, kutu grafikleri, bir veri kümesinin maksimum ve minimum değerleri arasındaki fark aralığını karakterize edebilir; bu, verilerin belirli bir dereceye kadar dağılma derecesini yansıtır, ancak bize bu değerlerin gerçekte göründüğünü tam olarak söyleyemez. Nasıl nitelendiriyoruz?
Her veri grubundaki değerlerin "varyasyonunu" ölçüyoruz derece Zaman, Her veri ve ortalama arasındaki mesafe gözlemlenerek belirlenebilir Her değer ile ortalama arasındaki mesafe ne kadar küçükse, değişkenlik ne kadar küçükse, veriler o kadar yoğunlaşır, mesafe o kadar büyük ve değişkenlik o kadar büyük olur. Varyans ve standart sapma, veri varyasyonunun derecesini karakterize etmek için kullanılan böyle bir kavram çiftidir.
varyans
Varyans, değer ile ortalama arasındaki mesafenin karesinin ortalama değeri olan veri dağılımının bir ölçüsüdür.
Standart sapma
Standart sapma, varyansın köküdür.
Varyans ve standart sapma yoluyla, artık bir veri değerleri kümesinin varyasyon derecesini karakterize edebiliriz. Öyleyse birden fazla veri setini farklı araçlarla ve farklı standart sapmalarla nasıl karşılaştırırız?
Standart puan - ortalamadan standart sapmaların sayısını temsil eder
Standart, çözümler sağladığımıza bölünmüştür, Farklı ortalama ve standart sapmalara sahip veri setlerini karşılaştırırken, bu değerleri aynı standarttan veri setleri olarak ele alabilir ve sonra karşılaştırabiliriz. Standart puan, her veri kümesini karşılaştırma için ortak bir dağıtım modeline dönüştürür.
Standart puanın da önemli bir işlevi vardır, normal dağılımı daha sonra tanıtılacak olan standart bir normal dağılıma dönüştürebilir.
Bölüm Bir
ikinci kısım
"Olaylar" üzerine araştırma ve analiz
Olasılık teorisi
1. Bir olayın durumu
Okuyucuların daha iyi anlayabilmesi için yazarın olasılık teorisindeki en temel kavramlar ve kavramlar arasındaki ilişki aşağıdaki şekilde çizilir, ardından yazar "hikayeyi anlatmaya" başlar.
Etkinlik: Olasılığı olan bir şey, bir şeyin birçok sonucu olabilir, sonuç ve sonuç tamamen tükenmeli ve birbirinden bağımsız olmalıdır.
Olasılık: Her sonucun olasılığı. Tüm sonuçların olasılığının toplamı 1'dir, bu kaçınılmazdır! ! !
Olasılık dağılımları: Bu olayın olasılık dağılımı olan olayları ve bunlara karşılık gelen olasılıkları organize ediyoruz.
Olasılık dağılımı bir görüntü veya bir tablo olabilir. Şekil 1 ve Tablo 2'de gösterildiği gibi, her ikisi de olasılık dağılımları olarak kabul edilebilir
beklemek: Olayın çeşitli sonuçlarını ve sonuca karşılık gelen olasılığı kapsamlı bir şekilde değerlendirdikten sonra olayın kapsamlı etki değerini karakterize eder. (Bir olayın beklentisi, istatistikteki ortalama değere benzer şekilde olayın "temsili değeridir")
varyans: Bir olayın farklı sonuçları arasındaki farkın veya dağılımın derecesini karakterize eder.
2. Ayrıntılı dağıtım
İdeal doludur, gerçeklik çok zayıftır. Gerçek hayatta, bırakın bir olayın beklentisini hesaplamak bir yana, bu olayın olasılık dağılımı tam olarak ifade edilse bile, her olayın olasılık değeri zaten büyük bir şeydir.
Bu nedenle olayların olasılık dağılımını daha hızlı ve doğru bir şekilde çözmek için, Belirli olaylar belirli belirli koşulları karşıladığında, bu olayların dağılımını, beklentisini ve varyansını çözmek için bu koşullara dayalı olarak bazı sabit formülleri doğrudan uygulayabiliriz.
"Ayrık" veriler ile "sürekli" veriler arasındaki fark
Dağıtım bilgisini genişletmeden önce, bir ön bilgi ekleyelim, ayrık veri nedir, sürekli veri nedir ve aralarındaki fark nedir?
Ayrık veri: Parçalı, ayrıntılı veriler, ayrık verilerdir.
Sürekli veriler: Bir dizi, bir veri dizisi sürekli verilerdir.
Tamam, şaka yapıyorum! ! ! Bana vurmayın, kuru malları aşağıda paylaşın! ! !
Aslında yukarıdaki açıklama yanlış değildir, ayrık ve sürekli veriler bir çifttir Bağıl kavram Aynı veriler, ayrı veriler veya sürekli veriler olabilir. Bir verinin sürekli mi yoksa kesikli mi olduğuna karar vermek için en önemli faktör, bir veri grubundaki verilerin genel büyüklüğü ile veri granülerliği arasındaki farktır. Fark ne kadar büyükse, sürekli veriye ne kadar yakınsa, fark ne kadar küçükse, ayrık verilere o kadar yakın olur.
Örneğin
Bir aile için kişi birimi ayrı verilerdir. Bir ailede 3 kişi, 4 kişi, 5 kişi olabilir ... vb.
Bir ülke için sürekli bir veridir Ülkemiz 1,4 milyar nüfusa sahiptir, bu nedenle birey bir birim olarak bu büyüklükteki bir veri grubunda sürekli veridir.
Ayrık ve sürekli veriler arasındaki farkı bilerek, popüler bilimde yaygın olarak kullanılan özel dağıtımlara bir göz atalım.
Ayrık dağıtım
Ayrık verilerin olasılık dağılımı, ayrık dağılımdır. Bu üç tür ayrık dağılım "0-1 olaylarında" kullanılabilir, yani bir şey için yalnızca iki başarı ve başarısızlık durumu vardır.
Sürekli dağıtım
Sürekli dağılım, esasen sürekli bir veri bölümünün olasılık dağılımını bulmaktır.
Normal dağılım
f (x) ---- X olayının olasılık yoğunluğu işlevi
--- Anlamına gelmek
^ 2 ---varyans
---Standart sapma
Yeşil bölge alanı --- Aralığın olasılığı
Normal dağılım olasılığı nasıl bulunur
Aşama 1 --- Dağılımı ve aralığı belirleyin, ortalama ve varyansı bulun
Adım 2 --- Normal dağılımı standart bir normal dağılıma dönüştürmek için standart puanları kullanın (İlk bölümdeki standart puanları hatırlıyor musunuz?)
Aşama 3 --- Olasılığı bulmak için tabloya bakın
Kesikli dağılım normal dağılım (kesikli dağılım normal dağılıma dönüştürülür)
Harika yer burası Yazar sürekli verilerin ve ayrık verilerin bir çift göreceli kavram olduğunu açıklamıştır. Yani bu, belirli "sınır" koşulları altında, ayrık dağıtım ve sürekli dağıtımın karşılıklı olarak dönüştürülebileceği anlamına gelir. Olasılık dağılımının hesaplanmasını daha da basitleştirin. Burada artık tembel değilim ve doğrudan sabun pullarını koyuyorum (formül kusmak üzere !!!)
3. Birden fazla olay durumu: "Olasılık Ağacı" ve "Bayes Teoremi"
Birden çok olayın, olaylar ve olaylar arasındaki ilişkiyi keşfetmesi gerekir
Karşıt olaylar: Bir olay, A , A'nın içermediği tüm olasılıkları içeriyorsa, o zaman A ve Ayı zıt olaylar olarak adlandırırız.
Kapsamlı olaylar: A ve B nasıl ayrıntılı olaylardır, o zaman A ve B'nin birleşimi 1'dir
Birbirini dışlayan olaylar: A ve B nasıl birbirini dışlayan olaylar, o zaman A ve B'nin herhangi bir kesişimi yok
Bağımsız olaylar: A olayının sonucu, B olayının sonucunun olasılık dağılımını etkilemiyorsa, o zaman A ve B bağımsız olaylardır.
Örnek: 10 top, rastgele bir tane çekerim ve 10 topu geri koyarım İkinci rastgele çekiliş veya 10'dan 1'i seçtikten sonra birinci ve ikinci çekiliş olayları bağımsızdır.
İlgili olaylar: A olayının sonucu, B olayının olasılık dağılımını etkiliyorsa, A ve B bağımsız olaylardır.
Örnek: 10 top, rastgele bir tane çekiyorum ve geri koymazsam hala 10 topum var.İkinci rastgele çekiliş 1'de 9, yani birinci ve ikinci çekiliş olayları birbiriyle ilişkili.
Koşullu olasılık (koşullu olasılık, olasılık ağacı, Bayes formülü)
Koşullu olasılık şunları temsil eder: B olayının bilinen meydana geldiği koşullar altında A olayının gerçekleşme olasılığı
Olasılık Ağacı --- Koşullu olasılığı açıklamak için bir grafik araç.
Diyelim ki bir tatlı dükkanı var, müşterilerin çörek satın alma olasılığı 3/4; çörek olmadan doğrudan kahve alma olasılığı 1/3; aynı anda kahve ve çörek satın alma olasılığı 9/20.
Şekilde aşağıdaki iki bilgiyi bulabiliriz
1. Müşterilerin çörek alıp almaması, kahve içme olasılığını etkileyebilir, bu nedenle etkinlik çörekleri ve etkinlik kahvesi bir dizi ilgili olaydır.
2. Olasılık ağacının her seviye dalının olasılıklarının toplamı 1'dir.
Bayes formülü ---- ters koşullu olasılığı hesaplamak için bir yöntem sağlar
Bayes formülü aşağıdaki senaryolarda kullanılır: B'nin A'nın öncülüne göre oluşma olasılığını bildiğimizde, B'nin meydana gelmesi koşuluyla A'nın gerçekleşme olasılığını hesaplamak için Bayes formülünü kullanabiliriz.
Bölüm iki
1. Olaylar, olasılık ve olasılık dağılımı arasındaki ilişki
2. Beklenti, varyansın anlamı
3. Sürekli veriler ile ayrık veriler arasındaki fark ve bağlantı
4. Geometrik dağılım, binom dağılımı, Poisson dağılımı, normal dağılım, standart normal dağılım
5. Kesikli dağılım ve normal dağılım dönüştürülebilir
6. Birden çok olay, ilgili olaylar ve bağımsız olaylar, koşullu olasılık ve Bayes formülü arasındaki ilişki
üçüncü bölüm
"Büyük nüfus" tahmini "küçük örneklem" hakkında
Gerçek hayatta nüfus sayısı çok fazla ise popülasyondaki her bir verinin değerini alamayız, popülasyonun özelliklerini çıkaramayız ve analiz çalışmasını tamamlayamayız. Daha sonra bu bölümdeki bilgiler daha sonra kullanılacaktır.
1. Örnek alın
genel olarak: Çalıştığınız tüm olayların koleksiyonu;
örneklem: Nüfusun kendisi hakkında sonuçlara varmak için popülasyondan nispeten küçük bir set seçin;
Önyargı: Örnek, hedef popülasyonu temsil edemez, bu da örneğin önyargılı olduğunu gösterir;
Basit rastgele örnekleme: Bir örnek oluşturmak için rastgele birimler seçin.
Bölünmüş örnekleme: Popülasyon, birkaç gruba veya katmana bölünür ve her katmanda basit rastgele örnekleme gerçekleştirilir.
Sistematik örnekleme: Bir K parametresi seçin ve her Kth örnekleme biriminde bir örnek alın.
2. Popülasyonu tahmin edin (nokta tahmini tahmini, aralık tahmini tahmini)
Nokta tahmincisi --- Toplam parametrenin nokta tahmincisi, toplam parametrenin değerini tahmin etmek için kullanılabilen bir fonksiyon veya formüldür.
sahne 1: Örnek tarafsız olduğunda, örnek bilinir ve popülasyonun ortalaması ve varyansı tahmin edilir.
(1) Numunenin ortalama değeri = popülasyonun tahmini ortalama değeri (popülasyon ortalamasının nokta tahmini) popülasyonun gerçek ortalama değeri (hatanın kabul edilebilir olup olmadığı)
(2) Nüfus varyansı Tahmini nüfus varyansı
Senaryo 2: Popülasyonu bilin, örneklemin olasılık dağılımını inceleyin
Orantılı örnekleme dağılımı: Aynı popülasyondan tüm olası büyüklükteki örnekleri almayı düşünün ve bu örneklerin oranlarıyla bir dağılım oluşturulur Bu "orantılı örnekleme dağılımı" dır. Örneklem oranı rastgele bir değişkendir.
Bir kestane alın: Tüm şeker toplarında (toplamda) kırmızı şeker topları oranının 0.25 olduğu bilinmektedir. Popülasyondan rastgele n tane şeker topu alın ve orantılı örnekleme dağılımını kullanarak çeşitli olası kırmızı top oranlarına karşılık gelen n şeker topunun olasılıklarını bulabiliriz.
Örnek ortalama dağılımı: Aynı popülasyondaki tüm olası n boyutu örneklerini düşünün ve sonra bir dağılım oluşturmak için bu örneğin ortalamasını kullanın Bu dağılım "örnek ortalama dağılımdır" ve örneğin ortalaması rastgele bir değişkendir.
Merkezi limit teoremi: Normal olmayan X popülasyonundan bir örnek alınmışsa ve örnek çok büyükse (en az 30'dan büyükse), picture.png'nin dağılımı yaklaşık olarak normaldir.
Aralık tahmincisi --- nokta tahmincisi, popülasyonu tahmin etmek için bir numune kullanır ve aralık tahmini, numuneyi tahmin etmek için numuneden oluşan bir aralığı kullanır.
Bir kestane ver: Öğleden sonra 3'te yağmur yağar, öğleden sonra 3'ten 4'e yağmur yağar. Amacımız mümkün olduğu kadar doğru tahmin etmekse, hangi ifadeyi kullanırdınız?
Güven aralığı nasıl bulunur? (Burada yazar fikirden bahsedecek. Ben formül çizmeyeceğim. Eğer ilgilenirseniz ders kitabına başvurabilirsiniz)
Güven aralığını bulmak için basit formül (doğrudan sabun tabletlerinde)
C değeri parametresiyle ilgili olarak: Güven seviyesi% 90 C = 1.64,% 95 C = 1.96,% 99 C = 2.58
Bir eklenecek bilgi (t dağıtım)
Önceki aralık tahminimiz, merkezi limit teoremini kullanmak olan bir önermeye sahiptir.Örnek boyutu yeterince büyük olduğunda (genellikle 30'dan büyük), ortalama örnekleme dağılımı normal dağılıma yakındır. Ya örnek boyutu yeterince büyük değilse? Bu aynı fikirdir, ancak örnek ortalama dağılımı daha doğru olması için başka bir dağılıma, yani t dağılımına benzer olacaktır. Yazar buraya herhangi bir genişletme olmaksızın doğrudan bir resim koyar.
Eklenecek bilgi 2 (Ki-kare dağılımı) ---- Eklenmenin önemli olmadığı anlamına gelmediğine dikkat edin, çünkü yazarın düzey olarak sınırlı olması ve şu anda özü basit bir dille özetlemek mümkün değildir.
Ki-kare dağılımının tanımı
Eğer n karşılıklı bağımsız rastgele değişkenler , , ..., n standart normal dağılıma uyuyorsa, bu n rastgele değişkenin karelerinin toplamı standart normal dağılıma uyarsa yeni bir rastgele değişken oluşturur ve dağılım yasası olarak adlandırılır. Ki-kare dağılımıdır.
Ki-kare dağılımı uygulama senaryoları
1'i kullanın: Uyumun iyiliğini test etmek için kullanılır. Yani, belirli bir veri kümesi ile belirtilen dağıtım arasındaki uyum derecesini test etmek;
2'yi kullanın: İki değişkenin bağımsızlığını test etmek için. Ki-kare dağılımı, değişkenler arasında belirli bir ilişki olup olmadığını kontrol etmek için kullanılabilir:
3. Doğrulama sonucu (hipotez testi)
Hipotez testi, sonuçların doğru ve güvenilir olup olmadığını doğrulamak için kullanılan bir yöntemdir. Spesifik işlem altı adıma bölünmüştür.
İki tür hata --- Bir "hipotez testi" gerçekleştirmiş olsak bile, kararın% 100 doğru olduğunu garanti edemeyiz ve iki tür hata olacaktır
Birinci tip hatası : Doğru bir hipotezi reddettiler ve yanlışlıkla iyi bir insanı öldürdüler
İkinci tür hata : Yanlış bir varsayımı kabul ettim, kötü adamı bırak
Üçüncü Bölüm
1. Tarafsız örnekleme
2. Nokta tahmincisi tahmini (bilinen örnek popülasyonu tahmin eder, bilinen popülasyon tahmin örneği)
3. Aralık tahmincisi tahmini (güven aralığı arayan)
4. Hipotez testi
dördüncü bölüm
Korelasyon ve regresyon (y = ax + b)
Burada sunulan korelasyon ve regresyon, iki boyutlu iki değişkenli üzerindeki en basit ve en pratik lineer regresyonlardır.Doğrusal olmayan regresyon burada genişletilmeyecektir.
Dağılım çizelgesi: İki değişkenli veri modu görüntülenir.
Korelasyon: Değişkenler arasındaki matematiksel ilişki.
Doğrusal korelasyon: İki değişken arasındaki doğrusal korelasyon.
En uygun düz çizgi: Veri noktasına en iyi uyan çizgi. (Yani, her bir bağımlı değişkenin değeri ile gerçek değer arasındaki hataların karesi toplamı en küçük olanıdır)
Hata kare toplamı SSE:
Doğrusal regresyon yöntemi: En uygun düz çizgiyi (y = ax + b) bulma yöntemi, a ve b parametrelerini bulmaktır.
Eğim bir formül:
b formülü:
Korelasyon katsayısı r: Tanımlanan verilerin en uygun çizgiden saptığı mesafeyi karakterize edin. (R = -1 tamamen negatif korelasyon, r = 1 tamamen pozitif korelasyon, r = 0 alakasız)
r formülü:
son sözler
Yazar, istatistik ve olasılıkla ilgili en temel kavramsal bilgileri burada sıraladı ve bu kavramsal bilgi ile uygulama senaryoları arasındaki ilişkiyi net bir şekilde açıklamaya çalıştı. Düşük seviyeli konsept, üst seviye uygulamanın temelidir. Bugünün aceleci "makine öğrenimi", "sinir ağı" ve "AI uyarlanabilir" bu uzun anahtar kelimeler gökyüzünün her yerine uçuyor. Yazar, yukarı doğru gelişmenin tek yolunun sağlam bir temel oluşturmak olduğuna inanıyor.
Editör: Yu Tengkai
Redaksiyon: Lin Yilin
-Bitiş-
Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.