Daha önce Bayes düşüncesini ve Bayes teoremini derinlemesine açıklamak için birçok makale yayınlamıştık, Bayes teoreminde yer alan felsefi düşünceyi, matematiksel düşünceyi ve muhakeme sürecini derinlemesine inceledik ve bunların inceliklerini farklı açılardan anladık. Bu makale, Bayes'in pratikteki uygulamasını anlamak için Bayes'in doğrusal regresyondaki uygulamasını analiz etmektedir.
Bayesçi görüşte, doğrusal regresyonu temsil etmek için nokta tahminleri yerine olasılık dağılımlarını kullanıyoruz. Y yanıtını tek bir değeri tahmin etmek için değil, olasılık dağılımını, yani hangi dağılımdan türetildiğini tahmin etmek için tahmin ediyoruz. Bu, Bayesçi doğrusal regresyon uygulamasının kilit noktasıdır.
Bayesçi doğrusal regresyonun genel doğrusal regresyona kıyasla avantajları nelerdir ve özü nedir? Bu makale, karmaşıklık örneklerini tanıtarak, en küçük kareler ve maksimum olasılık algoritmalarının artılarını ve eksilerini açıklayarak başlar ve son olarak mekanizmasını keşfetmek, avantajlarını açıklamak ve özünü çıkarmak için Bayes doğrusal regresyonu sunar!
Doğrusal regresyonun polinom formu aşağıdaki gibidir:
Model karmaşıklığı M'dir. Model karmaşıklığı arttıkça model uydurma sin (2pix) etkisine bakalım.
Aşağıdaki durum, M = 0,1,3,9 iken, M = 0 olduğunda, yatay bir düz çizgidir, M = 1 olduğunda, eğik bir düz çizgidir, M = 3 olduğunda, uydurulan verilere yakındır. Ancak M = 9 olduğunda aşırı uyum meydana gelir.
Bu örnekte, doğrusal regresyon için model karmaşıklığı çok önemlidir ve yetersiz uydurma ve aşırı uydurmadan kaçınmakla yakından ilgilidir ve bu karmaşıklığı kavramak kolay değildir.
Y, tahmin etmek istediğimiz çıktı (veya bağımlı değişken) olduğunda, X bizim tahmin edicimizdir (veya bağımsız değişken) ve tahmin etmek istediğimiz modelin katsayısı (veya parametresidir). , normal olarak dağıtıldığı varsayılan bir hata terimidir.
O zaman en uygun 'yi bulmak için sıradan en küçük kareleri kullanabiliriz, o zaman kayıp işlevi:
Kapalı form çözümüne sahip olmak için bu işlevi simge durumuna küçültün:
En küçük kareler yöntemi, model karmaşıklığını dikkate almaz.
Hala varsayarsak:
Y = XW +
rastgele bir hatadır ve Gauss dağılımına uyar N (0, 2). P (Yi | Xi, W) gereklidir. Önceki olasılık, yani verilen Xi ve W koşulları altında hedef değer Yi'nin olasılığı . Olasılık ne kadar büyükse, hata o kadar küçük olmalıdır. Başka bir deyişle, 'nin 0 merkez değerine yakın olma olasılığı ne kadar büyükse, Bu, N (0, 2) Gauss dağılımının anlamı ile örtüşür . ve bu yüzden:
Gauss dağılımı olasılık yoğunluğu işlevine değiştirildi:
Xi birbirinden bağımsız olduğu için:
Basitleştirme:
İlk terim sabittir, maksimum olasılık işlevini en üst düzeye çıkarmak için en aza indirmektir:
Bu, en küçük kareler yöntemiyle aynı sonuçtur.
Maksimum olasılık yöntemi, modelin karmaşıklığını hala kopyalamaz.
W parametresinin maksimum olasılık tahmini, model karmaşıklığını içermez, tamamen n veri boyutu tarafından kontrol edilir. ve Bayes yöntemlerini kullanmak, model karmaşıklığı ve aşırı uydurma ile daha iyi başa çıkabilir.
Bayes kuralını kullanarak, posterior, Olasılık × Önceki ile orantılıdır:
Önceki p (w) Gauss dağılımıdır ve olasılık p (t | w) gürültü modeline göre Gauss şeklindedir.
Bayes tahminlerinin iki önemli avantajı vardır :
İlk önce, a priori : Parametrelere öncelik koyarak sahip olabileceğimiz herhangi bir ön bilgiyi ölçebiliriz. Örneğin, 'nun küçük olabileceğini düşünürsek, daha düşük olasılık kalitesine sahip bir değer seçeceğiz.
İkincisi, belirsizliği ölçün : W parametresinin tek bir tahminini değil, farklı W değerlerinin olasılığı hakkında tam bir arka dağılım elde ediyoruz. Örneğin, birkaç veri noktasıyla, W belirsizliğimiz çok yüksek olacak, böylece verileri tam olarak kullanacağız ve, Çok kapsamlı bir posterior ve daha geniş bir yorum alacak .
Önceki parametre dağılımı Gauss'tur
W'den önce çok değişkenli bir Gauss varsayalım (w0, ..., wM-1 bileşenlerine sahiptir)
p ( w ) = N ( w | m0 , S0 )
Ortalaması m0 Toplam kovaryans matrisi S0
Eğer seçersek S0 = ^ -1, ağırlıkların varyansının ^ -1'ye eşit olduğu ve kovaryansın sıfır olduğu anlamına gelir
Verilerin olasılık dağılımı Gauss'tur
Gürültü doğruluğu parametresini varsayarsak actual, gerçek doğrusal regresyon fonksiyonunu t = y ( x, w ) + burada olasılıksal olarak Gauss gürültüsü olarak tanımlanır p (t | x, w , ) = N (t | y ( x, w ), ^ -1), çıktı t bir skaler
Bu, w parametresi ve X = {x1, .., xN} girişi verilen hedef verilerin olasılığıdır, Gauss gürültüsünden dolayı, p (t | w) olasılığı da Gauss gürültüsüdür
Posterior dağılım da Gauss'tur
Marjinal dağılım p ( w ) Ve koşullu dağılım p ( t | w ) Gauss dağılımı şeklinde, ardından marjinal dağılım p ( t ) ve koşullu dağıtım p ( w | t ) Ayrıca Gauss'ludur.
Posterior dağılımın tam şekli
Önceki parametre dağılımının ortalama değerini 0 olarak ayarladık, aynı varyansa sahibiz ve kovaryans sıfırdır.
Aşağıdaki gibi iki boyutlu bir örnek alın:
Olasılık yoğunluk dağılımı görüntüsü:
Posterior, Gauss dağılımına uyar, bu nedenle aşağıdaki forma sahiptir:
Bayes teoremine göre, önceki önceki ve olasılıktan Gauss biçimine indirgenebilir ve şunu elde edebiliriz:
Olasılık:
Önsel:
Buraya dikkat et , Gauss dağılımının doğruluğu
Ve sonra Bayes teoremi ile elde edildi:
Günlük olabilirlik işlevi:
Mucizeye tanık olma anı ortaya çıktı, bu forma aşina mısınız? Bu, MLE'nin L2 düzenlenmiş formu değil mi?
Bu nedenle, posteriorun maksimize edilmesi, kare hatalarının toplamını en aza indirmek için ikinci dereceden düzenleme terimi wTw ( = / ) eklemeye eşdeğerdir.
Bunlar arasında, olabilirlik fonksiyonu kısmı kayıp fonksiyonuna (ampirik risk) karşılık gelir ve önceki olasılık kısmı normal terime karşılık gelir. L2 düzenliliği, w parametresinin Gauss dağılımını karşılayan önceki olasılığına eşdeğerdir .