g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Makine öğrenimi algoritmalarında olasılıklı yöntemler

Lei Feng.com AI Technology Review Press Bu makalenin yazarı Zhang Hao. Şu anda Nanjing Üniversitesi Bilgisayar Bilimleri Bölümü, Makine Öğrenimi ve Veri Madenciliği Enstitüsü'nde (LAMDA) yüksek lisans öğrencisidir.Araştırma ilgi alanları bilgisayarla görme ve makine öğrenimidir, özellikle görsel tanıma ve derin öğrenmedir.

Kişisel ana sayfa: Bu makale, Leifeng.com'un yapay zeka teknolojisi incelemesine özel bir katkıdır.İzinsiz yeniden basılması yasaktır.

Özet

Bu makale, makine öğrenimi algoritmalarında olasılıklı yöntemleri tanıtır. Olasılıklı yöntemler, verilerin dağılımı hakkında varsayımlar yapar, olasılık yoğunluk fonksiyonunu tahmin eder ve karar vermek için bu olasılık yoğunluk fonksiyonunu kullanır. Bu makale en sık kullanılan dört olasılık yöntemini tanıtır: doğrusal regresyon (regresyon görevleri için), log olasılık regresyonu (ikili sınıflandırma görevleri için), Softmax regresyonu (çoklu sınıflandırma görevleri için) ve saf Bayes sınıflandırıcıları (için Çoklu sınıflandırma görevleri). * İlk üç yöntem diskriminatif modele aitken, saf Bayes sınıflandırıcı üretici modele aittir. (* Kesin olarak konuşursak, ilk üçünün birden çok yorumu vardır ve bunlar hem olasılıklı yöntemler hem de olasılıksız yöntemler olarak kabul edilebilir.)

Bu makale dizisi aşağıdaki özelliklere sahiptir: (a) Okuyucular üzerindeki yükü azaltmak ve olabildiğince çok okuyucuya fayda sağlamak için, bu makale olabildiğince az matematik bilgisi kullanmaya çalışmaktadır ve okuyucuların yalnızca temel hesaplama, doğrusal cebir ve olasılığa sahip olmasını gerektirir. Temelleri tartışın ve ilk bölümde temel matematik bilgilerini gözden geçirin ve tanıtın. (b) Bu makale herhangi bir türetme adımını atlamaz ve bu bölümün içeriğini kendi kendine yeterli hale getirmeye çalışarak arka plan bilgisini zamanında tamamlar, böylece makine öğrenimine yeni başlayanlar da bu makalenin içeriğini anlayabilir. (c) Makine öğrenimi, son yıllarda son derece hızlı bir şekilde gelişti ve çok geniş bir alan haline geldi. Bu makale, makine öğrenimi alanının tüm yönlerini kapsayamaz, ancak yalnızca bazı temel makine öğrenimi türlerini tanıtır. (d) Okuyucuların bu makalenin içeriğini pekiştirmelerine yardımcı olmak veya okuyucuları ilgili bilgileri genişletmeleri için yönlendirmek amacıyla, makaleye pek çok soru serpiştirilmiş ve son bölümde "hızlı sorular ve hızlı yanıtlar" verilmiştir.

1 Bilgiyi hazırlayın

Bu bölüm olasılık yönteminin temel sürecini verir ve daha sonra tanıtılacak olan farklı olasılık yöntemleri bu temel süreci takip eder.

1.1 Olasılıklı yöntemlerin modelleme süreci

(1). Doğru p (y | x; ) Olasılık varsayımları yapın. P (y | x; ) 'nin, formu parametre vektörü tarafından belirlenen belirli bir olasılık dağılımına sahip olduğunu varsayıyoruz.

benzersiz bir şekilde belirlenir.

(2). parametresinin maksimum posterior tahmini . Eğitim örneklerine dayanarak, optimize edilmesi gereken kayıp fonksiyonunu elde etmek için olasılık dağılımının parametresinin maksimum a posteriori (MAP) gerçekleştirilir.

Maksimum posterior tahmin,

En üst düzeye çıkarırken aşağıdaki iki öğeyi dikkate alır:

p () parametrelerinin önceki dağılımı. Maksimum arka tahmin, parametresinin bilinmediğini ve kendisinin önceki bir p () dağılımına uyan rastgele bir değişken olduğunu varsayar. Bu önceki dağıtım, parametreler hakkındaki alan bilgimizi içerir.

Gözlenen verilere dayalı olasılık p (D | ). Olasılığı maksimize etmek, numunenin tüm olası değerleri arasında gerçek etiketine ait olma olasılığını maksimize eden bir değer bulmaktır.

Maksimum posterior tahmin, önceki dağılım p () dikkate alındığında gözlem verilerine dayalı olarak p (D | ) olasılığını maksimize etmektir.

İki farklı parametre kestirim okulunun temel görüşleri nelerdir? Bu aslında bir parametre tahmin sürecidir.İstatistikte sık ve Bayes okulları farklı çözümler sunar. Sıklık yanlıları, parametreler bilinmemekle birlikte, bunların objektif olarak sabit değerler olduğuna inanırlar, bu nedenle maksimum olasılık tahmini genellikle parametre değerlerini belirlemek için kullanılır. Bayesian okulu, parametrelerin gözlemlenmemiş rastgele değişkenler olduğuna ve dağılımlara da sahip olabileceğine inanmaktadır.Bu nedenle, parametrelerin önceki bir dağılıma uyduğu ve daha sonra parametrelerin son dağılımının gözlemlenen verilere göre hesaplanabileceği varsayılabilir.

Teorem 1. Maksimum arka tahminin sonucu, aşağıdaki formun kayıp fonksiyonunu optimize etmektir.

İspat.Örneğin bağımsız ve özdeş dağılım varsayımını kullanarak,

Ampirik risk ve yapısal riskin anlamı nedir? L () 'nin ilk terimi, modelin eğitim verilerine ne kadar iyi uyduğunu açıklamak için kullanılan ampirik risk olarak adlandırılır. İkinci terim yapısal risk veya regülasyon terimi olarak adlandırılır, modelin önceki olasılığından türetilir ve ne tür bir model elde etmek istediğimizi ifade eder (örneğin, daha az karmaşık bir model elde etmek istiyoruz). , ikisi arasında bir uzlaşma olan düzenlileştirme sabiti olarak adlandırılır.

Yapısal riskin rolü? (1) Alan bilgisi ve kullanıcı niyetlerini tanıtmanın bir yolunu sağlar. (2) Hipotez alanını azaltmaya yardımcı olur, böylece eğitim hatasını en aza indirmek için aşırı uydurma riskini azaltır. Bu aynı zamanda, istenmeyen sonuçlara bir ceza uygulayan bir "ceza fonksiyonu yöntemi" olarak anlaşılabilir, böylece optimizasyon süreci istenen hedefe yönelir. p norm, yaygın olarak kullanılan bir düzenlilik terimidir.

Hangi önceki dağıtım

Parametreler

Düzenlileştirme sabiti 'ya dönüştürüldü.

Neden en yaygın olarak parametrelerin önceki dağılımının Gaussian (veya en yaygın olarak kullanılan) olduğu varsayılır.

Bunun nedeni, Gauss dağılımının N (µ; ) mevcut tüm ortalama ve entropi ve kovaryans matrisi arasında en büyük entropiye sahip dağılım olmasıdır. Maksimum entropi dağılımı, belirli kısıtlamalar altında en büyük belirsizliğe sahip dağılımdır. Daha fazla bilginin yokluğunda, bu belirsiz kısımlar "mümkün olanı bekliyor". Önceki dağılımı p () tasarlarken, parametreler hakkındaki bilgimiz dışında (ortalama ve aralık gibi), başka herhangi bir önyargı eklemek istemiyoruz. Bu nedenle, önceki maksimum entropi (karşılık gelen

Regularization) sıklıkla kullanılır. Gauss öncüllerine ek olarak, belirli bir aralık içinde tekdüze olarak dağıtılan ve karşılık gelen kayıp fonksiyonunda yapısal bir risk olmayan bilgilendirici olmayan öncelikler de kullanılabilir.

(3) Kayıp fonksiyonu L () üzerinde gradyan iniş optimizasyonunu gerçekleştirin.

Gradyan iniş detayları bir sonraki bölümde bırakılmıştır.

Olasılık yönteminin avantajları ve dezavantajları nelerdir Avantajlar: Bu parametreli olasılık yöntemi, parametre tahminini nispeten basit hale getirir. Dezavantajlar: Parametre tahmin sonuçlarının doğruluğu, büyük ölçüde varsayılan olasılık dağılım formunun potansiyel gerçek veri dağılımına uygun olup olmadığına bağlıdır. Gerçek uygulamalarda, potansiyel gerçek dağılıma yakın bir hipotez yapmak istiyorsanız, genellikle uygulama görevinin kendisi hakkındaki ampirik bilgiden belirli bir ölçüde yararlanmak gerekir, aksi takdirde olasılık dağılımının şeklini "tahmine" dayalı olarak varsaymak yanıltıcı olabilir. sonucu. Dünyayı olasılıkla açıklamak zorunda değiliz, olasılığa bakmadan doğrudan ayrım fonksiyonu olarak da adlandırılan sınıflandırma sınırını bulabiliriz ve hatta bazen diskriminant modelden daha iyi sonuçlar verebiliriz.

1.2 Gradyan iniş

Amacımız, aşağıdaki kısıtlanmamış optimizasyon problemini çözmektir.

L () sürekli türevlenebilir bir fonksiyon olduğunda. Gradyan inişi birinci dereceden (frstorder) bir optimizasyon yöntemidir ve kısıtlanmamış optimizasyon problemleri için en basit ve en klasik çözümlerden biridir.

Gradyan inişinin temel fikri - Gradyan inişi açgözlü bir şekilde L () 'yi yinelemeli olarak en aza indirir. Gradyan inişi, bir v yönü (birim vektör) bulmayı umar, böylece L bu yönde en hızlı düşer ve bu yönde mesafesi kadar ilerler.

Teorem 3. Gradyan inişinin güncelleme kuralı formül 5'tir. Yerel minimuma yakınsamak için bu işlemi tekrarlayın.

İspat: En hızlı alçalan yönü v ve ilerleyen mesafeyi bulmalıyız.

(1). En hızlı alçalan yön v. Taylor genişlemesini kullanın

Birinci dereceden yaklaşım,

Yani, en hızlı düşüşün yönü, kayıp fonksiyonunun negatif gradyan yönüdür.

(2) İleri mesafe . Başlangıçta yakınsamayı hızlandırmak için ileri mesafenin daha büyük olmasını ve minimum yaklaşırken minimum noktayı kaçırmamak için ileri mesafenin daha küçük olmasını umuyoruz. Bu nedenle, ilerleme mesafesini kayıp fonksiyonunun gradyanının bir katı olarak belirledik

, öğrenme oranı olarak adlandırılır.

Optimal olanı değiştirin

ile

Daha sonra alın.

Daha sonra f, aralıkta bir dışbükey işlev olarak adlandırılır (dışbükey işlev). Ne zaman genellikle bir dışbükey işlevdir.

2 Doğrusal regresyon

2.1 Modelleme süreci

Doğrusal regresyon regresyon problemi

. Modelleme yöntemi aşağıdaki üç adımı içerir (bkz. Bölüm 1.1).

(1). P (y | x; ) için olasılık varsayımları yapın.

varsayalım

Hata terimi olarak adlandırılır ve (a) 'yı yakalar. X özellik vektörüne dahil edilmeyen faktörler.

(b). Rastgele gürültü. Farklı örnekler için

Ondan bağımsız ve aynı şekilde dağıtılır

Örneklendi.

Doğrusal regresyonun varsayımsal işlevi

Yazma kolaylığı için hatırlıyoruz

O zaman formül 12 eşdeğerdir

Bu basitleştirilmiş gösterimi bu makalenin geri kalanında kullanacağız. bu nedenle

(2). parametresinin maksimum arka tahminini gerçekleştirin.

Teorem 7. parametresinin Gaussian öncülüne uyduğunu varsayarsak, parametresinin maksimum a posteriori tahmini, aşağıdaki kayıp fonksiyonunu en aza indirmeye eşdeğerdir

onların arasında

Kare kaybı denir. Doğrusal regresyonda, kayıp karesi bir hiper düzlem bulmaya çalışıyor

, Tüm örneklerden hiper düzleme Öklid mesafesinin toplamını en aza indirmek için.

Kanıt

Bunların arasında, son satır sadece matematiksel hesaplamaların rahatlığı içindir ve aşağıdaki log olasılık regresyonu ve Softmax regresyonunu türetirken son adım da aynıdır.

(3) Kayıp fonksiyonu L () üzerinde gradyan iniş optimizasyonunu gerçekleştirin.

Kayıp fonksiyonunun parametrelere göre kısmi türevi kolayca elde edilebilir

2.2 Doğrusal regresyonun kapalı form çözümü

Doğrusal regresyona karşılık gelen kare kaybının işlevsel formu nispeten basittir.

En uygun çözümü doğrudan alın.

Teorem 8. Doğrusal regresyonun kapalı form çözümü,

İspat. L () eşdeğer olarak yazılabilir

Yapmak

Sonra

Çöz

Hemen.

Geri döndürülemez durum ve çözüm? (1) d + 1 özelliklerinin sayısı m örneklem sayısından fazladır. (2) Nitelikler arasındaki doğrusal korelasyon. Düzenlilik terimi

mI, olsa bile

geri çevrilemez,

+ mI hala tersine çevrilebilir.

2.3 Diğer düzenlenmiş regresyon modelleri

Aslında, yukarıda sunulan doğrusal regresyon modeli sırt regresyonudur. Farklı regresyon terimlerine göre, Tablo 1'de gösterildiği gibi yaygın olarak kullanılan üç doğrusal regresyon modeli vardır.

0, 1 ve 2 normlarının düzenlileştirme etkisine dayanarak? 2 normu, w'nin bileşenleri için olabildiğince dengeli olma eğilimindedir, yani sıfır olmayan bileşenlerin sayısı mümkün olduğu kadar yoğundur. 0 norm ve 1 normu, w'nin bileşenlerine olabildiğince seyrek sahip olma eğilimindedir, yani sıfır olmayan bileşenlerin sayısı olabildiğince azdır ve optimizasyon sonucu, özniteliklerin yalnızca bir bölümünü kullanan bir modeldir. Başka bir deyişle, 0 "norm" ve 1 norm düzenlemesine dayalı öğrenme yöntemi, özellik seçme süreci ile öğrenci eğitim sürecinin entegre edildiği ve ikisinin aynı şekilde optimize edildiği bir gömme özellik seçme yöntemidir. İşlem tamamlandı. Aslında, w'ye seyreklik kısıtlaması koymanın en doğal yolu, 0 norm u kullanmaktır. Ancak, 0 "normu" sürekli değildir ve çözümü optimize etmek zordur. Bu nedenle, 1 normu genellikle yaklaşık olarak kullanılır.

1 normalleştirme, seyrek çözümler elde etmek için 2 regülasyonundan neden daha kolaydır? Hipotez

,sonra

. Şekil 1'de gösterildiği gibi kare kayıp terimi, 1 normu ve 2 normunun (aynı değere sahip nokta çizgisi) konturlarını çizeriz. LASSO'nun çözümü, kare kayıp terimi ile düzenlileştirme terimi arasında bir uzlaşma olmalıdır, yani, kare hata terimi çevriti ile şekildeki düzenlilik terimi çevritinin kesişme noktasında görünür. Şekilden, 1 düzenlileştirme kullanıldığında, kesişme noktasının genellikle koordinat ekseninde göründüğü (w2 = 0), 2 düzenlenmesi kullanıldığında, kesişme noktasının genellikle bir kadranda göründüğü (w1 ve w2, 0 değildir) görülebilir.

Şekil 1: 1 düzenlileştirme (kırmızı) seyrek çözümler elde etmek, 2 düzenlileştirmeye (siyah) göre daha kolaydır. Bu resim türetilmiştir.

1 normalleştirme ile genel optimizasyon hedefini düşünün

() L-Lipschitz koşulunu karşılarsa, yani

Optimizasyon genellikle proksimal gradyan inişini (PGD) kullanır. PGD aynı zamanda 1 norm minimizasyonuna dayalı yöntemi hızlı bir şekilde çözebilen açgözlü bir yinelemeli minimizasyon stratejisidir.

Teorem 9. Mevcut parametrenin

PGDnin güncelleme yönergeleri

onların arasında

Kanıtı.

Yaklaşık () ikinci dereceden Taylor açılımı ile yaklaşık olarak hesaplanır

'nin her boyutu birbirini etkilemediğinden (çapraz terim olmadığından), her boyut bağımsız olarak çözülebilir.

LASSO temelinde, özellik gruplama yapısını dikkate alan Grup LASSO ve özellik sıralaması yapısını dikkate alan Fused LASSO gibi varyantlar daha da geliştirilmiştir. Dışbükeylik katı olmadığından, LASSO benzeri yöntem birden fazla çözüm üretebilir.Bu sorun elastik bir ağ ile çözülür.

2.4 Anormal noktalara sahip verilerin doğrusal regresyonu

Verilerde aykırı değerler bulunduğunda, kare kaybı örnek noktasından hiper düzleme olan mesafenin karesi olarak hesaplandığından, hiper düzlemden uzaktaki noktalar, Şekil 2'de gösterildiği gibi regresyon sonuçları üzerinde daha büyük bir etkiye sahip olacaktır. Karesi alınmış kayıp, gürültünün bir Gauss dağılımını takip ettiği varsayımına karşılık gelir.

, Aykırı değerlerle başa çıkmanın bir yolu, Gauss dağılımını daha ağır kuyruklara sahip diğer dağılımlarla değiştirerek, Laplace dağıtımını kullanmak gibi aykırı değerlere karşı daha toleranslı hale getirmektir.

, Şekil 3'te gösterildiği gibi.

Şekil 2: Normal doğrusal regresyon (kırmızı) ve anormal noktalar (grafiğin altındaki üç nokta) olduğunda güçlü doğrusal regresyon (mavi). Bu resim türetilmiştir.

Şekil 3: Gauss dağılımı N (0,1) (kırmızı) ve Laplacian dağılımı Lap (0,1) (mavi). Bu resim şu kaynaktan geliyor: https://www.epixanalytics.com/modelassist/AtRisk/images/15/image632.gif

Çift taraflı üstel dağılım olarak da bilinen Tanım 2 (Laplace dağılımı Lap (µ, b)) aşağıdaki olasılık yoğunluk fonksiyonuna sahiptir

Dağılımın ortalaması µ ve varyans

Teorem 10. Parametrelerin bir Gauss öncülüne uyduğunu varsayarsak,

parametresinin maksimum a posteriori tahmini, aşağıdaki kayıp fonksiyonunu en aza indirmeye eşdeğerdir

Kanıt

Mutlak değer fonksiyonu düzgün olmadığından, gradyan inişine dayalı olarak Denklem 33'ü optimize etmek uygun değildir. Değişkenleri ayırma tekniği sayesinde, ikinci dereceden bir programlama problemine dönüştürülebilir ve bu daha sonra mevcut yazılım paketleri çağrılarak çözülebilir. Bir sonraki bölümde SVR'yi resmileştirirken bu tekniği tekrar kullanacağız.

Teorem 11. Minimizasyon formülü 33, d + 1 + 2m değişkenleri ve 3m kısıtlamaları içeren aşağıdaki ikinci dereceden programlama problemine eşdeğerdir:

Ek olarak, kolay optimizasyon için Gauss dağılımının (önemsiz kayba karşılık gelen) avantajlarını ve aykırı değerlerin avantajlarıyla baş edebilmek için Laplace dağıtımının (1 kayba karşılık gelen) avantajlarını birleştirmek için, Huber kaybı, hata 0'a yakın olduğunda kayıp karedir ve hata nispeten büyük olduğunda 1 kaybına yakın , Şekil 4'te gösterildiği gibi.

Huber kaybı her yerde ayırt edilebilir, Huber kaybını optimize etmek için gradyan tabanlı yöntemler kullanmak, Laplace dağıtımını kullanmaktan daha hızlı olacaktır.

Şekil 4: 2 kaybı (kırmızı), 1 kaybı (mavi) ve Huber kaybı (yeşil). Bu resim türetilmiştir.

2.5 Genelleştirilmiş doğrusal model

Doğrusal regresyon, özelliklerin doğrusal kombinasyonlarını kullanır

Tahminler yapın. Doğrudan kullanıma ek olarak

Y'ye yaklaşmaya ek olarak, modelin tahmin edilen değeri de y'nin bir türevine yaklaştırılabilir. Monoton olarak türevlenebilir g fonksiyonunu düşünün.

Bu şekilde elde edilen model, g fonksiyonunun bir bağlantı fonksiyonu olarak adlandırıldığı genelleştirilmiş bir doğrusal model olarak adlandırılır. Bu makalede tanıtılan doğrusal regresyon, log olasılık regresyonu ve Softmax regresyonu, Tablo 2'de gösterildiği gibi genelleştirilmiş lineer modellerdir.

Genelleştirilmiş doğrusal modellerin avantajları? (1) Biçim olarak basit ve modellemesi kolay. (2) Çok iyi yorumlanabilirlik.

Tahminde her bir özelliğin önemini sezgisel olarak ifade eder.

Doğrusal olmayan problemleri çözmek için genelleştirilmiş doğrusal modeller nasıl kullanılır? (1) Hiyerarşik yapıyı tanıtın. Örneğin, derin öğrenme, örnek x katmanını katman katman işlemek, başlangıçtaki düşük düzey gösterimi üst düzey özellik gösterimine dönüştürmek ve doğrusal bir sınıflandırıcı kullanmaktır. (2) Yüksek boyutlu haritalama. Örneğin, çekirdek yöntemi x'i yüksek boyutlu bir uzay (x) ile eşler ve ardından doğrusal bir sınıflandırıcı kullanır.

3 Log oran regresyonu

3.1 Modelleme süreci

İki sınıflandırma probleminin üstesinden gelmek için lojistik regresyon (lojistik regresyon). Modelleme yöntemi aşağıdaki üç adımı içerir (bkz. Bölüm 1.1).

(1). P (y | x, ) için olasılık varsayımları yapın.

İkili sınıflandırma görevleri için işaretleyin

,ve

Üretilen gerçek bir değerdir, bu nedenle monoton olarak türevlenebilir bir g fonksiyonu bulmalıyız.

dönüşmek

. En ideal birim adım işlevini kullanmaktır

ne zaman

0'dan büyükse 1 çıktı; 0'dan küçükse 0 çıktı. Bununla birlikte, birim adım işlevi sürekli değildir ve farklılaştırılamaz ve gradyan iniş yöntemi ile optimize edilemez. Bu nedenle, birim adım fonksiyonuna belirli bir dereceye kadar yaklaşabilen ve monoton olarak türevlenebilir bir vekil fonksiyon bulmayı umuyoruz.

Şekil 5: Birim adım işlevi (kırmızı) ve günlük olasılık işlevi (siyah). Bu resim türetilmiştir.

Şekil 5'te gösterildiği gibi, logaritmik olasılık işlevi (sigmoid işlevi), bu kadar yaygın olarak kullanılan bir alternatif işlevdir.

Bunu bir son olasılık tahmini olarak ele alıyoruz, yani

Sonra

Her ikisi de yazmak için birleştirilebilir

Diğer bir deyişle, y | x, Bernoulli dağılımına uyar Ber (sigm

(2). parametresinin maksimum arka tahminini gerçekleştirin.

Teorem 12. parametresinin Gaussian öncesine uyduğunu varsayarsak, parametresinin maksimum a posteriori tahmini, aşağıdaki kayıp fonksiyonunu en aza indirmeye eşdeğerdir.

onların arasında

Lojistik kayıp denir.

Kanıt

Fark edildi

bu nedenle

(3) Kayıp fonksiyonu L () üzerinde gradyan iniş optimizasyonunu gerçekleştirin.

3.2 Genelleştirilmiş doğrusal modellerle ilişki

Günlük olasılık regresyonu için varsayımsal fonksiyon

Eşittir

,onların arasında

Oran olarak adlandırılır ve x'in pozitif bir örnek olma göreceli olasılığını yansıtır.

Log oranlar (log olasılıklar, logit) olarak bilinen Formula 50, log olasılık regresyon adının kökeni olan gerçek etiketli log oranlarını yaklaşık olarak tahmin etmek için bir doğrusal regresyon modelinin tahmin sonuçlarını kullanıyor.

Log-olasılık regresyonunun avantajları? (1) Sınıflandırma olasılığını doğrudan modelleyin (p (y | x, ) Bernoulli dağılımına uyduğunu varsayarak), x örnekleminin dağılımını önceden varsaymadan, böylece dağılım varsayımından kaçının Yanlışlığın neden olduğu sorunlar. (2) Yalnızca kategoriyi tahmin etmekle kalmaz, aynı zamanda yaklaşık olasılık tahminini de alabilir, bu da karar vermeye yardımcı olması için olasılık gerektiren birçok görev için çok yararlıdır. (3) Logaritmik olasılığın amaç işlevi, iyi matematiksel özelliklere sahip olan dışbükeydir.

Lemma 13. Günlük olasılık kaybı işlevi dışbükeydir.

Kanıtı.

Temelinde, daha fazla elde edilebilir

Pozitif yarı tanımlı bir matristir.

3.3

Günlük oran dönüşü

Olasılık varsayımlarının rahatlığı için, iki sınıflandırma probleminin etiketini yapıyoruz

. Bazen başa çıkmamız gerekir

Form sınıflandırma problemi. Günlük olasılık kaybı işlevinin buna göre değiştirilmesi gerekir.

(1). P (y | x, ) için olasılık varsayımları yapın.

varsayalım

Sonra

Her ikisi de yazmak için birleştirilebilir

(2). parametresinin maksimum arka tahminini gerçekleştirin.

Teorem 14. parametresinin bir Gaussian öncesine uyduğunu varsayarsak, parametresinin maksimum a posteriori tahmini, aşağıdaki kayıp fonksiyonunu en aza indirmeye eşdeğerdir.

onların arasında

Lojistik kayıp denir.

Kanıt

(3) Kayıp fonksiyonu L () üzerinde gradyan iniş optimizasyonunu gerçekleştirin.

4 Softmax dönüşü

4.1 Modelleme süreci

Softmax regresyonu, çoklu sınıflandırma problemleriyle ilgilenir, log olasılık regresyonunun çoklu sınıflandırma problemlerine genelleştirilmesidir. Modelleme yöntemi aşağıdaki üç adımı içerir (bkz. Bölüm 1.1).

(1). P (y | x, ) için olasılık varsayımları yapın.

Log olasılık regresyonu p (y | x, ) Bernoulli dağılımına uyduğunu varsayar, Softmax regresyonu p (y | x, ) aşağıdaki dağılıma uyduğunu varsayar

Yapmak

Fonksiyonun bir matris şeklinde yazılabileceğini varsayarsak

(2). parametresinin maksimum arka tahminini gerçekleştirin.

Teorem 15. parametresinin bir Gaussian öncesine uyduğunu varsayarsak, parametresinin maksimum a posteriori tahmini, aşağıdaki kayıp fonksiyonunu en aza indirmeye eşdeğerdir.

onların arasında

Çapraz entropi kaybı olarak adlandırılır.

Kanıt

(3) Kayıp fonksiyonu L () üzerinde gradyan iniş optimizasyonunu gerçekleştirin.

Kayıp işlevi, k kategorisinin parametrelerine karşılık gelir

Türevi

Matris olarak yazılan form

onların arasında

K'inci elemanı 1 ve geri kalanı 0. Formüller 20, 49 ve 67 karşılaştırıldığında, kayıp fonksiyonunun gradyanı aynı matematiksel forma sahiptir

Fark hipotez fonksiyonunda yatmaktadır

Biçim farklı. Aslında, tüm genelleştirilmiş doğrusal modeller Denklem 68'e benzer güncelleme kriterlerine sahiptir.

4.2 Çapraz entropi

Deneysel dağılım olarak adlandırılan eğitim setinden gözlemlenen dağılımı tanımlayın. Deneyim dağılımı

İ-inci örneğe karşılık olarak, tanımlayın

. diğer yandan,

Model tarafından tahmin edilen olasılıktır.

Teorem 16. Çapraz entropi kaybı, ampirik dağılımı en aza indirmeyi amaçlar

Ve öğrenme dağıtımı

Aradaki çapraz entropi. Bu, küçültmeye eşdeğerdir

ile

Tahmin edilen dağılımı zorlar arasındaki KL sapması

Yaklaşık hedef dağılım

Kanıt

5 Naive Bayes sınıflandırıcı

Naive Bayes sınıflandırıcısı da olasılıksal bir yöntemdir, ancak üretken bir modeldir. Bu bölümde, önce üretken modeli gözden geçiriyoruz ve ardından naif Bayes sınıflandırıcısının modelleme sürecini tanıtıyoruz.

5.1 Üretken Model

Ayrımcı model ve üretici model nedir? Ayırıcı model doğrudan p (y | x) modelini ve üretken model ilk olarak ortak dağılım p (x, y) = p ( x | y) p (y) modeli ve sonra

Bunlar arasında p (y), örnek uzayındaki çeşitli örneklerin oranını ifade eden sınıf öncelikli olasılıktır. p (x | y) olasılık olarak adlandırılır. p (x), normalizasyon için kullanılan kanıttır. Sınıf etiketi ile ilgisi olmadığından, terim p (y | x) tahminini etkilemez.

Sınıf önceki olasılık ve olasılık nasıl tahmin edilir? Büyük sayılar yasasına göre, eğitim seti yeterli bağımsız ve aynı şekilde dağıtılmış örnekler içerdiğinde, p (y) çeşitli örneklerin sıklığı ile tahmin edilebilir

P (x | y) olasılığına gelince, x'in tüm özniteliklerinin birleşik olasılığını içerdiğinden, eğer sınırlı eğitim örneklerine dayalı olarak birleşik olasılık doğrudan tahmin ediliyorsa, (1) Hesaplamada kombinatoryal patlama problemi ile karşılaşılacaktır. (2) Veriler, numune seyrekliği sorunuyla karşılaşacaktır.Çoğu numune değeri eğitim setinde hiç görünmez ve "gözlemlenmemiş" ve "oluşma olasılığı sıfırdır" genellikle farklıdır. Doğrudan örneklemin sıklığına göre ciddi zorluklar yaşanacağı tahmin edilmektedir, öznitelik sayısı arttıkça zorluk da o kadar ciddi olacaktır.

Ayrımcı model ile üretici modelin avantajları ve dezavantajları nelerdir? Avantaj ve dezavantajların karşılaştırılması Tablo 3'te gösterilmiştir.

5.2 Modelleme süreci

(1). P (x | y, ) için olasılık varsayımları yapın.

Üretken modelin temel zorluğu, sınıf koşullu olasılığının p (x | y), sınırlı bir eğitim örneğinden doğrudan tahmin edilmesi zor olan tüm özniteliklerin ortak olasılığı olmasıdır. Bu engelden kaçınmak için saf Bayes sınıflandırıcısı, şartlı bağımsızlık niteliği varsayımını benimser: bilinen kategoriler için, tüm özelliklerin birbirinden bağımsız olduğu varsayılır. Başka bir deyişle, her bir özelliğin bağımsız olarak sınıflandırma sonuçlarını etkilediğini varsayarsak

Ek olarak, sürekli nitelikler için başka varsayımlar

Bu nedenle, saf Bayes sınıflandırıcısının hipotez işlevi

(2). parametresinin maksimum arka tahminini gerçekleştirin. parametresi, j-inci özniteliği üzerinde c-inci örneğinin Gauss dağılımının ortalama değerini içerir

Toplam varyans

Teorem 17. parametresinin bilgi vermeyen bir öncekine uyduğunu varsayarsak, parametresinin maksimum a posteriori tahmini şöyledir:

İspat. Formül 76 ile değiştirin

5.3 Ayrık özniteliklerin parametre tahmini

Naive Bayes sınıflandırıcı, ayrık öznitelikleri kolayca işleyebilir.

Olarak tahmin edilebilir

Ancak belirli bir öznitelik değeri eğitim setinde belirli bir sınıfla aynı anda görünmüyorsa Denklem 82'ye göre 0 olacağı tahmin edilmektedir. -1 elde etmek için formül 75'i değiştiriyoruz. Bu nedenle, numunenin diğer özellikleri ne olursa olsun, sınıflandırma sonucu y = c olmayacaktır, bu açıkça makul değildir.

Diğer öznitelikler tarafından taşınan bilgilerin eğitim setinde görünmeyen öznitelik değerleri tarafından "silinmesini" önlemek için, düzeltme genellikle olasılık değeri tahmin edilirken gerçekleştirilir ve genellikle Laplacian düzeltmesi kullanılır. Spesifik olarak, K eğitim seti D'deki olası kategori sayısını ve nj, j-inci özniteliğin olası değerlerinin sayısını göstersin, ardından olasılık tahmini şu şekilde revize edilir:

Laplace düzeltmesi aslında öznitelik değerlerinin ve kategorilerinin tekdüze bir dağılımını varsayar; bu, ek olarak naif Bayesçi öğrenmeye eklenen veriler hakkında bir önseldir. Eğitim seti büyüdüğünde, düzeltme sürecinin getirdiği önceki etki kademeli olarak ihmal edilebilir hale gelecektir, böylece tahmin gerçek olasılık değerine yönelecektir.

Naive Bayes'i gerçek görevlerde uygulamanın birçok yolu vardır. Örneğin, görev yüksek tahmin hızı gerektiriyorsa, belirli bir eğitim seti için, saf Bayes sınıflandırıcısında yer alan tüm olasılık tahminleri önceden hesaplanabilir ve saklanabilir, böylece tahmin yaparken yalnızca tabloya bakmanız gerekir. Ayrımcılık yapın. Görev verileri sık sık değişirse, önce herhangi bir eğitim olmadan tembel öğrenme yöntemi benimsenebilir ve daha sonra olasılık tahmini, tahmin talebi alındığında mevcut veri setine göre gerçekleştirilir. Veriler mevcut tahmin temelinde artmaya devam ederse, artımlı öğrenmeyi gerçekleştirmek için yalnızca yeni örneğin öznitelik değerinde yer alan olasılık tahmini sayılabilir ve revize edilebilir.

Tanım 3 (tembel öğrenme). Bu tür bir öğrenme teknolojisi, örnekleri yalnızca eğitim aşamasında kaydeder ve eğitim süresi ek yükü 0'dır ve test örnekleri işlemden önce alınır. Buna bağlı olarak, eğitim aşamasındaki bu öğrenme ve işleme yöntemlerine istekli öğrenme denir.

Tanım 4 (artımlı öğrenme). Model öğrenildikten sonra, eğitim örneği alındığında, modelin yalnızca yeni örneğe göre güncellenmesi gerekir.Tüm modeli yeniden eğitmeye gerek yoktur ve önceden öğrenilen etkili bilgiler "yıkanmaz".

5.4 Naive Bayes Sınıflandırıcısının Genelleştirilmesi

Naive Bayes sınıflandırıcısı, özelliklerin koşullu bağımsızlık varsayımını kullanır, ancak bu varsayımı gerçek görevlerde tutmak genellikle zordur. Bu nedenle, insanlar niteliklerin koşullu bağımsızlık varsayımını bir dereceye kadar gevşetmeye çalışırlar ve bazı özellikler arasındaki karşılıklı bağımlılığı uygun şekilde düşünürler, böylece tam ortak olasılığı hesaplamaya gerek kalmaz ve nispeten güçlü öznitelik bağımlılığını tamamen göz ardı etmez. Bu, yarı naif Bayes sınıflandırıcıları için bir öğrenme yöntemi üretir.

Tek bağımlı tahminci (ODE), en yaygın kullanılan stratejidir ve her bir özelliğin, kategori dışındaki en fazla başka bir özelliğe (ana özellik olarak adlandırılır) bağlı olduğunu varsayar. Sorunun anahtarı, her bir özniteliğin üst özniteliğinin nasıl belirleneceğidir. SPODE (süper ebeveyn ODE), tüm niteliklerin aynı niteliğe bağlı olduğunu varsayar ve buna süper şeffaf adı verilir. TAN (ağaçla güçlendirilmiş saf Bayes), öznitelik düğümleri ile tam bir grafik oluşturur ve herhangi iki düğüm arasındaki kenarın ağırlığı, bu iki öznitelik arasındaki koşullu karşılıklı bilgiye ayarlanır.

. Daha sonra, bu grafiğin maksimum ağırlıklı kapsama ağacını oluşturun, kök değişkenini seçin ve nitelikler arasındaki bağımlılığı bir ağaç yapısına düşürmek için kenarları yönlendirildiği gibi ayarlayın. Son olarak, kategori düğümü y eklenir ve y'den her bir özniteliğe yönlendirilmiş kenar eklenir. TAN, koşullu karşılıklı bilgi yoluyla iki özelliğin koşullu ilişkisini tasvir eder ve nihayetinde güçlü bir şekilde ilişkili özellikler arasındaki bağımlılığı korur. AODE (ortalama ODE), her bir özniteliği bir süper ebeveyn olarak oluşturmaya çalışır ve ardından bu SPODE'leri nihai sonuç olarak yeterli eğitim veri desteğiyle bütünleştirir. AODE'nin eğitim süreci de "sayılıyor", bu nedenle saf Bayes sınıflandırıcı model seçimi gerektirmez, tahmin süresinden tasarruf etmek için önceden hesaplanabilir, ayrıca tembel öğrenebilir ve artımlı öğrenmeyi uygulamak kolaydır.

Öznitelikler arasındaki yüksek dereceli bağımlılıklar dikkate alınarak genelleme performansı daha da iyileştirilebilir mi? ODE ile karşılaştırıldığında, kDE en çok k ebeveyn özniteliğini dikkate alır. Bağımlı özniteliklerin sayısı arttıkça, doğru olasılık tahmini için gereken eğitim örneği sayısı katlanarak artacaktır. Bu nedenle, eğitim verileri çok yeterliyse, genelleme performansı iyileştirilebilir. Bununla birlikte, sınırlı numuneler koşulu altında, yüksek mertebeden ortak olasılık batağına düşmüştür.

Ayrıca, inanç ağı olarak da bilinen Bayes ağı, keyfi nitelikler arasındaki bağımlılığı temsil edebilir. Bayes ağı, öznitelikler arasındaki bağımlılıkları açıklamak için yönlendirilmiş döngüsel olmayan grafikler kullanan olasılıklı bir grafik modelidir.

Aslında, Naive Bayes'in niteliklerin koşullu bağımsızlık varsayımının gerçek uygulamalarda tutulması genellikle zor olsa da, birçok durumda oldukça iyi performans elde edebilir. Bir açıklama, sınıflandırma görevleri için, her kategorinin yalnızca koşullu olasılıklarının doğru şekilde sıralanması gerektiğidir ve doğru sınıflandırma sonuçlarına götürmek için doğru olasılık değerlerine gerek yoktur. Diğer bir açıklama, nitelikler arasındaki bağımlılıklar tüm kategoriler üzerinde aynı etkiye sahipse veya bağımlılıklar birbirini iptal edebiliyorsa, niteliklerin koşullu bağımsız olduğu varsayımının, hesaplama yükünü azaltırken performans üzerinde olumsuz bir etkisi olmayacağıdır. Naive Bayes sınıflandırıcılar, özellikle bilgi erişim alanında yaygın olarak kullanılmaktadır.

6 Hızlı sorular ve cevaplar

Stokastik gradyan inişinin ve standart gradyan inişinin avantajları ve dezavantajları nelerdir?

Parametre güncelleme hızı. Gradyanı hesaplamak için standart gradyan inişinin tüm eğitim setini geçmesi gerekir ve güncelleme yavaştır. Stokastik gradyan inişi, gradyanı hesaplamak için yalnızca bir eğitim örneğine ihtiyaç duyar ve güncelleme daha hızlıdır.

Gereksiz hesaplamalar. Eğitim seti örneklerinin fazlalığı olduğunda, stokastik gradyan inişi, benzer örnekler üzerinde gradyan hesaplama fazlalığından kaçınabilir.

Eğimde rastgele faktörler / gürültü. Standart gradyan inişi ile hesaplanan gradyan rastgele faktörlere sahip değildir ve yerel minimuma düştüğünde kaçamaz. Stokastik gradyan inişi ile hesaplanan gradyan rastgele faktörlere sahiptir ve yerel minimumdan çıkma ve optimize etmeye devam etme şansı vardır.

Pratik uygulamalarda, stokastik gradyan inişi ve standart gradyan inişi arasında bir uzlaşma sıklıkla kullanılır, yani, bazı örnekler kullanılarak küçük bir gradyan inişi grubu gerçekleştirilir. Ek olarak, stokastik gradyan inişine kıyasla, mini parti gradyan inişi, matris vektörleştirme hesaplamalarının avantajlarından daha iyi faydalanabilir.

Gradyan inişinin ve Newton yönteminin avantajları ve dezavantajları nelerdir?

Türevin sırası. Gradyan inişinin yalnızca ilk türevi hesaplaması gerekirken, Newton'un yönteminin ikinci türevi hesaplaması gerekir. İlk türev yön bilgisi sağlar (en hızlı düşüşün yönü) ve ikinci türev ayrıca fonksiyonun şekli hakkında bilgi sağlar.

Hesaplama ve depolama ek yükü. Newton yönteminin, parametreler güncellendiğinde Hessian matrisinin tersini hesaplaması gerekir ve hesaplama ve depolama maliyetleri gradyan inişinden daha yüksektir.

Öğrenme oranı. Gradyan inişi, öğrenme hızına çok duyarlıdır, ancak standart Newton yönteminin öğrenme oranını ayarlaması gerekmez.

yakınsama hızı. Newton yönteminin yakınsama oranı, gradyan inişinden daha hızlıdır.

Newton yöntemi, küçük gruplar veya rastgele örnekler için uygun değildir.

Pratik uygulamalarda, Hessian matrisine daha düşük hesaplama ve depolama ek yükü ile yaklaşmak için tasarlanmış birçok yarı-Newton yöntemi vardır.

Doğrusal regresyonun kayıp fonksiyonu ve gradyan türetilmesi.

Yukarıdaki cevaba bakın.

Neden düzenlileştirme kullanılıyor? 1 ve 2 düzenlileştirme hangi dağılımla ilgilidir ve işlevleri nelerdir?

Yukarıdaki cevaba bakın.

Log olasılık regresyonunun kayıp fonksiyonu ve gradyan türetilmesi.

Yukarıdaki cevaba bakın.

Doğrusal bir sınıflandırıcı, doğrusal olmayan bir sınıflandırıcıya nasıl genişletilebilir?

Yukarıdaki cevaba bakın.

Ayrımcı model ve üretici model nedir? Avantajları ve dezavantajları nelerdir? Hangi ortak algoritmalar ayırt edici modellerdir ve hangileri üretken modellerdir?

Yukarıdaki cevaba bakın.

Bayes teoremi ne anlama geliyor?

Yukarıdaki cevaba bakın.

Naif Bayes'e neden "Naif" Bayes deniyor?

Naive Bayes, sınırlı eğitim örneklerinden p (x | y) 'yi doğrudan tahmin etme engelini ortadan kaldırmak için, gerçek uygulamalarda tutulması genellikle zor olan öznitelik koşul bağımsızlığı varsayımını yaptı.

Referanslar

P. L. Combettes ve V. R. Wajs. Proksimal ileri-geri bölme ile sinyal kurtarma. Çok Ölçekli Modelleme ve Simülasyon, 4 (4): 11681200, 2005. 5

P. M. Domingos ve M. J. Pazzani Sıfır-bir kayıp altında basit bayes sınıflandırıcısının optimalliği üzerine Machine Learning, 29 (2-3): 103130, 1997. 12

B. Efron. Bayesyanlar, müdavimler ve bilim adamları. Amerikan İstatistik Derneği Dergisi, 100 (469): 1-5, 2005. 1

N. Friedman, D. Geiger ve M. Goldszmidt. Bayesian ağ sınıflandırıcıları. Makine Öğrenimi, 29 (2-3): 131163,1997. 12

P. J. Huber. Bir konum parametresinin sağlam tahmini. Annals of Statistics, 53 (1): 492518, 1964. 6

D. D. Lewis. Naive (bayes), kırk: Bilgiye erişimde bağımsızlık varsayımı 10. Avrupa Makine Öğrenimi Konferansı (ECML) Bildirilerinde, sayfa 4-15, 1998. 13

K. P. Murphy.Makine Öğrenimi: Olasılıksal Bir Bakış MIT Press, 2012. 5, 6

A. Y. Ng ve M. I. Ürdün. Ayrımcı ve üretici sınıflandırıcılar hakkında: Lojistik regresyon ve saf bölmelerin karşılaştırması. In Advances in Neural Information Processing Systems 14 (NIPS), sayfa 841848, 2001.12

F. J. Samaniegos. Bayesci ve Frekanscı Yaklaşımların Tahmin Etme Konusunda Karşılaştırılması. Springer Science and Business Media, 2010. 1

R. Tibshirani. Regresyon küçülmesi ve LASSO aracılığıyla seçim. Royal Statistical Society Dergisi. Seri B (Metodolojik), sayfa 267288, 1996. 4

R. Tibshirani, M. Saunders, S. Rosset, J. Zhu ve K. Knight. Kaynaşmış kement yoluyla seyreklik ve pürüzsüzlük. Royal Statistical Society Dergisi: Seri B (İstatistiksel Metodoloji), 67 (1): 91 108, 2005. 5

A. N. Tikhonov ve V.I.Arsenin. Yanıltıcı Sorunların Çözümleri. Winston, 1977. 4

G. I. Webb, J. R. Boughton ve Z. Wang. O kadar saf olmayan koylar: Tek bağımlılık tahmin edicilerinin toplanması. Makine Öğrenimi, 58 (1): 524, 2005. 12

M. Yuan ve Y. Lin. Gruplandırılmış değişkenlerle regresyonda model seçimi ve tahmini.Royal İstatistik Derneği Dergisi: Seri B (İstatistiksel Metodoloji), 68 (1): 49-67, 2006. 5

H. Zhang. Saf körfezlerin optimalliği. Onyedinci Uluslararası Florida Yapay Zeka Araştırma Derneği Konferansı Bildirilerinde (FLAIRS), sayfa 562-567, 2004. 13

H. Zou ve T. Hastie. Elastik ağ aracılığıyla düzenleme ve değişken seçim. Royal İstatistik Derneği Dergisi: Seri B (İstatistiksel Metodoloji), 67 (2): 301320, 2005. 5

Zhou Zhihua. Machine Learning. Tsinghua University Press, 2016. 5, 7, 12

E-ticaret canlı varyete şovlarını, "Nine Bulls and Two Tigers" dan "canlı e-ticaret varyete şovlarını" nasıl oynayacağını işgal ediyor

Son zamanlarda Çin'deki en popüler marka? ! RANDOMEVENT'in yeni ürünlerinin retro × geleceği nasıl oynadığını görün