Makine öğrenimi alanında çok çekici bir kelime var: entropi. Bununla birlikte, entropi nedir, inanıyorum ki çoğu insan bir ya da iki diyebilir, ancak bunu açıkça ifade edemezler.
Yazarın entropi anlayışı şudur: "Öğrenmeyi ve terfi etmeyi reddedenlerin geleceği yoktur ve ancak çok çalışarak olmak istedikleri kişi olabilirler" .
Aşağıdaki şekil entropinin basit bir açıklamasıdır:
Entropi, düzensizliğin bir ölçüsü olarak anlaşılabilir. Peki, makine öğreniminde entropi nasıl kullanılır?
Makine öğrenimi alanında, rastgele olaylarla ilgili beklenen bilgi miktarını ölçmek ve olasılık dağılımları arasındaki benzerliği ölçmek yaygın problemlerdir. Bu tür bir problem için, olasılık dağılımındaki bilgi miktarını ölçmek için Shannon entropisini ve diğer türetilmiş entropi kavramlarını kullanmak iyi bir çözümdür. Bu makale, çeşitli entropi tanımlarımı ve anlayışımı olabildiğince basit açıklamalarla paylaşacak. Değişim ve tartışmaya hoş geldiniz.
1. Kişisel bilgiler
Kişisel bilgi, bilgi hacmi olarak da adlandırılır.
"Chen Yufan uyuşturucu alıyor mu ?! Stüdyo söylentileri dağıtmadı mı? Vay canına! Bilgi miktarı çok büyük!"
Hayatta, nadiren olan şeyler, kavun yiyen insanların dikkatini daha çok çeker. Sık sık yaşananlar dikkat çekmez, örneğin kavun yiyen insanlar, yarın doğuda güneşin doğup doğmayacağı konusunda asla endişelenmezler.
Diğer bir deyişle, Bilgi miktarı, olayın meydana gelme olasılığı ile ters orantılıdır.
Meydana gelen olay i için sağlanan bilgi miktarı:
Taban genellikle 2'dir ve negatif işaretinin amacı, bilgi miktarının negatif olmamasını sağlamaktır.
I olayının gerçekleşme olasılığı ile buna karşılık gelen bilgi miktarı arasındaki ilişki aşağıdaki gibidir:
Başka bir soruyu ele alalım: Olayın x olası durumu olduğunu varsayalım.Örneğin, bir bozuk para atıldıktan ve indikten sonra, iki durum olabilir, baş veya arka yüzler yukarı bakar Olay tarafından sağlanan bilgi miktarı nasıl ölçülür?
2. Bilgi Entropisi
Bilgi entropisine Shannon entropisi de denir.
Şimdiye kadar sadece kişisel bilgileri tartıştık. Aslında, bir madeni para için, öz bilgi aslında bilgi entropisine eşittir, çünkü yukarı çıkma olasılığı önden ve arkadan bağımsız olarak eşittir.
Bilgi entropisi, bir olayın birden fazla durumda sahip olabileceği bilgi miktarını ölçmek için kullanılır ve ayrıca olayın olasılık dağılımı hakkındaki bilgi miktarının beklenen değeri olarak da düşünülebilir:
X olayı toplamda n duruma sahiptir, i i'inci durumu temsil eder ve temel b genellikle 2'ye ayarlanır, ancak 10 veya e'ye de ayarlanabilir.
H (x) anlamı Bu olayın belirsizliğini, yani bilgi entropisini ortadan kaldırmak için gereken istatistiksel bilgi miktarı.
Veya bilgi entropisini anlamak için örnek olarak yazı tura atalım:
Etkinlik Olasılık Bilgi hacmi (kişisel bilgiler) Bilgi Entropisi (İstatistiksel Bilgi Miktarı) Yüz yukarı 1/2-günlük (1/2) (- 1/2 * günlük (1/2)) + (-1/2 * günlük (1/2)) Yüz yukarı 1/2-günlük (1 / 2) (- 1/2 * günlük (1/2)) + (-1/2 * günlük (1/2))Bilgi entropi formülüne göre, aşağıdaki sonuçlar çıkarılabilir:
Bilgi entropisi sürekli alana genişletilebilir, bu zamanda buna diferansiyel entropi denir. Sürekli rastgele değişkenler x ve olasılık yoğunluğu fonksiyonu p (x) için bilgi entropisinin tanımı aşağıdaki gibidir:
3. Ortak entropi
Yukarıda bahsettiğimiz şey, bir olayın entropisidir. Öyleyse birden fazla olay varsa, örneğin, hem x olayı hem de y olayı göründüğünde, nasıl ölçülür?
Birincisi, ortak entropidir, formül aşağıdaki gibidir:
Burada p (x, y), x olayı ve y olayının ortak olasılığını temsil eder.
Bu sefer, ortak entropinin iki olayı nasıl ölçtüğünü göstermek için bir örnek olarak aynı anda iki madeni para atmak:
Etkinlik Olasılık Bilgi hacmi (kişisel bilgiler) Ortak entropi x pozitif, y pozitif 1/2 * 1/2 = 1/4-log (1/4) - (1/4 * log (1/4) + 1/4 * log (1/4) + 1/4 * log (1/4) + 1/4 * log (1/4)) x pozitif, y negatif 1/2 * 1/2 = 1/4-log (1/4) - (1/4 * log ( 1/4) + 1/4 * günlük (1/4) + 1/4 * günlük (1/4) + 1/4 * günlük (1/4)) X ters, y 1/2 * 1/2 = 1/4-günlük (1/4) - (1/4 * günlük (1/4) + 1/4 * günlük (1/4) + 1/4 * günlük (1/4) + 1/4 * günlük (1/4)) X ters, y ters 1/2 * 1/2 = 1/4-günlük (1/4) - (1/4 * günlük (1/4) + 1/4 * günlük (1 / 4) + 1/4 * kütük (1/4) + 1/4 * kütük (1/4))4. Koşullu Entropi
Koşullu entropi, bilinen x olayı koşulu altında y olayının belirsizliğini temsil eder. olarak tanımlandı Verilen koşullar altında x ve y'nin x üzerindeki koşullu dağılım olasılığının entropisinin matematiksel beklentisi:
Bulunabilir Koşullu entropi ve ortak entropi yalnızca log teriminde farklılık gösterir.
Ek olarak, ortak olasılık dağılımı ile koşullu olasılık dağılımı arasındaki ilişkiye göre şunları elde edebiliriz:
ve bu yüzden:
Yani, x koşulunda, y'nin koşullu entropisi = x'in ortak entropisi, y - x'in bilgi entropisi.
5. Çapraz Entropi
Çapraz entropi, iki olasılık dağılımını p ve q karşılaştırmak için kullanılan bir ölçüm formülüdür. Diğer bir deyişle, Çapraz entropi, gerçek dağıtım altında gerçek olmayan dağılım kullanılarak formüle edilen strateji ile ortadan kaldırılabilen sistemin belirsizliğinin boyutunun bir ölçüsüdür. .
Yukarıdaki açıklama nasıl doğru bir şekilde anlaşılır? İlk olarak, aşağıdaki şekilde gösterildiği gibi çapraz entropi formülünü inceleyin:
Bunlar arasında, p (x) olayın gerçek dağılım olasılığı ve q (x) olayın gerçek olmayan dağılım olasılığıdır.
Bilgi entropisiyle karşılaştırıldığında tek farkın, logdaki olasılığın bilgi entropisindeki gerçek dağılım olasılığı p (x) 'den gerçek olmayan olasılığa (varsayımsal dağılım olasılığı) q (x), yani 1-p'ye değişmesidir. (x). Yani Bilgi entropisi ile karşılaştırıldığında, çapraz entropinin hesaplanması, p altındaki log (p) beklentisi değil, p altındaki log (q) beklentisidir.
Benzer şekilde, çapraz entropi de sürekli alana genişletilebilir. Sürekli rastgele değişkenler x ve olasılık yoğunluk fonksiyonu p (x) ve varsayımsal dağılım olasılık yoğunluk fonksiyonu q (x) için çapraz entropinin tanımı aşağıdaki gibidir:
ve bu yüzden, Varsayılan dağılım olasılığı gerçek dağılım olasılığı ile tutarlıysa, çapraz entropi = bilgi entropisi .
6. Göreceli Entropi
Göreceli entropi aynı zamanda KL diverjansı olarak da adlandırılır.
Göreli entropi, önceki dağıtım p'den arka dağılıma q olan inanç değiştirildiğinde bilgi kazancını ölçer. Başka bir deyişle, arka dağıtım q, önceki dağıtım p'ye yaklaşmak için kullanıldığında neden olunan bilgi kaybıdır. Daha açık olmak gerekirse, Farklı stratejiler arasındaki farkları ölçün.
Aşağıdaki şekilde hesaplanmıştır:
Bunlar arasında, H (p, q), p stratejisi altındaki çapraz entropiyi temsil eder ve H (p) bilgi entropisini temsil eder. ve bu yüzden, Göreceli entropi = bir strateji-bilgi entropisinin çapraz entropisi .
Göreli entropi, q uydurma p sürecindeki bilgi kaybını ölçmek için kullanılır. Kayıp ne kadar azsa, o kadar iyi q uydurma p.
Göreli entropinin (KL diverjansı) sezgisel olarak bir metrik veya mesafe fonksiyonu olmasına rağmen, gerçekte gerçek bir metrik veya mesafe olmadığı unutulmamalıdır. Çünkü KL sapması simetrik değildir: Dağılım P'den Q'ya olan mesafe genellikle Q'dan P'ye olan mesafeye eşit değildir.
7. Karşılıklı bilgi
Karşılıklı bilgi, iki değişken X ve Y arasında bir ilişki olup olmadığını ve ilişkinin gücünü belirtmek için kullanılır.
Formül şu şekilde ifade edilebilir:
Bu nedenle düşünülebilir X ve Y değişkenlerinin karşılıklı bilgileri, bilgi entropisi H (X) ile koşullu entropi H (X | Y) arasındaki farktır. .
8. Entropinin Makine Öğreniminde Uygulanması
Entropi uygulaması için, kişisel özet esas olarak şu noktalara sahiptir: