Makine öğrenmiyor: CTR tahmininde Bayes yumuşatma yöntemi

Makine www.jqbxx.com'u öğrenmiyor: Derin toplu makine öğrenimi, derin öğrenme algoritmaları ve teknik mücadele

1. Arka planda giriş

reklam formu:

İnternet reklamcılığı aşağıdaki üç türe ayrılabilir:

1) görüntülü reklam

2) Sponsorlu arama reklamı

3) İçeriğe dayalı reklam

Teklif modu:

Çevrimiçi reklamcılık için, esas olarak aşağıdaki teklif verme modları vardır:

1) gösterim başına ödeme (gösterim başına ödeme): Reklamverenler, reklamın görüntülenme sayısına göre ödeme yapar. Bu, en yaygın teklif verme modelidir. Dezavantajı, reklamın etkisinin dikkate alınmamasıdır.

2) işlem başına ödeme (işlem başına ödeme): reklamverenler yalnızca reklam satış veya benzer dönüşümler sağladığında ödeme yapar. Dezavantajı, kullanıcının işlem davranışını izlemenin görece zor olmasıdır.

3) tıklama başına ödeme (tıklama başına ödeme): Kullanıcının reklama tıklayıp tıklamayacağına göre ödeme yapın. Şu anda, reklamın tıklama oranını (TO) doğru bir şekilde tahmin etmek gerekir.

eldeki sorunlar:

Verilerin azlığı nedeniyle, reklamların TO'sunu tahmin etmek daha zordur Tahmin edilen TO, çok güvenilir değildir ve büyük bir varyansa sahiptir. Esas olarak aşağıdaki iki tür senaryo vardır:

1) Reklamın görüntülenme sayısı az olduğunda, CTR istatistiklerinin doğrudan hesaplanması yüksek bir sonuca yol açacaktır. Örneğin, bir reklam yalnızca bir kez gösterilir ve bir kez tıklanırsa, salt istatistiksel TO = 1,0, ki bu açıkça fazla tahmin edilir.

2) Reklam gösterimlerinin sayısı büyükse, ancak tıklama sayısı az olduğunda veya hiç olmadığında, TO'nun doğrudan hesaplanması düşük bir sonuca yol açacaktır. Örneğin, bir reklama tıklanmadıysa, saf istatistiksel TO = 0,0, bu açıkça bir abartıdır.

2. Verinin hiyerarşik yapısı

Birçok senaryoda, veriler doğal olarak hiyerarşik bir yapıya sahiptir veya hiyerarşik yapı, veri kümeleme yoluyla elde edilebilir. Aşağıdaki şekilde gösterildiği gibi, Yahoo web sitesinin hiyerarşik yapısının şematik bir diyagramıdır:

Olayların oluşumunun birbirinden bağımsız olmadığını varsayıyoruz, aksine, hiyerarşik yapı içinde görece yakın olan iki olay arasındaki korelasyon, birbirlerinden uzak olan iki olayınkinden daha büyük ve çok ortak yönleri var. Sonuç olarak, ilgilendiğimiz bir olayı zenginleştirmek için "benzer" olayların bilgilerini kullanabiliriz (bu olay nispeten az sayıda meydana gelir). Mevcut senaryolarımıza özel olarak, tahmin hesaplamaları yapmamıza yardımcı olması için tahmin etmemiz gereken olaylarla (sorgu-reklam çifti veya sayfa-reklam çifti gibi) "benzer" olayların bilgilerini kullanabiliriz.

Aynı hesap altında N reklam olduğunu varsayalım

, Ve ilgilendiğimiz sayfa, sayfa-reklam çiftinin TO'sudur, bu nedenle Bayes yöntemini kullanarak (1) reklamın bilgilerini ve (2) sayfa ve reklamı aynı sayfadan birleştirebiliriz. Hesabın diğer reklamları hakkında bilgiler. Gözlemlediğimiz tıklama bilgileri

, Tıklama bilgileri, her bir reklamın örtük TO bilgisinden türetilir

, Tıklama bilgileri iki terimli dağıtıma uyar

. Her bir reklamın ima edilen TO'su, beta dağıtımına uyan aynı hesaptan herkese açık bilgi olarak kabul edilebilir

. Bu nedenle, her bir reklamın ima edilen TO değeri yalnızca gözlemlenen görüntülü tıklama verileriyle ilgili değildir

Ait olduğu hesabın genel bilgileri ile ilgilidir, yani

Bu, hiperparametreler ile ilgilidir. Tüm reklamın ait olduğu aynı hesabın olasılık fonksiyonunu hesaplamak için binom dağılımının ve beta dağılımının eşlenik özelliklerini kullanabilir ve ardından hiperparametreleri hesaplamak için maksimum olasılık tahminini (MLE) kullanabiliriz.

. Ne zaman ... Olsa

Tahmini

Ardından, her bir reklamın sonradan tahminini alabiliriz:

. Bu sonradan tahmin edilen değer, düzleştirilmiş bir TO değeri olarak kullanılabilir ve bu, yalnızca TO'yu saymaktan daha iyidir

Daha küçük varyansla daha kararlı.

3. Verinin sürekliliği

Birçok senaryoda, belirli bir zamandaki TO değerinden ziyade TO eğilimiyle ilgileniyoruz. Az miktarda gösterime sahip bir sayfa-reklam çifti için, belirli bir zaman noktasındaki tahmini TO değeri çok fazla gürültü içerir. Görüntüyü ve tıklamayı ayrı bir kümenin tekrarlanan gözlemleri olarak ele alıyoruz ve sonra Üstel yumuşatma CTR yumuşatma gerçekleştirin.

Sayfa-reklam çifti için M günlük sunumumuz olduğunu varsayarsak

Ve tıklayın

, Ve sonra M günündeki TO'yu tahmin etmeyi umuyoruz. Düzleştirilmiş ekranı işaretliyoruz ve

, Aşağıdaki formülle elde edilebilirler (burada yalnızca tıklama için formül hesaplaması verilmiştir ve aynısı görüntüleme için de geçerlidir):

onların arasında,

Düzeltme hesaplamamıza geçmiş bilgileri dahil ettiğimiz ağırlığı kontrol eden yumuşatma katsayısıdır.

Yukarıdaki iki yöntem: (1) Veri hiyerarşisinin Bayes yumuşatılması, (2) zaman penceresinin üstel yumuşatılması, kombinasyon halinde kullanılabilir.

4. Veri hiyerarşisinin Bayes yumuşatma yöntemine ayrıntılı bir giriş

Burada, hiyerarşik yapıda sayfa-reklam çifti bilgilerinin yayıncı-hesap çifti bilgilerine yükseltilmesini şart koşuyoruz (farklı sayfalar aynı yayıncıya, farklı reklamlar aynı hesaba aittir).

İki varsayım vardır:

(1) Yayıncı-hesap çifti için, örtük bir TO olasılık dağılımı vardır ve her sayfa-reklam çiftinin TO'su genel TO dağılımından rastgele örneklenmiş olarak kabul edilebilir.

(2) Sayfa-reklam çifti için, karşılık gelen ekran bilgilerini izliyoruz ve bilgileri tıklıyoruz.

Karşılık gelen olasılık grafiği modeli aşağıdaki gibidir, gri kısım gözlenen değişkendir ve beyaz kısım gizli değişkendir:

Yayıncı hesabı altındaki tüm sayfa-reklam çifti tıklamaları için olasılık işlevini hesaplayın:

Yukarıdaki günlük olabilirlik işlevlerini şununla karşılaştırın:

Sabit nokta iterasyon yöntemiyle, ve

Yinelemenin sonlandırma koşulu sabit sayıda yinelemedir (1000 gibi) veya ve

5. Bayesci parametre tahmini

İşte neden olduğu kısa bir giriş

Tahmini

Ardından, arka tahmin elde edilebilir:

.

Bayesçi parametre tahmininin temel sürecinin şu olduğunu biliyoruz: Önceki dağılım + olabilirlik işlevi = arka dağılım

Önceki dağılımın bir Beta dağılımı olduğunu ve olasılık fonksiyonunun Beta-Binom eşleniğine göre iki terimli bir dağılım olduğunu varsaydığımız için, aşağıdaki gibi arka dağılımın da bir Beta dağılımı olduğunu alabiliriz:

Beta (p | a, b) + BinomCount (m1, m2) = Beta (p | a + m1, b + m2)

Bu eşlenik biçimin avantajı, önceki dağıtımdaki parametrelere bariz fiziksel anlamlar atayabilmemizdir.Bu fiziksel anlam, yorumlama için posterior dağılıma genişletilebilir.Aynı zamanda, önceki dağıtımdan arka dağılıma dönüşüm, Verilere eklenen bilginin fiziksel bir açıklaması da kolaydır.

Burada önceki dağıtım Beta (, ) dağılımına uyar ve olasılık fonksiyonu BinomCount (C, I-C) geçtikten sonra, arka dağılım Beta ( + C, + I-C) olur.

Bu arka dağılım için iki parametre tahmin yöntemimiz var:

1) MAP tahmini: Arka dağılım Beta ( + C, + I-C) en büyük değeri aldığında parametrelere doğrudan bakın, bu sefer: ( + C-1) / ( + + I-2).

2) Bayes kestirimi: Beta ( + C, + I-C), posterior dağılıma tabi değişken için matematiksel beklentiyi bulun, bu sefer: ( + C) / ( + + I).

Matematiksel beklentinin hesaplanma süreci şu şekildedir:

6. Giriş

Değerlendirme göstergeleri:

1) MSE

2) KL_divergence

Deneysel strateji:

Deneysel veri kümesi olarak en az 10.000 gösterime sahip sayfa-reklam çiftini seçin, sayfa-reklam tıklama oranını tahmin etmek için ondan% 1 /% 0,1 /% 0,001 örnek ve kalan% 99 /% 99,9 /% 99,99 veri kümesini seçin Tahmin edilen değeri değerlendirin.

7. Referanslar

1. Çevrimiçi Reklamcılıkta Nadir Olaylar için Tıklama Oranı Tahmini

2019 başlıyor! Huawei, yeni yılda ağır faydalar sağlamak için "koi" çekiyor: netizenler deli oynuyor
önceki
Eski bir eseri ortaya çıkarın! Sony 15th Anniversary Edition WM-EX1 teyp sürücüsü
Sonraki
Makine öğrenmiyor: CTR serisi (3) CTR tahmini-FM modeli
80'li yılların çoğunun favorisi. Kullandınız mı? Panasonic SX76 bant Walkman fotoğrafı
İleri düzey oyun oyuncularına izin verin: Latitude BIOS, sihirden başka bir şey değil 2
Makine öğrenmiyor: CTR serisi (2) CTR tahmini LR + GBDT
17 gram çalışan sihirbaz! Huawei Band 3e kutudan çıkarma resim ödülü
Neredeyse "çıldıracak" bir malzeme yığını olan Jinhetian, V10 yüksek kaliteli şasinin ekranını öngördü
Makine şunları öğrenmez: Evrişimli sinir ağı CNN notları-hedef algılama 2
Herkese açık olmayan en iyi deneyimi yaşayın! ASUS ROG STRIX GeForce RTX2070 O8G GAMING incelemesi
Weibo ve Moments ziyaretçileri kontrol edebilir mi? yok!
Nostaljik olalım! Sony kaset çaları hatırlıyor musunuz?
Sonra çöpü at, bazı eski donanım şimdi bile fena değil
368.800'den! Lincoln Continental satışa çıkıyor: 2.0T, Ulusal VI emisyon standartlarını yükseltti
To Top