Makine öğrenmiyor: CTR serisi (3) CTR tahmini-FM modeli

Makine www.jqbxx.com'u öğrenmiyor: Derin toplu makine öğrenimi, derin öğrenme algoritmaları ve teknik mücadele

FM (Faktorizasyon Makinesi) ilk olarak 2010 yılında Konstanz Üniversitesi'nden (şu anda Google'da) Steffen Rendle tarafından seyrek veriler altında özellik kombinasyonu sorununu çözmek için önerildi. İşte FM modelini tanıtmak için bir örnek. Kullanıcının özelliklerine ve reklam konumuna göre bir reklam sınıflandırma problemi varsayın, kullanıcının reklamı tıklayıp tıklamadığını tahmin edin. Kaynak veriler aşağıdaki gibidir

Etiket "Tıklandı mı?" Ve Ülke, Gün ve Reklam_türü özelliklerdir. Üç özelliğin tümü kategorik olduğundan, Tek Sıcak Kodlama yoluyla sayısal özelliklere dönüştürülmeleri gerekir.

Yukarıdaki tablodan da görülebileceği gibi, One-Hot kodlamadan sonra, örnek veri özelliklerinin çoğu nispeten seyrektir. Yukarıdaki örnekte, her bir numunenin 7 boyutlu özellikleri vardır, ancak ortalama olarak yalnızca 3 boyutlu özellikler sıfır olmayan değerlere sahiptir. Aslında bu durum bu duruma özgü değildir ve gerçek uygulama senaryolarında yaygındır. Örneğin, CTR / CVR tahmininde, One-Hot kodlama dönüşümünden sonra kullanıcının cinsiyeti, mesleği, eğitim seviyesi, kategori tercihi, ürün kategorisi vb. Örnek verilerin seyrek olmasına neden olacaktır. Özellikle emtia kategorisinin özellikleri için, örneğin, malın yaklaşık 550 son kategorisi vardır ve One-Hot kodlama kullanılarak 550 sayısal özellik üretilir, ancak her bir örnekte geçerli olan bu 550 özellikten yalnızca biri vardır. (Sıfır olmayan). Bu, veri seyrekliğinin pratik problemlerde kaçınılmaz bir zorluk olduğunu göstermektedir.

One-Hot kodlamanın bir diğer özelliği de geniş bir özellik alanına yol açmasıdır. Örneğin, bir emtia kategorisi 550 boyutlu özelliklere sahiptir ve kategorik bir özellik, 550 boyutlu bir sayısal özelliğe dönüştürülür ve özellik alanı önemli ölçüde artar.

Aynı zamanda, büyük miktarda örnek verinin gözlemlenmesiyle, belirli özellikler ilişkilendirildikten sonra, etiketle korelasyonun artacağı görülebilir. Örneğin, "ABD" ve "Şükran Günü", "Çin" ve "Çin Yeni Yılı" nın ilişkili özellikleri, kullanıcıların tıklamaları üzerinde olumlu bir etkiye sahiptir. Diğer bir deyişle, "Çin" den gelen kullanıcıların "Çin Yeni Yılı" nda çok fazla göz atma ve satın alma davranışları olması muhtemeldir, ancak "Şükran Günü" nde özel tüketim davranışları olmayacak. Bu korelasyon özelliği ile etiket arasındaki pozitif korelasyon, "kozmetik" ürünler ve "kadın" cinsiyet, "top sporları aksesuarları" ürünleri ve "erkek" cinsiyet, "sinema biletleri" gibi pratik sorunlarda yaygındır. Ürünler ve "film" kategorisi tercihleri. Bu nedenle, iki özelliğin bir arada sunulması çok anlamlıdır.

Faktorizasyon Makineleri (FM), özellik çiftleri arasındaki gizli değişkenlerin iç çarpımı yoluyla özellik kombinasyonlarını çıkarır ve fonksiyon formu aşağıdaki gibidir:

Hem FM hem de ağaç tabanlı modeller (örneğin GBDT), özelliklerin çapraz kombinasyonlarını otomatik olarak öğrenebilir. Ağaç temelli model, sürekli düşük ve orta seyrek veriler için uygundur ve yüksek düzeyli kombinasyonları öğrenmek kolaydır. Ancak ağaç modeli, oldukça seyrek verilerin özellik kombinasyonunu öğrenmek için uygun değildir.Bir yandan, oldukça seyrek verinin özellik boyutu genellikle çok yüksektir. Şu anda, ağaç tabanlı modellerin öğrenme verimliliği çok düşük, hatta imkansızdır; diğer yandan ağaç modelleri öğrenemez. Egzersiz verilerinde nadiren görünen veya bulunmayan özellik kombinasyonları. Aksine, FM modeli, gizli vektörlerin iç çarpımı üzerinden özellik kombinasyonlarını çıkardığı için, nadiren veya eğitim verilerinde görünmeyen özellik kombinasyonlarını da öğrenebilir. Örneğin, i özelliği ve j özelliği eğitim verilerinde hiçbir zaman çiftler halinde görünmez, ancak i özelliği genellikle p özelliği ile çiftler halinde görünür ve j özelliği genellikle p özelliği ile çiftler halinde görünür. Bu nedenle, FM modelinde i özelliği ve j özelliği Ayrıca bir miktar alaka da olacak. Sonuçta, i özelliğini içeren tüm eğitim örnekleri, modelin i özelliğinin gizli vektör vi'sini güncellemesine neden olacaktır. Benzer şekilde, j özelliğini içeren tüm örnekler de modelin gizli vektör vj'yi güncellemesine neden olacaktır, böylece vi, vj'nin 0 olması olası değildir.

Öneri sisteminde, yaygın olarak kullanılan matris çarpanlara ayırma (MF) yöntemi, Kullanıcı-Öğe puan matrisini sırasıyla Kullanıcı ve Öğenin örtük vektörleri kümesi olan iki düşük sıralı matrisin ürününe ayırır. Kullanıcının görünmeyen öğelere olan ilgisini tahmin etmek için Kullanıcı ve Öğe gizli vektörlerinin iç çarpımını kullanın. Matris ayrıştırma aynı zamanda gömme gösterimi oluşturmak için bir yöntemdir.Örnek diyagram aşağıdaki gibidir:

MF yöntemi, FM modelinin özel bir durumu olarak kabul edilebilir, yani MF, yalnızca userId ve itemId içeren bir FM modeli olarak kabul edilebilir. FM'in avantajı, bu çerçeveye daha fazla özellik ekleyebilmesi ve aynı anda birinci dereceden ve ikinci dereceden özellikleri kullanabilmesidir; MF iki varlığın yalnızca ikinci dereceden özelliklerini kullanabilir.

İkili sınıflandırma probleminde, LogLoss kayıp fonksiyonu kullanıldığında, FM modeli aşağıdaki şekilde gösterildiği gibi LR modeli ile MF yönteminin birleşmesi olarak kabul edilebilir:

FM nispeten esnek bir modeldir.Uygun bir özellik dönüştürme yöntemi sayesinde FM, ikinci dereceden polinom çekirdeğin SVM modelini, MF modelini, SVD ++ modelini vb. Simüle edebilir.

SVM'nin ikinci dereceden polinom çekirdeği ile karşılaştırıldığında, örnekler seyrek olduğunda FM'in avantajları vardır; dahası, FM'nin eğitim / tahmin karmaşıklığı doğrusal iken, iki terimli polinom çekirdek SVM'nin karmaşık olan çekirdek matrisini hesaplaması gerekir. Derece N karedir.

MF ile karşılaştırıldığında, MF'deki her bir maddenin derecelendirme puanını olarak yeniden yazıyoruz ve formülden bunun sadece iki tür özelliğe sahip bir FM modeline eşdeğer olduğu ve. FM için, kullanıcının geçmiş satın alma ortalaması, öğenin geçmiş satın alma ortalaması gibi herhangi bir sayıda özellik ekleyebiliriz, ancak MF yalnızca iki tür özellikle sınırlandırılabilir. SVD ++, MF'ye benzer, ancak özellik ölçeklenebilirliği açısından FM kadar iyi değildir, bu yüzden burada tekrar etmeyeceğim.

sonuç olarak:

# fm, lr ile karşılaştırıldığında özellik kombinasyonlarını (ikinci dereceden terimler) sunar

# fm, veri seyrekliğinin neden olduğu yetersiz parametre eğitimi sorununu çözer (özellikle tek sıcak kodlamadan sonra)

Eski bir eseri ortaya çıkarın! Sony 15th Anniversary Edition WM-EX1 teyp sürücüsü
önceki
80'li yılların çoğunun favorisi. Kullandınız mı? Panasonic SX76 bant Walkman fotoğrafı
Sonraki
İleri düzey oyun oyuncularına izin verin: Latitude BIOS, sihirden başka bir şey değil 2
Makine öğrenmiyor: CTR serisi (2) CTR tahmini LR + GBDT
17 gram çalışan sihirbaz! Huawei Band 3e kutudan çıkarma resim ödülü
Neredeyse "çıldıracak" bir malzeme yığını olan Jinhetian, V10 yüksek kaliteli şasinin ekranını öngördü
Makine şunları öğrenmez: Evrişimli sinir ağı CNN notları-hedef algılama 2
Herkese açık olmayan en iyi deneyimi yaşayın! ASUS ROG STRIX GeForce RTX2070 O8G GAMING incelemesi
Weibo ve Moments ziyaretçileri kontrol edebilir mi? yok!
Nostaljik olalım! Sony kaset çaları hatırlıyor musunuz?
Sonra çöpü at, bazı eski donanım şimdi bile fena değil
368.800'den! Lincoln Continental satışa çıkıyor: 2.0T, Ulusal VI emisyon standartlarını yükseltti
Makine öğrenmiyor: NLP serisi 2 konulu model LDA
Ek olarak, 3T mekanik sabit disk kadar büyük değil. Xiao Shaanın SSD'si elinde
To Top