g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

0'dan 1'e kadar mobil QQ tarayıcı kişiselleştirilmiş öneri sistemi

1. Arkaplan

Günümüzde İnternet bilgilerinin patlayıcı bir şekilde büyümesinde, geleneksel manuel tarama ve çalıştırma yöntemleriyle hizmet sağlama çağı geçti.Kullanıcı tarihsel davranışı yoluyla kullanıcıyla ilgilenen içeriği doğru bir şekilde önermek kaçınılmaz bir eğilimdir.Ana akım kişiselleştirilmiş öneri sistemi süreci, kullanıcı davranışı toplama, sınıflandırma çıkarma, Çevrimdışı kullanıcı modelleme, çevrimiçi kullanıcı modeli tahmini vb. Mevcut mobil QQ tarayıcı yazılım uygulaması Uygulama dağıtımı iş geliştirme ihtiyaçları ile birleştiğinde, özel alan Uygulama dağıtım işini desteklemek için sıfırdan kişiselleştirilmiş bir öneri sistemi oluşturmak yarım yıldan fazla sürdü.

2. Genel iş incelemesi

Geçerli önerilen sahne kapsamı, modül önerisini, alt öneriyi ve QB'de dikey aramayı beğendiğiniz alan ana sayfasını içerir. İlgili efekt aşağıdaki şekilde kırmızı kutuda gösterilir:

Altı aylık optimizasyon ve cilalamanın ardından, iyileştirmenin temel aşamaları şu şekilde özetlenmiştir:

3. Genel çerçeve

Genel mimari diyagramın çıktısını almadan önce, ilk olarak orijinal ürün kişiselleştirilmiş öneri gereksinimlerine dönün ve teknik çözümlerin seçimi nihayetinde ihtiyaçlara hizmet etmelidir.

[Kişiselleştirilmiş öneri gereksinimleri]

Aktif kullanıcıların uzun vadeli ilgi alanlarına göre kullanıcıların en çok ilgilendikleri AppList'i önerin. Etki değerlendirme göstergesi, önerilen Uygulamanın TO'sudur.

[Teknik çözüm seçimi]

Mühendislik Bölümü

Çevrimiçi modül: Kaba ve ince sıralara bölünmüştür

1. Kaba ayıklama aşamasında, daha yüksek korelasyona sahip öğeler, ince ayıklama aşamasındaki baskı azaltılırken kullanıcının uzun vadeli ilgi portresine göre geri çağrılır;

2. İnce sıralama aşamasında, TO, kaba sıralama tarafından hatırlanan ÖğeListesine dayalı olarak çevrimdışı eğitimli sıralama modeli tarafından tahmin edilir ve TopN ÖğeListesi sonunda öneri sonucu olarak verilir;

Çevrimdışı modül:

1. Kullanıcıların uzun vadeli ilgisi: Çevrimdışı kullanıcı tüketim davranışlarının biriktirilmesi yoluyla çevrimiçi kaba sıralamanın hatırlanmasından sorumlu, bir ilgi sistemine eşleştirilmiş ve sonunda kullanıcıların uzun vadeli ilgi portrelerinde biriktirilmiş ve son olarak portreler çevrimiçi sisteme aktarılmıştır;

2. Sıralama modeli: Çevrimiçi ince sıralama aşamasında sıralama modelinin eğitiminden sorumludur.Eğitim aşaması, kullanıcı özelliklerini ve öğe özelliklerini toplarken ve son olarak bunları bir eğitim örnek setine entegre ederken kullanıcı tüketim günlüklerini gerektirir.Model, Spark gibi dağıtılmış bir hesaplama çerçevesi aracılığıyla eğitilir ve çevrimiçi sisteme aktarılır

Algoritma Bölümü

Kaba sıralama hatırlama: Kaba sıralamanın geri çağırma etkisi doğrudan önerilen etkiyi etkiler, ancak projenin ilk planı çok karmaşık stratejiler formüle etmek için uygun değildir.İlk aşamada, aday öğeleri sıralamak için önce bir ısı hesaplama formülünü sonlandırıyoruz: SICAK (x) = LOG (indirmeler (x)) + skor (x) * 0.2 ve son olarak Öğe sınıflandırmasına göre geri çağrılacak bir ters indeks yapısı oluşturun

Ayrıntılandırma modeli: Ürün geliştirme önerisi etki değerlendirme endeksi App by day CTR, yani sıralama modeli pCTR modelidir, olgun endüstri çözümleri ve takım teknolojisi birikim hazırlığı ile birleştirilir, LR pCTR modeli olarak seçilir

[Genel mimari diyagramı]

1. Kullanıcının öğe teşhirini ve bölgenin önceden önerilen konumundaki tıklama davranışını çevrimdışı kümeye bildirin

2. Kullanıcı öneri sonuçlarını gerçek zamanlı olarak çeker ve kaba aday havuzu önceden Hazır olacaktır (mimari diyagramdaki aday optimizasyona karşılık gelir, strateji yukarıdaki algoritmanın kaba hatırlamasına atıfta bulunur), kullanıcının tarihsel ilgi portreleri ilişkilendirmesi ve portrelere göre korelasyon derecesi Üst ÖğeListesi, aynı zamanda listeden kaçınma; daha sonra Öğe özelliklerini ilişkilendirmek için Öğe Listesini geri çağırma kullanın, kullanıcılar kullanıcı özelliklerini ilişkilendirir, bazı özelliklerin özellik mühendisliği tarafından işlenmesi gerekir, çevrimdışı eğitimli LR modelini yükleyin, her Öğenin pCTR'sini tahmin edin ve sıralayın; ürün stratejisi Çeşitlilik, oyun uygulamalarının oranı vb. Kullanıcı deneyimi boyutlarını dikkate alarak dağıtım listesine müdahale eder; son olarak sıralanmış sonuç listesini dağıtın

34. Kullanıcı etkileşimi davranışını ve öneri sonuçlarını çevrimdışı hesaplama kümelerine aktarın: 1) Günlük kullanıcı davranışlarına dayalı olarak günlük ilgi portrelerini hesaplayın ve bunları uzun vadeli kullanıcı ilgi portreleri oluşturmak için geçmiş portrelerle birleştirin; 2) Öğeleri tıklamak veya açığa çıkarmak için kullanıcıları kullanın Örnek bir kaynak olarak, bir eğitim örnek seti oluşturmak için Öğe özellikleri ve kullanıcı özellikleriyle ilişkilendirilir ve Spark API eğitimi aracılığıyla kararlı bir LR modeli elde edilir

5. Kullanıcının birikmiş uzun vadeli ilgi alan portrelerini ve LR model sonuçlarını HDFS yoluna gün bazında aktarın

6. Kullanıcıların ilgisini çeken portreler düzenli olarak çevrimiçi Önbelleğe alınır

7. LR modelini günlük olarak çevrimiçi DB'ye aktarın ve çevrimiçi hizmet, LR modelini düzenli olarak yükleyecek ve kullanıcıların uzun vadeli ilgi portrelerini sorgulayacaktır.

4. Optimizasyon özeti

Kişiselleştirilmiş öneri sistemi Pipeline oluşturulduktan ve başlatıldıktan sonra, odak noktası öneri etkisinin optimizasyonuna kaydırıldı. Optimizasyon temelde üç bölüme ayrılmıştır:

1) LR modeli, temel olarak ortak özellik mühendisliği yöntemlerini ve yeni iş özelliklerinin tanıtımını içeren optimizasyon özelliği;

2) LR eğitim aracı Spark API eğitim performansı iyileştirme artı öğrenme oranı eğrisi çizimi;

3) Kaba geri çağırma aşamasında öğe tabanlı işbirliğine dayalı filtrelemeyi tanıtın

[Özellik optimizasyonu]

1. Özellik mühendisliği

Mevcut projede, esas olarak benimsediğimiz özellik mühendisliği çözümleri şunları içerir:

Ayrık numaralandırma: Cinsiyet (erkek 1, kadın 2, bilinmeyen 3), tek boyutlu özellik üç boyutlu olarak genişletilir ve bir örnek yalnızca tek boyutludur

Sürekli izometrik: Örneğin, kullanıcı yaşı aşağıdaki örneklemde kullanıcı yaşı dağılımında gözlemlenebilir (x koordinatı yaşı temsil eder, y koordinatı ilgili kullanıcı grubunun kümülatif oranını temsil eder), 14-46 yaşındaki kullanıcı grubu eşit olarak dağıtılmıştır (ve nispeten etkili yaştır) ve Genel kullanıcı grubunun% 99'undan fazlasını oluşturan bu tür özellik, örnek segmentasyonuna eşdeğer olabilir, aralık, model etkisine göre ayarlanabilir

Normalleştirilmiş LOG: Örneğin, Uygulama indirmeleri. Aşağıda, örnekteki Uygulamaya karşılık gelen indirme dağıtım haritası verilmiştir (x koordinatı indirmeleri temsil eder, y koordinatı ilgili kullanıcı grubunun kümülatif oranını temsil eder). Yaş dağılımı grafiği ile karşılaştırıldığında% 50'nin üzerindeki Uygulama gruplarının oranı nispeten eşittir, ancak İlk% 50 geniş bir aralığa sahiptir. Şu anda kullandığımız çözüm, genel indirme hacmini KAYDETMEK ve ardından eşdeğer One-Hot

2. Yeni özellikleri tanıtın

Projenin ilk aşamasında kullanılan özellikler aşağıdaki beyin haritasındaki mavi ve yeşil özellikleri içerir: Eğitim örneklem büyüklüğü haftalık, örnekleme oranı 1: 5 ve son EAA 0.6890;

Öznitelik optimizasyonuna odaklanma aşamasında ana yön daha çok özellik tanıtmaktır.Taraklama ile beyin haritasındaki sarı ve gri özellikler tanıtım aşamasına dahil edilir. Öncelikli planlamanın özel olarak tanıtımında, özellik toplama, özellik kapsamı ve diğer faktörlerin karmaşıklığını tartmak gerekir.Son olarak, optimizasyon aşamasında, beyin haritasındaki sarı özelliklerin tanıtılması belirlenir. Sonuç olarak, EAA 0,7592'ye çıkarılır.

[Spark API eğitim optimizasyonu]

Ayrıntılar için Spark MLlib LR gerçek savaş notları makalesine bakın

İşbirlikçi filtreleme

Sınıflandırma kaba geri çağırma stratejisinin avantajı, ana kullanıcıların uzun vadeli ilgisini hedeflemektir. Dezavantajı, daha yüksek alaka düzeyine sahip ancak aynı türden olmayan öğeleri tanıtmanın zor olmasıdır, yani kullanıcıların örtük ilgisini bulmak daha zordur; işbirliğine dayalı filtrelemenin amacı kabaca sınıflandırmaktır. Geri çağırma stratejisinin eksikliklerine ek.

Yaygın olarak kullanılan işbirliğine dayalı filtreleme Based-Memory, Kullanıcı Temelli ve Öğe Temelli içerir.İki model arasındaki karşılaştırma aşağıdaki gibidir:

Mevcut projenin önerilen senaryolarını araştırarak Öğe Tabanlı seçin.Erişim sürecinde, genel mimari diyagramına geri dönün, Öğe-Öğe benzerlik matrisinin çevrimdışı eğitimini ve kullanıcının Uygulamanın geçmiş kurulumuna dayalı çevrimdışı tahminleri kullanın ve son olarak çevrimiçi Önbelleğe girin. Hizmet, geri çağırma sürecinde işbirliğine dayalı filtreleme önerilerinin sonuçlarını sorgular ve ardından bunları düzgün bir şekilde sıralayıp dağıtır

5. Proje Görünümü

1. LR modeli, daha fazla yeni özellik ve özellik mühendisliğinde daha fazla deneme sunar, lütfen Referans 5'e bakın

2. pCTR tahmin modeli GBDT + LR'yi dener

3. Uygulama sınıflandırması karşılıklı hariç tutma stratejisi

Süreç boyunca verdikleri büyük destek için Carbonzhang ve Meifangli'ye teşekkürler

Babanın "kademeli çöküşü" ders ödevi yanıyor! Ebeveyn: Dokuz dokuz dokuz kırk beş, sana kızgın mısın?

WeChat Moments, ziyaretçi kaydı işlevini gerçekten açacak mı? Netizenler kızartma tavası! Yetkili cevap verdi ...