CIKM2019 Meydan Okuması "Kullanıcı İlgi Alanlarını Verimli Erişimi" Şampiyon Planı: İki Aşamalı Verimli Önerilerde Anahtar Teknolojilerin Analizi

Geçtiğimiz günlerde Çin'in Pekin kentinde düzenlenen CIKM 2019 AnalytiCup'ta Qingdao Üniversitesi ve Spring Airlines üyelerinden oluşan bir ekip QDU "Kullanıcı İlgi Alanlarını Etkili Arama" parkuru unvanını kazandı.

Bu makale yalnızca QDU ekibi tarafından hazırlanmıştır ve AI geliştirici sayısı, geliştiricilere biraz deneyim ve ilham vermeyi umarak aşağıdaki gibi biraz düzenlenmiştir.

CIKM AnalytiCup'a Giriş

CIKM, Çin Bilgisayar Federasyonu (CCF) tarafından önerilen veritabanı / veri madenciliği / içerik erişimi alanında B tipi bir konferanstır. CIKM AnalytiCup Challenge, konferansla aynı zamanda düzenlenen uluslararası bir veri madenciliği yarışmasıdır. Bu yıl, CIKM, Alimama, Alibaba Algorithm University ve Alibaba Cloud Tianchi tarafından ortaklaşa düzenlenmektedir. Meydan okuma iki bölüme ayrılmıştır. Verimli Kullanıcı İlgi Alanları Erişimi ) Ve Dinamik Etkileşimli Bir Ortamda Kullanıcı Davranışı Farklılıklarının Tahmin Edilmesi. QDU ekibi, kullanıcı ilgi alanlarının verimli bir şekilde araştırılmasında şampiyonluğu kazandı.

QDU ekibi tanıtımı

Şampiyona takımı QDU'nun katılımcı üyeleri şunları içerir:

  • Qingdao Üniversitesi'nde son sınıf öğrencisi olan Xue Chuanyu, veri madenciliği yarışmalarında şampiyonluğu ve üçüncü sırada yer aldı.

  • Spring Airlines için bir algoritma mühendisi olan Zhang Zhuoran, veri madenciliği yarışmalarında defalarca ilk on sonucu kazandı.

  • Qingdao Üniversitesi'nde yardımcı doçent olan Wu Shunyao, veri madenciliği yarışmasında birinci ve ikinci oldu.

Takımın bu rekabette birkaç önemli avantajı vardır:

  • Ekip üyeleri, veri madenciliği konusunda zengin deneyime sahiptir ve veri madenciliği yarışmalarında birçok beceri biriktirmiştir.

  • Ekip üyeleri, tavsiye sistemleri ve karmaşık ağların araştırılmasıyla ilgilenir, tavsiye eden sistemlerin temel algoritmalarını anlar ve algoritmaları geliştirme becerisine sahiptir.

  • Ekip üyeleri istatistik alanındaki en son teori ve yöntemleri veri madenciliği yarışmalarına uygulamaya çalışmış ve bu girişimler modelin performans ve doğruluğunda bazı iyileştirmeler sağlamıştır.

Giriş

Verimli kullanıcı ilgisi erişimi, büyük ölçekli tavsiyelerde kullanıcı ilgisinin geri getirilmesi sorununu çözmeye odaklanır Görev, kısa sürede on milyonlarca C ürün kitaplığından kullanıcılar için en olası k ürünü seçmeyi gerektirir. Yeniden karşılaşma ayrıca her kullanıcının tavsiyesi için zaman karmaşıklığının O (n) 'den daha az olmasını gerektirir. onların arasında,

. Buna ek olarak, yarı finallerde sunulan planın, 1 saatlik bir zaman sınırı ile 8 çekirdekli 60G P100 GPU kapsayıcıda 60.000 çevrimiçi kullanıcıya önerilmesi gerekiyor. Yalnızca karmaşıklıkla ilgili gereksinimler değil, aynı zamanda bellek ve CPU gibi kaynaklarla ilgili kısıtlamalar da vardır.

Veri seti, kullanıcı davranış dosyalarını, kullanıcı bilgi dosyalarını ve ürün bilgi dosyalarını içerir. Kullanıcı bilgileri; kullanıcı kimliği, cinsiyet, yaş ve satın alma gücünü içerir. Ürün bilgileri, ürün kimliği, kategori kimliği, mağaza kimliği ve marka kimliğini içerir (bir ürün fiyatı varsa, öneri etkisini iyileştirmesi beklenir). Kullanıcı davranışı 16 gün sürer (bir Cuma gününden itibaren) Başlat) kullanıcının üründeki davranış günlüğü.

Değerlendirme indeksi

Yarışma, belirli bir kullanıcının 17. günde ilgileneceği bir ürün listesinin tahmin edilmesini gerektirir. Ön eleme ve yarı final değerlendirme yöntemleri arasında büyük bir fark olduğu unutulmamalıdır:

(1) Ön yarışma, tahmin edilecek kullanıcılar, ilk ila 16 gün arasındaki davranış günlükleri ve ilgili ürün bilgileri hakkında bilgi sağlar.Yarışmacılar, yalnızca tahmin edilecek kullanıcıların bilgi tasarım şemasını uygulayabilir ve tahmin sonuçlarını çevrimiçi değerlendirmeye sunabilir. Değerlendirme endeksi

karşı

Gu'nun ağırlıklı ortalaması, kullanıcının u'nun gelecekteki gerçek ilgi ürünleri kümesidir; Hu, kullanıcının u'nun geçmiş davranış kategorisi ürünlerinin alt kümesidir,

Oyuncular için üretilen u kullanıcısının gelecekteki ilgi ürünlerinin tahmin seti. Bunlar arasında, Novel-Recall @ 50, tavsiye edilen ürünlerin tarihsel açıdan ilginç ürünlerle aynı kategoride olmamasını gerektiriyor ki bu çok zor.

(2) Yarı finaller, kullanıcı bilgilerini ve diğer belgeleri çevrimiçi olarak tahmin edilmesini sağlar ve ilgili bilgilerin ve diğer içeriğin yazdırılmasına izin verilmez ve çalışma süresi ve kaynaklar üzerinde kısıtlamalar vardır. Çevrimiçi kullanıcı davranış günlüklerini ve diğer bilgi modelleme etkilerini kullanmak kabul edilebilir, ancak karmaşıklık gereksinimleri aşabilir, bu nedenle birçok bilgi ve model çevrimdışı istatistikler ve eğitim gerektirir. Ek olarak, değerlendirme endeksi olur

, Hu, u kullanıcısının tarihsel davranış ürünlerinin koleksiyonudur. Bu gösterge ön rekabete göre daha basittir, çünkü benzer ürünler önerilebilir, bu gerçek işletmelerde ve veri setinde daha yaygındır.

Rekabet sorularının analizi ve ilgili yöntemlerin tanıtımı

Bu parça, Alibaba Group Alimama Division'ın pazarlama teknik ekibi tarafından sunulmaktadır. Yarışma sorularının ayarlanması perspektifinden bakıldığında, bu yarışmada çözülecek ana sorunlar, gerçek büyük ölçekli öneri sisteminin Eşleştirme aşamasında karşılaşılan zorluklara, yani sorunun sınırlı gerçek kaynaklara sahip büyük ölçekli bir çevrimiçi sistemden nasıl çözüleceğine çok benzer. Aday grubu, sonraki modüllerin işlemeye devam etmesi için hızlı ve doğru bir şekilde küçük bir kullanıcı ilgi alanı alt kümesi bulur. Önceden, hesaplama kaynak kısıtlamalarının nesnel varlığı nedeniyle, akademi ve endüstride bu konudaki araştırmaların çoğu, erişim verimliliğinin nasıl artırılacağına odaklandı.

Öneri sisteminin geliştirilmesinin ilk aşamasında, bu sorunu çözmenin ana fikri "işbirliğine dayalı filtreleme" yöntemini benimsemekti. Bu tür yöntemin ana fikri şudur: "benzer" kullanıcılar "benzer" ürünlerle ilgilenebilir. Bu nedenle, pratik uygulamalarda, bu tür bir yöntem genellikle ilk olarak ürünleri çeşitli benzerlik hesaplama kuralları aracılığıyla benzerlik etiketleri altında kümeler; daha sonra, geri çağırma aşamasında, önce kullanıcı girdisi yoluyla bazı etiketleri geri çağırır ve ardından etiketleri altına monte eder. Ürün bir geri çağırma seti olarak çıkar. Örneğin klasik Item-CF yöntemi, önce benzerlik hesaplaması yoluyla her bir ürünün benzer ürünlerini elde etmekte, daha sonra tavsiyelerde bulunurken, kullanıcının ürün geçmişinde ziyaret ettiği benzer ürünler geri çağırma seti olarak kullanılmaktadır. Bu tür bir yöntemin uygulanması nispeten basittir, ancak kurala dayalı benzerlik hesaplaması ve "kullanıcı-etiketi-meta" iki aşamalı geri çağırma modeli genel doğruluğu sınırlar. Ek olarak, genel geri çağırma fikri benzerlikleri bulmak için tarihsel davranışlara dayandığından, geri çağırmanın sonuçları çeşitlilik ve keşif açısından zayıftır.

İlgi modelleme ve indeksleme teknolojisinin gelişmesiyle birlikte, akademi ve endüstride geri çağırma sistemleri üzerine yapılan araştırmalar, vektör tabanlı faiz modeli artı vektör benzerlik geri kazanımı yoluyla tek aşamalı geri çağırmayı gerçekleştirmek olan ikinci aşamaya geçmiştir. İndeks tarafında, gittikçe karmaşıklaşan vektör benzerliği geri alma teknolojisi, bu programın uygulanması için bir verimlilik garantisi sağlar; model tarafında, temel fikir, model tarafından üretilen kullanıcı vektörünü ve ürün vektörünü yapmak için kullanıcı ilgi modelini eğitmektir. Aradaki mesafe ölçüsü (iç ürün mesafesi vb.) Kullanıcının ürüne olan ilgisini gösterebilir. İlk defa, bu tür bir yöntem, büyük ölçekli aday setlerinin tek aşamalı olarak geri çağrılmasını gerçekleştiriyor ve temsili çalışması YouTube-DNN modelidir. Bununla birlikte, vektör benzerliği geri kazanımına olan güven nedeniyle, bu şema ilgi ölçümü açısından belirli kısıtlamalara tabidir.Kullanıcının ürüne olan ilgisini ölçmek için yalnızca iç ürün modeli kullanılabilir. Sıralama aşamasında bazı daha gelişmiş model yapıları kullanılabilir. , Ve bazı kullanıcı emtia çapraz özellikleri, vb. Etkin bir şekilde kullanılamaz.

Şu anda, GPU'lar ve yapay zeka hesaplama çipleri gibi donanımların hızla gelişmesiyle, sistemin bir bütün olarak kullanabileceği bilgi işlem gücü kaynakları, öncekine kıyasla büyük ölçüde iyileştirildi. Daha güçlü temel bilgi işlem gücü, bu sorunla karşılaştığımızda yeniden düşünmemizi ister: Geri çağırmanın doğruluğunu artırmak için zengin bilgi işlem kaynaklarından en iyi şekilde yararlanmak için yeni algoritmalar nasıl tasarlanır. Bu sorunla karşı karşıya kalan Alimama teknik ekibi, öğrenilebilir bir ağaç indeksine ve keyfi geri alma modeline dayalı derin bir ağaç eşleştirme yöntemi önerdi. Bu yöntem, geri getirme verimliliği sorununu çözmek için bir ağaç indeks yapısı kullanır.Ağaç tabanlı geri alma algoritmasının zaman karmaşıklığı logaritmik seviyede olduğundan, büyük ölçekli bir ürün kütüphanesi karşısında bile yetkin olabilir; ağaç indeks yapısındaki ilgili ürünleri geri almak için Hedefler, ağaç geri kazanmanın doğal karmaşıklık avantajları ve GPU'lar gibi donanımların sağladığı güçlü hesaplama gücü sayesinde, herhangi bir derin model, iç ürünle sınırlı kalmadan ağaç indeksindeki hedefin nasıl geri alınacağını öğrenmek için bir geri alma modeli olarak kullanılabilir. Modelin formu bu nedenle model kapasitesinin tavanını açar. Ek olarak, ağaç dizini ve geri alma modeli, en iyi genel sistem performansını elde etmek için veri odaklı bir şekilde birlikte optimize edilebilir. Derin ağaç eşleştirme çözümü, Alimamanın görüntülü reklamcılığının temel kaynaklarında tam olarak uygulandı ve önemli ölçüde gerçek iş gelişimi sağladı.

Organizatör, endüstrinin uygulamada karşılaştığı gerçek sorunlardan ve zorluklardan başlayarak, yarışmacıların endüstrideki mevcut teknolojinin genel geliştirme aşamasını birleştirebileceğini ve en iyi geri alma hedefine ulaşmak için geri çağırma aşamasında sistemin bilgi işlem kaynaklarını mümkün olduğunca nasıl kullanacaklarını düşünebileceklerini umuyor. Ve sonra sorunu çözmek için yeni yöntemler geliştirdi.

Ana düşünce

Ön yarışma planı kurallara dayalıdır ve Maç aşamasını gerçekleştirmiştir. İçinde bazı beceriler vardır. İlgilenen öğrenciler Xue Chuanyu'nun github'unu (https://github.com/ChuanyuXue/CIKM-2019-AnalytiCup) takip edebilir ve kod daha sonra üzerinde yayınlanacaktır. Aşağıdakiler rövanş planına odaklanmaktadır. Şekil 1, öneri sisteminin klasik sürecini göstermektedir.Önce, on milyonlarca ürün kitaplığından belirli bir kullanıcı için yüzlerce veya binlerce aday ürünü geri çağırın ve ardından aday ürün sıralamalarını modelleyin ve son öneri listesi olarak birkaç ürünü seçin.

Şekil 1 Klasik öneri sistemi süreci

Veri analizi ve keşif

Veri analizi ve keşif, program tasarımında önemli bir yol gösterici rol oynar. İşte bazı önemli analizler. EDA yapılırken, veri seti iki bölüme ayrılır, 1. ~ 14. gün günlüğü "tarihsel" davranış olarak kabul edilir ve 15. gün günlüğü, "gelecek" davranış üzerindeki önemli etkiyi analiz edebilen "gelecek" davranış olarak kabul edilir. "Tarihsel" davranış özellikleri.

Şekil 2 Kullanıcıların "geçmişte" ilgilendiği benzer ürünlerin "gelecekteki" davranışının istatistiksel bir analizi.

4 tür kullanıcı davranışı vardır: "pv" (göz at), "favoriler" (beğen), "alışveriş sepeti" (alışveriş sepetine ekle) ve "satın al" (satın al). İlgi derecesine göre, bu dört türün ağırlıkları sırayla 1, 2, 3, 4 olarak ayarlanabilir (forum tarafından yayınlanan ön temel çizgi bu şekilde belirlenir ve etki kabul edilebilir). Şekil 2, önce kullanıcıların ilgilendiği ürün kategorilerini "geçmiş" ile alır ve daha sonra aynı kategorideki ürünlerin geçmişle ilgilenen "gelecek" davranışlarını sayar. Şekil 2, ilgilenilen "gelecekteki" ürünlerin (günlüğün 15. gününde görünen ürünler) geçmişte satın alınan ürünlerle neredeyse aynı olmayacağını göstermektedir. Bu nedenle, rövanş planında 'satın al' ağırlığı 1 olarak ayarlanmıştır. Aslında, dört davranışın ağırlıkları hala ayarlanabilir, ancak zaman ve enerji ile sınırlıdırlar.

Şekil 3 "Gelecek" faiz ürününün ilk ila 14 gün arasında ilgi duyma sayısı

Şekil 3'te gösterildiği gibi, ilgilenilen "gelecekteki" ürünler, 14. günde ilgilenen birçok zaman grubuna sahiptir ve 14. günden ne kadar uzaksa, o kadar az zaman olur. Bu nedenle, zaman faktörlerinin davranışın önemi üzerindeki etkisini göz önünde bulundurarak, davranışın ağırlığını aşağıdaki gibi ayarlayın:

onların arasında,

Dört davranışın ağırlığı, Tu, i maksimum zaman damgasına olan mesafeyi temsil eder, Ru, i, zaman faktörünü dikkate aldıktan sonra kullanıcının u ürününe olan ilgisini değerlendirmektir.

Şekil 4, davranış türlerini ayırt etmez ve kullanıcıların "gelecekte" "tarihsel" ile ilgilenen ürün kategorileri ve mağazalarla hala ilgilenip ilgilenmeyeceklerini tek tip olarak analiz eder. Şekil 4- (a) 'da gösterildiği gibi, kullanıcılar "gelecekte" "tarih" ile ilgilenen emtia kategorilerine daha fazla ilgi duyacaktır; Şekil 4- (b), kullanıcıların "gelecekte" tarihle ilgilendiğini göstermektedir. Dükkanın ilgisi daha düşük. Ayrıca, kategoriler / mağazalar için bazı özellikler çıkarılmıştır, ayrıntılar için sıralama aşamasına giriş bölümüne bakın.

(a)

(b)

Şekil 4 Kullanıcıların "Geçmiş" ile ilgilenen ürün kategorileri ve mağazalarla hala ilgilenip ilgilenmedikleri.

Geri çağırma aşaması

Şekil 5 Madde CF'ye göre geri çağırma süreci

Kurala dayalı stratejiler dahil birçok geri çağırma stratejisi vardır. Yarı finallerin ikinci bölümünde takım, bir Öğe CF algoritması uygulamak için çok fazla enerji harcadı ve etki de önemli ölçüde iyileştirildi. Şekil 5, Madde CF'ye göre geri çağırma sürecini göstermektedir. İlk olarak, madde-öğe benzerlik matrisini saymak için büyük bir tarihsel günlük kullanın ve ardından önerilerde bulunmak için hedef kullanıcının geçmiş davranışını birleştirin. Uygulamanın zorluğu, yaklaşık 80 milyon geçmiş günlükteki istatistiklerin karmaşıklığının çok yüksek olması ve kod optimizasyonu ve paralel işlemenin gerekmesidir.

Şekil 6'da gösterildiği gibi, kullanıcılar birkaç gruba ayrılır ve her gruptaki öğe-öğe bir arada görülme sıklığı istatistikleri paralel olarak işlenir ve her ürünle en fazla benzerliğe sahip 500 ürün nihayet sözlükte saklanır. Aslında, rövanş eğitim setindeki istatistiklerden sonra, sözlükteki anahtar sayısının yalnızca 400.000'den fazla olduğu bulundu. Ek olarak, verimliliği artırmak için ekip, istatistiksel birlikte oluşma frekans kodunu elde etmek için Cython'u kullandı. Tüm süreç daha karmaşıktır ve ilgilenen öğrenciler açık kaynak kodunu daha sonra izleyebilirler.

Şekil 6 Öğe-öğe benzerliğine ilişkin paralel istatistikler ve sözlük olarak kaydedin

Madde CF benzerlik endeksi, geri çağırmanın etkisiyle ilgilidir. Ekip, uygulamada referans olarak 2015 Tencent SIGMOD belgesini kullandı. Eylül başında, CF Maddesi benzerliği, ilişkilendirme kurallarına olan güvene göre aşağıdaki şekilde hesaplandı:

Bunlar arasında, ürünle ilgilenen kullanıcıların koleksiyonunu temsil eder. Açıkçası,

. Bu endekse göre, çevrimiçi etki 0,045'tir.

Bu temelde, kullanıcı faaliyetinin (ilgilenilen ürün sayısı) benzerlik üzerindeki etkisi dikkate alınarak, yukarıdaki göstergeler iyileştirilmiştir:

Bunların arasında, tüm kullanıcıların kümesi, Ui, i ürünü ile ilgilenen kullanıcılar kümesidir; Wu, u kullanıcısının benzerliğe katkısını temsil eder,

Kullanıcıların ilgisini çeken bir ürün koleksiyonunu temsil eder. Ne zaman ... > saat 1,

Eşittir

. İyileştirilmiş göstergelere ve bazı ek işlemlere dayalı olarak geri çağırma, çevrimiçi etki 0,053'tür.

Sıralama aşaması

Geri çağırma aşamasında az sayıda (300 veya 500) aday ürün elde edildikten sonra, nihai öneri listesini elde etmek için bir sıralama modeli oluşturulabilir. Ayırma görevini ikinci sınıf bir ayrımcılık sorununa dönüştürüyoruz. Modellemeden önce, veri kümesini bölümlere ayırmanız gerekir. Şekil 7'de gösterildiği gibi, 1. günden 15. güne kadar olan veriler, geri çağırma ve özellik oluşturma için kullanılır ve 16. güne ait veriler, çevrimiçi eğitim setini oluşturmak için etiket oluşturmak için kullanılır; 1-16 günlük veriler, geri çağırma ve çevrimiçi oluşturmak için özellik oluşturma için kullanılır Tahmin işlemini tamamlamak için seti test edin, eğitimli modeli ve ilgili dosyaları yükleyin.

Her bir kullanıcının ilgisini pozitif bir örnek olarak almak yerine, eğitim setindeki pozitif örneklerin ve negatif örneklerin hepsinin geri çağırma listesinden oluşturulduğuna dikkat etmek önemlidir. Bunun nedeni, birçok kullanıcının ilgilendiği ürünlere karşılık gelen özellik değerlerinin sayılamamasıdır, bu da bu pozitif örneklerin istatistiksel önemini kaybetmesine ve eğitim modeli üzerinde olumsuz bir etkiye sahip olmasına neden olur. Diğer parçanın ikincisi de aynı şeyi yaptı ve açıklaması da çok iyiydi, "Umarım modellenen örnek ve geri çağrılan örnek aynı dağılıma sahip olur." Bu parkurdaki birçok öğrenci modelleme yapamadı ve Sıralama yapamadı, örnekleme becerilerini keşfedememiş olmalıydılar.

Şekil 7 Verileri sıralama aşamasında bölme

Şekil 8, çıkarılan özelliklerin bir listesidir, yalnızca 64 tane vardır. Bunlar arasında Item CF'nin benzerlik özelliği güçlü bir özelliktir. Son olarak, modelleme için Catboost ve Lightgbm kullanıldı. Catboost, fazla uydurma işlemini daha iyi yönetir ve tüm özellikleri kullanır (çevrimiçi etki 0.0616'dır); Lightgbm tüm özelliklerle iyi performans göstermez, bu nedenle özellik seçimi yapıldı ve sonunda yalnızca 36 özellik kullanıldı.

Şekil 8 Özellik listesi (toplam 64 adet)

Özellik sayısını azaltmak için yarışmada çeşitli özellik seçme yöntemleri kullanılır. Xgboost, lightgbm ve catboost özellik önem analizi yapabilse de, birçok öğrenci gradyan artırıcı ağaç modelinin modellenmesinde seçilen önemli özelliklerin önemli ölçüde iyileştirilmediğini fark edebilir. Özellik seçimi fikrimiz "aşağılık en iyisidir". İlk olarak zayıf ilişkili özellikleri bağımsızlık testine göre kaldırıyoruz ve ardından kalan özelliklerden daha önemli özellikleri seçiyoruz. İki değişkenin bağımsızlığı, iki değişken arasında doğrusal korelasyon veya doğrusal olmayan korelasyon olmadığı anlamına gelir. Ortalama Varyans Testini "düşük uygunluk testi" olarak kullanıyoruz. Bu, Capital Normal Üniversitesi'nden Profesör Cui Hengjian tarafından 2015 yılında istatistik alanındaki en iyi dergi JASA'da yayınlanan çalışmadır. 2018'de genişletildi ve bağımsızlık testi ve özellik seçimi için kullanılabilir. Bu yöntem, ayrık bir değişkenin ve sürekli bir değişkenin bağımsız olup olmadığını test edebilir, değişkenin dağılımı hakkında herhangi bir varsayım yoktur (Dağıtımsız) ve hesaplama basittir (sadece sayma). Teorinin sadece bir kısmı burada listelenmiştir (Şekil 9) İlgilenen öğrenciler iletişim kurabilir. Bu yöntem Chuanyu tarafından bir araç takımı haline getirilmiştir ve onun github'unda açık kaynaklı olmuştur. Ek olarak, ekip üyeleri IJCAI 2018'de özellik seçimi için Ortalama Varyans İndeksini ve fon girişi ve çıkışı tahmin kurs videosunu (daha sonra çevrimiçi olabilecek Tianchi AI kursu) kullandı ve sonuçlar iyi.

Şekil 9 Ortalama Varyans Testine Giriş

Son olarak, ekip basit bir model füzyonu gerçekleştirdi. Sağlamlığı artırmak için sırayla harmonik ortalama, geometrik ortalama ve aritmetik tablo ortalaması kullanılır (Şekil 10) ve çevrimiçi etki 0,0622'dir.

Şekil 10 Model füzyonu

Diğer girişimler

Bazı kural tabanlı stratejiler ve tanıtılmayan diğer çözümler var. Örneğin, benzer ürünlerin kurallarına göre geri çağırma, aynı mağazanın kurallarına göre geri çağırma, word2vector'a dayalı olarak geri çağırma (faiss yardımıyla), Öğe CF için MinHash LSH'ye dayalı, istatistik için en son 100 kullanıcı davranışını alma vb. İlgilenen öğrenciler iletişim kurabilir.

Oyunun hasadı ve düşünceleri

CIKM Challenge'a katılmanın iki nedeni vardır: (1) Kendi teknolojimi ve araştırma değerimi doğrulamak istiyorum; (2) Toplantılara katılın, uzmanlarla iletişim kurun ve Xue Chuanyu'nun 2020Fall'da bir doktora veya araştırma ustası için başvurmasına yardımcı olun (cs_xcy@126.com ile iletişime geçin). Rövanş görevlerinin gereksinimleri ile sınırlı olduğundan, yarışmada geliştirilmiş öneri sistemi çerçevesini (gruplar arası etkiye dayalı artımlı bir öneri sistemi çerçevesi) kullanamadık.

Fikirler, rutinlerden çok daha önemlidir. Oyunun içindeyken, yararlı kuralları çıkarmak için veri analizi ve keşiflere odaklanmalı ve ilk fikirleri doğrulamak için kuralları kullanmalısınız; daha sonra, özellikleri oluşturmak için kurallara dayanarak ve ardından modelleme ve model füzyonunu düşünmelisiniz. İkinci olarak, yeni fikirleri denemeye cesaret etmeliyiz.Orijinal şemadaki parametreleri ayarlamakla karşılaştırıldığında, algoritmayı geliştirmek veya yeni algoritmalar sunmak daha büyük bir gelişme sağlayabilir. Öte yandan, makine öğrenimi anlayışınızı derinleştirmeye yardımcı olması için istatistikleri iyi öğrenmeniz ve istatistik alanındaki makaleler okumanız önerilir. Ayrıca oyundan birkaç gün sonra iyi dinlenmeli, sakinleşmeli ve çok sabırsız olmalısınız. Son olarak, sadece tekniği geliştirmek yeterli değil, aynı zamanda İngilizceyi iyi öğrenmek ve ifade yeteneğini geliştirmek de çok önemli.

Referanslar

Y. Huang ve diğerleri Tencentrec: Uygulamada gerçek zamanlı akış önerisi 2015 ACM SIGMOD Uluslararası Veri Yönetimi Konferansı Bildirileri 2015: 227-238.

H. Cui ve diğerleri.Çok yüksek boyutlu diskriminant analizi için modelsiz özellik taraması.Amerikan İstatistik Derneği Dergisi. 2015, 110 (510): 630-641.

H. Cui ve diğerleri Dağıtımsız Bağımsızlık Testi ve Değişken Seçime Uygulanması arXiv preprint arXiv: 1801.10559, 2018.

C.Xue ve diğerleri. Soğuk Başlatma Önerisi için Topluluk Algılamasına Dayalı Artımlı Gruba Özgü Çerçeve. IEEE Erişimi. 2019, 7: 112363-112374.

B. Sarwar ve diğerleri. Öğe Tabanlı İşbirlikçi Filtreleme Öneri Algoritmaları. WWW. 2001: 285-295

P. Covington ve diğerleri. YouTube Önerileri için Derin Sinir Ağları. RecSys. 2016: 191-198

H. Zhu ve diğerleri.Önerici Sistemleri için Ağaç Tabanlı Derin Modeli Öğrenmek KDD.2018: 1079-1088

H. Zhu ve diğerleri. Ağaç Tabanlı Dizinin Ortak Optimizasyonu ve Önerici Sistemleri için Derin Model. NeurIPS. 2019

Lei Feng

Pekin otobüs şoförü ve yolcuları devrilen özel arabayı kurtardı
önceki
Yol buzlu ve tıkalı ve bir sürü sevimli kız vuruldu
Sonraki
C-end Double Eleven'a hakim, HKUST C-rank, yapay zeka tüketici pazarına giriyor
"Güzel Çin · Çevrimiçi Medya Ekolojik Medeniyet Turu", burada Taoyuan'ı bulmanın ölümünün yanı sıra bir tane var
İran petrol fiyatları yükseldikten sonra protestolar bir gecede patlak verdi
Şiir var, mesafe var! Bu otobüs yeterince sanatsal ve sürücü durağın adını bildirdi
Tmall Double 11'in arkasındaki teknik güç: Dünyanın en büyük AI mobilizasyonu
Kız evden 14 yıl uzaktaydı, evli ve çocukları vardı, polis onun kimliğini bulmasına yardımcı olmak için titizlikle çalıştı.
Söylentileri yalanlayın! Xiamen Metro Kartının ücretsiz teslimatı? Yörünge Grubu: Sahte
Fan Yaoshang'ın özel sahnelenen özel büyülü büyüsünü yakından yaşayın
Deloitte, "2019 Eğitim Zekası Geliştirme Raporu" nu yayınladı. Yapay zeka eğitim sektörünü nasıl yeniden şekillendiriyor?
"Bang Dang", Huang Lei'nin kalbi gergin, tiyatronun yeni kötü alışkanlıkları onu üzüyor
Bir sahne | JD.com'un "Double Eleven" ticari marka davası bir deneme başlatacak
Eski Yaz Sarayı'nın ölümünden 159 yıl sonra, on iki hayvan başı şimdi nerede?
To Top