Son zamanlarda, öneri sistemleri alanındaki RecSys 2020 yarışması açıklandı.Yarışmanın teması "Twitter katılım oranı tahmini ve içerik önerisi" .
Yarışma veri seti, Twitter tarafından sağlanan yaklaşık 200 milyon herkese açık tweet'tir (belki siz ve Trump aynı örnektesiniz); yarışmada ilk üçü yüksekten düşüğe olacak: 15000 $, $ 10000, 5000 $ yüksek bonus.
Öneri sistemleri alanındaki en etkili etkinliklerden biri olan RecSys Challenge, öneri sistemleri alanındaki en iyi akademik konferans olan RecSys'in bir parçasıdır. Bu RecSys 2020 yarışmasının detaylarıyla ilgili olarak, Leifeng.com AI Source Chuang yorumu, detayları aşağıdaki gibi derliyor.
Tavsiye sistemleri alanında en önemli buluşma olan RecSys, pratik öneri problemlerini çözmek için farklı algoritmalar kullanmaya her zaman büyük önem vermiştir.
Konferansın üzerine inşa edilen RecSys Challenge, daha çok birçok geliştirici tarafından önerilen "Olimpiyatlar" a benziyor. Her oturumda, büyük ünlü şirketlerden ekipler ve olağanüstü öneri algoritmaları şiddetli rekabete katıldı.
Yarışma düzenlendiğinden bu yana temalar şu konuları kapsıyor: müzik tercihi önerisi, bağlama duyarlı öneri, video web sitesi önerisi ve diğer günlük yaşam senaryoları ve bu sorunların çözümünde iyi sonuçlar elde edildi.
Önerilen sistem durumu
Şu anda, derin öğrenmenin daha derinlemesine çalışılmasıyla, öneri sistemi de daha hızlı geliştirildi ve sadece akademik çevrede bir araştırma noktası haline gelmekle kalmadı, aynı zamanda endüstride de büyük ilgi gördü.
Makalenin başında da belirtildiği gibi, bu yılki RecSys 2020 Challenge'ın teması "Twitter katılım oranı tahmini ve içerik önerisi" ni seçti, bu nedenle yarışmanın içeriği aynı zamanda dinamik bir ortamda tweet katılım tahmini gerçek dünyadaki görevine de odaklanıyor.
Dünyada çeşitli şeyler oluyor Twitter'da yayınlanıyor. İster güncel son dakika haberleri, ister spor, politika ve günlük trivia için eğlence dedikoduları olsun, Twitter'da büyük miktarda metin, resim ve diğer veriler dünya çapında paylaşıldı.
Kullanıcılar platformda "tweet" adı verilen içeriği yayınlar ve bunlara katılır ve görüşlerini "beğeniler", "yanıtlar", "iletiler" ve "yorumlu paylaşımlar" şeklinde gösterirler.
Propagate ve Filter tarafından önerilen dört veri türü ve bunların yayılmadaki uygulamaları
Top-K öneri yönteminin geliştirilmesi ve olgunlaşmasıyla, RecSys 2020 Challenge'ın amacı, hedef kullanıcılar için heterojen girdi verilerine (beğeniler, yanıtlar, yeniden gönderimler ve yorum içeren yorumlar gibi) dayalı olarak bir dizi tweet'in farklı katılım türlerini tahmin etmektir. Yönlendirme).
Twitter'ın katılım oranını büyük ölçekte tahmin etmek ve en büyük gerçek dünya veri kümesi aracılığıyla kullanıcı katılımını tahmin etmek için yeni değerlendirme algoritmalarını kullanmayı, yeni öneri yöntemlerinin geliştirilmesini teşvik etmeyi ve öneri sistemlerinin en son teknolojik gelişimini teşvik etmeyi amaçlamaktadır.
Aynı zamanda yarışma veri setinin sağlayıcısı ve sponsoru olan Twitter da heyecan verici bir bonus verdi.Yarışmada ilk üçe giren oyuncu şu ödülleri alacak:
Şampiyon: 15.000 $
Üçüncülük: 10000 Dolar
İkinci: 5000 $
Bu zorlukta RecSys, eğitim seti, test seti ve doğrulama seti dahil olmak üzere 3 veri seti yayınlamayı planlıyor. Bunlar arasında 1 hafta içerisinde aktif etkileşim verilerinin alt örneklemesi ile eğitim seti elde edilir ve bir sonraki haftanın verilerinden test seti ve doğrulama seti örneklenir.
Bu veri seti, tümü yaklaşık 2 hafta içinde alt örnekleme yoluyla elde edilen, Twitter tarafından yayınlanacak yaklaşık 200 milyon herkese açık tweetten oluşan büyük bir halka açık veri setini içermektedir.
Şunları içerir: katılım işlevi, kullanıcı işlevi ve Twitter işlevi, örneğin: genel etkileşim ("beğen", "yanıtla", "yeniden yayınla" ve "yorumla yeniden yayınla" gibi) ve genel izleme tablosundan 100 milyon örnek Rastgele olumsuz sözde olumsuz kelimeler.
Bu zorluğun zorluklarından birinin veri koruma ve mahremiyet konusundaki en son düzenlemeler olduğunu belirtmekte fayda var. Kullanıcı gizliliği söz konusu olduğunda, sorgulama veri seti uyumlu olacaktır: bir kullanıcı Tweetleri veya verilerini Twitter'dan silerse, veri seti hemen güncellenecektir.
Veri seti, GDPR ile uyumluluğu sağlamak için günlük olarak güncellenecek; aynı zamanda, ilgili göstergeler de liderlik tablosunda güncellenecektir. Bu nedenle, veri kümesindeki her değişiklik için, gönderilen değerlendirme yeniden çalıştırılacak ve liderlik tablosu yeniden hesaplanan gösterge ile güncellenecektir.
Daha fazla veri kümesi, Twitter Geliştirici belgelerinde (https://developer.twitter.com/) daha ayrıntılı olarak açıklanan, herkese açık veri işlevi bilgilerini içerir.
Yarışmacılar sonuçlarını gönderdikten sonra, platformdaki en son Tweet türü verilerle oluşturulan saklanan test setinde değerlendirilecekler Değerlendirme göstergeleri, eğri altındaki doğru geri çağırma alanını (PR-AUC) ve çapraz entropi kaybını içerecektir.
Şu anda RecSys 2020 Challenge resmi web sitesinin son programı aşağıdaki gibidir:
2 Mart 2020 Veri seti sürümü ve RecSys sınaması başlangıcı (eğitim seti ve doğrulama seti yayınlandı)
1 Haziran 2020 Test veri setinin serbest bırakılması
7 Haziran 2020 RecSys Mücadelesi sona erdi
15 Haziran 2020 Ödülün kazanan RecSys Challenge Workshop tarafından son sıralaması ve tesliminin duyurulması
22-26 Eylül 2020 - Bir seminerin düzenlenmesi (Brezilya, Rio de Janeiro'da düzenlenen ACM RecSys'in bir parçası olarak)
Yarışma resmi web sitesi:
Veri seti indirme adresi:
GitHub adresi:
https://github.com/twitter-recsys-challenge-2020
Leifeng.com AI Kaynak Oluşturma İncelemesi Leifeng.com Leifeng.com