g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Alibaba WSDM Kupası 2018, ödüllü makalelerin tam yorumu ile ikinci sırada yer aldı

Leifeng.com'un Yapay Zeka Teknolojisi İncelemesi Notu: Şubat ayında düzenlenen 11. Uluslararası Web Arama ve Veri Madenciliği Konferansı'nda (WSDM 2018), Ali Group'un AliOS algoritma ekibi WSDM Cup Challenge'da ikinci oldu. Etkinlikte ulaşılan en yüksek yer.

WSDM, bilgi alma alanındaki en iyi konferanslardan biri olarak bilinir.Konferansın odak noktası, arama, veri alma, veri madenciliği, algoritma tasarımı, algoritma analizi, ekonomik etki, ayrıca doğruluk ve işlem hızı konularında pratik ve titiz araştırmalardır. Derinlemesine deneysel keşif. Bu yıl zaten WSDM'nin on birinci oturumu.

Bu WSDM Kupası'na dünyanın dört bir yanından katılan 575 takım var. Konferans, yaklaşık% 16 kabul oranıyla toplam 514 bildiri sunumu ve 84 bildiri aldı.

Yarışmacı, KKBOX adlı müzik yayını yapan bir şirkettir.Yarışmanın içeriği, Mart ayında hangi kullanıcıların aboneliklerini kaybedeceğini tahmin etmektir. Bu sorunu çözmek için Alibaba iki katmanlı bir Yığınlama Modeli kullanır İlk katman lojistik regresyon, rastgele orman ve XGBoost algoritmasını kullanır ve ikinci katman, birinci katmanın sonuçlarını birleştirmek için XGBoost algoritmasını kullanır. Kaybedilen kullanıcıların tahmini üyelik sistemi ile iş senaryolarında kullanılabilir.Bunlar arasında Apple Music ve Xiami Music gibi üyelik ücretlerinin ana gelir olduğu işletmeler daha kritik. Çok katmanlı istifleme modeli, sınıflandırma ve tahminin doğruluğunu büyük ölçüde artıran ve AliOS'un birçok işletmesinde yaygın olarak kullanılan AliOS sihirli lambası tarafından geliştirilmiştir.

Aşağıdaki, Ali Group'un makalelerinin bir yorumudur.

1. Giriş

KKBOX, Spotify ve Apple Music'e benzer bir iş modeline sahip bir Asya müzik yayın şirketidir. Müzik akışı işi için, ücretli üyelik çok önemlidir, yalnızca abonelik gelirini doğrudan etkilemekle kalmaz, aynı zamanda dolaylı olarak reklam gelirini de etkiler.

Bu yarışmanın amacı, üyelerin kaybedilip kaybedilmeyeceğini tahmin etmek için KKBOX'ın gerçek kullanıcı davranış verilerini kullanmaktır. Yarışma sırasında, dengesiz pozitif ve negatif örnekler ve kirli veriler gibi birçok zorlukla karşılaştık. Bu sorunları çözmek için bir veri temizleme ve çapraz doğrulama mekanizması kurmak ve doğruluğu artırmak için Yığınlama Modeli kullanmak gibi bir dizi önlem aldık.

2. Problem tanımı

Bu yarışmanın amacı, o ay üyeliği sona eren kullanıcıların hangisinin kaybedeceğini tahmin etmektir. Buradaki "churn" tanımı, üyeliğin sona ermesinden sonraki 30 gün içinde yenileme yapılmamasıdır.

Bu yarışmanın sonuçları Log Loss kullanılarak değerlendirilir. Log Loss hesaplama formülü aşağıdaki gibidir:

Formülde N, test örneklerinin sonunda çalkalanıp çalkalanmayacağı (1 çalkalanma, 0 çalkalanma olmadığı anlamına gelir) ve modelin kullanıcıların çalkalanıp ayrılmayacağını tahmin etme olasılığını (değer 0-1) temsil eder.

3. Yöntem

Modelin veri hacmi ve geliştirme verimliliği göz önüne alındığında, Alibaba Cloud'un DataWorks'ü geliştirme platformu olarak kullandık.

3.1 Veri ön işleme

Yarışma, kullanıcının sipariş detayları, dinleme şarkıları ve demografik bilgiler olmak üzere üç parça veri sağladı. Aşağıdaki tabloya bakın:

0'dan küçük veya 100'den büyük yaş değerleri, kayıt süresi ve ödeme miktarındaki aşırı uç değerler gibi kirli veri sorunları. Kirli verilerle başa çıkma şeklimiz, aykırı değerleri dağıtıma dayalı olarak makul değerlere dönüştürmeyi ve açıklanamayan ve önemli bilgiler içermeyen verileri silmeyi içerir.

Eğitim örneğinde is_churn, örneğin etiketidir ve eğitim örneği, Şubat ve Mart 2017'de aboneliği sona eren kullanıcılardan alınır. Eğitim verilerinin pozitif ve negatif örnekleri son derece dengesizdir.Şubat ayında süresi dolan eğitim örneklerini örnek olarak ele alırsak, toplam 992.931 veriden sadece 63471 örnek is_churn = 1 olup,% 6.4'ünü oluşturmaktadır.

Karar ağaçları ve lojistik regresyon gibi geleneksel sınıflandırma algoritmalarının, pozitif ve negatif örneklerin oranı için gereksinimleri vardır. Eğitim örneklerini işlemek için düşük örnekleme kullandık ve pozitif ve negatif örneklerin 1: 3, 1: 5 ve 1: 8 oranlarını denedik. Son modelde, çapraz doğrulama sonuçlarına göre en iyi yapılandırmayı seçtik. oran.

3.2 Özellik Mühendisliği

Özellik mühendisliği aşamasında başlıyoruz Hesaplama mantığı, zaman penceresi, ek koşullar Üç boyut, verileri birleştirir. Aşağıdaki şekilde gösterildiği gibi, sağdaki özellik listesindeki last_7_auto_tran_cnt, son 7 günde (zaman penceresi) otomatik olarak tamamlanan (ekstra koşullar) emir sayısını (hesaplama mantığı) temsil eder. Özellik kombinasyonu tamamlandıktan sonra, özellik üzerinde günlük dönüştürme ve tek sıcak kodlama gibi bir dizi işleme ihtiyacımız var.

Özelliklerin etkinliğini çapraz doğrulama yoluyla test ediyoruz. Çapraz doğrulamada, en etkili özelliklerin aşağıdakileri içerdiğini gördük: 1. Son 60 veya 90 gün içinde otomatik olarak tamamlanan siparişlerin sayısı 2. En son işlemin iptal edilip edilmediği veya otomatik olarak tamamlanıp tamamlanmadığı 3. Hesap kaydı yöntemi. Sonunda, 300'den fazla özelliği çıkardık ve çapraz doğrulama sonuçlarına göre 204 özellik bıraktık.

3.3 Modeli

Son dalgalanmayı tahmin etmek için iki aşamalı bir model kullandık. Aşağıdaki şekilde gösterildiği gibi, ilk aşamada, çıkarılan özellikler lojistik regresyon, rastgele orman ve XGBoost'un üç modeline girilecek ve ilk aşama modelinin çıktısı ikinci aşama özelliği olarak kullanılacak ve son olarak bir Yığınlama Modeli oluşturulacaktır.

Aşağıdaki şekilde gösterildiği gibi, 5 katlı bir istifleme stratejisi benimsedik.

İlk aşamada, eğitim verileri eşit olarak 5 bölüme bölünür ve 5 lojistik regresyon modeli "bir bırak yöntemi" kullanılarak eğitilir. Bu 5 model, sırasıyla kalan eğitim verilerini ve test verilerini tahmin etmek için kullanılır ve 5 bölüm tahmin edilir Eğitim verilerini birleştirirseniz, yeni bir eğitim verisi NewTrainingData alabilir ve yeni bir test verisi NewTestData almak için ortalama yöntemi kullanarak tahmin edilen 5 test verisini birleştirebilirsiniz. Sırasıyla rastgele ormanı ve XGBoost'u eğitmek için aynı yöntemi kullanın ve yeni eğitim ve test verilerinde üç modelin puanlarını alabilirsiniz.

İkinci aşamada, son tahmin puanını elde etmek için bir XGBoost modelini yeniden eğitmek için önceki aşamadaki NewTraningData'yı eğitim verileri olarak ve NewTestData'yı test verileri olarak kullanın. Bu yöntem, fazla uydurmayı önleyebilir, özelliklerin kombinasyonu hakkında bilgi edinebilir ve tahminin doğruluğunu artırabilir.

3.4 Model değerlendirmesi

Çapraz doğrulama yalnızca özellik taraması yapmakla kalmaz, aynı zamanda model aşamasında parametre ayarlama ve Yığınlama Modeli strateji ayarlaması için bir temel sağlar. Aşağıdaki şekil, optimizasyonumuzun her adımının getirdiği gelişmeyi göstermektedir. Orijinal LR modeli 0.2106 puan alabilir ve XGBoost ve özellik çıkarma teknolojisi puanı 0.1151'e çıkarabilir. Son olarak, Yığınlama Modeli ve ayarlama 0.0934 puan almamızı sağlar.

4. Sonuç

Bu yazıda WSDM Cup 2018'e katılım pratiğimizi tanıttık ve sonunda ikinciliği kazandık. Makalede, veri ön işleme aşamasında alt örnekleme, özellik çıkarma yöntemleri ve Yığınlama Modeli gibi birkaç temel optimizasyon tekniği açıklanmıştır. Analiz ve testler yoluyla, bu yöntemlerin tahminin doğruluğunu artırabileceğini gördük.Gelecekte, daha fazla hiperparametre test edeceğiz ve optimizasyon için derin öğrenmeyi tanıtacağız.

Bildirinin orijinal adresi:

https://wsdm-cup-2018.kkbox.events/pdf/7_A_Practical_Pipeline_with_Stacking_Models_for_KKBOXs_Churn_Prediction_Challenge.pdf

Google ölümün kodunu çözebilir mi?

Çin Yeni Yılı sırasında eve gittiğimde başkaları için nasıl oyunlar düzenleyebilirim?