KDD Cup 2018 şampiyonu "latiao yemek için birinci katta": Bu takımın adı neden? Çünkü herkes baharatlı barları sever

KDD Cup'tan bahsetmişken, veri madenciliği alanındaki öğrencilerin yabancı olmadığına inanıyorum. Veri madenciliği alanındaki en etkili ve en üst düzey uluslararası üst düzey etkinlik olan KDD Kupası, 21 seans olarak düzenleniyor ve her yıl, yarışmaya dünya veri madenciliği endüstrisinden en iyi uzmanları, akademisyenleri, mühendisleri ve öğrencileri çekiyor. Büyük veri alanında "Olimpiyatlar".

Bu yılki KDD Kupası hava sorunları ile başlıyor. Organizasyon komitesi Pekin, Çin ve Londra, İngiltere ile ilgili verileri sağlıyor. Yarışmacıların önümüzdeki 48 saat içinde PM2.5, PM10 ve O3 konsantrasyonunu tahmin etmesi gerekiyor (Londra'nın yalnızca PM2.5'i tahmin etmesi gerekiyor Ve PM10). 48 saat sonra, yarışmacılar tarafından sunulan sonuçlar gerçek hava durumu verileriyle puanlanacaktır.

KDD Kupası 2018 bu yıl Haziran ayında sona ermiş ve şampiyon takım zaten açıklanmış olsa da, şampiyon takımın resmi ödülü KDD 2018'de tamamlandı.

Yarışmaya 49 ülkeden 3.000'den fazla okul veya kurum dahil olmak üzere dünyanın dört bir yanından toplam 4183 takım katıldı. "Birinci kattan", Pekin Posta ve Telekomünikasyon Üniversitesi'nden Han Jindong, Zhang Qianqian ve Liu Juan, Orta Güney Üniversitesi'nden Robin Li ve Jiang Haoran'dan oluşuyor. "Latiao yemek" ekibi etkinlikte birinci oldu. Bu yarışmanın şampiyonu olarak "latiao yemek için birinci kat" ekibi konferansa davet edildi, konferansta çözümlerini sergiledi ve Leifeng.com'un yapay zeka teknolojisi incelemelerini ilk kez paylaştı.

Takımın ismini görünce herkesin bu takımı merak ettiğini düşünüyorum. Ekibi oluştururken, üye Zhang Qianqian bu ismi yemek temasıyla birlikte önerdi ve herkes tarafından onaylandı. "Hepimiz geleneksel bir Çin yemeği olan baharatlı şeritler yemeyi seviyoruz. Çin mutfağını ilk yayan biz olmak istiyoruz."

Ekip üyeleri aşağıdaki gibidir:

  • Pekin Posta ve Telekomünikasyon Üniversitesi'nde yüksek lisans öğrencisi olan ekip lideri Han Jindong, gerçek hayattaki problemleri çözmek için matematiksel modelleme yöntemlerini kullanmayı seviyor;

  • Ekip üyesi Zhang Qianqian, Pekin Üniversitesi Posta ve Telekomünikasyon Yüksek Lisansı, özellik mühendisliği ve derin öğrenmede iyi;

  • Pekin Posta ve Telekomünikasyon Üniversitesi'nde yüksek lisans öğrencisi olan, veri analizi ve veri görselleştirme ile ilgilenen ekip üyesi Liu Juan;

  • Central South Üniversitesi'nde ikinci sınıf lisans öğrencisi olan takım üyesi Robin Lee, özellik mühendisliği ve model füzyonu (sao operasyonu) konusunda iyidir;

  • Central South Üniversitesi'nde yüksek lisans öğrencisi olan ekip üyesi Jiang Haoran, veri analizi ve zaman serileri konusunda iyidir.

Bu ekibin getirdiği çözüm şudur:

Üç ana zorluk vardır:

  • Hava kalitesi çok hızlı değişir ve birçok ani değişiklik olur;

  • Kirleticiler, karmaşık mekansal bağımlılıkla çevreye yayılacaktır;

  • Hava kalitesi birçok karmaşık faktörden etkilenir, bu nedenle güçlü alan bilgisi gereklidir.

Kullanılan temel özellikler:

  • Son 72 saatteki hava kalitesi

  • Önceki son saatin hava durumunu tahmin et

  • Önümüzdeki 48 saat için hava tahmini

  • Ay, hafta sonu, saat, tatil, site kimliği

Temel özelliklere ek olarak, zaman alanı, uzamsal alan, frekans alanı ve profesyonel alan bilgisinin dört boyutundan özellik grupları oluşturduk ve toplamda model puanının anahtarı olan 100'den fazla özellik çıkardık.

  • Zaman alanı özellikleri

Ani hava değişikliklerini önlemek için tahmin zamanına yakın hava durumu verilerinin istatistiklerini kullanın (farklı istatistiksel yöntemler, istatistikleri tahmin zaman düğümünden önce sayabilir veya tahmin zaman düğümü etrafında istatistik yapabilirsiniz).

Kısa vadeli tahmin problemleri için, geçmiş hava değişiklikleri önümüzdeki birkaç saat içinde hava kalitesini etkileyebilir. Bu nedenle, geçmiş hava koşullarının istatistiksel özelliklerini çıkarmak için farklı boyutlarda pencereler tasarladık, bu da modelin kısa vadeli tahmin yeteneğini geliştirdi.

Ayrıca önümüzdeki 48 saat için hava tahmininin uzun vadeli tahminleri ve hava kalitesindeki ani değişiklikleri etkileyen önemli bir faktör olduğunu gördük Bu nedenle, aşağıdaki şekilde gösterildiği gibi, gelecekteki hava durumu tahminleri için çok sayıda ayrıntılı özellik tasarladık. Yeşil nokta tahmin etmek istediğimiz zaman düğümü ise, tahmin edilen zaman noktasından önceki ve yakın hava değişikliklerini açıklamak için, tahmin edilen zaman noktasından önce hava durumu tahmin istatistiklerini ve yakındaki hava tahmin istatistiklerini çıkarmak için kayan pencereyi kullanırız. Bu özellikler sayesinde, uzun vadeli tahminlerin doğruluğu artırılır.

Ek olarak, tahminin ilk gün mü yoksa ikinci gün mü olduğunu ayırt etmek için tahmin zamanını 0 ~ 47 olarak işaretlemek için bir bayrak özelliği kullanıyoruz.

  • Frekans alanı özellikleri

Zaman serilerindeki gizli periyodik bilgi ve dalgalanma bilgisini elde etmek için hava kalitesi, sıcaklık, nem, hava basıncı gibi zaman serileri üzerinde Fourier dönüşümü gerçekleştirilir ve frekans alanı özellikleri çıkarılır.

  • Hava sahası özellikleri

Gelecekteki hava kalitesi yalnızca geçmişteki hava kalitesiyle ilgili değildir, aynı zamanda çevredeki hava kalitesi ve hava koşullarından da etkilenir. Uzamsal korelasyonu modellemek için, geçmiş hava kalitesi, hava durumu ve gelecekteki hava tahmini için uzamsal korelasyonun özelliklerini çıkardık. Modelin karmaşıklığını artıracak ve ciddi şekilde aşırı donanıma neden olacak tüm hava kalitesi sahalarından ve hava izleme sahalarından verileri kullanmaya çalıştık. Bu nedenle, tahmin etmek istediğimiz siteyi yalnızca bazı sitelerin etkileyeceğini varsayıyoruz ve uzamsal özelliklerin girdi boyutunu azaltmak için bazı teknikler kullanıyoruz.

Geçmiş hava kalitesi ve hava durumu için, bunu iki kategoriye ayırıyoruz:

Bir kategori, basınç, sıcaklık ve nem gibi yönsüz özelliklerdir. Bu tür özellikleri çıkarmak için, öngörülecek alanın çevresini, yani iç daire alanı ve dış halka alanı olarak ikiye ayırmak için farklı yarıçaplara sahip iki daire kullanıyoruz Spesifik bölme yöntemi aşağıdaki şekilde görülebilir. Her alandaki ortalama basınç, sıcaklık ve nem değerini çıkardık.

Diğeri yönsel bir özelliktir Hem kirletici madde konsantrasyonu hem de rüzgarın yayılması yönlüdür. Bu tür bir özelliğin hava kalitesi üzerindeki etkisini modellemek için, hedef bölgenin oryantasyonunu sekiz yöne böler ve sekiz farklı yön bölgesinin hedef bölge üzerindeki etkisini dikkate alırız. Her alan için rüzgar hızının ve kirletici konsantrasyonunun ortalama değerini çıkarın. Ayrıca rüzgar yönünü sekiz yöne böldük ve her alandaki rüzgar yönü mod tarafından belirleniyor. Belirli bir alandaki kirletici konsantrasyonu eksikse, bunu tamamlamak için enterpolasyon kullanırız.

Yukarıdaki iki özellik türü için, sadece tahminden önceki son saatin verilerini çıkardık.Bu özelliklerin kısa vadeli tahmin üzerinde iyi bir etkisi vardır.

Gelecekteki hava durumu tahminleri için, hava durumu ızgara noktalarının ve hava kalitesi izleme istasyonlarının konumları uyuşmadığından, hava kalitesi izleme istasyonları etrafındaki hava durumu ızgara noktalarını çıkarmak için bir k-en yakın komşu yöntemini benimsiyoruz. Spesifik yöntem, hava kalitesi denetim bölgesine en yakın dört hava durumu ızgara noktasını bulmak ve bu ızgara noktalarının özelliklerini gelecekteki hava durumu tahminlerinin hava kalitesi üzerindeki etkisini karakterize etmek için kullanmaktır Bu yöntem, uzun vadeli tahminlerin doğruluğunu artırabilir.

  • Profesyonel alan özellikleri

Meteoroloji ve hava kirliliği hakkındaki makalelere bakın ve rüzgar yönü uv koordinat sistemi, güneş ışığı süresi, farklı zamanlarda nem farkı ve kirleticiler arasındaki korelasyon aracılığıyla özellikleri çıkarın.

model

Farklı kirleticilerin farklı dağılımları olduğundan, her kirleticinin ayrı ayrı modellenmesi gerekir. Microsoft'un açık kaynaklı LightGBM'sini kullanıyoruz, belirli modelleme yöntemi aşağıdaki resme başvurabilir:

Ek olarak, Pekin ve Londra'daki her kirleticinin dağılımını da analiz ettik ve Pekin'in PM2.5 ve PM10'unun uzun kuyruklu dağılımlar olduğunu ve modele önyargı getirecek birçok ciddi kirlilik durumu olduğunu gördük. Öte yandan, Pekin'deki O3 ve Londra'daki PM2.5 ve PM10 değerleri göreceli olarak çok büyük değil ve çok az anormallik var. Bu nedenle, modeli eğitirken Beijing PM2.5 ve PM10 etiketlerinde log dönüşümü gerçekleştirdik ve geleceği tahmin ederken üstel dönüşüm kullandık. Bu teknik, modele birkaç binde biri iyileştirme getirebilir.

İşte rekabet hakkında daha fazla ayrıntı:

Ekibin Pekin Posta ve Telekomünikasyon Üniversitesi ile Orta Güney Üniversitesi'nden beş üyesi var Yarışmadaki iş bölümünüz nedir?

Yarışmanın başında, önce yarışma sorularının teknik zorluklarını analiz ettik ve hava kalitesi tahminindeki çeşitli zorlukları özetledik. Daha sonra, her bir zorluk için, bağımsız olarak keşfedecek ve zorluklara bazı çözümler deneyecek bir ekip üyemiz var. Son olarak, ilgili çözümler tamamen entegre edilmiş ve bir modele entegre edilmiştir.

Ek olarak, derin öğrenme modelini araştıran ve hava kalitesi tahmini problemini çözmek için uçtan uca modeli kullanmaya çalışan iki ekip üyemiz de var. Yarışmanın ilerleyen aşamalarında modelimiz bir darboğazla karşılaştı. Tekrar tartıştık ve birbirimizin fikirlerini tamamladık. Özellik mühendisliğindeki birçok gereksiz özelliği kaldırdık ve birçok yeni özelliği çıkardık. Gökyüzü dramatik bir şekilde gelişti.

Rekabetin üç zorluğu, hava kalitesindeki hızlı değişimler, kirleticilerin karmaşık mekansal bağımlılığı ve güçlü profesyonel alan bilgisine duyulan ihtiyaçtır Bu üç zorlukla nasıl başa çıkılır?

Bu KDD CUP yarışmasında üç zorluk var: Bu zorlukları esas olarak özellik mühendisliği perspektifinden ele alıyoruz.

  • İlk zorluk, hava kalitesinin çok hızlı değişmesidir ve çok sayıda ani değişiklik vardır Etkileyen faktörleri anlamak için hava kalitesi zaman serileri üzerinde birçok analiz çalışması yaptık. Bu zorluğa yanıt olarak, zaman serilerinin periyot ve dalgalanma bilgilerini daha iyi çıkarmak için sinyal işleme perspektifinden zaman serilerini frekans alanına dönüştürmek için Fourier dönüşümünü kullanıyoruz. Ek olarak, hava değişikliklerini karakterize etmek için daha ayrıntılı hava durumu istatistikleri de tasarladık.

  • İkinci zorluk, kirletici maddelerin karmaşık bir mekansal bağımlılığa sahip olmasıdır: Örneğin, çok kirli bir alandan çevreye kuvvetli rüzgar eserse, çevredeki hava kalitesi de bozulacaktır. Ancak, tüm izleme istasyonlarının verileri özellik olarak kullanılırsa, ciddi şekilde aşırı uyuma yol açacaktır. Bu nedenle, bitişik izleme istasyonlarının yalnızca bir kısmının tahmin etmek istediğimiz izleme istasyonlarını etkileyeceğini varsayıyoruz ve yöne bağlı ve yönden bağımsız hava özellikleri için aşırı simülasyonu önlemek için girdinin boyutluluğunu azaltmak için bir boyut azaltma tekniği kullanıyoruz. Birlikte.

  • Yarışmada karşılaşılan üçüncü zorluk, hava kalitesini tahmin etmenin güçlü profesyonel alan bilgisi gerektirmesidir.Hava kalitesi birçok karmaşık faktörden etkilenir ve profesyonel bilgi ile modellenmesi gerekir. Yarışma sırasında ekip üyeleri hava kirliliği ve meteoroloji ile ilgili bir çok literatürü okuyarak alan bilgisi ile ilgili birçok özelliği inşa etmiş ve bu özellikler modele önemli iyileştirmeler getirmiştir.

Yarışmada GBRT modelini kullandınız, daha önce başka modelleri denediniz mi?

Ayrıca, zaman serilerini modellemek için seq-seq modelini ve ağ topolojisinin ilişkisini modellemek için grafik evrişimli ağı denedik. Veri kümesindeki sorun nedeniyle, çevrimiçi etki kararlı değildir, bu nedenle çevrimiçi gönderim yalnızca GBRT tek model .

PPT'nizin özeti özellikleri vurguladı Bu yarışmada, özelliklerin oranı ne kadar büyük? Bu yarışmada ne tür deneyimler paylaşabilirsiniz?

Özellik mühendisliği, bu yarışmada şampiyonluğumuzun anahtarıdır.Bu yarışmada, eğitim seti yapısı ve veri ön işleme benzerdir. Özellik mühendisliğinde bazı yenilikçi çalışmalar yaptık ve benzersiz özelliklerimizden bazılarını çıkardık, böylece oyunun ilk aşamalarında bir avantaj oluşturduk.

  • Özellik mühendisliği deneyimi ile ilgili olarak, önce özellikler yorumlanabilir olmalı ve çıkarılan her özellik kümesi gerekçelendirilmelidir.

  • İkinci olarak, özellikler gruplandırılmalıdır.Etkinin iyileşmesi veya azalması nedeniyle bir özelliği rastgele silmeyin.Özelliklerin gruplandırılması daha etkili olabilir.

  • Son olarak özellikler saha ile birleştirilmelidir.İş alanı ile birleştirilerek bazı iyi özellikler üretilir.Kağıt veya materyallere danışarak diğerlerinden farklı olan özellikleri çıkartabilirsiniz.

Bu sefer KDD deneyiminiz nasıldı? Bu konferansa katılmanın getirileri nelerdir?

KDD, veri madenciliğinde en önemli konferanstır ve KDD Cup'ın veri madenciliği yarışmasında taç olduğu söylenebilir. Tacı kazanmak bizim için olağanüstü. Ekibimiz aynı zamanda bu şampiyonayı kazanan tarihteki en genç katılımcıya sahip; ve konferansta tanıdığım arkadaşlar temelde KDD hakkında makale yayınlayabilen büyük inekler ve bilimsel araştırma yetenekleri çok güçlü; tabii ki daha fazlası Toutiao, Alibaba, JD.com ve Tencent gibi büyük şirketlerin doğrudan departman başkanları / Başkan Yardımcısı ile iletişim kurmaları için sitede bulunması çok iyi bir şey, bu da ufkumuzu ve düşüncemizi genişletiyor.

Şu anda, PPT çözümü de GitHub'da halka açılmıştır.

Adres: https://github.com/luoda888/2018-KDD-Cup-Top1-Solutions

(Bitiş)

Lei Feng Ağı Lei Feng Ağı

İPhone X'den uzak durun! iPhone SE2 pozlama: Tam ekran çok göz kamaştırıcı
önceki
Makas kapılar ve kelebek kapılar osuruktur! Hiç panjurlu kapı gördünüz mü?
Sonraki
Japon lüks mavi boyama süreci, Nike Air Force 1 Low'un bu yeni tasarımı küçük değil!
Ning Hao, Huang Bo ve Shen Teng "Çılgın Seri" ye geri dönüyor! Uzaylılar tarafından kaçırıldı, her dakika senin için gülüp ağla
Bispeed T5 iç mekan ve temel konfigürasyon teşhir, yeni 7 koltuklu SUV
İPhone X ile karşılaştırıldığında, Android'in yüz kilidini açmak neden bu kadar iyi?
Vücudunuzu giyer takmaz, bilirsiniz, eski dünya! Bu eski moda tek ürün neden yeniden sıcak? Yaz çevrimiçi
Lei Jun yüksek profilli bir duyuru yaptı: Mi MIX 3 ön kamera dünyada üçüncü! Süper Arkadaşlar
Chongqing Ming goril! Bir takla, korkmuş bir vibrato, güveç aşkı seviyor
Dongfeng Nissan Kicks rapor bilgilerinin bu yıl içinde listelenmesi bekleniyor
Çin'de hip-hop rapçileri var ve onların kız arkadaşları birden olumlu!
Kralın ihtişamına giden yol, bu Yang Jian!
Yeni Porsche Panamera modellerinin resmi fotoğrafları Cenevre'de açıklanacak
Bir haftalığına Tokyo'da Goro'yu satın alamam ama bu 9 gümüş eşya yaralı kalbimi doldurdu
To Top