Getmax Ekibi: KDD CUP 2018 İki Şampiyona ve Bir Asya Ekibi Problem Çözme Fikirleri AI Araştırma Topluluğu 55. Maymun Masa Toplantısı

Bu yıl KDD CUP, farklı boyutlardan seçkin takımları ödüllendirmek için Genel Parkur, Son On Günlük Tahmin Pisti ve İkinci 24 Saatlik Tahmin Pisti olmak üzere üç ödül düzenledi. Luo Zhipeng, Hu Ke ve Huang Jianqiang'dan oluşan Getmax ekibi, bu üç ödülde bir ikincilik ve iki şampiyonluk kazandı ve üç ödül kazanan tek takım oldu. Geçen yıl, ekip üyelerinin liderliğindeki Convolution ekibi, KDD CUP 2017'nin çift şampiyonluğunu da kazandı.

Resim, Getmax ekibine yeni düzenlenen uluslararası en iyi konferans SIGKDD tarafından verilen üç ödül ve madalyayı göstermektedir.

Leifeng.com ayrıca geçen yıl takımla ilgili teknik bir paylaşım raporu hazırladı.

KDD Kupası, ACM'nin Veri Madenciliği ve Bilgi Keşif Komitesi (SIGKDD) tarafından düzenlenen veri madenciliği araştırmaları alanında uluslararası bir üst düzey yarışmadır. 1997'den beri her yıl düzenlenmektedir. Her oturum, sektörden ve akademiden birçok oyuncuyu çeker ve veri madenciliği alanında "Olimpiyatlar" olarak bilinir.

KDD Cup 2018'in konusu hava kalitesi tahminidir. Organizatör, Pekin, Çin ve Londra, Birleşik Krallık için hava durumu verileri sağlar. Yarışmacıların önümüzdeki 48 saat içinde PM2.5 / PM10 / O3 konsantrasyonlarını tahmin etmek için bunu kullanmaları gerekir. Bu rekabet sorusunun kendisi, zorlu ortam ve insan sağkalımını iyileştirmek için büyük önem taşımaktadır, ancak sorunun kendisi zayıf veri düzenliliği, kolay mutasyon, zaman serileri ve uzamsal topolojik ilişki modellemesi gibi zorluklara sahiptir.

Yakın zamanda, Leifeng.com AI Araştırma Enstitüsü'nün açık sınıfında Getmax ekibi, KDD CUP 2018 iki şampiyonası ve bir Asya ekibinin problem çözme fikirlerini paylaştı.Bu paylaşım, hedeflenen özellik tasarımı ve derin öğrenme için hava kalitesi sorunlarının temel noktalarına ve zorluklarına odaklanıyor. Model optimizasyonu. Açık sınıf oynatma video URL'si:

Paylaşımcı tanıtımı

Zhipeng Luo: Microsoft Bing arama reklam algoritması mühendisi, Peking Üniversitesi'nden yazılım mühendisliği ustası, NLP'de derin öğrenme teknolojisinin araştırma ve uygulamasına odaklanan, reklam alaka düzeyi eşleştirme, TO tahmini vb.

Huang Jianqiang: Peking Üniversitesi'nde Yazılım Mühendisliği Yüksek Lisansı, özellik mühendisliği, doğal dil işleme ve derin öğrenmede iyi.

Hu Ke: Alimama, Hong Kong Çin Üniversitesi'nden derin öğrenme ve reklam algoritmalarında çalışan makine öğrenimi alanında yüksek lisans derecesi ile mezun olan tren ekibi algoritma uzmanı aracılığıyla arama.

Ekip, makine öğreniminin endüstride ve yarışmalarda uygulanmasında zengin deneyime sahiptir. Takım üyeleri CIKM 2018 şampiyonu, KDD CUP 2017 çift şampiyonu, Kaggle Outbrain Click Prediction şampiyonu, Weibo popülerlik tahmin şampiyonu ve Şangay BOT büyük veri uygulama yarışması şampiyonu kazandı.

Konuyu paylaş: KDD CUP 2018 iki şampiyona ve bir Asya takımı problem çözme fikirleri

Ana hatları paylaşın:

Hava kalitesi problemini anlama ve modelleme tasarımı

Özellik Mühendisliği

Derin öğrenme modeli optimizasyonu

Model füzyonu

Leifeng.com AI Araştırma Enstitüsü paylaşım içeriğini şu şekilde düzenler:

Bugün ekibimiz sizlerle KDD Cup 2018 çözümünü paylaşacak. Önce Getmax ekibimizi tanıtmama izin verin: Takım lideri Luo Zhipeng, Microsoft Bing arama reklam algoritması mühendisi ve Peking Üniversitesi'nden yazılım mühendisliği ustasıdır. Benim adım Jianqiang Huang ve şu anda Peking Üniversitesi'nde yazılım mühendisliği alanında yüksek lisans yapmak için okuyorum. Hu Ke, tren ekibi aracılığıyla anne arama konusunda bir algoritma uzmanıdır ve Hong Kong Çin Üniversitesi'nden makine öğrenimi alanında yüksek lisans derecesi ile mezun olmuştur.

Ekibimiz makine öğreniminin endüstride ve yarışmalarda uygulanmasında zengin deneyime sahiptir.Daha önce CIKM Cup 2018, KDD Cup 2017, Kaggle Outbrain Click Prediction ve diğer yarışmalarda şampiyonluklar kazandık.

Bu yıl KDD 2018 toplam üç ödül belirledi. İki şampiyonluk ve bir ikincilik kazandık. Üç ödül kazanan tek takım biziz.

Ekibimiz bu KDD yarışmasının deneyimini aşağıdaki 4 yönden paylaşacak.

Yarışmanın ilk adımı, problemi buna göre araştırmaktır - problemin belirli bir şekilde anlaşılması ve veriler modellemenin temelidir Öyleyse önce bu KDD yarışmasının sorunlarını anlıyor ve analiz ediyoruz.

Önce KDD Cup 2018'in arka planını tanıtın. Bu yarışmada organizatör, önümüzdeki iki gün için hava kalitesi, hava durumu ve hava durumu tahmini verileriyle ilgili geçmiş verileri sağladı. Önümüzdeki 48 saat içinde Pekin ve Londra'daki 48 bölgenin PM2.5 / PM10 / O3 konsantrasyonunu tahmin etmemiz gerekiyor. Bu yarışmada kullanılan değerlendirme işlevi SMAPE'dir:

.

Değerlendirme işlevi, tahmin edilen değerin ortalamasına ve gerçek değere bölünen Norm-1 MAE değerlendirme işlevine dayanır. Bu değerlendirme işlevinin kullanılması, hava kalitesi sorunlarına özgü anormal değerlerin genel puan üzerindeki etkisini etkili bir şekilde önleyebilir.Örneğin, hava kalitesi aniden büyük bir değere değiştiğinde, payda terimi etkiyi nispeten zayıflatabilir.

Şimdi veriler hakkında konuşalım. Hava kalitesi göstergeleri arasında PM2.5, PM 10 ve 03 bulunur. Hava durumu verileri alanları sıcaklık, basınç, nem, rüzgar hızı ve rüzgar yönünü içerir. Hava tahmini veri alanı, hava durumu veri alanıyla aynıdır, ancak fark, hava tahmininin yalnızca eğitim setinin son ayı için veri sağlamasıdır.

Bu hava durumu verileri ızgaralar şeklinde verilmiştir, yani haritanın enlem ve boylamı ızgaralara bölünmüştür. Toplamda, Pekin 600'den fazla ızgara noktası sağlayabilir ve Londra 800'den fazla ızgara noktası sağlayabilir. Uzayda dokunmak için büyük bir potansiyel vardır Büyük. Mevcut endüstri ve akademinin modelleme için ağırlıklı olarak istatistik, zaman serileri vb. Kullandığı anlaşılmaktadır ve makine öğrenimine dayalı keşif, özellikle derin öğrenme modellemesi nispeten erken bir aşamadadır.

bu zaman Rekabetin zorlukları Aşağıdaki alanlarda:

Birincisi, veriler gürültülü ve istikrarsızdır, hava kalitesi zayıftır ve konsantrasyon genellikle hızla değişir.

İkincisi, zaman serilerinin modellenmesi oldukça zordur: Önümüzdeki 48 saatin her saatini tahmin etmek gerekir. Uzun durum modellemesine ve diziler arasındaki bağımlılıkların modellenmesine büyük zorluklar getirir.

Üçüncüsü, uzamsal topoloji modeli: İki şehirdeki toplam yüzlerce siteyi tahmin etmek gerekir. Farklı siteler arasındaki konsantrasyon oldukça farklıdır, değişim eğilimi tutarlı değildir ve belirli bir korelasyonu vardır.

Veri analizinden sonra, Pekin'in PM2.5 hava kalitesi konsantrasyonunun oldukça büyük ölçüde değiştiğini gördük. Bu, Pekin Olimpiyat Sporları Merkezi'nin Şubat'tan Mayıs'a kadar olan konsantrasyon değişim değeridir. En düşük değer 10'a ulaşabilir ve en yüksek değer 350'ye ulaşabilir. Birkaç saat içinde büyük değişiklikler yapılabilir ve modelleme zordur.

Peki zaman serileri nasıl modellenir? Göstermek için bu PPT'yi kullanıyoruz.PPT'nin tamamı, 1 Ocak 2017'den 18 Nisan'a kadar elde edebileceğimiz ve ardından dairelerle çizilen zaman serisi verilerini temsil ediyor. Burada N'nin 3'e eşit olduğunu varsayıyoruz, bu durumda soldaki zaman verileri 1 Ocak 2017'den 3 Ocak 2017'ye eşittir ve sağda 4'ten 5'e toplam 48 saat. Yaygın olarak kullanılan tek bir tahmin modeli olduğundan, 48 saatlik kaymayı 48 örneğe bölmemiz gerekir, ardından her saatin hava kalitesi örneklerden birinin etiketi olur ve ilk sekans bir bayrak özelliği ile tanımlanır. Bu şekilde, zaman serisi tahmin problemi, geleneksel tek amaçlı bir regresyon problemine dönüştürülebilir.

Eğitim setini oluşturmak için önceki N günün verilerinden özellikleri çıkarmamız gerekiyor, böylece bir daire kaydırılarak 48 örnek oluşturulabilir ve toplam 860.000 örnek üretilebilir. Daha sonra, doğrulama kümesi olarak son 15 günü alabiliriz Zaman serisi verileri bağımsız ve aynı dağıtıma uymadığından, çoklu çapraz doğrulama için uygun değildir. Ve bu sorudaki farklı şehirlerde hava kalitesini etkileyen faktörler farklı olduğundan ve dağılım oldukça farklı olduğundan, Pekin'de PM2.5, PM 10, 03 ve Londra'da PM2.5, PM 10 olmak üzere beş gösterge oluşturduk. Beş model.

Ardından özellik mühendisliğini tanıtıyoruz. Özellikler genellikle modelin üst sınırını belirleyebilir. Özellik mühendisliğini gerçekleştirmek için önce bir Temel model oluşturmalıyız. Bu temelde, özelliklerin geçerliliğini doğrulayabiliriz.

GBDT modeli, kararlılığı ve gürültüye karşı önemsizliği nedeniyle özellik mühendisliği doğrulaması için uygundur. Baseline modelini oluşturmak için her bir sahanın son 72 saatteki hava kalitesi özelliklerini ve son 72 saat içinde sahaya en yakın ızgara noktasının hava özelliklerini kullanıyoruz.

Bu, Baseline modelinin tahmin etkisi diyagramıdır.Şemadan sadece bu özellikleri kullanmanın gerçek değer eğilimini iyi yansıtmadığı görülmektedir.

Temel modele dayalı olarak, hava kalitesi ve hava verileri arasında bir korelasyon analizi yaptık ve hava kalitesindeki değişikliklerin% 73,7'sinin rüzgar hızı ve yönündeki değişikliklerle ilgili olduğunu bulduk. Bu nedenle, hava tahmini özelliklerini GBDT modeline dayalı olarak sunmayı düşündük, ancak hava tahmini özellikleri yalnızca 10 Nisan 2018'den itibaren mevcuttu ve bir yıldan fazla veri eksikti - eksik hava tahmini verilerinin nasıl doldurulacağı önemli bir nokta.

Genellikle eksik değerleri doldurma yöntemi ortalama değeri ve varsayılan değeri kullanmaktır, ancak bu yöntemler çok iyi sonuçlar veremez. Bu nedenle, hava tahminlerinin eksik değerlerini doldurmak için gerçek havayı kullanıyoruz, ancak bu yeni bir sorun yarattı - çünkü hava tahminindeki gerçek havanın dağılımı nispeten tutarsızdır, eğitimin aşırı uyumuna neden olmak kolaydır, bu yüzden biz Bu sorunu çözmek için transfer öğrenmeyi kullanmayı düşünün .

Modeli oluşturmak için, gerçek hava durumu eğitim seti üzerinde ön eğitimi ve hava durumu tahmini eğitim seti üzerinde yeniden eğitimi kullanırız. Bununla birlikte, deneyler yoluyla, hava tahmininin yalnızca geçen aya ait verilere sahip olduğu ve tüm hava dağılımlarını iyi kapsamadığı, dolayısıyla bu modelin etkisinin gelecekteki tahminlerde istikrarsız olduğu bulunmuştur.

Son olarak, hava durumuna Gauss gürültüsünü tanıtıyoruz, gerçek hava ve hava tahminlerinin ortalamasını ve varyansını tahmin etmek için Gauss dağılımını kullanıyoruz ve daha doğru Gauss gürültüsü elde etmek için her saat parametreleri tahmin ediyoruz. Ek olarak, hava durumu tahmini ile gerçek değer dağılımı arasındaki tutarsızlığı daha da hafifletmek için binning yumuşatmayı da kullanıyoruz.

Tutarsızlık sorununu ortadan kaldırdıktan sonra, daha fazla iyileştirmenin tek noktalı madencilikten çok noktalı madenciliğe genişlemede yattığına inanıyoruz. Hava tahmini birçok grid veri noktası sağladığından, veri bilgisi miktarı çok büyük ve madencilik alanı büyük olduğundan, hava durumu tahmin verilerinin özellik madenciliğini de gerçekleştiriyoruz. İstatistikleri daha yeterli ve istikrarlı hale getirebilecek her istasyonun yakınındaki en yakın sekiz şebeke noktasının hava ve hava kalitesini karakterize ediyoruz. Aynı zamanda, havanın daha fazla akışkanlığa sahip olduğunu göz önünde bulundurarak, şehirler ve hatta şehir dışındaki daha geniş alanların gelecek zaman diliminde birbirleri üzerinde belirli bir etkisi olacağı için, tüm şehir genelinde geniş bir boylam ve enlem açıklığına sahip 12 ızgarada hava tahmini özellikleri yürütüyoruz. Nihai modelimizi oluşturmak için bu hava tahmini özelliklerini çıkarın ve kullanın.

Karşılaştırmadan sonra, bu resmin 28 ve 29 Mayıs tarihlerinde Pekin Olimpik Spor Merkezi İstasyonunun tahmini resimlerini gösterdiğini gördük. O günün sabahında PM2.5 konsantrasyonunun artmasına neden olan bir kum fırtınası oldu. Daha sonra hava düzelmeye devam etti. Bir saat içinde, PM2.5 değeri 160'tan 30'a ve ardından yaklaşık 10'a düştü. Hava kalitesindeki ani değişiklik çok şiddetliydi. Temel model tahminimiz bu turuncu çizgidir ve son model öngörüsü, gerçek değere (mavi çizgi) turuncu çizgiden daha yakın olan bu yeşil çizgidir. Bu nedenle, nihai model, gerçek hava değerinin eğilimini daha doğru bir şekilde yansıtabilir.

Gelecekteki saat sayısı, hangi site veya bazı zaman özellikleri, hava kalitesi özellikleri, geçmiş hava durumu istatistikleri gibi bazı temel özellikleri içeren 6 grup özellik kullandık ve en önemlileri hava kalitesi ve mekansal topoloji özellikleridir. Aynı zamanda, maksimum ve minimum PM2.5 arasındaki zaman aralığını saymak gibi bazı geçmiş değişiklikleri de çıkarıyoruz.

Sonunda, oluşturduğumuz model, modelin çalışma süresini kısaltmak için daha fazla özellik seçimi gerektirir. Özellik seçimini gerçekleştirmek için GBDT'nin bölünmüş özellik kazanımı tarafından seçilen özelliklerin önemini kullanıyoruz ve son modeli oluşturmak için 2027 özellikten 885 özellik seçiyoruz. Özellikler arasındaki çelişkiler nedeniyle, rastgele oluşturulan özelliklere benzer bir torbalama yaklaşımı benimsedik, özellikleri grupladık, her özellik grubu için bir model oluşturduk ve ardından son modeli oluşturmak için her modelin tahmin edilen değeri için ağırlıklı bir füzyon yöntemi uyguladık. model. Aynı zamanda, özellik mühendisliğinde bir darboğaz olduğunda, bir sonraki aşamaya, birden çok modelin yapımına girer.

Sonra, kaptanımız Luo Zhipeng tanıtacak Derinlik modelinin optimizasyonu . (Luo Zhipeng :) Aşağıda iki ana sinir ağı modelimizi tanıtıyoruz.

Sinir ağı modeli aynı zamanda çok güçlü doğrusal olmayan etkileşim yeteneklerine sahiptir. Daha önce yapmaya başladığımızda GBDT modelini kullandığımız için, DNN modeli aslında GBDT modelinden çok farklı. DNN modeli daha sonra füzyon için kullanıldığında, en büyük gelişme elde edilebilir.

GBDT modelinin zaman ve mekan düzeyinde ifade yeteneği yeterli değildir. Zaman düzeyinde, her örneğin özellikleri temelde benzerdir, bu nedenle bu özelliklere bir işaret ekliyoruz ve sonraki 48 saat için 0 ila 47'yi kullanıyoruz. Aynı zamanda, tarihsel hava kalitesi ve hava tahmini gibi temel tarihsel bilgi özellikleri, özelliklerin nispeten büyük bir bölümünü oluşturduğundan, zamanla ilgili bazı hava tahmini özelliklerinin sonuçları nispeten küçüktür ve gerçek değerle aradaki fark nispeten büyüktür. Ek olarak, 0'dan 47'ye kadar olan zaman özelliğinin öneminin özellikle yüksek olduğunu da bulduk.

Mekân açısından, Londra'da 13 istasyon ve Pekin'de 35 istasyon var.Onları dijital olarak da kodluyoruz, ancak ifade yeteneği sınırlı.

Daha sonra DNN modelimizi tanıtacağız.

Soldaki Yoğun özelliği, GBDT'miz tarafından kullanılan özelliktir. Özelliklerden bahsederken, öncelikle standardize etmemiz gerektiğine dikkat edilmelidir.Geleneksel standardizasyon yöntemi, tüm eğitim setindeki ortalama ve standart sapmayı saymaktır. Bu veri setindeki eksik noktaların dağılımının eksik parçaların aynı şekilde doldurulmadığını, dağıtım noktalarının çok farklı olduğunu bulduk, bu nedenle standardizasyon yaparken bazı özel işlemler gerçekleştirdik: ilk olarak, sıfır değeri göz ardı ederek ortalama ve standart sapmayı istatistiki hale getirin; standardizasyonu bitirmek Çalıştırın ve ardından boş değerleri doldurun; bundan sonra, aykırı değerler üzerinde bir miktar işlem yapın, 0,3'ten küçük ve 0,3'ten büyük değerleri sökün ve aralığı 3 ile -3 arasına daraltın. Eksik değerler için, ifade etmek için özel işaretler de kullanırız ve ardından genel özellik standardını elde etmek için birleştiririz.

Sadece solda tanıtılan Yoğun özelliğini kullanırsak, elde ettiğimiz sonuçlar çok benzer olacaktır yani 0'dan 47 saate kadar olan sonuçlar belli bir değer arasında dalgalanacak ancak aralarındaki fark çok büyük olmayacaktır. Modeli daha sonra optimize ettiğimizde, zaman ve mekan bilgilerinin ortak modellemesinin optimizasyonunu ekledik.

Modelin doğru kısmına bir göz atalım. İlk olarak, zaman ifadesini elde etmek için saati (0'dan 47'ye) gömme; İstasyon bölümü için, aynısını 35 Beijing ve 13 London için gömme ve ardından doğrusal olmayan bir dönüşüm gerçekleştirme.X'li daire, eleman katmanını temsil eder. Zaman ve uzay bilgisini uzamsal-zamansal bilgiyle birleştirir ve sonra tam bağlantı yoluyla ve sonra yoluyla bu kısım elde edilir. Zaman ve mekan eşiği (Kapı) Yani, zaman ve mekânın bütünleşmesi. Bu eşik, soldaki ana model yapısının bilgisinin geçişini kontrol etmek için kullanılır, böylece tahmin edilen sonuçlar oldukça farklı olacaktır. Zaman ve mekanın bu ortak modelleme optimizasyonu sadece doğruluğu iyileştirmekle kalmaz, aynı zamanda ağaç modeliyle de büyük bir farka sahiptir.

Burada kullandığımız aktivasyon işlevi B-swish'tir. Bu etkinleştirme işlevi Google tarafından önerilmiştir. Bu işlevin grafiğine bakabilirsiniz. Aslında doymamış, pürüzsüz, monoton olmayan, alt sınır ve üst sınır olmayan bir işlevdir. İlgili tanh fonksiyonu ve sigmoid fonksiyonu, grafiklerinin iki ucu nispeten düzdür ve aşırı değer kolayca 0'a meyillidir, bu da etkiyi etkileyecektir. Ek olarak, Relu işlevinin birçok çeşidi vardır.Bu değişkenler deneylerde daha iyi sonuçlar alabilir, ancak buna kıyasla, B-swish işlevi, onu nasıl ayarlarsanız ayarlayın daha iyi sonuçlar elde edebilir. Bu, birçok deneyde de onaylanmıştır. , Deneyebilirsin.

Bir dizi tahmini, bir dizi modeli olan RNN modelinden bahsedelim. Ne GBDT ne de DNN bir dizi modelidir.Bir sahanın 48 saatini tahmin ederler ve 48 tahmin gerektirirler.Sıra ayrıca nispeten büyük olan 48 örnektir ve fark esas olarak zamanla ilgili hava tahmininde yansıtılır.

RNN modeli bir seferde 48 saatlik sonuçları tahmin edecektir, bu nedenle eğitim verileri çok daha küçük olacaktır, ancak önceki sonuçlarla belirli bir korelasyona sahip olduktan sonraki belirli bir saatin sonuçları, bu nedenle RNN, zaman serilerini çözmek için çok uygundur. sorun.

Daha sonra bu model yapısından bahsedeceğim.

Her şeyden önce, önceki Kodlayıcı aslında sıradan Kodlayıcı modeline çok benziyor Ana gövde, daha hızlı olan GRU kullanıyor. Kodlayıcının girdisi esas olarak geçmiş hava tahmini ve hava kalitesi bilgisidir.

Dekoder modeli geleneksel Dekoder modelinden oldukça farklıdır Girdi, hava durumu tahmini, zaman ve İstasyon Gömme'dir ve önceki tahmin sonucu her zaman bölümünün girişine eklenecektir. Örneğin, Y1 çıktı olduğunda, çıktı sonucu sonraki zaman bölümüne bağlanacaktır T1'in ilk zaman bölümü artan bir değerin girdisidir, halihazırdaki hava kalitesi endeksi sonraki zaman bölümünde artmaz. Bir sonraki zaman bölümünün girdisi olarak tahmin sonucunu kullanmaktır.

Bu zaman serisi modelinin bazen çok dengesiz olmadığını gördük. Diziler arasına düzenleme ekledik. Şu formüle bakabilirsiniz:

.

h (t) şimdiki durumdur, h (t-1) önceki zamanın durumudur, normalleştirilmiş bir işlem elde etmek için bu iki değer arasındaki farkın ikinci kuvvetini yaparız, formülde bir , düzenlileştirmeyi dengelemek için kullanılır ve tahmin daha kararlı hale gelecektir.

Cocob optimize ediciyi kullanıyoruz, öğrenme oranı yok, bu yüzden görüntüleme oranını ayarlamamıza gerek yok. Ek olarak, bazı testler de yaptık, bu görevde bu optimize edici gerçekten diğer optimize edicilerden daha iyi. Elbette, bazı kağıtlar üzerinde bu optimize edici üzerinde deneyler yaptım ve bunu yaygın optimize edicilerle karşılaştırdım, bu da gerçekten çok iyi olduğunu gösteriyor.

Son olarak, Hu Ke model füzyonu ve özeti hakkında konuşuyor.

Birkaç tekil model nispeten iyi bir duruma ayarlandığında, bu birkaç tek modeli nasıl entegre edeceğimizi düşünmeye başlamalıyız. Yaygın füzyon yöntemleri arasında Yalvarma, Artırma ve Staking bulunur Modelin ifade kabiliyetini ve modelin ölçeklenebilirliğini (daha fazla temel model eklemeye eşdeğer) değerlendirdikten sonra, iki seviyeli bir stake yapısı benimsedik.

Birinci seviye model, yeni tanıtılan GBDT ve DNN ve RNN'nin iki sinir ağı modelidir ve stake etme modelimiz iki seviyeye ayrılmıştır.

İlk seviyede, önceki eğitim verileri yaklaşık bir yıl boyunca eğitilecek ve son iki gün, çevrimdışı ve çevrimiçi tahmin günlerinin tutarlı olabilmesi için bir tahmin süresi olarak kullanılacaktır. Ancak bunun da bir sorunu var, yani test seti sadece iki gün olduğu için veri miktarı nispeten küçük olacak. Bu nedenle, test setlerinin sayısını genişletmek için bir kayan pencere yöntemi kullanıyoruz: ileriye doğru kayan birim olarak iki gün, ilk set test seti olarak son iki güne eşdeğer, ikincisi alttan üçüncü , Test seti olarak dört gün, benzer şekilde birden fazla seti kaydırarak, ilgili tahmini değerlerini kullanabilirsiniz, örneğin, GBDT'nin tahmini bir değeri vardır, bu değer özellik 1 olarak kullanılır, DNN'nin tahmini bir değeri vardır, bu değer şu şekilde kullanılır: 2. Özellik ve ardından ikinci düzey füzyonun eğitim özelliği değeri olarak birkaç seti birleştirin. Bu özellik, birinci seviye modelin tahmin edilen değeridir ve daha sonra etiket, kendi veri etiketidir.

İkinci seviye model seçiminde, ilk olarak GBDT modelini kullanmayı denedik ve hava kalitesi verilerinin güçlü bir dengesizliğe sahip olduğunu ve GBDT'nin doğrusal olmayan modelinin aşırı uyuma eğilimli olduğunu gördük. Bundan sonra, doğrusal bir model olan Doğrusal Regresyon'u benimsedik.İkinci seviye modeli eğitmek için birinci seviye tahmin modelini bir özellik olarak aldık.

Doğrusal modelin ifade yeteneğini geliştirmek için iki optimizasyon yöntemi de uyguladık:

İlk optimizasyon, kısıtlamalara dayalı doğrusal bir modeldir, Altta yatan varsayım, birinci seviye modelin tahmin edilen ortalamasının gerçek değere uymasıdır, bu nedenle ikinci seviye model bunların tahmin edilen ortalamasını etkilemez.

İkinci optimizasyon, yapay öncekilere dayalı doğrusal olmayan bir model sunmaktır. , Tahmin sonuçlarını zaman ve mekanın birden çok boyutuna bölün. Farklı modellerin farklı zamanlarda farklı performans biçimlerine sahip olduğunu bulduk. Örneğin, bazı modeller nispeten kısa bir süre içinde tahmin etmede daha iyidir ve bazı modeller 40 saat sonra tahmin etmede daha iyidir, bu nedenle iyileştirmek için farklı zaman dilimlerinde modellenirler. Modelin ifade yeteneği. 48 saatte 48 kısıt tabanlı doğrusal model eğitmeye eşdeğerdir. Aşırı uydurma ve yetersiz uydurma dengesini göz önünde bulundurduk ve doğrusal modelde yapay öncüllere dayalı doğrusal olmama durumunu ortaya koyduk.

Bu füzyon çerçevesinin birinci seviye model yapımında, onu inşa etmenin birçok yolu vardır. İki özellik ve model perspektifinden inşa ediyoruz: Model, model için DNN ve RNN kullanıldığında zaman ve mekan arasındaki topolojik ilişkiyi ifade eder. Özellik seviyesinde, hava durumu tahminleri gibi bazı özellikler kararsız olduğundan hava durumu tahmin özelliklerini modelden kaldırıyoruz ve topoloji için DNN'de de bazı silmeler yapıyor ve farklı modellere uzun vadeli özellikler koyuyoruz. , Kısa vadeli özellikler, böylece güçlü model farklılıkları üretilebilir.

Modelin doğruluğu S2S'dir (RNN) > GBDT > DNN, füzyon, nispeten önemli olan yaklaşık yedi binde biri iyileştirmeye sahiptir. Esas olarak sinir ağı modeli ile ağaç modeli arasındaki güçlü farktan dolayı, bu modelin fayda üretmesinin temeli.

Bu süreçte, yapmak istediğimiz ancak yapacak vaktimiz olmayan bazı görevlerimiz de var:

Bunlardan biri coğrafi konumun topolojik modellemesidir. Aslında, DNN coğrafi veri işlemlerini gerçekleştirdikten sonra, topolojik uzay modellemesi için de CNN kullanmak istiyoruz.

İkincisi, beş yıllık bir veri sağladık, ancak zaman kısıtlamaları nedeniyle onu benimsemek için zamanımız yok. Aslında bu istatistiksel analizden bu tür hava kalitesinin görece güçlü bir periyodikliğe sahip olduğunu görebiliyoruz.Örneğin yaz aylarında pus sıklığı düşük, Mart ve Nisan aylarında görece yüksek. Bu beş yılda, aylara ve mevsimlere göre dönemselliği gerçekten yakalayabiliriz.Bu dönemselliği beş yıllık verilerle modellemenin de artan faydaları olacaktır.

Üçüncüsü, hava tahmini için derinlemesine bir hata tahmin modeli yapmaktır. Hava tahmininden önce kullandığımız Gauss gürültüsü, farklı saatler varsayarsak, hatası aynı değildir, ancak hatayı etkileyen faktörler, en son zamanın bir hatası, en son ani değişikliğin zaman aralığı ve hava durumu dahil olmak üzere yalnızca farklı zaman dilimleri değildir. durum. Daha derine inersek, hava tahmini için bir hata tahmin modeli de yapabiliriz.

Bu, tüm yinelemeli sürecimizin bir özetidir:

İlk adım, sorunu anlamak ve özellikler ve veriler açısından önemli semaforları çıkarmaktır. Daha önemli sinyalin hava tahmini verileri olduğunu bulduk, bu nedenle onu ayrıntılı özellik mühendisliği için anahtar sinyal olarak kullanıyoruz.

İkinci adım, iş problemlerini özellik mühendisliği yoluyla ifade etmekten farklıdır. Model perspektifinden optimize etmek için elimizden gelenin en iyisini yapıyoruz.Örneğin, farklı zaman ve mekan bilgi ifadeleri için, zaman ve uzay birimleri DNN ve diğer modeller üzerinde tasarlanarak zaman serileri ve uzay topolojisi problemlerini daha fazla perspektiften modelleyebiliyoruz. Özellik mühendisliği çalışması iyi bir ek oluşturur.

Üçüncü adım, temel çözüm modellerini iki özellik ve model perspektifinden birleştirmeye eşdeğerdir. , Kısıtlı doğrusal modele dayalı bir füzyon çerçevesidir.

Bu yüzden düşünüyoruz Problemin anlaşılması temeldir ve temel bilgiler için ayrıntılı özellik mühendisliği ve problemin özellikleri için zaman ve mekanın derin öğrenme modellemesi, sonraki optimizasyonun anahtarlarıdır.

Yukarıdakiler, bu sayıda davetliler tarafından paylaşılan tüm içeriklerdir. Daha fazla genel sınıf videosu için lütfen izlemek için Leifeng.com'daki AI Araştırma Derneği'ne gidin. WeChat genel hesabını takip edin: AI Araştırma Enstitüsü (okweiwu), en son genel sınıf canlı yayın süresi önizlemesini edinebilirsiniz.

Changan Auchan'ın yeni MPV Detroit yol testi yıl içinde başlatılacak
önceki
Roborock süpürme robotu deneyimi: tasarım stilinin devamı, paspaslama daha rahat ve daha iyi
Sonraki
"Fighting Nation Cultivation", "Vodka Bureau" bölümünü açığa çıkardı, kayınpeder "Hongmen Banquet" i kurdu, damadı sarhoş olduktan sonra rap çaldı
Da Qiao'nun becerileri ayrıntılı olarak açıklanır, akış sonsuzdur ve su buharı sizi jakuzinin kapısından geçirir.
Yeni MINI COUNTRYMAN 286.000 yuan'dan başlayan fiyatlarla satışa sunuldu
Smart Expo'da büyük bir yer edin, Huawei akıllı bir şehir "kara kara" kuruyor
Arkadaşlar, güvenilir baba, bıçağın üzerinde yürüyen bir boğa iblisi
Yeni bir zevke geçin! Air Max 97 yılan kız "pembe" doku ve görünüm ikili patlama masası
Dünyanın ilk Snapdragon 855 amiral gemisi değerlendirmesi! Lenovo Z5 Pro GT nasıl performans gösterir?
Onun için iPhone X alacağım! Yüz tanıma deneyimi tek kelimeyle kusursuz!
Gişede ağızdan ağza "Kaçış Odası" kazan-kazan, izleyiciler "Bir Yıl Pişmanlık Eksik" yorumunu yaptı!
Çift silahlı Marco Polo sizi kanlı bir fırtınaya götürür
Büyük dalga optimizasyonu! "Mi Shootout" artık tüm genel modellerin sorunsuz çalışmasını destekliyor
Tam hat yükseltme: Yeni TNGA gücü ile Camry 2.0L yükseltmesi, çift motorlu spor versiyonunun çıkışı
To Top