Özel Microsoft Zheng Yu: Essence of Big Data Driven Smart City Lecture (PPT ile)

Yazar: Zheng Yu

Bitirme: Bai Ke, Huang Wan

Redaksiyon: Li Jun

Editör: Liu Wenqing

[Kılavuz] Bu makale Microsoft Research Asia'nın "kentsel bilgi işlem" alanının başından derlenmiştir. Zheng Yu Dr.'nin Tsinghua Büyük Veri Semineri'ndeki son paylaşım içeriği. Zheng Yu tarafından geliştirilen Urban Air, ince taneli hava kalitesini ilk kez izlemek ve tahmin etmek için büyük verileri kullandı.Bu hizmet, Çin'deki 300'den fazla şehri kapsar ve Çin Çevre Koruma Bakanlığı tarafından benimsenmiştir. 2016 yılında, kentsel büyük veri platformunun tasarımına ve uygulanmasına başkanlık etti ve bunu Çin'in büyük veri gösteri üssü Guiyang'da başarıyla uyguladı. 2013 yılında MIT Science and Technology Review tarafından küresel ölçekte seçkin bir genç yenilikçi seçildi ve Time dergisinde modern yenilikçilerin temsilcisi olarak yer aldı. 2016 yılında ACM Distinguished Scientist (ACM Distinguished Scientist) seçildi.

Bu makale konuşma içeriğini PPT ile aşağıdaki gibi yayınlamaktadır.

Konuşma metni:

Bugün sizlerle kentsel bilgi işlem alanındaki ilerlememizi paylaşacağım ve yapay zekanın şehirlerde nasıl bir rol oynadığını ve büyük verinin sorunları nasıl çözdüğünü tartışacağım.

Modern yaşam, trafik sıkışıklığı, çevresel bozulma ve artan enerji tüketimi gibi sorunları beraberinde getirmiştir. Bu sorunları çözmek, şehrin karmaşık ortamları nedeniyle neredeyse imkansızdı. Artık çeşitli sensör teknolojilerinin olgunluğu ve bulut bilişim birimlerinin olgunluğu nedeniyle, sosyal medya, trafik akışı, hava durumu ve coğrafya gibi çeşitli büyük verilere sahibiz. Bu verileri birleştirerek sorunları bulabilir ve daha da çözebiliriz. Bu fırsata dayanarak, 2008'de kentsel bilgi işlem vizyonunu ortaya koyduk. Aşağıdaki dört seviyeyi içerir:

En alttaki şehir verilerinin algılanması ve elde edilmesinden, şehir verilerinin yönetimine, şehir verilerinin analizi ve madenciliğine, hizmet ve sunumuna kadar. Bu dört seviye, insanların hayatlarını rahatsız etmeden şehrin büyük zorluklarını çözmek için sürekli ve otomatik olarak büyük verileri kullanan bir döngüye bağlıdır. Bugün sizleri her seviyeyi kısaca sıralayacağım.

Her şeyden önce, kentsel verilerin algılanması temelde iki ana yönteme ayrılabilir: biri insan merkezli algı, diğeri ise sensör merkezli algı. Sensör merkezli algı, sabit algı ve hareketli algı olarak daha da alt bölümlere ayrılabilir. Hangi yöntem olursa olsun, sensör yerleştirildikten sonra insanlar veri toplamaya katılmayacak ve veriler otomatik olarak arka plana aktarılacaktır. İnsan merkezli algı, her insanın etrafındaki bilgiyi algılamak için bir sensör görevi görmesi ve daha sonra bazı sorunları bir bütün olarak çözmek için bir araya gelmesidir.

Bu, pasif yöntemlere ve aktif yöntemlere ayrılmıştır. Pasiflik, bilgimiz olmadan topladığımız verileri ifade eder. Örneğin, arama kayıtları hücresel şebekenin iletişim kalitesini iyileştirmek için kullanılabilir ve araca binme ve araçtan inme kayıtlarını kaydırma şehir planlamasını iyileştirebilir. Aktif katılım algısı, ne tür verileri, ne zaman, nerede ve hangi amaçla katkıda bulunduğumuzu bildiğimiz anlamına gelir. Katılmayı veya çekilmeyi seçebiliriz ve bazen bir teşvik mekanizması vardır.

Kentsel algı bağlantısında, dört yönden de zorluklarla karşılaşacağız.

İlk olarak, aldığımız veriler genellikle sadece bir örnektir. Bu örnekteki belirli özelliklerin dağılımı, genel verilerdeki dağılımından çok farklıdır. Örneğin, bazı taksilerin GPS yörüngelerini alabiliriz, ancak tüm şehirdeki tüm trafik akışını tahmin edemeyiz. Taksilerin sayısını beş ile çarparak şehirdeki özel araç sayısını elde edemezsiniz çünkü örneklemde taksilerin özel arabalara oranı bire beştir, çünkü belirli yol kesimlerinde çok sayıda taksi vardır ancak özel araç yoktur. Benzer şekilde. Örneklememiz genellikle önyargılıdır.Gerçek bilgilerin önyargılı verilere nasıl yansıtılacağı zor bir noktadır.

İkinci olarak, sınırlı veri toplamak için genellikle yalnızca sınırlı sensörlere sahibiz. Örneğin, Pekin'de sadece 35 hava kalitesi denetim sahamız var ve bu 35 bölgenin verilerine dayanarak tüm şehrin bilgilerini tahmin edemiyoruz Bu, verilerin seyrek olması sorunudur.

Üçüncüsü, eksik veri sorunumuz var. İletişim hatası veya sensör hatası veri kaybına neden olabilir.

Dördüncüsü, daha fazla veri elde etmek için sınırlı kaynakları kullanmamız gerekiyor. Bu problemin ilk zorluğu, ihtiyaç duyduğumuz verileri birçok aday arasından seçmenin zor olmasıdır. Örneğin, Pekin'de birkaç şarj yığınını konuşlandırmak istediğimizi varsayalım İnsan sayısı hangi kavşaklarda maksimize edilebilir? İkincisi, bunun iyi mi kötü mü olduğuna karar vermenin zor olmasıdır. Örneğin Pekin, dört yeni hava kalitesi test istasyonu kurmayı planlıyor. Bu siteyi açmadan önce bu yerin hava kalitesinin nasıl olduğunu bilmiyordunuz, bu nedenle tüm şehrin hava kalitesi test etkisinin iyi mi yoksa kötü mü olduğuna karar veremezsiniz. Bu dört yön, kentsel bilgi işlemin algısal zorluğunu oluşturur.

Büyük veri ve yapay zeka ile optimize edilmiş ambulans kurtarma sistemimize bir göz atalım. Acil durum merkeziyle temasa geçtik ve acil durum merkezi, ambulans istasyonuna dönmeden önce hastayı hastaneye götürmek için bir ambulans gönderdi. Tıbbi ambulans sistemi hastane ile aynı olmadığından ve herhangi bir kullanıcının acil çağrısının belirtilen süre içerisinde cevap vermesini istediğimiz için ambulans istasyonları farklı yerlerde olmalı ve hepsi hastanede olamaz.

Yukarıdaki Tianjin'deki eski ambulans istasyonunun yerleşim planıdır Her üçgen bir ambulans istasyonunu temsil eder. Geçmişte, yer seçimi temelde insan sayısına veya yolların ve evlerin yoğunluğuna dayanıyordu. Bununla birlikte, insanların ilk yardım ihtiyaçlarını etkileyen faktörler karmaşıktır. Artık istasyonları gerçek 120 tehlike sinyali verilerine ve ambulanslarla kurtarılan hastaların GPS yörüngesine dayanarak ortalama kurtarma süresini optimize etmek için yeniden düzenleyebilir ve daha fazla hasta kurtarılabilir. Ek olarak, sistem kapasitesini en üst düzeye çıkarmak için çeşitli istasyonlar arasında araçların dinamik olarak nasıl dağıtılacağı, sorunu çözmek için ikinci adımımızdır. Buradaki birçok insanın toplanma süresini optimize eden bir nokta bulmaktır. Sorun sadece ambulans istasyonlarının konumu değil, hız önceliği en yüksek olan tüm uygulamalar bu lokasyon modelini dikkate alabilir.

Şehir algısını okuduktan sonra, şehir veri yönetimine bakalım. Veri yönetimi üç faktöre dikkat etmelidir. Birincisi, biz sıradan bir metin değil, uzay-zamansal verileriz. İkinci olarak, yönetim için gelişmiş bir bulut platformu kullanmamız gerekiyor. Üçüncü olarak, makul bir dizin algoritması ve sorgu algoritması tasarlamalıyız. Şehirdeki tüm veriler, veri yapısına göre iki türe ayrılabilir: nokta verileri ve ağ yapısı verileri. Ek olarak, her bir veri tipiyle ilişkili mekansal-zamansal niteliklere göre üç kategoriye ayrılabilir. Yani altı çeşit veri var, bunları tek tek açıklayayım.

Nokta verileri arasında, bir kez oluşturulduktan sonra değişmeyecek herhangi bir özellik, uzay ve zamanda statik olan nokta verileridir. Konum aynı kalır, ancak okumalar her saat değişmeye devam eder, aynı alana sahip verilerdir, ancak zaman özelliği sürekli değişir. Mobike'de farklı kişiler, farklı zamanlarda, farklı yerlerde talepte bulunur.Bu, zaman ve mekanda değişen bir veridir. Ağ yapısında yol ağı statik bir ağ yapısıdır. Yol ağı, trafik akış bilgileriyle üst üste getirildikten sonra, uzayda değişmez ve zamanla değişen veriler haline gelir. En karmaşık olanı yörünge verileri, zaman ve uzay değişiyor ve noktalar arasında sürekli bir ilişki var.

Bu altı veri yapısı modelini tanımladıktan sonra, sistem kullanımını iyileştirmek için belirli modeller için özel algoritmalar tasarlayabiliriz.

Veriler hakkında konuştuktan sonra platform hakkında konuşun.

Bir yandan, şehir verileri üç alanı içerir: heterojen, çok modlu ve çok kaynaklı. Çoklu kaynak, bu verilerin farklı alanlardan geldiği anlamına gelir. Heterojenlik, verilerin bir kısmının yapılandırılmış veya yapılandırılmamış olduğu anlamına gelir. Çoklu mod, metin videosu ve sesi olduğu anlamına gelir. Öte yandan, tüm şehir alanını çıkararak ve tahmin ederek tüm şehre hizmet veriyoruz.Bu hesaplama çok ağır ve gerçek zamanlı gerektiriyor. Yani verilerle uygulamamız arasında bir boşluk var, bu boşluğu doldurmak ve ilerletmek için bir platforma ihtiyacımız var.

Hiçbir şirketin bulut bilişim platformunun mekansal-zamansal büyük verilerimizi iyi bir şekilde destekleyememesi üzücü. Birincisi, uzay-zamansal verilerin yapısının genel verilerden farklı olmasıdır. Örneğin, araba sürerken bir yörüngenin uzunluğu artmaya devam eder ve iki noktanın sırası keyfi olarak değiştirilemez.

İkincisi, uzay-zamansal verileri sorgulama şeklimiz farklıdır. Metin sorgusunda, verilen anahtar kelimelere göre arama yapılacaktır. Bununla birlikte, uzay-zamansal veri sorgusunda, genellikle bir uzay aralığı artı bir zaman aralığı sorgulamaktır.Bu sorgu yöntemi, bulut bilişim platformumuzda doğrudan desteklenemez.

Üçüncüsü, gerçekten şehir hesaplamaları yaptığımızda, kesinlikle tek bir tür veri kullanmıyoruz. Birden çok veriyi entegre etmeniz gerekiyor. Bu, yukarıdaki analizi ve madenciliği desteklemek için hibrit indeksleme ihtiyacını artırmaktadır.

Bundan bahsettikten sonra, herkes akıllı şehirlerin ve bulut bilişimin uygulanmasının neden zor olduğunu anlayabilir. Aslında bulut bilişim platformu bahsettiğimiz kentsel büyük veri platformu değil, bu faktörleri iyi destekleyemez. Bu zorluğa dayanarak, Guiyang'daki ilk gerçek kentsel büyük veri platformunu tasarladık ve uyguladık. Önce altı veri modeli tanımlar ve ardından Microsoft'un bulut bilişim platformunun mevcut depolama kaynaklarını kullanır. Daha sonra bir ara yazılım katmanı yaptık, farklı veri yapıları için uzay-zamansal indeksleme algoritmaları tasarladık ve farklı veriler için hibrit indeksleme algoritmaları tasarladık. Ardından uzay-zamansal dizini Hadoop, Spark ve Storm gibi dağıtılmış bilgi işlem ortamlarına entegre edin.

Yalnızca dağıtılmış bilgi işlem ortamları değil, aynı zamanda zaman-uzay indeksleme algoritmaları da vardır.İkisinin birleşimi, veri erişimini ve yönetim depolamayı çok verimli hale getirir. Son olarak, üst düzey makine öğrenimi ve yapay zeka algoritmalarına API'ler sağlayın, böylece makine öğrenimi algoritmalarımız aşağıdaki verilerin bazılarına hızlı bir şekilde erişebilir. Bu katman olmadan birçok makine öğrenimi algoritmasının başlatılamayacağını ve bunlara erişilemeyeceğini ve büyük ölçekte uygulanamayacağını hayal edin.

Size gerçek bir örnek vereyim.

Guiyang Şehrinde, şarj yığınının konumunu büyük ölçekli taksi GPS yörüngesine göre tasarladık. Taksiler tarafından kapsanan, tekrarlanmayan GPS yörüngelerinin sayısını en üst düzeye çıkarmak için, belirli bir menzil içinde beş şarj yığını inşa etmek istediğimizi varsayalım. Geçmişte, böylesine karmaşık bir hesaplama günde yaklaşık 5 saat sürüyordu. Artık hızlı bir şekilde hesaplanabilir. Yüksek verimlilik arayışı, bir şarj yığınının yerini seçerken, kapsanan nüfusu maksimize etmenin kesinlikle yeterli olmadığını ve yerin diğer koşulları karşılayıp karşılamadığına bağlı olduğunu bilmemizdir. Bu yer mantıksız ise, uzman onu silecek veya ekleyecektir. Ardından algoritmamız geri döner ve hesaplar, yinelemeli etkileşimli bir madencilik haline gelir.

Artık makine öğrenimi, insan-makine öğrenimi haline geldi. Bu yaklaşım sayesinde, uzman bilgisi ve sektör bilgisi veri bilimi ile birleştirilebilir. Etkileşim kurmak istiyorsanız, çok yavaş olamazsınız, aksi halde kimse böyle bir sistemle etkileşime girmek istemez. Dağıtılmış hesaplama ortamını az önce bahsettiğimiz indeksleme yöntemi ile birleştiren platform sayesinde algoritma tamamlanma süresi birkaç saatten birkaç saniyeye kadar değiştirilebilir, bu platformun güçlü gücüdür.

Bu aynı zamanda genel bir konum modelidir. Örneğin, şehir içinde yol kenarında duran birçok büyük reklam panosu görürsünüz.Grup kapsamını en üst düzeye çıkarmak için nereye yerleştirilmeli ve en iyi reklam verimliliği aynı sorudur. Banka konumu ve banka ATM'si de bu tür sorunlardır. Bu sorunların tümü, endüstri bilgisi ve veri bilimi arasındaki etkileşimi ve yapay zekada Maksimum k kapsamı sorununu içerir.Ayrıca etkileşimli görsel analiz yöntemleriyle tamamlanmaları gerekir.

Veri yönetimi seviyesinden bahsettikten sonra, günümüzün de odak noktası olan veri analizi ve madenciliğe bakalım. Kentsel veri analizi düzeyinde dört zorlukla karşılaşacağız.

İlk husus, eskiden makine öğrenimi yapan birçoğumuz algoritma önerdiklerinde genellikle video, grafik ve metin kullandığımızdır.Şimdi bu algoritmaları uzay-zamansal verilere uyarlamaları gerekiyor. Nasıl dönüştürüleceği zor bir noktadır.

İkinci yön, çoklu verinin entegrasyonudur. Geçmişte veri madenciliği yaparken, genellikle sadece tek bir veri çıkarmaktı. Şimdi bir uygulama yapmak için birden fazla verinin bilgisini entegre etmemiz gerektiğini bulduk. Bu yeni bir zorluk ve bence bu aynı zamanda büyük veride "büyük" olandan nispeten daha ilginç ve zor bir problem.

Üçüncü yön, veritabanı ve makine öğrenimi yapan iki grup insanın olması ve aralarındaki kesişimin nispeten küçük olmasıdır. Ancak, yalnızca veri tabanı ve makine öğrenimi yöntemlerini organik olarak entegre ederek ve bunu hızlı ve iyi bir şekilde yaparak sistem uygulanabilir. Dördüncü zorluk, geçmişte madenciliğin genellikle tek yönlü bir süreç olması, yani basit statik madencilik olmasıdır. Artık etkileşimli görsel madencilik haline geldi ve İngilizce'de etkileşimli görsel veri analitiği olan etkileşimli görsel veri analitiği olarak adlandırıldı. Az önce söylediklerim sadece bir örnek: İnsanları etkileşimli görselleştirmeye, insan-bilgisayar etkileşimine getirin ve insan zekasını entegre edin.

Yukarıdakiler mantıksal çerçevedir ve ardından gerçek platforma geri döner.

Platformun alt kısmını tanımlıyoruz, ortada dağıtık bir sistem artı mekansal-zamansal indeksleme yöntemimiz var ve sonra ara veri analizi seviyesi var. Bu, üç alt seviyeye ayrılmıştır. İlki, en yaygın doğrusal regresyon yöntemleri de dahil olmak üzere herkesin bildiği en basit makine öğrenme algoritmalarından bazılarıdır. Devam ederken, özellikle uzay-zamansal veriler için bazı makine öğrenimi algoritmaları oluşturduk. İleriye dönük olarak, uzamsal-zamansal veri füzyonu için yöntemler, özellikle daha sonra vurgulanacak olan çoklu veri birleştirme yöntemleri tasarladık.

Çok değişkenli veri füzyonu yöntemleri, mevcut çalışmaya göre üç kategoriye ayrılabilir. İlk tür, önce bir veri türünü ve ardından başka bir veri türünü kullanan aşamalı bir yöntemdir. İkincisi, özellik dikişine dayalı bir yöntemdir. Aşina olduğumuz derin öğrenme yöntemlerinin yanı sıra geleneksel özellik birleştirme artı bazı düzenleme yöntemleri de bunun dallarıdır. İkinci yöntemle karşılaştırıldığında üçüncü kategori, anlamsal bilgi füzyonuna dayanır. Bu, çoklu perspektifleri, olasılık modellerine dayalı yöntemleri, benzerliğe dayalı yöntemleri ve transfer öğrenme yöntemlerini içerir. Bu yöntemde, her enlem özelliğinin anlamının yanı sıra özellikler ve özellikler arasındaki ilişkiyi ve bunların anlamsal bilgilerini bulmalıyız. Özellik füzyonu yaparken gerekli değildir. Ayrıca bu yöntem, insanların düşünme şekline göre tasarlanmış insan benzeri bir düşünme yöntemidir. Yani anlamsal bilgiye dayalı bir yöntemdir.

Bu yöntemi ev fiyatlarından bir örnekle açıklayayım.

Bunda evlerin fiyatını tahmin etmiyorum, ancak değeri yüksek olan evleri, yani yükseldiğinde daha hızlı yükseliyor ve düştüğünde daha az düşüyor. Aynı ortamda doğal faktörleri ve politika faktörlerini terk ediyoruz, konut büyüme oranının baz sayısına bölünmesiyle büyüme oranı oranı, ardından sıralama büyüme oranına göre yapılıyor. Bu değere göre Pekin'deki evleri beş sınıfa ayıracağız.

Bazen Tip I odalar ile Tip 5 odaların birbirine çok yakın olduğu görülmektedir. Peki bir evin değerini ne belirler?

Li Ka-shing, bir evin değerinin önce konuma, ikinci konuma ve üçüncü konuma bağlı olduğunu söyledi.

Bu parti aslında verilerle ölçülebilir. İlk parti, POI ve yol ağı verileri aracılığıyla elde edilebilen çeşitli çevredeki tesislerin seviyesidir. Ama aynı zamanda bir okul bölgesi.İyi okul bölgeleri ve kötü okul bölgeleri, evin değerini yönlendirmede bariz farklılıklar gösterir.

Bu yüzden ikinci veriye bakmalıyız: popülerlik. Burada birkaç veriye başvurduk. Örneğin, sosyal medyada bu yer hakkında yorumlar ve insanların seyahat düzenleri. İnsanların seyahat kuralları genellikle yalan söylenemez, bu da genellikle bölgenin değerini yansıtır. Üçüncü konum, iş bölgenizdir. Örneğin, Wangjing'deyseniz, eviniz üzerinde çekici bir etkisi olacaktır, ancak Wangjing'deki tüm evler iyi değildir, ilk iki faktöre bağlıdır. Böylece ilk parti, ikinci lot ve üçüncü lot, altı ila yedi tür veri ile ölçülebilir.

Her veri türünden özellikleri çıkarabilir ve ardından hesaplamalar yapabiliriz. Bu özellikler için, önceki yöntem basitçe bir vektör oluşturmak ve sonra biraz regresyon yapmaktır. Örneğin, en basit yöntem doğrusal regresyon yapmaktır, omega katsayıdır, X vektördür ve hata geride kalır. Özellikler tamamen bağımsız olmadığı için bu yöntem çok etkili değildir.

Bu nedenle iki kısıtlama daha ekledik.

İlk kısıtlama, ikili bir kısıtlama eklemek ve bunu bir Sıralamaya öğrenme problemine dönüştürmek, yani öğrenmeyi sıralamaktır Sadece her evin ayrı ayrı tahmin edilmesi gerektiğini değil, aynı zamanda iki ev arasındaki sıranın da yanlış olmaması gerektiğini umuyoruz. Bu, makine öğreniminde öğrenmeyi sıralama olarak adlandırılır. Burada sadece iki evin artış oranını fark olarak kullanın ve ardından bunu Sigmoid işlevi aracılığıyla (0, 1) arasındaki bir değere dönüştürün. A gerçekten B'nin önünde yer alıyorsa, A'nın kendisi B'den daha fazla yükselmelidir, o zaman çıkarılmış değeri pozitiftir.Fonksiyon için, Sigmoid işlevi uygulandıktan sonra çıktı değeri daha büyüktür ve daha büyüktür 1. Doğru sipariş için bir bonus puanına eşdeğerdir. Tersine, eğer A, B'nin önünde sıralanırsa, ancak B'nin tek noktalı tahmin değeri A'dan büyükse, bu durumda AB'nin tahmin sonucu negatiftir.Sigmoid fonksiyonu ile dönüşümden sonra, küçük bir değer üretilecek ve değer ne kadar küçükse, o kadar yakın Yu sıfır. Yanlış sıralama cezasına eşdeğerdir.

İkinci kısıtlama, omega üzerinde kısıtlamalarımız olmasıdır. Az önce birçok omegazın gereksiz olabileceğini söyledik, ancak bu özellik bir rol oynamayabilir. Bu gereksiz özelliklerin ağırlığının özellikle küçük olmasını umuyoruz, bu yüzden Omega'yı ekleyin Üst kısıtlama, omega dağılımının ortalama sıfır değeri ve çok küçük bir varyans ile Gauss dağılımına uymasının umulmasıdır, böylece omega'nın çoğu sıfıra yakındır ve ayrıca bireysel omega'nın nispeten küçük bir olasılıkla daha büyük bir ağırlık elde etmesine izin veriyoruz. Bu hesaplamada ayrıca ilginç bir fenomen bulduk, yani gerçek bir lüks evin metrosu olup olmaması önemli değil, ancak trafiğin işe gitmek için çok uygun olduğunu umuyoruz. Bu şey nasıl doğrulanır? Modeli eğitmek için 2013 ve 2014 verilerini kullanıyoruz, ardından 2014 yılında konut büyüme sırasını tahmin ediyoruz ve bu sonucun doğru olup olmadığını 2014 sonundan sonra bilebiliriz.

Daha sonra, derin öğrenmeyi içeren ikinci yöntem tanıtıldı.

Derin öğrenme konusunu duyduktan sonra birçok medya bize gelecek, çünkü bu proje aynı zamanda mekansal-zamansal veriler üzerine en iyi uluslararası konferanslarda yayınlanan ilk derin öğrenme çalışması. Şehri tek tip şebekelere böleriz ve gelecekte her bir şebekeye karşılık gelen alana kaç kişinin girip çıkacağını tahmin edebiliriz. Tahmin edebileceğiniz gibi, bu çok yönlü bir model. Bölgedeki taksilerin giriş ve çıkışlarını tahmin etmeyi; kaç kişinin Mobike'ye ihtiyaç duyacağını tahmin etmeyi; gelecekte bu alanda kaç kişinin yemek sipariş edeceğini tahmin etmeyi; gelecekte kaç kişinin ekspres teslimat yapacağını tahmin etmeyi içerir. Bu model bittikten sonra birçok uygulamayı tatmin edebilir. Bu işe Şangay'daki izdiham yüzünden başladım. Sonrasında Weibo'da ilk kez bu güvenlik sorununun büyük veri ve yapay zeka yöntemleriyle analiz edilebileceğini ve tahmin edilebileceğini, böylece trafiği önceden yönlendirebileceğini ve hatta insanlara başlangıç noktasına gitmemesini söyleyebileceğini söyledim.

Weibo'ya yazdıktan sonra internetteki kamuoyu iki gruba ayrıldı: Biri bunun çok iyi olduğunu ve bunun gerçekten mümkün olduğunu söyledi, diğeri de geceleri pek çok insanın oraya gideceğini bildiğimi ve sizin tahmininize gerek olmadığını söyledi. Benzer şekilde, hükümet orada çok sayıda insan olduğunu bilmeli, böylece daha fazla polis gönderecek. Bununla birlikte, hükümet "çokluk" un boyutunu bilmiyor, insan sayısının zirve yaptığı belirli zamanı da bilmiyor. Ve ne zaman zirve noktası olduğunu ve her birim zamanda ne kadar içinde ve dışında olduğunu bilmek

Kararlar vermek için. Yani bunlar hükümetin gerçekten ihtiyacı olan şeyler.

Pekin metro istasyonunun da bu talebi var, insan akışını tahmin etmeyi ve kavramayı umuyor. Bu sadece tren sevkiyatıyla değil, aynı zamanda insanların hayatlarının güvenliğiyle de ilgilidir. Bu model Guiyang Şehrinde uygulanmıştır. Guiyang Şehri bir kilometreye bir kilometrelik ızgaralara bölünmüştür.Gelecekte her bir ızgaraya kaç taksinin girip çıkacağını tahmin ediyoruz. Yeşil olanlar tahmin edildi, siyah olanlar eski değerler ve mavi olanlar dün aynı zamanda karşılık gelen değerlerdir. İnsan akışını kestirmek çok zordur çünkü son bir saat içinde bölgeye giren ve çıkan kişi sayısı, çevreye kaç kişi girip çıktığı, insanların uzaktan giriş ve çıkışı ileride bölgeye giren ve çıkan insan sayısını etkileyecektir. Bu çapraz alan araştırması çok eksik. Ek olarak, hava durumu ve olaylar da etkileyen faktörlerdir.

Burada yaptığımız şeyin video, görüntü ve sesten farklı olan uzay-zamansal veriler olduğu vurgulanmaktadır. Bu aynı zamanda doğrudan kullanılamayan geleneksel derin öğrenme modellerine de yol açar. Her şeyden önce, uzamsal-zamansal verilerin iki yönü içeren uzamsal nitelikleri vardır, bunlardan biri uzayın mesafesi, diğeri de uzay seviyesi olarak adlandırılır. Sözde uzamsal uzaklık, coğrafyanın birinci yasasına göre anlaşılması kolaydır. Ek olarak, alanın seviyeleri vardır. Örneğin, bir şehir birkaç bölge içerir ve birkaç bölge birkaç cadde içerir Her seviyenin özel anlam bilgisi vardır. Piksellerden farklı olarak, dört piksel bir pikselde birleştirilse de, dört piksel tek bir pikselde birleştirildiğinde net anlamsal bilgi yoktur.

İkincisi, zaman niteliğidir. Üç fark var. Birincisi, zaman akıcı, yani bu saatin trafik hacmi bir önceki saate daha yakın.

İkincisi, mekansal-zamansal verilerin periyodikliği vardır ve hem trafik akışı hem de kalabalık akışının periyotları vardır. Bu periyodiklik video, ses ve metinde yoktur. Örneğin bu sabah saat 8'deki trafik akışı dün sabah saat 8'deki trafik akışına çok benziyor olabilir ama bugün saat 12'deki trafik akışından çok farklı, çok uzak olanlar benzer. Bu bir numarayı kırıyor. Noktaların kısıtlanması birçok algoritmayı uygulanamaz hale getirir.

Üçüncüsü, eğilim. Döngü kesinlikle sabit değil. Şafak vakti gittikçe daha erken geldikçe, herkes gitgide daha erken çıkar, bu nedenle sabahın zirvesi daha erken gelir. Sabah zirve saatinin yükselen bir süreci olacaktır.Bu eğilim ve döngü çok özeldir, bu nedenle uzay artı zaman faktörleri, uzay-zamansal verilerin sıradan metin ve videodan farklı olmasına neden olur. Şehri tek tip bir ızgaraya böleriz ve ardından her bir ızgaraya kaç kişinin girip çıktığını hesaplamak için geçmişte ve gerçek zamanlı olarak alınan GPS yörünge bilgilerini ızgaraya yansıtırız ve bunu bir matrise dönüştürürüz. Giriş ve çıkış, RGB'ye sahip her piksele eşdeğerdir, iki boyutlu bir ısı haritası haline gelir, yer ne kadar kırmızı olursa, o kadar çok insan. Video akışı gibi bir tür oluşturmak için farklı zamanlarda çok fazla verimiz, artı olay ve hava durumu bilgimiz varsa. Bu, veri girişidir.

Verilerin uygulanması, bitişik zaman dizisinin düzgünlüğünü simüle etmek için ilk olarak birkaç saatlik verileri derin bir evrişimli sinir ağına bitişik koymaktır. Ardından, periyodikliği simüle etmek için birkaç gün içindeki bir ana karşılık gelen verileri aynı yapının derin evrişimli sinir ağına girin. Ardından eğilimi simüle etmek için aynı zaman noktasına karşılık gelen verileri daha geniş bir zaman aralığında girin. Daha sonra bu üç veri önce birleştirilir ve birleştirme sırasında ağırlık katsayısı eklenir, çünkü üç faktörün çıktı sonuçları her yerde aynı değildir. Örneğin, bu tür bir ana yol gibi bazı yerler özellikle döngüseldir. Bazı yerlerde periyodiklik o kadar güçlü değildir ve zaman yakınlığı daha önemlidir.

İkinci olarak, meteorolojik olaylar gibi dış faktörleri dikkate almamız gerekir. Bu verileri birleştirdikten sonra, geri beslemeye gidiyoruz ve bir sonraki karenin verilerini öğreniyoruz, bu yüzden bir sonraki çerçevede şu andaki durumu tahmin etmemiz gerekiyor. Ayrı bir tahmin değil, genel bir tahmindir. Izgaralar ve ızgaralar arasında bir korelasyon olması gerektiğinden, her bir alana kaç kişinin girip çıkacağını aynı anda tahmin ediyoruz. Diğeri, zaman ve mekanın niteliklerini yakalamaktır. Zaman yakınlığı, periyodiklik ve eğilim hepsi yakalanır ve ardından uzamsallık derin bir evrişimli ağ aracılığıyla dahili olarak yakalanır. Evrişimli ağ, bir bölgenin değerini, yakın alanın yerel korelasyonunu tanımlayan bir evrişim yoluyla bir noktaya çevirebilir. Birden fazla evrişimden sonra, uzaktaki uzayın korelasyonunu açıklamak için daha uzak ve uzak yerler bir araya getirilebilir. Derin evrişimli ağ derin olduğunda, eğitim etkisi çok zayıf hale gelir.

Bu sorunu çözmek için, derin bir artık sinir ağı sunuyoruz ve tüm mimariye uzay-zamansal artık ağ deniyor. Önceki LSTM modeliyle karşılaştırıldığında, bu nispeten yeni model, sürekli veri girişi gerektirmez ve yalnızca anahtar çerçeveleri çıkarması gerekir. Bu yapı, ağ yapısını büyük ölçüde optimize eder ve orijinal modeldeki yüzlerce veya binlerce çerçevenin efektini elde etmek için yalnızca düzinelerce çerçeve veya daha iyisi gerekir. Bu derin uzay-zamansal kalıntı ağı, popülasyon akışının tahmininde büyük uygulama olanaklarına sahiptir.

Hava sorununa bakalım. Çevre sorunu şu anda çok ciddi, bu da herkesi ilgilendiriyor. Hükümet şehirlerde birçok hava kalitesi izleme istasyonu inşa etti. Ancak, maliyet sorunları nedeniyle alt istasyonlar sınırsız sayıda yerleştirilemez. Ve şehrin geniş bir bölgesindeki hava kalitesi çok dengesiz.

Bu, gerçek verilerin oynatılmasıdır ve her simge gerçek bir siteyi temsil eder. Yukarıdaki şekil AQI kirlilik endeksidir.Aynı anda farklı yerlerdeki hava kalitesi okumalarının çok farklı olduğu görülebilir.Bazen okumalar sadece bir veya iki blok ötede olabilir ve fark birkaç yüz olabilir. Çünkü hava kirliliği endeksi, yer trafiği akışı, yakınlarda fabrikalar ve madenler olup olmadığı ve çevredeki yayılma koşulları gibi birçok karmaşık faktör tarafından belirlenir. Bu faktörler, şehirdeki doğrusal olmayan ve tek tip olmayan değişikliklerdir, bu nedenle tüm şehrin hava kalitesi tek tip olamaz. Yani bu yerde hava istasyonu yoksa kirlilik endeksi ölçülür, çünkü kirlilik endeksi yakındaki birkaç istasyon üzerinden doğrusal bir fark yaratamaz, doğrusal değildir, dolayısıyla fark çok büyük olacaktır.

Bu nedenle, gerçek zamanlı ayrıntılı hava kalitesi analizi yapmak için büyük verileri kullanıyoruz. Gerçek zamanlı olarak saatte bir yapılır ve ince taneli durum bir kilometreye bir kilometredir. Büyük verilerin iki bölümü kullanılır, bir bölümü mevcut sitelerin gerçek zamanlı ve geçmiş hava kalitesi okumalarıdır ve diğer bölüm rüzgar hızı, rüzgar yönü, nem gibi hava durumu ve aracın ortalama hızı, hız değişimi ve insan hareketi dahil olmak üzere beş veri kaynağına bölünmüştür. Cinsiyet, birim zamanda kaç kişinin girip çıktığı, bölgedeki POI sayısı, kaç bar, kaç restoran, kaç fabrika ve maden, evlerin yoğunluğu ve yol yapısında kaç tane otoyol ve trafik ışığı kavşağı var. Ardından, bir yerin hava kalitesi ile o yerin çevresindeki ilgili veriler arasındaki ilişkiyi kurmak için makine öğrenimi algoritmalarını kullanın.

Model inşa edildikten sonra bu model başka yerlerdeki hava kalitesini anlamak için kullanılır. Bu yerde inşa edilmiş bir saha olmasa bile, tüm veriler zaten şehirde mevcut olduğundan, herhangi bir ek sensör oluşturmaya gerek yoktur.

Bu, şu anda 300'den fazla şehirde kullanılmak üzere Çevre Koruma Bakanlığında konuşlandırılmış gerçek bir sistemdir. Pekin-Tianjin-Hebei, Yangtze Nehri Deltası, İnci Nehri Deltası, Kuzeydoğu ve Doğu Çin'i bölgelere ayıran büyük ölçekli, ince taneli çıkarımlar görebiliriz. Büyük ölçeğin nedeni, Pekin'e bakıldığında bazen sorunun açık olmamasıdır. Bu durumda, her bir hava kalitesi sürecinde bölgelerin sırasını iyi-kötüye doğru bilmek gerekir, bu nedenle ülke ince tanecikliğe ihtiyaç duyar ve hatta sonucun 500 metreye kadar daha ince olmasını umar. Bu örnek üzerinden büyük verinin uygulanmasının endüstri ile entegre edilmesi gerektiğini görebiliriz.

Buradaki her beyaz daire, hükümetin mevcut bir alanıdır, bu alandaki hava kalitesi bilinmektedir ve mavi daire, bilinmeyen, tahmin edilecek yerin hava kalitesidir. Paralelkenar, zamandaki bir noktayı temsil eder. Her şeyden önce, bir yerin hava kalitesi zaman serisi korelasyonuna sahiptir, bu dikey bir okla gösterilir, yani bu saat hava kalitesi iyi değilse, sonraki saatin hava kalitesini etkileyecektir. İkincisi, kirleticiler yayılacak ve sürükleneceği için farklı yerlerdeki hava kalitesi mekansal olarak ilişkilidir ve kırmızı oklarla belirtilmiştir. İyi bir hava kalitesi modeli, tek bir yerde hava kalitesinin zamansal korelasyonunu ve farklı yerlerdeki hava kalitesinin mekansal korelasyonunu aynı anda modelleyebilmelidir.

Bir uzaysal sınıflandırıcı ve bir zamansal sınıflandırıcı vardır. Uzamsal sınıflandırıcı, merkez değerini çevreleyen değerlerden hesaplayabilir ve zaman serisi tahmini, kendi okumalarına dayanarak gelecekteki değerini tahmin eder. Çünkü üç kirletici kaynağı vardır: biri dışarıdan giriş, diğeri yerel deşarj ve üçüncüsü, belirli çevresel faktörler altında ikincil kimyasal kirliliğe neden olan dış kirlilik ve yerel deşarj. Bu üç faktör, yukarıda bahsedilen uzamsal korelasyona, zamansal korelasyona ve iki uzamsal-zamansal sınıflandırıcılarının yinelemeli bir öğrenme sürecine eşdeğerdir.

Kirleticilerin nedeni açısından bakıldığında, mekansal iletim ve yerel emisyonlar olduğu için hem endüstri bilgisi hem de veri bilimi bilgisi gereklidir.Mükemmel bir kombinasyondan sonra, bir model her iki tarafça tanınacak şekilde özelleştirilebilir. Kirleticilerin fiziksel yayılma süreçleri ve kimyasal süreçleri vardır.Orijinal yöntem, tek bir fiziksel süreç veya tek bir kimyasal süreç sorunu çözemez. Artık veri analizi yöntemi ile fiziksel süreç ve kimyasal süreç ve aralarındaki etkileşim aynı anda ele alınır, bu nedenle bu problem çok iyi çözülebilir. Bu çalışma, makalenin 2013 yılında yayınlanmasının ardından 2015 yılında çevre koruma aşiret topraklarında yayınlandı.

2015'ten sonra geleceği tahmin etmek için yeni çalışmalar yaptık. Çevre Koruma Bakanlığının gerekliliklerine göre üç adım vardır: Birincisi mevcut durumu anlamak, ikincisi ise geleceği tahmin etmektir. Sözde geleceği tahmin etmek, önümüzdeki 48 saat içinde her sitenin farklı zaman aralıklarında tahminini bilmek anlamına gelir. Bu, uzay ve zamanda ayrıntılı bir tahmindir. Pekin'in yarın dumanlı olacağını veya hiç duman olmayacağını tahmin etmenin aksine, bunu yapmak çok kolay. İlk olarak, pus bir hava kalitesi değil, bir hava koşuludur. Bunun tek nedeni, sisin hava kirleticilerinin yayılmasına elverişsiz olmasına neden olmasıdır, bu nedenle hava kalitesi düşer. Elbette hava kalitesi birçok başka faktöre de bağlıdır. Bu nedenle yaptığımız hava kalitesi tahmini, pus tahmininden daha zor.

İkincisi, ince ayrıntı düzeyine sahip olmaktır. Pekin'in tamamının ne kadar büyük ölçekte olacağı değil, belli bir siteye ne dersiniz? Bu ayrıntı, uzay ve zamanda çok zordur.

Ayrıca hava kirleticilerinde bir bükülme noktası vardır, yani aşırı hava koşulları oluştuğunda hava kirliliği endeksi anlık olarak 500'den 50'ye değişebilir. Bu dönüm noktası küçük bir örnek olaydır, bu yüzden tahmin etmek çok zordur. Dönüm noktası, ülkenin karar alma sürecini doğrudan etkileyecek. Örneğin APEC döneminde hava kalitesini sağlamak için bir daire içindeki tüm fabrikaların merkez olarak Pekin ile kapatılması gerekir ki bu da on milyarlarca zarara neden olabilir. Yarının bir dönüm noktası olduğunu biliyorsanız, kayıpları önleyebilirsiniz. Yapmamız gereken şey, hava kalitesi tahminleri yapmak, ikincisi zaman ve uzay hakkında ayrıntılı tahminler yapmak ve üçüncüsü dönüm noktaları hakkında tahminler yapmak. Şu anda ülke çapında 300'den fazla şehir çalışma sonuçlarımızı kullandı Çevre Koruma Bakanlığı ile sözleşmenin ikinci aşaması imzalandı ve konuşlandırıldı.

Son işin ulaşımımız, çevremiz, planlamamız ve personelimizle bir ilgisi var. Şehrin tamamında her yolda gerçek zamanlı hız, akış, yakıt tüketimi ve egzoz emisyonları hesaplaması. Emisyonlar arasında PM2.5, PM10, nitrojen dioksit ve sülfür dioksit bulunur. Bazı GPS izleri girdi olarak kullanılır.Burada Guiyang Şehrindeki taksileri girdi olarak artı POI yol ağı ve hava durumu olarak kullanıyoruz, bu yüzden hala çoklu veri füzyonu sorun.

Aşağıda gerçek bir sistem gösterilmektedir (yukarıdaki resme bakın). Bu, Guiyang'a inen gerçek bir ulusal trafik akış haritasıdır. Akış, bir soruyla anlaşılabilir: Trafik akışı nispeten büyük olduğunda hız hızlı mı yoksa yavaş mı? Bir yer engellenirse ve her araç belirli bir zaman dilimi içinde geçemezse, trafik sıfıra yakın olacaktır. Hız ve yoğunluk küçük olmadığında büyük trafik hacmi yüksek olmalıdır. Trafik kontrolü ve yakıt tüketimi ve emisyonların hesaplanması gibi birçok şey akışa ve planlama akışa dayalıdır. Bu nedenle Guiyang Şehri, Çin'in ilk trafik akış haritasına ulaştı.

Akış şemasına göre her bir yol kesiminde arabaların PM2.5 emisyonu gerçek zamanlı olarak hesaplanabilir. Bu verilerle, otomobilin yer değiştirmesini hava kalitesi izleme istasyonundan gelen okumalarla birleştirmek, aracın egzoz emisyonlarının gerçekte oluşturduğu havadaki PM2.5 yüzdesini daha doğru bir şekilde analiz edebilir. Bu sistem Guiyang'da ticarileştirildi. Bu nedenle, büyük veri sadece toplumun ilerlemesini teşvik etmekle kalmaz, aynı zamanda akademik değeri ile tanınır ve nihayetinde gelir elde eder, bu bir kazan-kazan-kazan'dır.

Son olarak sizlerle bir konsept paylaşacağım. Veri bilimci nedir? Pek çok şirket gerçek veri bilimcileri yerine veri bilimcilerini işe alır, ancak veri analistleri. Veri analisti kavramı nedir? Net görevleri, verileri temizlemesi, görevleri temizlemesi ve net sonuçları var.Bazı raporları çalıştırmak için bazı araçları kullanacak ve ardından sonuçları sunacak.

Veri bilimciler tamamen farklıdır. Çok basit bir örnek, bir banka bir kredi kartı verdiğinde, bir kullanıcı tarafından gönderilen ve üzerinde çeşitli bilgiler bulunan bir formumuz var.Bir modeli eğitmek için kişisel kredi kayıtlarını kullanırız ve ardından bir kredi kartı verilip verilmeyeceğine karar vermek için bir distribütör yaparız. Bu veri analisti.

Kısa süre önce, Pekin Belediyesi Alt-Merkezi Tongzhou'da inşa edildi.Hükümet, Pekin hükümetinin Tongzhou'ya taşındıktan sonra Pekin hükümetinin genel ekonomisi, çevresi ve ulaşımı üzerinde ne gibi bir etkisi olacağını bilmesi gerekiyor. Spesifik problemler ve spesifik veriler yoktur.Bu, veri bilimcilerinin çözmesi gereken problemdir. Bu hala iyi bir durum.Çoğu zaman hükümetle konuştuğumuzda ve hükümet ne yapmak istediğini bilmiyor, bu yüzden veri bilimcilerin sorunu kendileri bulması gerekiyor. Bu nedenle, en üst düzeydeki veri bilimcilerinin bunu kendileri bile düşünmesi gerekir.

GPSAB

PHD

Yapay zeka yetenekleri çılgınca yakalandı, birinci sınıf bir spor yıldızına layık
önceki
Ganzhe (Gantzer), "Paris" hareketini ilk kez öncekilerin çok ötesinde bir vizyonla kurdu
Sonraki
Southwest'in ilk soğuk zincirli ekspres yolcu treni kalkıyor, Sichuan tarzı güveç malzemeleri 27 saat içinde Pekin'e varıyor
Fizikçiler dağları ve okyanusları 200 milyon yıl önce mantonun derinliklerinden ortaya çıkarıyor
Şampiyonlar Ligi'nde yürek burkan bir sahne! 41 yaşındaki Buffon, amatör bir hand-off hatası yaptı ve maçtan sonra en düşük puanı aldı
Not! Wuhan Metro Hattı 2 ve Hat 7'de yarından itibaren yeni değişiklikler olacak! Günaydın Wuhan
İngiliz kraliyet prensesi Eugenie bugün evlendi, süt çayı Japon prensesiyle karıştırıldı
160 Kamu Güvenliği ve Silahlı Polis memurları, karda "Hades'ten korkmayanları" yakaladı ve masasına onu tutuklamak için bir ödül emri koydu.
Kadın sürücüler 12 yılda 30 kattan fazla arttı ve 90 ve 00'dan sonra ana gövde haline geliyorlar.
Güvenli, taşınabilir ve çevre dostu olan bu hidrojen jeneratörü göz alıcıdır!
Guoying Turkuaz köy Taobao tarafından değiştirildi
İnce Düzenlenmiş Kuru Ürünler Tarihteki en eksiksiz sinir ağı yapısı çizim aracına giriş, hiçbiri
"2018 Chengdu Kültür ve Yaratıcılık Endeksi" yayınlandı, Chengdu'nun kültürel ve yaratıcı ilgi artış oranı ülkede ilk sırada yer alıyor
ayağa kalk! Eğitim bütçelerini düşürmeye hayır deyin! İtalyan öğrenciler protesto için sokaklara çıktı
To Top