Tushen genellikle diferansiyel denklemler, GNN'nin becerilerini sürekli derinlik alanında göstermesi nasıl sağlanır?

Rayleigh-Bénard Konveksiyon. Sonlu eleman yöntemi uzaysal olarak sürekli problemi ayırmak için kullanılır ve karmaşık ilişki tümevarım sapması bir dizi varlık olarak gösterilir.

Resim kaynağı: https: // www .Youtube .com / watch? v = OM0l2YPVMf8t = 74s.

Yazar | Michael Poli

Derleme | JocelynWang

Düzenle | Kongun Sonu

Çok ajanlı sistemler, fizikten robotik, oyun teorisi, finans ve moleküler biyoloji gibi çeşitli farklı bilimsel alanlarda yaygın olarak kullanılmaktadır. Genel olarak, tahmin veya karar verme görevleri gürültülü ve düzensiz olarak örneklenmiş gözlemlere dayanır, bu nedenle kapalı form analiz formülleri bunun için geçersizdir.

Bu tür bir sistem, ilişkisel tümevarım sapmalarının canlı örneklerini sağlar. Örnek istatistikleri veya makine öğrenimi sürecine tümevarım hatalarını eklemek, örnek etkinliğini ve genellemeyi geliştirmek için yaygın olarak kullanılan bir yöntemdir. Nesnel işlev seçiminden, belirli bir soruna uygun, kendi kendini organize eden derin öğrenmenin çerçeve tasarımına kadar, sapmayı ayarlamak da çok yaygın ve etkili bir yoldur.

İlişki indüksiyon sapması, varlıklar arasındaki ilişkiyi içeren özel bir sapmayı temsil eder. İster grafiksel bir model, ister bir olasılık modeli veya başka modeller olsun, bunların tümü, varlıklara özellikle bir önsel yapısal sapma biçimini empoze eden geleneksel modellerdir. Bu grafik yapıları farklı alanlarda bir rol oynayabilir.Şartlı bağımsızlık varsayımları getirerek hesaplama karmaşıklığını azaltabilir ve ayrıca önceki bilgileri grafikler şeklinde kodlayarak örneklerin etkililiğini artırabilir.

Graph Neural Network (GNN), grafik modeline karşılık gelen bir derin öğrenme ağıdır. GNN genellikle bu iki durumda kullanılır: Birincisi, hedef problem yapısı bir grafik olarak kodlanabildiğinde; diğeri ise giriş varlıkları arasındaki ilişkinin önceden bilinmesi bir grafik olarak tanımlanabilir.

GNN, düğüm sınıflandırması, grafik sınıflandırması, tahmin ve oluşturma görevleri gibi birçok uygulama alanında önemli etkiler göstermiştir.

1. Derin öğrenmede sıradan diferansiyel denklemler

Eşit öneme sahip farklı türde bir endüktif önyargı, verileri toplamak için kullanılan sistem türü ile ilgilidir. Geleneksel olarak derin öğrenmeye ayrı modeller hakim olsa da, son araştırmalar sinir ağlarını sürekli katmanlara sahip modeller olarak ele alan bir işleme yöntemi önermiştir.

Bu görüş, ileri yayılma sürecini, sıradan diferansiyel denklemlerde (ODE) ilk değer çözme problemi olarak yeniden tanımlamaktadır. Bu varsayım altında, sıradan diferansiyel denklemler doğrudan modellenebilir ve sinir ağlarının sürekli zaman serilerini içeren görevlerdeki performansı geliştirilebilir.

"Grafik Sinir Sıradan Diferansiyel Denklemler" bu çalışma, geometrik derin öğrenme ile sürekli modeller arasındaki boşluğu doldurmayı amaçlamaktadır. Grafik Sinir Sıradan Diferansiyel Denklemler (GDE), grafik yapısı verilerindeki genel görevleri bir sistem teorik çerçevesine eşler. Verileri sisteme yapılandırmak gibi ortak grafik yapısı verilerini sistemin teorik çerçevesine koyarız:

GDE modelinin yapısının sabit veya zamanla değişip değişmediğine bakılmaksızın, modeli sürekli GNN katmanları ile donatarak grafikte tanımlanan vektör alanını modelleyebilir.

GDE modelinin yapısı sürekli GNN katmanları tarafından tanımlandığından, iyi bir esnekliğe sahiptir ve düzensiz dizi örnek verilerine uyum sağlayabilir.

GDE modelinin temel amacı, yapılandırılmış sistemleri modellemek için veriye dayalı bir yöntem sağlamaktır, özellikle dinamik süreç doğrusal olmadığında, klasik analiz yöntemleriyle modellemek daha da zordur.

Aşağıda GDE'ye bir giriştir. Daha fazla ayrıntı ve türetme için lütfen orijinal makaleye bakın Makalenin ilgili bağlantıları aşağıdaki gibidir:

  • https: // ar xi v.org/abs/1911.07532

Şu anda, ek açıklamalı Jupyter not defterlerinin kullanıldığı ilgili örnekleri içeren GDE modelini tanıtmak için bir Github Deposu geliştiriyoruz.İlgili Github adresleri aşağıdaki gibidir:

  • https: // github .com / Zymrael / gde

Sonunda, tüm büyük grafik sinir ağı (GNN) mimarileri altında farklı GDE varyantlarının çalışma örnekleri dahil olmak üzere farklı işlevlere (tahmin, kontrol ... dahil) sahip bir kuruluma yerleştirmeyi planladığımız bildirildi.

GDE'yi anlamak için iki, iki temel bilgi

GNN gibi, GDE de grafikler üzerinde çalışır. Sembollerin ve temel tanımların daha ayrıntılı bir tanıtımı için, GNN ile ilgili mükemmel kapsamlı araştırmaya başvuruyoruz (ilgili araştırma bağlantısı: https: // ar xi v.org/abs/1901.00596) ve orijinal makalenin arka plan kısmı.

Aşağıda, GDE'ye kısa bir giriş yapacağız, ancak aslında, bilmemiz gerekenler, grafiklerle ilgili yalnızca aşağıdaki iki temel bilgi:

  • 1. Grafik, kenarlarla birbirine bağlanmış birbirine bağlı düğümlerin (varlıkların) bir koleksiyonudur. Derin öğrenme modelleri, bir düğümün öznitelik grafiğini açıklamak için genellikle bir dizi özelliği (genellikle bir dizi vektör veya tensör) ele alır. Düğümleri olan bir grafik için, her bir düğüm d özellikleriyle tanımlanabilir ve son olarak n x d düğüm gömme matrisini H olarak belirtiriz.

  • 2. Grafiğin yapısı, bitişik matrisi A tarafından yakalanır. Düğümler arasındaki bağlantılı yapı, standart derin öğrenme modeli ile GNN modeli arasındaki temel farkı gösterir, çünkü GNN, onu çeşitli şekillerde düğüm gömme üzerinde çalışmak için doğrudan kullanır.

Üç, Tushen düzenli diferansiyel denklem

Tushen'in düzenli diferansiyel denklemi (GDE) aşağıdaki gibi tanımlanır:

GDE'nin genel formülü

Bunlar arasında H, düğüm özellik matrisidir. Yukarıdaki formül, F fonksiyonu tarafından parametrelendirilen H vektör alanını tanımlar, burada F fonksiyonu, bilinen herhangi bir grafik sinir ağı (GNN) katmanı olabilir.

Başka bir deyişle, F, G grafiğindeki düğümlerin bağlantı bilgilerini ve S'deki H'nin değişim sürecini açıklamak için düğüm karakteristiklerini kullanır. Bunlar arasında S, modelin derinlik alanıdır; GNN'deki doğal sayılar alt kümesi tarafından belirtilen derinlik alanının aksine, S, F fonksiyonu tarafından tanımlanan sıradan diferansiyel denklemin integral alanını temsil eden süreklidir.

GDE, standart diferansiyel denklemlere çok benzeyen çeşitli şekillerde eğitilebilir. Orijinal makale ayrıca sistemin uygunluğunu ayrıntılı olarak açıkladı ve tartıştı.

Genel GDE formüllerinin birkaç anlamı vardır. Genel diferansiyel denklemlerde, ayrıklaştırma şemasının seçilmesinin, ResNets (artık ağlar) tarafından bilinen önceden ayrık çok adımlı değişkenleri tanımlayabildiği gözlemlenmiştir. Bu nedenle, derin öğrenmede sürekli dinamik sistemlerin bakış açısı sadece diferansiyel denklemlerin modellenmesiyle sınırlı değildir, aynı zamanda yeni genel modellerin keşfine rehberlik etmek için sayısal yöntemler üzerine zengin bir literatür kullanılabilir.

ResNets ile karşılaştırıldığında, GNN model kategorisi olarak nispeten gençtir. Bu nedenle, çok adımlı karmaşık varyantlar ve benzer fraktal artık bağlantılarla ilgili ilgili literatür o kadar iyi geliştirilmemiştir; ve bazı yeni GNN varyantlarının GDE'nin çeşitli ayrıklaştırma şemalarının uygulanmasıyla yönlendirildiğini görebiliriz ve Tamamen sıfırdan başlamıyor.

Statik grafik sonucu: düğüm sınıflandırması

Cora, Pubmed ve Citeseer üzerinde yapılan bir dizi yarı denetimli düğüm sınıflandırma deneyiyle, GDE'nin yüksek performanslı bir genel model olarak kullanılabileceği kanıtlanmıştır. Bu veri kümeleri, bitişik matris A'nın değişmeden kaldığı ve böylece GDE'yi kullanarak onu dinamik sistem ayarlarından uzak tuttuğu statik grafikler içerir. Grafik evrişimli adi diferansiyel denklemi ( GCD E) performans, şu şekilde tanımlanır:

GCD E modeli. Makalemizde daha ayrıntılı bir sürüm ve GNN'nin bazı popüler GDE varyantları yer almaktadır.

Tamamen ayrık formları grafik evrişimli ağa (GCN) karşılık gelir. Bir referans olarak ünlü grafik dikkat ağını (GAT) içeren literatüre atıfta bulunuyoruz:

Düğüm sınıflandırma görevlerinin doğruluğu. Yukarıdaki tablodaki değerler, 100 çalışmanın ortalaması ve standart sapmasıdır.

GCD E, en gelişmiş modellerle karşılaştırılabilir olduğunu ve ayrık modellerinden daha iyi olduğunu kanıtladı. Aşağıdaki ikisini değerlendirdik GCD E versiyonu:

  • Bunlardan biri, Runge-Kutta4 ( GCD E-rk4);

  • Diğeri, Dormand-Prince (G DD E-dpr5).

Sabit adımlı ayrıklaştırma şeması, ODE yaklaşımının hala analitik çözüme yakın olduğunu garanti etmez; bu durumda, uygun bir ODE'yi çözmek gereksizdir. GCD E-rk4, doğruluğu artırmak için hesaplama açısından oldukça verimli bir FractalNet (GCN modelinin yapısı gibi) sağlayabilir.

Şekil, gölgeli alanın% 95 güven aralığı olduğu Cora'nın eğitim kaybını ve doğruluğunu göstermektedir.

Öte yandan, eğitmek için uyarlanabilir adım çözücüyü kullanın GCD E doğal olarak vanilya GCN modelini kullanmaktan daha derin olacaktır. İkincisinin ağ katmanının derinliği, ağ performansını sağlar Çok azaltın.

Deneyde başarıyla eğittik GCD E-dpr5, 200 kadar ODE fonksiyon değerlendirmesine (NFE) sahiptir, bu da grafiğin hesaplanmasında vanilya GCN'ye göre önemli ölçüde daha yüksek olmasını sağlar (çok derin katmanlar nedeniyle performans büyük ölçüde azalır). GDE'nin çözüm işlevindeki parametreleri yeniden kullandığından, karşılık gelen ayrık terimden daha az parametre gerektirdiğine dikkat edilmelidir.

İlginç bir şekilde, uyarlanabilir adım boyutu GDE, düğüm özelliklerinin aşırı düzgünlüğünden etkilenmiş görünmüyor. Aşırı yumuşatma problemi, derin GNN'nin çeşitli alanlarda, özellikle çok-etmenli pekiştirmeli öğrenmede (MARL) etkili kullanımını engellemektedir.Şu anda GDE'nin bu özelliğini aktif olarak araştırıyoruz ve daha detaylı analizleri hızlı bir şekilde yapabiliriz.

Dört, zaman ve uzay GDE

GDE'deki önemli bir ayar, uzamsal-zamansal veri bilgilerini içerir. Grafiğin sıra bilgisini işlerken, GNN'nin özyinelemeli bir versiyonu gereklidir.

Bununla birlikte, geleneksel tekrarlayan sinir ağı (RNN) ve varyantları gibi, sabit bir dağılım derecesine sahip düzensiz örnek veriler üzerinde çalışmasına izin verilmez. Bu gerçek, RNN'nin ODE versiyonu gibi, gelenlerin sayısındaki değişikliklerin a priori varsayımlarına dayalı olarak RNN formlarının geliştirilmesini daha da teşvik eder.

Zaman bileşenlerini içeren senaryolarda, GDE'deki S'nin derinlik alanı, zaman alanı ile tutarlıdır ve gereksinimlere göre ayarlanabilir. Örneğin, bir t zaman penceresi verildiğinde, GDE kullanarak tahmin için formül aşağıdaki gibidir:

Özel bir yapıya sahip olmasına rağmen, GDE bir tür otoregresif grafik dizisi modelini temsil eder; bu, doğal olarak, aşağıdakiler gibi, karışık dinamik bir sistem biçiminde genişletilmiş bir klasik uzay-zaman yapısına yol açar: sürekli ve zaman ayrık arasındaki dinamik etkileşim ile karakterize edilir. sistemi.

Temel fikri, bir GDE'nin iki zaman noktası arasındaki potansiyel düğüm özelliklerini sorunsuz bir şekilde kontrol etmesine izin vermek ve ardından düğüm özellikleri H'yi hızlı bir şekilde hareket ettirmek için bazı ayrık operatörler uygulamak ve ardından çıktı katmanı bu düğüm özelliklerini işleyecektir H.

Bir dizi zaman sabiti verildiğinde

Ve bir veri grafiği veri bilgi akışı durumu

, Otoregresif GDE'nin genel formülü şöyledir:

Resim otoregresif GDE'yi göstermektedir. Bu sistemden uygun F, G, K parametreleri seçilerek bilinen sürekli değişkenlere sahip uzay-zamansal GNN modeli elde edilebilir.

Bunlar arasında, F, G, K parametreleri GNN işlemlerine veya genel sinir ağı katmanlarına benzer ve H +, ayrık dönüşümden sonraki H değerini temsil eder. Sistemin dönüşüm süreci hibrit otomata ile görselleştirilebilir:

Otoregresif GDE'nin hibrit otomatının şematik diyagramı

Yalnızca ayrık sıçramalara sahip standart özyinelemeli modelle karşılaştırıldığında, otoregresif GDE, atlamalar arasında potansiyel özellik düğümlerinin sürekli bir H akışını içerir. Otoregresif GDE'nin bu özelliği, dinamik sistemleri düzensiz gözlemlerden takip etmelerini sağlar.

F, G ve K'nin farklı kombinasyonları, en yaygın uzay-zamansal GNN modelinin sürekli değişkenlerini üretebilir.

Otoregresif GDE modelinin tahmin görevleri için etkinliğini değerlendirmek amacıyla, kurulan PeMS trafik veri seti üzerinde bir dizi deney yaptık. Literatürdeki deneysel önceden ayarlanmış parametreleri izliyoruz ve bir ön işleme adımı ekliyoruz: zaman serilerini yetersiz örnekleme Düzensiz zaman damgaları veya eksik değerlerle zorlu ortamları simüle etmek için, burada her girişi 0.7 olarak ayarlıyoruz Silinme olasılığı.

Sürekli zaman sistemi ile oluşturulan bir veri ortamında GDE tarafından elde edilen performans kazanımlarını ölçmek için kullanırız GCD E-GRU ve ona karşılık gelen ayrı GCGRU ve sonucu ölçüm için vanilya GRU metriğine yerleştirin.

Değerlendirilen her model için, standartlaştırılmış RMSE (NRMSE) ve ortalama mutlak yüzde hata (MAPE) sonuçlarını topladık. Seçilen göstergeler ve veriler hakkında daha fazla ayrıntı için, lütfen orijinal kağıda bakın.

Ortalama tahmin zaman aralığı eğitim ve test sırasında önemli ölçüde değişeceğinden, zaman damgaları arasındaki bu sabit olmayan fark, tek bir modelin tahmin görevini daha zor hale getirir. Modelleri daha adil bir şekilde karşılaştırmak için, artımlı zaman damgası bilgilerini GCGN ve GRU'nun ek bir düğüm özelliği olarak kullanıyoruz.

Düzensiz veriler, görevin sonucunu tahmin eder. Burada 5 eğitim seansının ortalama ve standart sapmasını alın.

Nedeniyle GCD E-GRU ve GCGRU'nun tasarımı, yapı ve parametre sayısı bakımından eşleşiyor NRSME'de% 3, MAPE'de% 7 performans artışı ölçebiliyoruz.

Sürekli dinamik ve düzensiz veri setlerine sahip diğer uygulama alanları için bir modelleme aracı olarak GDE'nin kullanılması, tıp, finans veya dağıtılmış kontrol sistemleri gibi alanlarda avantajlar sağlayacaktır. Bu alanlarda bazı başka deneyler yürütüyoruz ve işbirliği için her türlü istek, fikir veya öneriyi memnuniyetle karşılıyoruz.

V. Sonuç

Yukarıda bahsedildiği gibi, şu anda farklı GDE modelleri için bir dizi örnek ve uygulama içeren bir Github kitaplığı geliştiriyoruz.

Herkesi, diğer GDE uygulamaları için Github'da işlem talep etmeye / önermeye teşvik ediyoruz: En sonunda, çeşitli ayarlarda (tahmin, Kontrol...).

Makalemiz arXiv'de ön baskı olarak kullanılabilir: Çalışmamızı yararlı bulursanız, lütfen makalemize atıf yapmayı düşünün.

Referanslar

P. W. Battaglia ve diğerleri. İlişkisel tümevarımlı önyargılar, derin öğrenme ve grafik ağları. ArXiv ön baskı arXiv: 180 6.01261, 2018.

J. Atwood ve D. Towsley. Difüzyon-evrişimli sinir ağları. Sinir Bilgi İşlem Sistemlerindeki Gelişmelerde, sayfalar 199 32001, 2016.

Z. Cui, K. Henrickson, R. Ke ve Y. Wang. Trafik grafiği evrişimli tekrarlayan sinir ağı: Ağ ölçeğinde trafik öğrenme ve tahmin için derin bir öğrenme çerçevesi. ArXiv ön baskı arXiv: 180 2.07007, 2018

J. Park ve J. Park. Fizik kaynaklı grafik sinir ağı: Rüzgar çiftliği güç tahmini için bir uygulama Enerji, 187 : 1 158 83, 2019.

Li, O. Vinyals, C. Dyer, R. Pascanu ve P. Battaglia. Grafiklerin derin üretken modellerini öğrenme. ArXiv ön baskı arXiv: 180 3.0 3324, 2018.

T. Q. Chen, Y. Rubanova, J. Bettencourt ve D. K. Duvenaud. Nöral adi diferansiyel denklemler. Nöral bilgi işlem sistemlerinde Gelişmeler, sayfalar 6571-6583, 2018.

Y. Lu, A. Zhong, Q. Li ve B. Dong. Sonlu katmanlı sinir ağlarının ötesinde: Derin mimariler ve sayısal diferansiyel denklemler arasında köprü kurma arXiv ön baskı arXiv: 171 0.10121, 2017.

T.N. Kipf ve M. Welling. Grafik evrişimli ağlarla yarı denetimli sınıflandırma. ArXiv ön baskı arXiv: 1609.02907, 2016.

P. Velickovic, G. Cucurull, A. Casanova, A. Romero, P. Lio ve Y. Bengio. Grafik dikkat ağları. ArXiv ön baskı arXiv: 171 0.10903, 2017.

Chen, Deli ve diğerleri. "Topolojik Görünümden Grafik Sinir Ağları için Aşırı Düzgünleştirme Problemini Ölçme ve Giderme." ArXiv ön baskı arXiv: 1909.03211 (2019).

Y. Li, R. Yu, C. Shahabi ve Y. Liu. Difüzyon evrişimli tekrarlayan sinir ağı: Veriye dayalı trafik tahmini. ArXiv ön baskı arXiv: 1707 .01926, 2017

X. Zhao, F. Chen ve J.-H. Cho. Ağ verilerindeki dinamik belirsiz görüşleri tahmin etmek için derin öğrenme. 2018'de IEEE Uluslararası Büyük Veri Konferansı (Büyük Veri), sayfa 1 150 -1 155 . IEEE, 2018.

Z. Che, S. Purushotham, K. Cho, D. Sontag ve Y. Liu. Eksik değerlere sahip çok değişkenli zaman serileri için tekrarlayan sinir ağları Bilimsel raporlar, 8 (1): 6085, 2018.

Rubanova, R. T. Chen, ve D. Duvenaud. Düzensiz örneklenmiş zaman serileri için gizli odes. ArXiv ön baskı arXiv: 1907.03907, 2019.

B. Yu, H. Yin ve Z. Zhu. Uzamsal-zamansal grafik evrişimli ağlar: Trafik tahmini için derin öğrenme çerçevesi. 27. Uluslararası Yapay Zeka Ortak Konferansı (IJCAI) Bildirilerinde, 2018.

https: // directiondatascience aracılığıyla .com / graph-neural-adi-diferansiyel-equations-a5e44ac2b6ec

ImageNet'in yüz bin etiket hatası olduğunu biliyor muydunuz?
önceki
Bitkiler kitlesel yok olma döneminde nasıl hayatta kaldı?
Sonraki
AAAI 2020 | Multimodal kıyaslamalar tarafından yönlendirilen üretken çok modlu otomatik özetler
En üst düzey konferans raporu teklif için nasıl gerekli bir koşul haline geldi?
En gelişmiş nesne dedektörü fillere göz yumuyor
"duman" mı? Bekle, bir düşün
2019'da uzayda hangi uzay çevre olayları oldu?Arama Alanı
Kum sabitleyen çalılardan kurtulmanın yolu
90'larda doğan on milyonlarca insan olan Ningbo evlendi ve sadece 4 sofra şarabı vardı! Tören bir saatten az sürdü ve nedimeler yoktu! Gelin dedi ki ...
Evdeki tuvalet bakıma muhtaç ve adam yarım ay boyunca alt kata dışkı atıyor.
Adam banyo yaparken trafik kazasında yakalandı ama iki kilometre uzakta öldü mü?
Büyük Veri Wuhan halkı, yaklaşan Bahar Festivali tatilinde başlangıçta nereye uçtu?
Gökbilimciler kuasarların ilk geometrik mesafe ölçümünü gerçekleştirdi
Blazar ışık dejenerasyonu çalışmasında yeni ilerleme kaydedildi
To Top