Xin Zhiyuan Rehberi Alimama'nın açık kaynaklı büyük ölçekli dağıtılmış grafik gösterimi öğrenme çerçevesi Euler, TF / XDL / PyTorch gibi temel derin öğrenme araçlarıyla birlikte endüstriyel kullanıcıları ve ileri düzey araştırmacıları hedefliyor ve süper büyük karmaşık heterojen grafiklerin model eğitimini destekliyor.
Alimama, açık kaynaklı geniş ölçekli dağıtılmış grafik gösterimi öğrenme çerçevesi Euler, DeepWalk, Node2Vec gibi sektörde yerleşik Euler ve milyarlarca noktayı ve on milyarlarca kenarı destekleyebilen kendi geliştirdiği 3 çeşit Alimama yenilikçi algoritmasını duyurdu. Karmaşık heterojen grafikler üzerinde model eğitimi.
Birkaç gün önce, Euler açık kaynak çerçeve geliştirme ekibinin birkaç üyesi Xinzhiyuan ile bir röportajı kabul etti. (Görüşülen kişinin ayrıntıları için lütfen makalenin sonuna bakınız)
Görüşmede, Euler çerçevesi ile popüler TensorFlow ve PyTorch çerçeveleri arasındaki bazı farklılıkları açıkladılar, örneğin "grafik" kavramının tanımı ve referansı arasındaki farklar. Ve Euler çerçevesinin esas olarak kullanıldığı iki tür hedef kullanıcıya dikkat çekti.
TensorFlow ve PyTorch'ta grafiğin, program yürütme akışının yönlendirilmiş döngüsel olmayan grafiğe ayrıştırılmasına atıfta bulunduğu belirtilmelidir.Grafikteki her düğüm, gerçekleştirilecek bir işlemi temsil eder ve kenar, her işlemin bağımlılığını temsil eder. Euler'de grafik, kullanıcının iş verilerinin karmaşık heterojen bir grafik olarak ifade edilebileceğini ifade eder. , Kullanıcı grafiğe dayalı olarak Grafik Gömme gerçekleştirmek ve ayrıca düğüm sınıflandırması, kenar tahmini ve grafik sınıflandırması gibi görevleri gerçekleştirmek ister. Euler iki tür kullanıcıyı hedefler:Son birkaç yılda veri ölçeğinin ve donanım hesaplama gücünün hızlı büyümesiyle, derin öğrenme teknolojisi endüstride yaygın olarak kullanıldı ve muazzam teknolojik faydalar sağladı. Mevcut uygulama nispeten olgunlaşmıştır ve bir sonraki teknolojik temettü hala aktif olarak araştırılmaktadır. Grafik sinir ağı, uçtan uca öğrenmeyi tümevarımlı akıl yürütmeyle birleştirir ve derin öğrenmenin başa çıkamayacağı ilişkisel akıl yürütme ve yorumlanabilirlik gibi bir dizi sorunu çözmesi beklenir.
Yapısal bilginin ifade edilmesi, hesaplanması ve kombinasyon genelleştirilmesi, insan benzeri yapay zekaya ulaşmanın anahtarıdır. Grafik sinir ağları, bu alanlarda makine yeteneklerini daha da geliştirecek atılımlar oluşturmayı ummaktadır. Bu nedenle, grafik sinir ağlarının derinlemesine uygulanması umut vericidir. Bir teknolojik kazanç dalgası.
Güçlü ifade yeteneğine sahip genel bir veri yapısı olan grafik, sosyal senaryolarda kullanıcı ağları, e-ticaret senaryolarında kullanıcı ve emtia ağları, telekomünikasyon senaryolarındaki iletişim ağları ve finansal senaryolar gibi gerçek dünyadaki birçok sorunu tanımlamak için kullanılabilir. Tıbbi ortamdaki işlem ağı ve ilaç moleküler ağı vb. Metin, ses ve görüntü verileri ile karşılaştırıldığında, mevcut derin öğrenme modeli işlemeye uygun olan Izgara benzeri Avrupa alanı türünü işlemek daha kolaydır.Grafik Öklid dışı uzayda bir tür veridir ve mevcut yöntemler doğrudan uygulanamaz. Özel olarak tasarlanmış bir grafik sinir ağı sistemine ihtiyacınız var.
Büyük ölçekli grafiklerin dağıtılmış öğrenimi
Endüstriyel dünyadaki grafikler genellikle milyarlarca düğüme ve on milyarlarca kenara sahiptir ve hatta bazı senaryolar on milyarlarca düğüme ve yüz milyarlarca kenara bile ulaşabilir. Bu ölçekte bir grafik üzerinde tek makineli eğitim mümkün değildir. Euler, milyarlarca noktanın ve on milyarlarca kenarın hesaplama ölçeğini kolayca destekleyebilen grafik bölümlemeyi ve verimli ve kararlı dağıtılmış eğitimi destekler.
Karmaşık heterojen grafiklerin temsilini destekleyin
Endüstrideki grafik ilişkileri çoğunlukla karmaşıktır, heterojen düğüm ve kenar ilişkilerinde somutlaşmıştır.Ayrıca, düğümler ve kenarlar çok zengin özelliklere sahip olabilir, bu da bazı yaygın grafik sinir ağlarının etkili ifadeleri öğrenmesini zorlaştırır. Euler, grafik yapısı depolamasında ve grafik hesaplama soyutlamasında heterojen noktaların ve heterojen kenar türlerinin çalışmasını destekler ve zengin heterojen özellikleri destekler.Grafik öğrenme algoritmalarında heterojen grafik gösterimi öğrenimini kolayca gerçekleştirebilir. .
Grafik öğrenme ve derin öğrenmenin birleşimi
Endüstride arama / öneri / reklam senaryoları gibi birçok klasik senaryo vardır.Geleneksel derin öğrenme yöntemlerinin iyi sonuçları vardır. Model yeteneklerini daha da iyileştirmek için grafik öğrenmeyi geleneksel yöntemlerle nasıl birleştireceğiniz keşfetmeye değer. Euler, derin öğrenme örneklerine dayalı mini toplu eğitimi destekler ve ortak eğitim için doğrudan derin öğrenme ağına girdi grafik gösterimleri.
Katmanlı soyutlama ve esnek genişleme
Euler sistemi üç seviyeye ayrılmıştır: grafik motoru katmanı, grafik işlem operatör katmanı ve bir grafik öğrenme algoritmasını yüksek düzeyde hızlı bir şekilde genişletebilen algoritma uygulama katmanı. Aslında Euler, herkesin doğrudan kullanabileceği çok sayıda yerleşik algoritma uygulamasına da sahiptir.
Çerçevenin kullanım kolaylığını göz önünde bulundurarak, çeşitli iyi bilinen algoritmalar ve dahili yenilikçi algoritmalarımızdan birkaçı oluşturduk. Algoritmanın etkinliğini sağlamak için tüm uygulamaları dikkatlice test ettik ve algoritma etkisi orijinal kağıtla uyumlu hale getirildi. Kullanıcıların geliştirmesine gerek yoktur, platforma veri enjekte edildikten sonra doğrudan kullanılabilir. Yerleşik algoritmalarımızın listesi aşağıdaki tabloda gösterilmektedir. Herkese açık algoritmanın yüksek popülaritesi göz önüne alındığında, ayrıntılı bir açıklama yapmayacağız, lütfen orijinal makaleye bakın. Dahili algoritmalarımız hakkında daha fazla bilgi için bölüm 2.3'e bakın.
Kendi kendine çalışma olsun
Özellikleri
DeepWalk
Rastgele yürüyüş
Hayır
Klasik tarafsız rastgele yürüyüş denetimsiz algoritma.
Node2Vec
Rastgele yürüyüş
Hayır
Yürürken BFS veya DFS'ye eğilmek için yapılandırılabilir parametreleri kullanın
HAT
diğer
Hayır
Birinci dereceden ve ikinci dereceden komşu bilgilerini esnek bir şekilde kullanan denetimsiz algoritma
GCN
Komşular toplanıyor
Hayır
CNN işlemi Öklid dışı uzaya genişletilmiş algoritmaya benzer
Grafikler
Komşular toplanıyor
Hayır
GCN iyileştirmeleri, önerilen komşu örnekleme, çoklu toplama işlevleri vb.
GAT
Komşular toplanıyor
Hayır
Komşu toplantısı için Dikkat teknolojisini kullanın
Ölçeklenebilir-GCN
Komşular toplanıyor
Evet
GCN eğitimini hızlandırmanın bir yolu
LsHNE
Rastgele yürüyüş
Evet
Derin ağ kodlaması kullanarak heterojen grafikte rastgele gezinme
LasGNN
Komşular toplanıyor
Evet
Yarı denetimli büyük ölçekli heterojen grafik evrişimli ağ öğrenme yöntemi
Euler sistemi bir bütün olarak üç katmana ayrılabilir: en düşük seviyede dağıtılmış grafik motoru, orta seviye grafik semantik operatörü ve üst seviye grafik gösterimi öğrenme algoritması.
Aşağıda her seviyenin temel işlevlerini ayrı ayrı açıklıyoruz.
Şekil 1 Euler mimarisine genel bakış
İşimizi desteklemek için, yalnızca ultra büyük ölçekli grafik depolama ve hesaplama zorluğuyla karşı karşıya kalmıyoruz, aynı zamanda birçok farklı nokta, kenar ve özelliklerinden oluşan heterojen grafiklerin karmaşıklığıyla da uğraşmamız gerekiyor. Dağıtılmış grafik motorumuz, büyük grafik depolama, dağıtılmış paralel grafik hesaplama ve heterojen grafikler için optimize edilmiştir ve endüstriyel senaryolarda etkili uygulamalar sağlar.
Grafik öğrenme algoritmalarının çeşitliliği ve işin karmaşıklığı nedeniyle, birkaç hatta düzinelerce algoritmanın sabit uygulamaları müşterilerin tüm ihtiyaçlarını karşılayamaz. Bu nedenle, Euler tasarımında, temel sistemin temel yetenekleri etrafında esnek ve güçlü grafik işlem operatörleri tasarlamaya odaklanıyoruz ve tüm operatörler heterojen grafik işlem anlamlarını destekliyor. Kullanıcılar, benzersiz iş ihtiyaçlarını karşılamak için kendi algoritma varyantlarını hızlı bir şekilde oluşturmak için kullanabilir.
Öncelikle, Euler dağıtılmış grafik motoru, tüm grafik işlemlerini sağlamak için C ++ API sağlar. Bu API'ye dayanarak, temel grafik motorunun becerisine erişmek için Euler C ++ arayüzünü kullanmak için belirli bir derin öğrenme çerçevesine dayalı grafik işlem operatörlerini kolayca ekleyebiliriz. Alibaba'nın X-DeepLearning ve popüler TensorFlow gibi yaygın olarak kullanılan derin öğrenme çerçevelerini destekliyoruz. Gelecekte, PyTorch gibi diğer derin öğrenme çerçevelerini de desteklemeyi düşüneceğiz.
Esnek grafik işlem operatörlerini kullanan makine öğrenimi çerçevesi, eğitim örneklerini dinamik olarak genişletmek ve düzenlemek için her mini partide Euler ile etkileşime girebilir. Bu şekilde, Euler yalnızca geleneksel grafik merkezli öğrenme modelini desteklemekle kalmaz, aynı zamanda uçtan uca eğitim elde etmek için geleneksel öğrenme görevlerine grafik öğrenme yeteneklerini de enjekte edebilir.
İşlev sınıflandırmasına göre, çekirdek sistemimiz tarafından sağlanan API aşağıdaki şekilde sınıflandırılabilir:
Bölüm 1.2'de belirtildiği gibi, LINE algoritmasına ek olarak, uyguladığımız algoritmalar iki kategoriye ayrılabilir: rastgele yürüyüş ve komşu toplama. Harici algoritmalar hakkında daha fazla bilgi için lütfen bölüm 1.2'de verilen kağıt bağlantısına bakın. Aşağıda üç yenilikçi dahili algoritmayı ayrıntılı olarak tanıtıyoruz.
Ölçeklenebilir-GCN
Verimli bir GCN eğitim algoritmasıdır. GCN ve daha genel Graph Neural Network (GNN) yöntemi, grafik yapısı bilgilerini etkili bir şekilde çıkarabilir ve birçok görevde önceki yöntemlerden daha fazla sonuç elde edebilir. Bununla birlikte, GCN modeli, model için kabul edilemez eğitim süresiyle sonuçlanan büyük miktarda hesaplama getirecektir.
Ölçeklenebilir GCN, mükemmel sonuçlar sağlama öncülüğünde, mini toplu GCN'nin hesaplama karmaşıklığını katman sayısının üstel işlevinden doğrusal olarak azaltır. Bu, Alimama'nın devasa verileri altında üç katmanlı GCN'nin uygulanmasını mümkün kılar ve reklam eşleştirmesinin etkisi önemli ölçüde iyileştirildi.
LsHNE
LsHNE, Alimamanın arama reklamcılığı sahnesi ile birlikte yenilikçi bir şekilde önerdiğimiz, denetimsiz, büyük ölçekli, heterojen bir ağ yerleştirme öğrenme yöntemidir. DeepWalk algoritmalarından farklı olarak, LsHNE'nin özellikleri şunları içerir: a) İfadeyi öğrenmek için derin sinir ağını kullanarak, Nitelik bilgisini etkili bir şekilde birleştirebilir; b) Gömme ile ifade edilen mesafeye duyarlı gereksinimleri göz önünde bulundurarak, iki negatif örnekleme ilkesi önerilmiştir: dağıtım tutarlılığı ilkesi ve zayıf korelasyon Cinsiyet ilkesi; c) Heterojen ağları destekleyin.
LasGNN
LasGNN, yarı denetimli, büyük ölçekli, heterojen bir grafik evrişimli sinir ağı öğrenme yöntemidir. Grafik yapısı bilgisi bilgilerini ve büyük kullanıcı davranışı bilgilerini etkili bir şekilde birleştirerek model doğruluğunu büyük ölçüde geliştirir ve endüstriyel reklam senaryolarında yarı denetimli grafiklerin ilk uygulamasıdır. yöntem. Bu yöntemin birçok yeniliği vardır.Örneğin, metapath fikri evrişimli ağın grafiğini çizmek için uygulanır ve heterojen ağların evrişim problemini etkin bir şekilde çözen metapathGCN modeli önerilmiştir; verimli komşular tasarladığımız metapathSAGE modeli önerilmiştir. Örnekleme yöntemi, büyük ölçekli çok katmanlı komşu evrişimi mümkün kılar.
Euler platformu, Alimamanın arama reklamcılığının birden çok senaryosunda yaygın olarak kullanıldı ve arama eşleştirme senaryoları, TO tahmin senaryoları, pazarlama aracı senaryoları ve hile önleme senaryoları gibi mükemmel iş sonuçları elde etti. Euler uygulamasına bakmak için eşleşen sahneyi örnek olarak alalım.
Reklam eşleştirmenin görevi, kullanıcıya bir arama isteği vermektir Eşleştirme modülü, kullanıcının niyetini anlayarak çok sayıda reklam arasından yüksek kaliteli, küçük ölçekli bir aday reklam setini hızlı ve doğru bir şekilde bulur ve sıralama için downstream sıralama modülüne gönderir.
Sorgu (sorgu kelimeleri), Öğe (emtia) ve Reklam (reklam) arasındaki çeşitli ilişkileri kullanıcı davranış günlükleri ve içerik özellikleri gibi boyutlardan çıkarmak için önce bazı geleneksel madencilik algoritmalarını kullanıyoruz ve ardından grafiği öğrenmek için Euler platformunun LsHNE yöntemini kullanıyoruz. Düğüm yerleştirmeden sonraki uzamsal mesafenin orijinal grafikteki ilişkiyi açıkladığı düğüm gömme.Çevrimiçi istekler için, kullanıcı sorgu kelime vektörü, ön davranıştaki düğüm vektörü ve reklam düğümü vektörü arasındaki mesafe, verimli vektörleştirme için hesaplanır. En yakın komşu araması, kullanıcının amacını karşılayan reklamları hızla eşleştirebilir. Şekil 2, LsHNE yönteminin çevrimdışı ve çevrimiçi süreçlerini göstermektedir. Şekil 3, örnek yapıyı ve ağ yapısını göstermektedir.
Şekil 2 DeepMatch geri çağırma çerçevesi
Şekil 3 Çevrimdışı eğitim süreci
Euler Github'da açık kaynaklıdır, açık kaynak adresi aşağıdaki gibidir:
https://github.com/alibaba/euler
Euler açık kaynak çerçevesi görüşülen kişi bilgileri
Li Jinhui
Kıdemli teknik uzman, Alimama mühendislik platformunun teknik lideri
Pekin Teknoloji Enstitüsü'nden örüntü tanıma alanında yüksek lisans derecesi ile mezun oldu. Şimdi Alimama mühendislik platformunun teknik lideri. Alimama'nın en yeni nesil reklam mühendisliği platformu AdOS'u tanımlıyor.Geçmişte reklamcılık ve arama sistemi mimarisi alanında teknoloji araştırma ve geliştirme ve yönetimi ile uğraşmıştır. Bilgi işlem, reklam motorları, arama motorları ve makine öğrenimi sistemlerinin teknik yönünde 10 yıldan fazla deneyime sahip olup, Taobao arama motorunun çekirdek mimarı ve Alibaba Cloud'un esnek bulut bilişim ürün serisinin ürün direktörü olarak görev yaptı.
Zhu Xiaoyu (Çiçeğin adı Chikong'dur)
Alimama Araştırmacı / Kıdemli Direktör
Ali'nin tren algoritması ve mühendislik teknolojisi aracılığıyla aramasından sorumlu, ekibi Çin'in en büyük ticari reklam platformunu oluşturmaya yönlendiriyor ve milyonlarca e-ticaret tüccarının dijital ve akıllı e-ticaret pazarlama çözümleri oluşturmasına yardımcı oluyor
Zhang Di (ünlü Le Di)
Kıdemli teknik uzman, Alimama büyük veri bilişim ve makine öğrenimi platformunun mühendislik mimarisi başkanı
Şangay Jiaotong Üniversitesi'nden 2010 yılında mezun olduktan sonra Alibaba'ya katıldı.Taobao'nun yeni nesil arama motoru çekirdeği, Shenma arama büyük ölçekli web işleme sistemi, Alimama büyük veri ve makine öğrenimi platformunun araştırma ve geliştirmesine katıldı. Şimdi ekibi, Alibaba arama reklamcılığı, hedefli reklamcılık ve marka reklamcılığı gibi birçok temel iş senaryosunu destekleyen Alimama'nın küresel veri ambarının, çevrimdışı gerçek zamanlı veri işlemenin, derin öğrenme modellemesinin ve diğer platformların geliştirilmesinden ve inşa edilmesinden sorumludur.
Lin Wei (çiçek adı Yang Kun)
Alibaba kıdemli algoritma uzmanı, Alimama arama reklamcılığı eşleştirme ve yaratıcı algoritma başkanı
2009 yılında Pekin Havacılık ve Uzay Bilimleri Üniversitesi'nden yüksek lisans derecesi ile mezun olduktan sonra, arama araştırma ve geliştirme ile uğraşan Tencent Soso'ya katıldı. Alibaba'ya 2011 yılında katıldı ve Alibaba öneri algoritması ETREC'e, hedefli reklamcılık büyük ölçekli ilgi noktası algoritmasına UIT ++, son yıllarda arama reklamcılığına bir dizi yenilikçi eşleştirme algoritması, Euler grafik derin öğrenme algoritması ve platformu vb. WWW ve WSDM gibi önemli konferanslarda birçok makale yayınladı. Şimdi ekibi, Alimama'nın derin öğrenme algoritması, arama reklamcılığı Sorgu analiz algoritması, korelasyon algoritması, eşleştirme algoritması, yaratıcı algoritma ve kaba sıralama algoritması gibi birçok temel iş senaryosundan sorumludur.