g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Ali açık kaynaklı büyük ölçekli dağıtılmış grafik öğrenme çerçevesi: TF / PyTorch ile sorunsuz bağlantı

Xin Zhiyuan Rehberi Alimama'nın açık kaynaklı büyük ölçekli dağıtılmış grafik gösterimi öğrenme çerçevesi Euler, TF / XDL / PyTorch gibi temel derin öğrenme araçlarıyla birlikte endüstriyel kullanıcıları ve ileri düzey araştırmacıları hedefliyor ve süper büyük karmaşık heterojen grafiklerin model eğitimini destekliyor.

Alimama, açık kaynaklı geniş ölçekli dağıtılmış grafik gösterimi öğrenme çerçevesi Euler, DeepWalk, Node2Vec gibi sektörde yerleşik Euler ve milyarlarca noktayı ve on milyarlarca kenarı destekleyebilen kendi geliştirdiği 3 çeşit Alimama yenilikçi algoritmasını duyurdu. Karmaşık heterojen grafikler üzerinde model eğitimi.

Birkaç gün önce, Euler açık kaynak çerçeve geliştirme ekibinin birkaç üyesi Xinzhiyuan ile bir röportajı kabul etti. (Görüşülen kişinin ayrıntıları için lütfen makalenin sonuna bakınız)

Görüşmede, Euler çerçevesi ile popüler TensorFlow ve PyTorch çerçeveleri arasındaki bazı farklılıkları açıkladılar, örneğin "grafik" kavramının tanımı ve referansı arasındaki farklar. Ve Euler çerçevesinin esas olarak kullanıldığı iki tür hedef kullanıcıya dikkat çekti.

TensorFlow ve PyTorch'ta grafiğin, program yürütme akışının yönlendirilmiş döngüsel olmayan grafiğe ayrıştırılmasına atıfta bulunduğu belirtilmelidir.Grafikteki her düğüm, gerçekleştirilecek bir işlemi temsil eder ve kenar, her işlemin bağımlılığını temsil eder. Euler'de grafik, kullanıcının iş verilerinin karmaşık heterojen bir grafik olarak ifade edilebileceğini ifade eder. , Kullanıcı grafiğe dayalı olarak Grafik Gömme gerçekleştirmek ve ayrıca düğüm sınıflandırması, kenar tahmini ve grafik sınıflandırması gibi görevleri gerçekleştirmek ister. Euler iki tür kullanıcıyı hedefler:

Büyük miktarda karmaşık endüstriyel düzeyde grafik verilerine sahip kullanıcılar, hızlı bir şekilde eğitim almak ve iş sonuçları elde etmek için Euler'ı kullanabilir.
Üniversitelerdeki veya işletmelerdeki araştırma laboratuarlarının kullanıcılarına ait olarak, algoritmaları hızla yenilemek ve özelleştirmek için Euler'in esnek grafik işlem operatörlerini kullanabilirler.

Genel Bakış

Son birkaç yılda veri ölçeğinin ve donanım hesaplama gücünün hızlı büyümesiyle, derin öğrenme teknolojisi endüstride yaygın olarak kullanıldı ve muazzam teknolojik faydalar sağladı. Mevcut uygulama nispeten olgunlaşmıştır ve bir sonraki teknolojik temettü hala aktif olarak araştırılmaktadır. Grafik sinir ağı, uçtan uca öğrenmeyi tümevarımlı akıl yürütmeyle birleştirir ve derin öğrenmenin başa çıkamayacağı ilişkisel akıl yürütme ve yorumlanabilirlik gibi bir dizi sorunu çözmesi beklenir.

Yapısal bilginin ifade edilmesi, hesaplanması ve kombinasyon genelleştirilmesi, insan benzeri yapay zekaya ulaşmanın anahtarıdır. Grafik sinir ağları, bu alanlarda makine yeteneklerini daha da geliştirecek atılımlar oluşturmayı ummaktadır. Bu nedenle, grafik sinir ağlarının derinlemesine uygulanması umut vericidir. Bir teknolojik kazanç dalgası.

Güçlü ifade yeteneğine sahip genel bir veri yapısı olan grafik, sosyal senaryolarda kullanıcı ağları, e-ticaret senaryolarında kullanıcı ve emtia ağları, telekomünikasyon senaryolarındaki iletişim ağları ve finansal senaryolar gibi gerçek dünyadaki birçok sorunu tanımlamak için kullanılabilir. Tıbbi ortamdaki işlem ağı ve ilaç moleküler ağı vb. Metin, ses ve görüntü verileri ile karşılaştırıldığında, mevcut derin öğrenme modeli işlemeye uygun olan Izgara benzeri Avrupa alanı türünü işlemek daha kolaydır.Grafik Öklid dışı uzayda bir tür veridir ve mevcut yöntemler doğrudan uygulanamaz. Özel olarak tasarlanmış bir grafik sinir ağı sistemine ihtiyacınız var.

1.1 Euler'in temel yetkinliği

Büyük ölçekli grafiklerin dağıtılmış öğrenimi

Endüstriyel dünyadaki grafikler genellikle milyarlarca düğüme ve on milyarlarca kenara sahiptir ve hatta bazı senaryolar on milyarlarca düğüme ve yüz milyarlarca kenara bile ulaşabilir. Bu ölçekte bir grafik üzerinde tek makineli eğitim mümkün değildir. Euler, milyarlarca noktanın ve on milyarlarca kenarın hesaplama ölçeğini kolayca destekleyebilen grafik bölümlemeyi ve verimli ve kararlı dağıtılmış eğitimi destekler.

Karmaşık heterojen grafiklerin temsilini destekleyin

Endüstrideki grafik ilişkileri çoğunlukla karmaşıktır, heterojen düğüm ve kenar ilişkilerinde somutlaşmıştır.Ayrıca, düğümler ve kenarlar çok zengin özelliklere sahip olabilir, bu da bazı yaygın grafik sinir ağlarının etkili ifadeleri öğrenmesini zorlaştırır. Euler, grafik yapısı depolamasında ve grafik hesaplama soyutlamasında heterojen noktaların ve heterojen kenar türlerinin çalışmasını destekler ve zengin heterojen özellikleri destekler.Grafik öğrenme algoritmalarında heterojen grafik gösterimi öğrenimini kolayca gerçekleştirebilir. .

Grafik öğrenme ve derin öğrenmenin birleşimi

Endüstride arama / öneri / reklam senaryoları gibi birçok klasik senaryo vardır.Geleneksel derin öğrenme yöntemlerinin iyi sonuçları vardır. Model yeteneklerini daha da iyileştirmek için grafik öğrenmeyi geleneksel yöntemlerle nasıl birleştireceğiniz keşfetmeye değer. Euler, derin öğrenme örneklerine dayalı mini toplu eğitimi destekler ve ortak eğitim için doğrudan derin öğrenme ağına girdi grafik gösterimleri.

Katmanlı soyutlama ve esnek genişleme

Euler sistemi üç seviyeye ayrılmıştır: grafik motoru katmanı, grafik işlem operatör katmanı ve bir grafik öğrenme algoritmasını yüksek düzeyde hızlı bir şekilde genişletebilen algoritma uygulama katmanı. Aslında Euler, herkesin doğrudan kullanabileceği çok sayıda yerleşik algoritma uygulamasına da sahiptir.

1.2 Euler'in yerleşik algoritma uygulaması

Çerçevenin kullanım kolaylığını göz önünde bulundurarak, çeşitli iyi bilinen algoritmalar ve dahili yenilikçi algoritmalarımızdan birkaçı oluşturduk. Algoritmanın etkinliğini sağlamak için tüm uygulamaları dikkatlice test ettik ve algoritma etkisi orijinal kağıtla uyumlu hale getirildi. Kullanıcıların geliştirmesine gerek yoktur, platforma veri enjekte edildikten sonra doğrudan kullanılabilir. Yerleşik algoritmalarımızın listesi aşağıdaki tabloda gösterilmektedir. Herkese açık algoritmanın yüksek popülaritesi göz önüne alındığında, ayrıntılı bir açıklama yapmayacağız, lütfen orijinal makaleye bakın. Dahili algoritmalarımız hakkında daha fazla bilgi için bölüm 2.3'e bakın.

Algoritma türü

Kendi kendine çalışma olsun

Özellikleri

DeepWalk

Rastgele yürüyüş

Hayır

Klasik tarafsız rastgele yürüyüş denetimsiz algoritma.

Node2Vec

Rastgele yürüyüş

Hayır

Yürürken BFS veya DFS'ye eğilmek için yapılandırılabilir parametreleri kullanın

HAT

diğer

Hayır

Birinci dereceden ve ikinci dereceden komşu bilgilerini esnek bir şekilde kullanan denetimsiz algoritma

GCN

Komşular toplanıyor

Hayır

CNN işlemi Öklid dışı uzaya genişletilmiş algoritmaya benzer

Grafikler

Komşular toplanıyor

Hayır

GCN iyileştirmeleri, önerilen komşu örnekleme, çoklu toplama işlevleri vb.

GAT

Komşular toplanıyor

Hayır

Komşu toplantısı için Dikkat teknolojisini kullanın

Ölçeklenebilir-GCN

Komşular toplanıyor

Evet

GCN eğitimini hızlandırmanın bir yolu

LsHNE

Rastgele yürüyüş

Evet

Derin ağ kodlaması kullanarak heterojen grafikte rastgele gezinme

LasGNN

Komşular toplanıyor

Evet

Yarı denetimli büyük ölçekli heterojen grafik evrişimli ağ öğrenme yöntemi

Sistem tasarımı

Euler sistemi bir bütün olarak üç katmana ayrılabilir: en düşük seviyede dağıtılmış grafik motoru, orta seviye grafik semantik operatörü ve üst seviye grafik gösterimi öğrenme algoritması.

Aşağıda her seviyenin temel işlevlerini ayrı ayrı açıklıyoruz.

Şekil 1 Euler mimarisine genel bakış

2.1 Dağıtılmış Grafik Motoru

İşimizi desteklemek için, yalnızca ultra büyük ölçekli grafik depolama ve hesaplama zorluğuyla karşı karşıya kalmıyoruz, aynı zamanda birçok farklı nokta, kenar ve özelliklerinden oluşan heterojen grafiklerin karmaşıklığıyla da uğraşmamız gerekiyor. Dağıtılmış grafik motorumuz, büyük grafik depolama, dağıtılmış paralel grafik hesaplama ve heterojen grafikler için optimize edilmiştir ve endüstriyel senaryolarda etkili uygulamalar sağlar.

Her şeyden önce, süper büyük ölçekli grafikleri (milyarlarca nokta, on milyarlarca kenar) depolamak için, Euler tek bir makinenin sınırlamalarını aşmalı ve dağıtılmış bir depolama mimarisi benimsemelidir. Grafik yüklendiğinde, tüm grafik motorun içinde birden çok alt grafiğe bölünür ve her bir hesaplama düğümüne yükleme için bir veya daha fazla alt grafik atanır.
Her bir hesaplama düğümünün yeteneklerinden tam olarak yararlanmak için, grafik işlemlerini gerçekleştirirken, üst düzey işlemler alt grafiklerde birden çok işleme ayrıştırılır ve her düğüm tarafından paralel olarak yürütülür. Bu şekilde, daha fazla düğüm katıldığında, daha iyi hizmet yetenekleri elde edebiliriz. İkinci olarak, birden çok kopya için destek sunduk. Bu nedenle, kullanıcılar daha iyi hizmet yetenekleri elde etmek için parça ve kopya sayısını esnek bir şekilde dengeleyebilir. Son olarak, grafik gösterimini öğrenmeye yönelik temel grafik depolama veri yapısını ve işlem algoritmasını optimize ettik ve tek makineli grafik işlem performansı birkaç kez iyileştirildi.
Birçok farklı türde kenar, nokta ve nitelikten oluşan heterojen grafikler, birçok karmaşık iş senaryosu için gereklidir. Heterojen grafik hesaplama yeteneklerini desteklemek için, temeldeki depolama, farklı düğüm ve kenar türlerine göre düzenlenir. Bu şekilde, heterojen grafik işlemlerini verimli bir şekilde destekleyebiliriz.

2.2 Ara grafik işlem operatörü

Grafik öğrenme algoritmalarının çeşitliliği ve işin karmaşıklığı nedeniyle, birkaç hatta düzinelerce algoritmanın sabit uygulamaları müşterilerin tüm ihtiyaçlarını karşılayamaz. Bu nedenle, Euler tasarımında, temel sistemin temel yetenekleri etrafında esnek ve güçlü grafik işlem operatörleri tasarlamaya odaklanıyoruz ve tüm operatörler heterojen grafik işlem anlamlarını destekliyor. Kullanıcılar, benzersiz iş ihtiyaçlarını karşılamak için kendi algoritma varyantlarını hızlı bir şekilde oluşturmak için kullanabilir.

Öncelikle, Euler dağıtılmış grafik motoru, tüm grafik işlemlerini sağlamak için C ++ API sağlar. Bu API'ye dayanarak, temel grafik motorunun becerisine erişmek için Euler C ++ arayüzünü kullanmak için belirli bir derin öğrenme çerçevesine dayalı grafik işlem operatörlerini kolayca ekleyebiliriz. Alibaba'nın X-DeepLearning ve popüler TensorFlow gibi yaygın olarak kullanılan derin öğrenme çerçevelerini destekliyoruz. Gelecekte, PyTorch gibi diğer derin öğrenme çerçevelerini de desteklemeyi düşüneceğiz.

Esnek grafik işlem operatörlerini kullanan makine öğrenimi çerçevesi, eğitim örneklerini dinamik olarak genişletmek ve düzenlemek için her mini partide Euler ile etkileşime girebilir. Bu şekilde, Euler yalnızca geleneksel grafik merkezli öğrenme modelini desteklemekle kalmaz, aynı zamanda uçtan uca eğitim elde etmek için geleneksel öğrenme görevlerine grafik öğrenme yeteneklerini de enjekte edebilir.

İşlev sınıflandırmasına göre, çekirdek sistemimiz tarafından sağlanan API aşağıdaki şekilde sınıflandırılabilir:

Küresel ağırlıklarla nokta ve kenarları örnekleme yeteneği. Temelde rastgele mini-kesikli numunelerin oluşturulması ve negatif numune alımı için kullanılır.
Belirli bir düğümün komşularına göre çalışın. Bu, komşu ağırlıklı örnekleme, En fazla ağırlığı alan komşular vb. Dahil olmak üzere grafik hesaplamanın temel yeteneğidir.
Nokta / kenar niteliği araması. Bu yetenek, algoritmanın nokta / kenar kimliği özellikleriyle sınırlı kalmadan daha zengin özellikleri kullanmasına izin verir.

2.3 Üst düzey algoritma uygulaması

Bölüm 1.2'de belirtildiği gibi, LINE algoritmasına ek olarak, uyguladığımız algoritmalar iki kategoriye ayrılabilir: rastgele yürüyüş ve komşu toplama. Harici algoritmalar hakkında daha fazla bilgi için lütfen bölüm 1.2'de verilen kağıt bağlantısına bakın. Aşağıda üç yenilikçi dahili algoritmayı ayrıntılı olarak tanıtıyoruz.

Ölçeklenebilir-GCN

Verimli bir GCN eğitim algoritmasıdır. GCN ve daha genel Graph Neural Network (GNN) yöntemi, grafik yapısı bilgilerini etkili bir şekilde çıkarabilir ve birçok görevde önceki yöntemlerden daha fazla sonuç elde edebilir. Bununla birlikte, GCN modeli, model için kabul edilemez eğitim süresiyle sonuçlanan büyük miktarda hesaplama getirecektir.

Ölçeklenebilir GCN, mükemmel sonuçlar sağlama öncülüğünde, mini toplu GCN'nin hesaplama karmaşıklığını katman sayısının üstel işlevinden doğrusal olarak azaltır. Bu, Alimama'nın devasa verileri altında üç katmanlı GCN'nin uygulanmasını mümkün kılar ve reklam eşleştirmesinin etkisi önemli ölçüde iyileştirildi.

LsHNE

LsHNE, Alimamanın arama reklamcılığı sahnesi ile birlikte yenilikçi bir şekilde önerdiğimiz, denetimsiz, büyük ölçekli, heterojen bir ağ yerleştirme öğrenme yöntemidir. DeepWalk algoritmalarından farklı olarak, LsHNE'nin özellikleri şunları içerir: a) İfadeyi öğrenmek için derin sinir ağını kullanarak, Nitelik bilgisini etkili bir şekilde birleştirebilir; b) Gömme ile ifade edilen mesafeye duyarlı gereksinimleri göz önünde bulundurarak, iki negatif örnekleme ilkesi önerilmiştir: dağıtım tutarlılığı ilkesi ve zayıf korelasyon Cinsiyet ilkesi; c) Heterojen ağları destekleyin.

LasGNN

LasGNN, yarı denetimli, büyük ölçekli, heterojen bir grafik evrişimli sinir ağı öğrenme yöntemidir. Grafik yapısı bilgisi bilgilerini ve büyük kullanıcı davranışı bilgilerini etkili bir şekilde birleştirerek model doğruluğunu büyük ölçüde geliştirir ve endüstriyel reklam senaryolarında yarı denetimli grafiklerin ilk uygulamasıdır. yöntem. Bu yöntemin birçok yeniliği vardır.Örneğin, metapath fikri evrişimli ağın grafiğini çizmek için uygulanır ve heterojen ağların evrişim problemini etkin bir şekilde çözen metapathGCN modeli önerilmiştir; verimli komşular tasarladığımız metapathSAGE modeli önerilmiştir. Örnekleme yöntemi, büyük ölçekli çok katmanlı komşu evrişimi mümkün kılar.

Başvurular

Euler platformu, Alimamanın arama reklamcılığının birden çok senaryosunda yaygın olarak kullanıldı ve arama eşleştirme senaryoları, TO tahmin senaryoları, pazarlama aracı senaryoları ve hile önleme senaryoları gibi mükemmel iş sonuçları elde etti. Euler uygulamasına bakmak için eşleşen sahneyi örnek olarak alalım.

Reklam eşleştirmenin görevi, kullanıcıya bir arama isteği vermektir Eşleştirme modülü, kullanıcının niyetini anlayarak çok sayıda reklam arasından yüksek kaliteli, küçük ölçekli bir aday reklam setini hızlı ve doğru bir şekilde bulur ve sıralama için downstream sıralama modülüne gönderir.

Sorgu (sorgu kelimeleri), Öğe (emtia) ve Reklam (reklam) arasındaki çeşitli ilişkileri kullanıcı davranış günlükleri ve içerik özellikleri gibi boyutlardan çıkarmak için önce bazı geleneksel madencilik algoritmalarını kullanıyoruz ve ardından grafiği öğrenmek için Euler platformunun LsHNE yöntemini kullanıyoruz. Düğüm yerleştirmeden sonraki uzamsal mesafenin orijinal grafikteki ilişkiyi açıkladığı düğüm gömme.Çevrimiçi istekler için, kullanıcı sorgu kelime vektörü, ön davranıştaki düğüm vektörü ve reklam düğümü vektörü arasındaki mesafe, verimli vektörleştirme için hesaplanır. En yakın komşu araması, kullanıcının amacını karşılayan reklamları hızla eşleştirebilir. Şekil 2, LsHNE yönteminin çevrimdışı ve çevrimiçi süreçlerini göstermektedir. Şekil 3, örnek yapıyı ve ağ yapısını göstermektedir.

Şekil 2 DeepMatch geri çağırma çerçevesi

Şekil 3 Çevrimdışı eğitim süreci

Açık kaynak bilgileri

Euler Github'da açık kaynaklıdır, açık kaynak adresi aşağıdaki gibidir:

https://github.com/alibaba/euler

Euler açık kaynak çerçevesi görüşülen kişi bilgileri

Li Jinhui

Kıdemli teknik uzman, Alimama mühendislik platformunun teknik lideri

Pekin Teknoloji Enstitüsü'nden örüntü tanıma alanında yüksek lisans derecesi ile mezun oldu. Şimdi Alimama mühendislik platformunun teknik lideri. Alimama'nın en yeni nesil reklam mühendisliği platformu AdOS'u tanımlıyor.Geçmişte reklamcılık ve arama sistemi mimarisi alanında teknoloji araştırma ve geliştirme ve yönetimi ile uğraşmıştır. Bilgi işlem, reklam motorları, arama motorları ve makine öğrenimi sistemlerinin teknik yönünde 10 yıldan fazla deneyime sahip olup, Taobao arama motorunun çekirdek mimarı ve Alibaba Cloud'un esnek bulut bilişim ürün serisinin ürün direktörü olarak görev yaptı.

Zhu Xiaoyu (Çiçeğin adı Chikong'dur)

Alimama Araştırmacı / Kıdemli Direktör

Ali'nin tren algoritması ve mühendislik teknolojisi aracılığıyla aramasından sorumlu, ekibi Çin'in en büyük ticari reklam platformunu oluşturmaya yönlendiriyor ve milyonlarca e-ticaret tüccarının dijital ve akıllı e-ticaret pazarlama çözümleri oluşturmasına yardımcı oluyor

Zhang Di (ünlü Le Di)

Kıdemli teknik uzman, Alimama büyük veri bilişim ve makine öğrenimi platformunun mühendislik mimarisi başkanı

Şangay Jiaotong Üniversitesi'nden 2010 yılında mezun olduktan sonra Alibaba'ya katıldı.Taobao'nun yeni nesil arama motoru çekirdeği, Shenma arama büyük ölçekli web işleme sistemi, Alimama büyük veri ve makine öğrenimi platformunun araştırma ve geliştirmesine katıldı. Şimdi ekibi, Alibaba arama reklamcılığı, hedefli reklamcılık ve marka reklamcılığı gibi birçok temel iş senaryosunu destekleyen Alimama'nın küresel veri ambarının, çevrimdışı gerçek zamanlı veri işlemenin, derin öğrenme modellemesinin ve diğer platformların geliştirilmesinden ve inşa edilmesinden sorumludur.

Lin Wei (çiçek adı Yang Kun)

Alibaba kıdemli algoritma uzmanı, Alimama arama reklamcılığı eşleştirme ve yaratıcı algoritma başkanı

2009 yılında Pekin Havacılık ve Uzay Bilimleri Üniversitesi'nden yüksek lisans derecesi ile mezun olduktan sonra, arama araştırma ve geliştirme ile uğraşan Tencent Soso'ya katıldı. Alibaba'ya 2011 yılında katıldı ve Alibaba öneri algoritması ETREC'e, hedefli reklamcılık büyük ölçekli ilgi noktası algoritmasına UIT ++, son yıllarda arama reklamcılığına bir dizi yenilikçi eşleştirme algoritması, Euler grafik derin öğrenme algoritması ve platformu vb. WWW ve WSDM gibi önemli konferanslarda birçok makale yayınladı. Şimdi ekibi, Alimama'nın derin öğrenme algoritması, arama reklamcılığı Sorgu analiz algoritması, korelasyon algoritması, eşleştirme algoritması, yaratıcı algoritma ve kaba sıralama algoritması gibi birçok temel iş senaryosundan sorumludur.

Büyük üzüntü! Ulusal Gençlik 1-0 İngiltere, Panda Kupası şampiyonunu planlanandan önce kilitledi, Guo Tianyu hedefi kırmak için acele ediyor

İyi Çinli patron! Dong Mingzhu, Gree çalışanlarına 1.000 yuan maaş artışı sağlıyor