Dünya rekoru! ImageNet'i 4 dakikada eğitin! Ölçeklenebilir ultra büyük ölçekli GPU yakınsama algoritmasının ayrıntılı açıklaması

Xinzhiyuan önerilir

Kaynak: Tencent Wit Team

Xin Zhiyuan Rehberi Tencent'in akıllı makine öğrenimi platformu, Hong Kong Baptist Üniversitesi Bilgisayar Bilimleri Bölümünden Profesör Xiaowen Chu ekibiyle işbirliği yaptı. ImageNet veri kümesinde AlexNet 4 dakikada eğitildi ve ResNet-506,6 dakikada eğitilerek AI eğitimi için yeni bir dünya rekoru kırdı. Bu makale ayrıntılı bir yorum getiriyor.

25 Haziran 2018'de OpenAI, Dota25v5'inde belirli sonuçlar elde ettikten sonra tanıtıldı.Eğitimde, parti boyutu 100W ve 1v1 eğitim parti boyutu 800W'a ulaştı; eğitim süresi hafta olarak hesaplanır. Tencent, oyun yapay zekasına her zaman dahili olarak büyük önem vermiştir ve aynı zamanda büyük parti boyutu yakınsama doğruluğu ve düşük eğitim hızı sorunlarıyla da karşı karşıyadır. Şu anda, toplu iş boyutu 10K'yı aşarsa, karşılaştırma doğruluğuna yakınlaşmayacaktır. Eğitim süresi, hızlı yinelemeli modeller için uygun olan gün cinsinden ölçülür. yeterince uzak.

Şu anda, endüstride büyük parti boyutlarının yakınsama yeteneğini ve büyük veri setlerinde eğitim hızını test etmek için yetkili bir kıyaslama, iki tipik ResNet-50 / AlexNet'i daha kısa sürede karşılaştırmak için ImageNet veri setinde daha büyük bir parti boyutunun nasıl kullanılacağıdır. ResNet-50'nin ağ modeli standart doğruluk için eğitilmiştir; birçok yabancı ekip denedi ve ilerleme kaydetti.Örneğin, UC Berkely gibi üniversitelerden ekipler ResNet-50'yi 20 dakika içinde temel doğruluk için eğitebilir.

Bu sorunu incelemek ve çözmek için, büyük toplu boyutta yakınsama optimizasyonu ve büyük küme yüksek performanslı eğitim deneyiminde zengin bir deneyim biriktirebilir ve bu deneyimleri, oyun yapay zekasının gerçek işini çözmek için uygulayabiliriz; bu aynı zamanda bu sorunu incelemeye yönelik asıl amacımızdır.

ImageNet'i 4 dakikada eğitin

Tencent'in akıllı makine öğrenimi platformu ekibi, ImageNet veri kümesinde AlexNet'i 4 dakikada ve ResNet-50'yi 6,6 dakikada eğiterek AI eğitimi için yeni bir dünya rekoru kırdı.

Bundan önce, sektördeki en iyi seviyeler şunlardı:

Perferred Network, Japonya'nın Chainer ekibi ResNet-50'yi 15 dakikada eğitti;

UC Berkely gibi üniversitelerden ekipler 11 dakikada AlexNet'i eğitti.

Yurtiçi ve yurtdışında ekipler tarafından Graphic ImageNet hızlı eğitim

Şekil ResNet-50 eğitim yazılımı ve her platformun donanım parametresi yapılandırması ve performansı

Not: Toplu iş boyutu 256 olduğunda kıyaslama doğruluğu% 75,3'tür.

Diyagram, AlexNet eğitim yazılımının konfigürasyonunu ve performansını ve her platform için donanım parametrelerini gösterir

Not: "-", ilgili ekibin ilgili test verisine sahip olmadığı anlamına gelir

Makine öğrenimi alanında eğitim geçmişi

AlexNet ağ modelinin ortaya çıkmasından sonraki son birkaç yılda, derin öğrenme, özellikle görüntü, konuşma, makine çevirisi, doğal dil işleme ve diğer alanlarda önemli gelişme ve ilerleme kaydetmiştir. AlphaGo, Go'nun dünya şampiyonu Li Shishi'yi yenmek için derin öğrenme yöntemlerini kullandıktan sonra, herkesin yapay zekanın geleceğine dair beklentileri bir kez daha ateşlendi ve yapay zeka, çeşitli alanlarda tartışmanın odağı oldu. Ancak bununla ilgili birçok sorun var:

Büyük miktarda veri:

Bazı modellerin eğitim verileri kolayca terabaytlara ulaşabilir, bu da birden fazla eğitim turu sırasında veri okumayı çok zaman alan bir bölüm haline getirir.

Karmaşık hesaplama modeli:

Derin ağların özelliklerinden biri, yapı ne kadar derin ve karmaşıksa, ifade edilen özelliklerin de o kadar zengin olmasıdır. Bu fikir altında, en son ağ yapısı giderek daha karmaşık hale gelmektedir.AlexNet'in 8 katmanından, VGG-19'un 19 katmanı, ResNet- 50 katman, Inception-ResNet-V2'nin 467 katmanına ve ResNet-1000 katman 1202'ye vb.

Büyük miktarda parametre:

Derin sinir ağlarının birçok seviyesinden dolayı, parametrelerin miktarı genellikle çok büyüktür. ResNet-50'nin 25 milyon parametresi, AlexNet'in 62 milyon parametresi ve VGG-16'nın 138 milyon parametresi vardır ve bazı dil modeli parametreleri 1 milyarı bile aşmaktadır.

Çok çeşitli hiperparametreler:

Modelin karmaşıklığı arttıkça, modeldeki ayarlanabilir hiperparametrelerin sayısı ve değerlerin aralığı da artar. Örneğin, CIFAR-10 veri setinde eğitilen ResNet modelinde 16 ayarlanabilir hiperparametre vardır.Çoğu hiperparametre sürekli etki alanında olduğunda, bu kadar az sayıda hiperparametre yine de bir kombinasyon patlamasına neden olabilir. Bu nedenle, model için bir dizi uygun hiperparametre değerini otomatik olarak uyarlamak için optimize edilmiş arama ve öğrenme algoritmalarını kullanan, Google'ın Vizier tarafından temsil edilen bir sistem yakın zamanda ortaya çıktı.

Yukarıdaki sorunların tümü, eğitim hızına büyük zorluklar ve gereksinimler getirir.

2010 yılından bu yana, yıllık ImageNet Büyük Ölçekli Görsel Tanıma Mücadelesi (ILSVRC, bundan böyle ImageNet Mücadelesi olarak anılacaktır), görüntü tanıma algoritmalarının performansını test etmek için en yetkili ölçüt olmuştur ve makine öğrenimi alanının odak noktası olmuştur.

Tüm dünyadaki araştırmacıların sürekli çabalarıyla, ImageNet'in İlk 5 hata oranı 2010'da yaklaşık% 28'den 2012'de% 15,4'e (AlexNet) düştü ve son olarak 2017'de İlk 5 hata oranı% 3'e düştü. İnsan% 5 seviyesinden çok daha iyi.

Bu yinelemeli süreçte, iki tipik ağ, AlexNet ve ResNet-50, dönüm noktası önemine sahiptir. Ancak, ImageNet'i ResNet-50 ile bir NVIDIA M40 GPU üzerinde eğitmek 14 gün sürer; tek çekirdekli bir CPU üzerinde eğitim için bir seri program kullanılırsa, tamamlanması on yıllar alabilir. Bu nedenle, AlexNet ve ResNet-50'nin ImageNet üzerinde daha kısa sürede nasıl eğitileceği, araştırmacılar için her zaman bir araştırma konusu olmuştur.

Birçok araştırma ekibi derinlemesine girişimlerde bulundu.Örneğin, Facebook yapay zeka laboratuvarı ve uygulamalı makine öğrenimi ekibi ImageNet'i bir saat içinde eğitebilir; sektördeki en iyi seviye şunlardan gelir:

Perferred Network, Japonya'nın Chainer ekibi ResNet-50'yi 15 dakikada eğitti;

UC Berkely gibi üniversitelerden ekipler 11 dakikada AlexNet'i eğitti.

Zeka ekibi, bu konuya yeni katkılar yapmak, AI endüstrisinin gelişimini teşvik etmek ve AI işinin başarılı olmasına yardımcı olmak istiyor.

Eğitim hızını artırmanın zorluğu

İkinci bölümde bahsedildiği gibi, yukarıdaki dört ana çelişki nedeniyle, derin öğrenme eğitim süresi genellikle saatler ve günler olarak hesaplanır.Eğitim verimliliğini nasıl artırabilir ve model eğitimi yineleme verimliliğini nasıl hızlandırabilir, akıllı ekibin odak noktası haline gelmiştir. Eğitim hızını artırmak için ana zorluklar aşağıdaki gibidir:

3.1 Büyük parti boyutu, doğruluk kaybına neden olur

Eğitim hızını artırma amacına ulaşmak için büyük ölçekli küme hesaplama gücünden tam olarak yararlanmak için insanlar toplu iş boyutunu artırmaya devam ediyor. Bunun nedeni, daha büyük bir parti boyutunun her bir GPU'nun hesaplama yükünü azaltmadan GPU sayısını artırmamıza olanak sağlamasıdır.

Bununla birlikte, parti boyutunu aşırı derecede artırmak, önemli bir doğruluk kaybına neden olacaktır! Bunun nedeni, büyük bir parti boyutu durumunda (eğitim numunelerinin sayısına göre), numunenin rastlantısallığının azalması ve gradyan iniş yönünün stabilize olma eğiliminde olması ve SGD'den GD'ye eğitim yaklaşımlarının, modelin başlangıç noktasına yakın bir şeye yakınlaşmasını kolaylaştırmasıdır. Yerel bir optimal çözüm, dolayısıyla artan bilgi işlem gücünün faydalarını dengeler. Doğruluğu azaltmadan parti boyutunu nasıl artıracağınız, zekice ekibin karşılaştığı başlıca zorluktur.

Şekil Büyük parti boyutu, doğruluk kaybına neden olur

3.2 Birden çok makinenin ve birden çok kartın zayıf ölçeklenebilirliği

Derinlemesine eğitim genellikle örnekleri eğitim için farklı GPU'lara tahsis eden paralel veri modunu kullanır. Model paralelliği ile karşılaştırıldığında, veri paralelliği basit ve ölçeklenebilirdir ve ana akım dağıtılmış eğitim yöntemi haline gelmiştir.

Paralel grafik verileri

Dağıtılmış eğitim verileri paralel modunda, klasik dağıtım yöntemi, eğitim süreci sırasında gradyanları toplamak, dağıtmak ve güncellemek için bağımsız bir parametre sunucusudur (Parametre Sunucusu). Her yinelemede, tüm GPU'ların elde etmek için PS ile birden çok kez iletişim kurması gerekir , Güncelleme parametreleri; düğüm sayısı belirli bir sayıyı aştığında, PS'nin bant genişliği ve işlem kapasitesi tüm sistemin darboğazı haline gelecektir.

Yapay zeka eğitim sistemi ile geleneksel arka uç sistemi arasındaki temel farklardan biri, geleneksel arka uç sisteminin düğümler ekleyerek erişim isteklerini paylaşabilmesi ve düğümler arasında güçlü bir ilişki olmamasıdır; yapay zeka eğitim sisteminin modeli eğitirken eğitime katılması gerekir. Sistemdeki tüm düğümler, tüm sisteme büyük bir kilit eklemeye neredeyse eşdeğer olan, tüm sistemdeki tek bir düğüm için çok yüksek bant genişliği ve işleme yetenekleri gerektiren model parametre sunucusuyla sürekli olarak veri alışverişi ve güncelleme yapar.Bu aynı zamanda bir AI eğitim sistemidir. Özel özellik, sistem yük kapasitesinin yalnızca düğümler eklenerek artırılamaması ve birden çok düğümün ölçeklenebilirlik sorununun çözülmesi gerektiğidir.

Bu nedenle, yapay zeka eğitim kümesinin performansının doğrusal olarak genişletilebilmesi için mimari dağıtım ve algoritma düzeyinde bant genişliği gereksinimlerinin nasıl azaltılacağı ve parametre aktarımının çok makineli genişletmede eğitim hızı üzerindeki etkisinin nasıl kontrol edileceği, zeki ekibin karşılaştığı bir başka zorluktur.

3.3 Uygun hiperparametreler nasıl seçilir

Buna ek olarak, çok sayıda süper parametre ve her bir süper parametrenin geniş dağılımı nedeniyle, özellikle ImageNet gibi çok büyük bir veri kümesi durumunda süper parametreleri ayarlamak uzun zaman alır. Daha önce bahsedildiği gibi, CIFAR-10 veri kümesinde eğitilen ResNet modelinin 16 hiperparametresi vardır.

Proje ilerledikçe, ekip ayrıca LARS algoritması, hiyerarşik senkronizasyon algoritması, gradyan füzyon stratejisi ve daha sonra bahsedilecek olan Batch Norm değiştirme gibi model hiperparametrelerinin miktarını artıracak birçok yeni anahtar teknolojiyi tanıttı. Zaman içinde daha iyi bir çözüm bulmak, esprili ekibin karşılaştığı üçüncü büyük zorluktur.

Eğitim hızını artırmak için anahtar teknoloji

Yukarıdaki zorluklara yanıt olarak, zeka ekibi büyük toplu eğitim, çoklu makine ölçeklenebilirliği ve hiperparametre ayarlama yöntemlerinde atılımlar yaptı ve bunları ImageNet eğitim sahnesine uyguladı ResNet-50 eğitimini 6,6 dakikada, AlexNet'i 4 dakikada tamamlamayı başardı. Eğitim - Bu, ImageNet eğitimi için şimdiye kadarki en yüksek dünya rekoru. Bu süreçte, esprili ekip, sektördeki en iyi uygulamaları özümserken bir dizi orijinal anahtar teknolojiyi derinlemesine entegre etti.

4.1 Büyük parti boyutunda kararlı yakınsama yeteneği

1) Yarı hassasiyetli eğitim ve hiyerarşik uyarlamalı hız ölçeklendirme (LARS) algoritmasının kombinasyonu

Büyük parti boyutlarında ölçeklenebilirliği geliştirmek için Gizwits ekibi, hesaplama miktarını azaltmak ve bant genişliği gereksinimlerini azaltmak için eğitim verilerini ve parametreleri temsil etmek için yarı kesinlikli kayan noktalı sayılar kullanır. Bununla birlikte, yarı kesinlikli kayan noktalı sayıların temsili, kaçınılmaz olarak model yakınsamasının doğruluğunu azaltacaktır.

Azaltılmış doğruluk sorununu çözmek için zeka ekibi hiyerarşik uyarlanabilir hız ölçeklendirme (LARS) algoritmasını tanıttı. LARS algoritması ilk olarak You ve diğerleri (2017) tarafından önerilmiştir. Bu algoritma, farklı katmanlar için farklı öğrenme hızları kullanarak büyük parti boyutlu senaryolarda eğitim doğruluğunu büyük ölçüde geliştirir.Ancak, gerçek test, LARS algoritmasının doğrudan uygulandığını buldu. Yarı hassas model eğitimi, büyük bir doğruluk kaybına neden olur. Bunun nedeni, LARS katsayısı ile çarpıldıktan sonra, yarı kesinlikli sayısal gösterimin küçük aralığı nedeniyle birçok parametrenin doğrudan 0'a döndürülmesidir.

Şekil LARS öğrenme hızı güncelleme formülü

Parametre yarı hassasiyetle gösterilir ve bu da hassasiyet kaybına neden olur

Bu amaçla, esprili ekip, bu sorunu çözmek için yarı kesinlik parametreleri tek kesinliğe dönüştürerek ve ardından LARS, yani yarı kesinlik eğitimi, tek duyarlıklı LARS optimizasyonu ve parametre güncellemesi ile birleştirerek karma duyarlı bir eğitim yöntemi geliştirdi. Buna karşılık olarak, kayıp ölçeklendirme yöntemi, doğruluğu etkilemek için 0'a dönmekten kaçınmak için parametreleri güncellerken kaybı ikiye katlamak (ve buna bağlı olarak öğrenme oranını azaltmak) için kullanılır. Test sonuçları, bu yöntemin bir yandan hesaplama hızını sağladığını, diğer yandan da iyi bir yakınsama etkisi sağladığını göstermektedir.

Grafik karışık hassasiyet eğitimi

Şekil ResNet-50 yarı hassasiyetli optimizasyon etkisi

2) Modellerin ve parametrelerin iyileştirilmesi

You ve diğerlerinin (2017) test sonuçlarını 32K'da yeniden ürettik, ancak parti boyutu 64K'ya genişletildiğinde, eğitim doğruluğu kıyaslama doğruluğuna ulaşamadı. 64K'nın altında yakınsama doğruluğunu iyileştirmek için parametreleri ve modeli geliştirdik: 1) Yalnızca ağırlık düzenlenir. 2) You et al. (2017) modeline dayanarak, AlexNet modelini daha da iyileştirin.

Kayıp işlevinden sonra bir ceza terimi ekleyerek düzenleme

, Modelin aşırı uyumunu önlemek için yaygın olarak kullanılan bir stratejidir. Çoğu derin öğrenme çerçevesi, ağırlık, önyargı, BN beta ve gama (toplu iş normunda öğrenilebilir parametreler) dahil olmak üzere tüm öğrenilebilir parametreleri varsayılan olarak düzenleyecektir. Sapma, beta ve gama parametrelerinin ağırlığa göre çok küçük olduğunu bulduk AlexNet modeli için, önyargı, beta ve gama parametrelerinin toplamı, toplam parametrelerin yalnızca% 0,02'sini oluşturur.

Bu nedenle, önyargı, beta ve gama modele fazla uydurmayacaktır.Bu parametreleri düzenlersek, hesaplama miktarı artacak ve model bir miktar esneklik kaybedecektir. Deneysel doğrulamadan sonra, önyargı, beta ve gama düzenlemeleri olmadan modelin doğruluğu yaklaşık% 1,3 oranında artırdığını gördük.

Düzenli hale getirme stratejisini optimize ettikten sonra, modelin yakınsaması geliştirildi, ancak AlexNet hala kıyaslama doğruluğuna ulaşmadı. AlexNet eğitim parametrelerinin ve çıktı özelliklerinin analizi sonucunda, yineleme adımlarının sayısı ile Pool5'in özellik dağılımının (aşağıdaki şekilde gösterildiği gibi, daha açık renk daha az veri dağıtımı, daha koyu renk daha fazla veri dağıtımı anlamına gelir, genel anlamda veri dağıtım aralığı çok geniştir) bulduk. Artışla varyans büyür ve büyür ve dağılım büyük ölçüde değişir, bu da öğrenmeyi ve yakınsamayı zorlaştırır.

Şekil, Pool5'in çıktı özelliği dağılım haritasını gösterir (yatay eksen yineleme sayısıdır ve dikey eksen, özellik dağılımıdır)

Bu sonuç, özelliklerin dağıtımını standartlaştırmak için Pool5'ten sonra bir Batch Norm katmanı eklememiz için bize ilham verdi. Aşağıdaki şekilde gösterildiği gibi, AlexNet'i mükemmelleştirdikten sonra, BN5'ten sonra özellik haritalarının dağıtımı daha eşittir ve 64K toplu iş, 100 çağda% 58,7'ye yaklaşarak, doğruluk kaybı olmadan hızlandırılmış eğitimi tamamlar.

Grafik AlexNet'i dönüştürmek için Toplu Norm'u kullanın

Şekil, Pool5 + BN5'in çıktı özelliği dağılımını göstermektedir (yatay eksen yineleme sayısıdır ve dikey eksen özellik dağılımıdır)

Şekil AlexNet'i dönüştürmek için BN kullanmadan önce ve sonra yakınsama doğruluğunun karşılaştırması

3) Süper parametre ayarı

Model hiperparametre ayarı, derin öğrenmenin en maliyetli kısımlarından biridir.Büyük modellerin eğitim süreci, özellikle eğitim veri seti büyük olduğunda, saatler veya günler olarak hesaplanır. Bu nedenle, süper parametreleri ayarlamak için daha verimli fikirlere ve yöntemlere ihtiyaç vardır.Gizwits platform ekibi bu konuda temel olarak aşağıdaki fikirleri benimsemiştir:

Kaba ile ince arasındaki parametre adımları: Ayarlama parametresi değerleri önce daha büyük adımlara bölünür ve bu da parametre kombinasyonlarının sayısını azaltabilir. Büyük bir optimum aralık belirlendiğinde, ardından kademeli olarak ince ayar yapın. Örneğin, öğrenme oranını ayarlarken, daha büyük bir adım boyutu testi şunu bulur: öğrenme oranı Lr büyük olduğunda, yakınsama oranı erken aşamada hızlı ve sonraki aşamada pürüzsüzdür. Lr küçük olduğunda, yakınsama oranı erken aşamada düzgün ve sonraki aşamada daha hızlıdır.Bu kurala göre, nihayet farklı aralıklarda birden fazla optimal öğrenme oranı elde etmek için ince ayarlamalar yapmaya devam edin;

Düşük hassasiyetli ayar: Düşük hassasiyetli eğitim sürecinde karşılaşılan en büyük sorunlardan biri hassasiyet kaybı sorunudur.İlgili verileri analiz ederek, kenar değerinin düşük hassasiyetli temsilini güçlendirmek ve parametrelerin geçerliliğini sağlamak, yüksek hassasiyetli hesaplamaya dönmenin önemli bir yöntemidir;

Başlangıç verileri için ayar parametreleri: Ağ katmanlarının sayısı arttıkça, aktivasyon fonksiyonunun doğrusal olmayışı nedeniyle, başlatma parametreleri modelin yakınsamasını zorlaştırır.VGGNet gibi sığ bir ağı eğitebilir ve ardından sığ ağın parametreleri aracılığıyla derin ağı aşamalı olarak başlatabilirsiniz. Parametreler ayrıca giriş ve çıkış kanallarının aralığına göre başlatılabilir.Genel olarak, giriş kanallarının sayısı daha yaygındır; tam bağlı ağ katmanı için Gauss dağıtımı kullanılabilir; kısayolun toplu normu için parametre gama sıfıra başlatılır.

Yukarıdaki fikirler, 4 dakikalık ImageNet eğitim projesinde parametre ayarının verimliliğini artırır. Ancak parametreleri ayarlamak sıkıcı bir iştir ve takip, dahili olarak test edilmekte olan AutoML sistemi tarafından gerçekleştirilecektir.

ImageNet veri setinde yukarıdaki üç husus aracılığıyla Gizwits platformu, ResNet-50 / AlexNet'i parti boyutu 64K olduğunda kıyaslama doğruluğuna eğitebilir!

Grafiksel AlexNet yakınsama optimizasyonu

Şekil ResNet-50 yakınsama optimizasyonu

4.2 Ultra büyük ölçekli GPU kümelerinin (1024 + GPU'lar) doğrusal ölçeklenebilirliği

1) Parametre güncellemelerinin dağıtılması

Veri paralel eğitim modunda, her yinelemenin gradyan belirtimini yapması gerekir.TensorFlow tarafından temsil edilen klasik dağıtılmış eğitim dağıtım yönteminde, gradyanın toplanmasından, ortalamasından ve dağıtımından merkezi parametre sunucusu (Parametre Sunucusu) sorumludur. Dağıtım modunda, PS'nin erişim bant genişliğinin, ölçeklenebilirliği ciddi şekilde etkileyen bir darboğaz haline gelmesi muhtemeldir.Zekâ ekibinin ilk yanıt yöntemi, HPC alanında yaygın olarak kullanılan merkezi olmayan Allreduce yöntemini tanıtmaktır. Halka topolojisinin iletişim modunda, veri iletişimi ultra büyük ölçekli GPU kümesi senaryosunda büyük bir gecikme ek yüküne sahip olacaktır.

Gizwits ekibi, Allreduce algoritmasını daha da geliştirdi ve onu 1024+ GPU'luk heterojen bir kümede başarıyla uygulayarak ideal genişletme verimliliğini elde etti.

Simge Merkezi olmayan parametre belirtimi

Resim Ring Allreduce'un orijinal versiyonu

2) Hiyerarşik senkronizasyon ve gradyan segmentasyon füzyonu kullanarak Ring Allreduce'u optimize edin

Dağıtılmış iletişimde, zaman alıcı parametre aktarımı aşağıdaki formülle ifade edilebilir:

Bunlar arasında, , veri hazırlama, veri arayüzü çağrıları gönderme, vb. Gibi tek bir düğümün tek bir veri iletiminin gecikmesini temsil eder; P, düğümler arasındaki veri aktarımlarının sayısıdır, genellikle düğüm sayısının bir katıdır ve , zaman alıcı parametre aktarım katsayısıdır. , Bu katsayı farklı parametre aktarım yöntemleri için farklıdır; B ağ bant genişliği, M parametrenin toplam bayt sayısı ve (M / B) tek bir tam parametre aktarımı için harcanan zamandır.

Yukarıdaki formülden görülebileceği gibi, M parametresi ne kadar büyükse, ikinci terimin oranı o kadar büyük ve ilk terimin etkisi ne kadar küçükse, yani P'nin toplam zaman üzerindeki etkisi o kadar küçüktür; M parametresi o kadar küçükse, İlk maddenin işgal ettiği zaman göz ardı edilemez.P arttıkça, toplam süre üzerindeki etkisi daha büyüktür. Ring Allreduce algoritmasını kullanarak iletim için, global protokol işleminin bant genişliği gereksinimi sabite yakındır ve düğüm sayısındaki artışla artmaz, bu nedenle * (M / B) bir sabite yakındır ve değişken faktör * P'dir; Ne kadar küçükse, iletilen veri miktarı ne kadar küçükse, o kadar dağınık, * P oranı o kadar büyük, genel ölçeklenebilirlik o kadar kötüdür.

Örneğin, AlexNet sinir ağında, daha büyük parametrelere sahip iki tam bağlantılı katman dışında kalan BN katmanı ve evrişimli katman daha az parametreye sahiptir ve her katmanın parametre dağılımı çok farklıdır. Deneysel ortamımızda, aşağıdaki şekilde gösterildiği gibi farklı paket boyutları için iletim süresini test etmek için Ring Allreduce iletim yöntemi kullanılır. Şekilden de görülebileceği gibi, Ring Allreduce'un zaman ek yükü, GPU sayısı arttıkça önemli ölçüde artacaktır.

Şekil, farklı düğüm sayıları altında Ring-Allreduce'un iletim süresini göstermektedir

Ek olarak, iletim veri bloğu, bant genişliğinden tam olarak yararlanmak için çok küçüktür ve çok sayıda küçük blok iletimi, şekilde gösterildiği gibi büyük bir ek yük getirir. Aynı miktarda veri gönderirken, küçük veri paketlerinin büyük bir ek yüke sahip olduğu ve bant genişliğinin verimli bir şekilde kullanılamadığı görülebilir.

Resim Bir 100Gbps RoCE v2 ağında bant genişliğini test etmek için 2 makine ve 8 kart Ring-Allreduce kullanın

Sinir ağının her katmanının parametrelerinin ve veri paketi iletim özelliklerinin yukarıdaki analizinden sonra, Gizwits ekibi aşağıdaki sonuçlara ulaştı:

(1) Küme düğümlerinin artmasıyla, Ring Allreduce iletim modu yeterince verimli değildir. Düğüm sayısı arttıkça, iletim süresindeki * P oranı kademeli olarak artacaktır.

(2) Ring Allreduce algoritması, küçük Tensor için yeterince dostane değil. Algoritma, belirlenecek verileri N eşit parçaya böler (N, toplam düğüm sayısıdır), bu da düğüm sayısı önemli ölçüde arttığında Tensörün parçalanmasına neden olur, iletişim ağı çok sayıda küçük veri paketi iletir ve bant genişliği kullanımı çok düşüktür.

Yukarıdaki sorunlara yanıt olarak Gizwits ekibi aşağıdaki iyileştirmeleri önerdi:

(1) Hiyerarşik senkronizasyon ve Ring Allreduce'un organik kombinasyonu: P'nin toplam süre üzerindeki etkisini azaltmak için kümedeki GPU düğümlerini gruplayın. Yukarıda tartışıldığı gibi, P'nin değeri sistem performansı üzerinde daha büyük bir etkiye sahip olduğunda, özel küme ağ yapısına göre katmanlanır ve düğüm protokolü boyunca Ring Allreduce algoritması protokolü kullanılır Bu iyileştirme, her bir Ring katmanında yer alan düğüm sayısını etkili bir şekilde azaltır. İletim süresinde * P oranını azaltın. Aşağıda gösterildiği gibi. Başlangıçta 16 GPU'da (yani P = 16) AllReduce gerçekleştirmek gerekiyordu. Şimdi 16 GPU, her grupta 4 GPU ile 4 gruba ayrıldı. İlk önce grupta azaltın (4 paralel yürütme grubu, P1 = 4) ve sonra Her grubun ana GPU'ları arasında Allreduce (P2 = 4) gerçekleştirin ve son olarak her grupta P'nin etkisini büyük ölçüde azaltan ve Allreduce'un performansını artıran yayınlayın (P3 = 4).

(2) Gradyan füzyonu, birden fazla gradyan iletimi bir araya getirilir: Spesifik modele göre uygun bir Tensör boyutu eşiği ayarlayın, birden fazla gradyan iletimini bir tanede birleştirin ve aynı zamanda eşik boyutunu aşan Tensörler artık füzyona katılmayacaktır; bu, Tensörün aşırı derecede parçalanmasını önleyerek bant genişliği kullanımını iyileştirir ve iletim süresini azaltır .

(3) GDR teknolojisi Ring Allreduce'u hızlandırır: Yukarıdaki çözüme dayanarak, GDR teknolojisi, ana bellek ile video belleği arasındaki Kopyalama işlemini azaltan ve aynı zamanda GPU'nun protokol hesaplamalarını gerçekleştirmesi için kolaylık sağlayan çapraz düğüm Halkasına uygulanır;

Not: GDR (GPU Direct RDMA), uzak düğümler arasındaki video belleğine doğrudan erişim sağlayabilen ve CPU iş yükünü büyük ölçüde azaltabilen RDMA teknolojisinin GPU sürümüdür.

Şekil GDR ile Geliştirilmiş Katmanlı Halka Allreduce

Spesifik ImageNet eğitim probleminde, gradyan füzyonu test edilirken, zeka ekibi, modelin her katmanının parametrelerinin ve gerçek ölçüm sonuçlarının analizine dayalı bir segmentasyon füzyon stratejisi önerdi.AlexNet ve ResNet-50 katmanları iki segmente bölündü ve her biri kaynaştırıldı Ring Allreduce for a Tensor'a katılın. Test ve analizden sonra, 1024 kart senaryosunda, AlexNet segmentasyonu 20. ve 21. katmanlarda en iyi sonuçları elde edebilir; ResNet-50, aşağıdaki şekilde gösterildiği gibi 76. ve 77. katmanlar arasında en iyi segmentasyon hızına ulaşır.

Bölümlere ayrılmış füzyon stratejisinden sonra, ters hesaplama ve aktarımın paralelliği büyük ölçüde geliştirilir ve eğitim hızı iyileştirilir. Şu anda, segment füzyon iletim performansını, zaman alıcı ileri hesaplama ve ters hesaplamaya göre modelleyebilir ve gerçek donanım yapılandırması ve ağ modeli ile birlikte iletim süresine göre otomatik olarak optimum segmentasyon stratejisini gerçekleştirebilir ve uyarlamalı bir şekilde birleştirme ihtiyacını seçebilir. Sistemin en iyi genişleme performansını elde etmek için parametreler.

Grafiksel AlexNet gradyan segmentasyon füzyon stratejisi

Şekil ResNet-50 gradyan segmentasyon füzyon stratejisi

Şekil, 1024 kart senaryosunda segment füzyonundan önceki ve sonraki verim karşılaştırmasını göstermektedir

Şekil, 1024 kart senaryosunda hiyerarşik senkronizasyondan önceki ve sonraki verim karşılaştırmasını göstermektedir

3) GÇ gecikmesini azaltmak için Ardışık Düzen mekanizmasını kullanın

GPU derin öğrenmeyi tanıttıktan sonra, model eğitim hızı gittikçe hızlanıyor.Optimum hızlandırma performansı yalnızca yüksek hızlı bilgi işlem donanımına bağlı değil, aynı zamanda verimli bir veri girişi hattı da gerektiriyor.

Bir eğitim yinelemesinde, CPU önce verileri diskten okur ve ön işlemden geçirir ve ardından verileri bilgi işlem cihazına (GPU) yükler. Genel uygulamada, CPU veri hazırlarken, GPU boşta durumdadır; aksine, GPU bir modeli eğitirken CPU boşta durumdadır. Bu nedenle, toplam eğitim süresi, CPU ön işleme ve GPU eğitim süresinin toplamıdır.

Gizwits ekibi, IO problemini çözmek için, CPU'nun verilere erişim bant genişliğinin ağ tarafından kısıtlanmamasını sağlamak için SSD disklerden oluşan bir depolama sistemi üzerinde eğitim örnek setini konuşlandırdı; aynı zamanda bir kez kullanılacak olan Pipeline mekanizmasının tanıtılması daha kritik. Eğitim yinelemesinde veri okuma ve işleme, model hesaplaması ile paraleldir.Model hesaplamaları yapılırken, veri okuma işleminin bir sonraki yinelemesi gerçekleştirilir ve özel bir "kilitsiz" kuyruğa yerleştirilir ve ilerlemek için GPU ön getirme mekanizması kullanılır İşlenen veriler, kuyruktan GPU video belleğine senkronize edilir. Bir sonraki model hesaplamaları turu yapılırken, veriler CPU veya diskten okumadan doğrudan video belleğinden okunur. Veri okuma gizlidir ve IO ve hesaplama paraleldir. ayağa kalk.

Boru Hattı mekanizmasının Diyagram Şeması

Şekil "Kilit yok" kuyruğa giriş ve çıkış zamanı tüketim karşılaştırması

Yukarıdaki üç özellik sayesinde, Gizwits platformu ResNet-50'yi 1024'ten fazla kartla çalıştırabilir ve ölçeklenebilirlik ~% 99'a ulaşabilir. 2048 kartta ResNet-50 çalıştırıldığında, ölçeklenebilirlik yine de% 97'de tutulabilir!

Şekil ResNet-50 / AlexNet çoklu makine ölçeklenebilirliği

Platform değeri

Yapay zeka, giyim, gıda, barınma, ulaşım, ulaşım ve kişiselleştirilmiş ürünler de dahil olmak üzere yaşamın her alanını kapsayacak şekilde giderek daha fazla insan yaşamına entegre oluyor; insanların ihtiyaçlarına hizmet edebilecek yapay zeka hizmetleri, gelecekte su ve elektrik gibi temel ihtiyaçlar haline gelecek. Makine öğrenimi platformu bu arka plan altında ortaya çıktı.

ImageNet eğitim hızını artırmak, zekice ekibin yapay zeka geliştirme tanıtımının yalnızca küçük bir parçasıdır; aslında, oyun yapay zekası gibi yapay zeka işletmelerine hizmet vermek, yapay zeka ekibinin yapay zeka hizmetleri oluştururken kullanıcı ihtiyaçlarına odaklanmasına yardımcı olacaktır. YZ hizmetlerinin arkasındaki model eğitim, Parmaklarınızın ucunda optimizasyon, model yerleştirme ve çalıştırma zekanın gerçek görevidir. Akıllı makine öğrenimi platformu şu anda temel olarak eğitim hızlandırma yetenekleri sağlar.

1) Eğitim hızlandırma

Model eğitiminin hızlı bir şekilde tamamlanması, daha fazla model / algoritma denemesinin yapılabileceği anlamına gelir; bu, yalnızca platform yeteneklerinin önemli bir göstergesi değil, aynı zamanda iş rekabet gücünü artırmanın bir anahtarıdır. Bir ürün modelinin eğitim süresi haftalar veya aylar olarak kaydedilmişse, ürün de kuvvetli değildir. Aşağıdakiler, zekanın iki tipik uygulama durumudur:

X işine ait eğitim verileri yapılandırılmış verilerdir ve hacim olarak büyüktür ve model daha karmaşıktır; Hızlı yinelemeli model algoritmaları için yeterince uzak olan bir modeli eğitmek her zaman bir günden fazla sürmüştür. Esprili makine öğrenimi platformunu uyguladıktan sonra, bir model yaklaşık 10 dakika içinde yinelenebilir, bu da eğitim yinelemesinin verimliliğini büyük ölçüde hızlandırır ve iş başarısı için sağlam bir temel oluşturur.

Bilgisayarla görme, yapay zeka uygulamalarının önemli bir alanı olup ulaşım, güvenlik, perakende, robotik gibi çeşitli senaryolarda uygulanmıştır. Bilgisayarla görmedeki ağ modelinin anahtar bileşeni CNN'dir.CNN ağının hızlı eğitimi, ürün iniş hızını büyük ölçüde artırabilir. Örnek olarak sektörün en ünlü ImageNet veri setini ele alalım. ResNet-50 modelini% 75'in üzerinde bir doğrulukta eğitmek için, sıradan bir bağımsız tek kart için yaklaşık bir hafta sürer. Esprili makine öğrenimi platformunda, böyle bir uygulama yalnızca 6,6 dakika sürer.

Görünüm

Gelecekte, zeka ekibi, oyun AI işinin hızlı yinelemesini sağlamaya, imagenet eğitim problemini çözmede biriken hızlandırma çözümlerini AI oyununa uygulamaya, oyun AI'nın büyük toplu boyutunun ve eğitim hızının yakınsama problemini tamamen çözmeye ve iş edinimine yardımcı olmaya devam edecek. Yeni çığır açan sonuçlar. Ek olarak, esprili ekip platform performansını ve işlevlerini iyileştirmeye devam edecek:

1) Platform performansı

Wit, farklı senaryolar için modeller elde etmek için model sıkıştırma / budama, niceleme teknolojisini birleştirecek ve iletişim iletiminde çeşitli tümüyle azaltılmış algoritmaları koordine edecek:

Hesaplama darboğazı modeli, birden çok makineyle doğrusal genişlemeye ulaşır

İletim darboğazı modeli,% 90'dan fazla genişleme verimliliğine ulaşır

2) Platform işlevi

a) AutoML (otomatik parametre ayarlama)

Gizwits ekibi, algoritma mühendislerinin yeni ağlar oluşturmaya, yeni formüller türetmeye ve hiperparametrelerin hacimli çalışmalarını ayarlamaya odaklanmaları gerektiğine inanıyor ve Gizwits bunu sizin için otomatik olarak yapsın.

b) Tek noktadan yönetim hizmeti

Makine öğreniminin model eğitim süreci, görselleştirme görevlerinin yönetimini, çeşitli kaynakların yönetimini (CPU, GPU, FPGA, ASIC vb.) Ve zamanlamayı ve eğitim verilerinin ve sonuç verilerinin yönetimini içeren karmaşık bir sistem düzenidir. Tüm bu süreçleri açmak ve kullanıcı dostu olmak için kaliteli hizmet sistemi vb. Algoritma mühendislerinin fikirlerini doğrulamaları için en temel gereksinim, gördüğünüz şeydir. Gizwits Platformu, tek noktadan yönetim hizmetleri sağlayacak, ne düşündüğünüzü düşünecek ve başarılı olmanıza yardımcı olacaktır.

Ek olarak, bilgisayarla görme hızlandırma yalnızca başlangıç noktasıdır.Gelecekte, işlevler açısından, zeka platformu birden çok senaryoyu ve birden çok modeli destekleyecektir; daha geniş AutoML teknolojisi ile birlikte, AI teknolojisi daha geniş bir işletmeyi güçlendirebilir. Amacımız:

Kullanıcılara eğitim, çıkarım, model barındırma ve tam süreç bilgi işlem hızlandırma hizmetleri sağlayın.

Son olarak, AI işinin başarılı olmasına yardımcı olmak için bir AI hizmet altyapısı oluşturmak için eğitim hızlandırmadan dağıtım ve lansmana kadar tek noktadan hizmet platformu kurulacak.

Teşekkürler

İmagenet eğitim projesinin araştırılması ve çözümlenmesinde, zeki ekip ortakları birlikte çalıştı ve sonunda bu konuda bir atılım yaptı. Hong Kong Baptist Üniversitesi Bilgisayar Bilimleri Bölümü Profesör Chu Xiaowen ekibindeki TEG Kardeşler Departmanı Operasyon Yönetimi Departmanındaki küçük ortaklara özel teşekkürler; bu sektörün otoriter kriterinde yeni sonuçlar elde etmemizi sağlayan herkesin dayanışması ve profesyonelliğidir. Büyük atılım.

Ayrıca, platform ortakları olan TEG'in kardeş departmanı AI platform departmanı ve network platformu departmanına da şükranlarımı sunarken, kardeş departmanlarına sürekli destekleri ve güvenleri için teşekkür ederim. Önümüzdeki yolu dört gözle beklerken, esprili ekip yine de yeni iyi sonuçlar yaratmak için sizinle birlikte yürüyebilecek.

Referans

Büyük Ölçekli Görsel Tanıma Yarışması 2017

Dakikalar İçinde ImageNet Eğitimi

https://arxiv.org/pdf/1709.05011.pdf

Facebook eğitimi ImageNet 1 saatte

https://research.fb.com/publications/ImageNet1kIn1h/

Dil Modellemenin Sınırlarını Keşfetmek

https://arxiv.org/pdf/1602.02410.pdf

MPICH'de Toplu İletişim İşlemlerinin Optimizasyonu

Orijinal indirgeme formülü şöyledir: t = 2 (P - 1) + (2 (P - 1) + (P 1) ) M / P Bu makale senaryoya göre kısaca açıklamaktadır.

P, işlemlerin sayısı olduğunda (bu sefer GPU sayısını da temsil eder), tek bir düğümün tek bir veri iletiminin gecikmesini temsil eder, örneğin veri hazırlama, veri arabirimi çağrıları gönderme vb .; tek bir baytın noktadan noktaya iletim süresidir, genellikle 1 / B olarak ifade edildiğinde, B ağ bant genişliğidir; single iki parametrenin tek ekleme çalışma süresidir; M, parametrelerin toplam bayt sayısıdır.

Google Vizier: Kara Kutu Optimizasyonu için Bir Hizmet Bölüm 4.4.2

https://ai.google/research/pubs/pub46180

PowerAI DDL, https://arxiv.org/pdf/1708.02188.pdf

Son Derece Büyük Minibatch SGD: 15 Dakikada ImageNet'te ResNet-50 Eğitimi, https://arxiv.org/abs/1711.04325

"Karma Hassasiyetli Son Derece Ölçeklendirilebilir Derin Öğrenme Eğitim Sistemi: ImageNet'i Dört Dakikada Eğit" proje belgesi ilk olarak arxiv'de incelemeye sunulacaktır.

Kağıt adresi: https://arxiv.org/abs/1807.11205

Not: Tencent'in esprili makine öğrenimi platformu, TEG Mimarlık Platformu Bölümü ve Operasyon Yönetimi Bölümü ekibi tarafından ortaklaşa ve Hong Kong Baptist Üniversitesi Bilgisayar Bilimi Bölümünden Profesör Chu Xiaowen ekibi ile derinlemesine işbirliği ile oluşturulmuştur.

Xinzhiyuan AI WORLD 2018 [Erken Kayıt Bileti] satışa çıktı!

Xinzhiyuan, AI WORLD 2018 konferansını 20 Eylül'de Pekin'deki Ulusal Kongre Merkezi'nde gerçekleştirecek ve makine öğrenimi vaftiz babası, CMU profesörü Tom Mitchell, Mikes Tekmark, Zhou Zhihua, Tao Dacheng, Chen Yiran ve diğer AI liderlerini makine zekasına dikkat etmeye davet edecek. Ve insan kaderi.

Konferans resmi web sitesi:

Şu andan 19 Ağustos'a kadar Xinzhiyuan, küresel yapay zeka liderleriyle iletişim kurmak ve küresel yapay zeka endüstrisinin sıçrama gelişimine tanık olmak için sınırlı sayıda erken kayıt bileti satacak.

  • Aktivite hattı bileti satın alma bağlantısı:

  • Etkinlik satırı bilet alımı için QR kodu:

Bahar Festivali Halk Takvimi İlk Ayın İlk Ayının Altıncı Günü: Zavallı Tanrıyı Büyük Süpürme
önceki
Ağzınızda yediklerinize Chunwei denir
Sonraki
Yeni nesil XC60'ın ön çalışması: Volvo Gothenburg fabrikasında arazi testi
Kuzey Kutbu girdabı tekrar güneye gitti ve süper güçlü soğuk dalga Japonya'nın birçok yerini vurarak rekor kırdı!
Kahve ve dostluk | Kiraz çiçeği en güzel ne zaman? Düşerken
Google Brain açık kaynak TensorFuzz, sinir ağlarında otomatik olarak hata ayıklama!
Yerli futbolcular 3 turda 31 gol atarken, Wu Lei 7 golle başı çekerken, uzun süredir böyle bir sahne görülmedi.
Bu hayatta, Kuzeybatı'ya bir gezi değerlidir!
Changan CS95 söylediği kadar acımasız ve acımasız mı?
"Akademik Tahrif Salgını" Tatillerde dünya çapında 400.000 bilim insanı, aralarında Nobel Ödülü sahibi de bulunan makaleler yayınladı!
Yay Karnavalı Günü! Havada yükselen dört büyük forvet, C Ronaldo, Messi Wu Lei'yi yakından takip ediyor
Dünyanın en popüler 20 şehrinden birincisi ...
Eski şiirlerdeki on ünlü bina güzel ve ihtişamlıdır!
Klasikleri hatırlamak: Tarihin en büyük 10 Ferrari'si
To Top