g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Ali, kendi geliştirdiği AI kümesinin ayrıntılarını açıklıyor: 64 GPU, bir milyon sınıflandırma eğitimi hızı 4 kat arttı

Aufei Tapınağı'ndan Kuru Ming Qubit Raporu | Genel Hesap QbitAI

Düğüm mimarisinden ağ mimarisine ve iletişim algoritmasına kadar Alibaba, kendi geliştirdiği yüksek performanslı yapay zeka kümesinin teknik detaylarını bir kağıda yazdı ve duyurdu.

Makalenin adı EFLOPS: Yüksek Performanslı Dağıtılmış Eğitim Platformu için Algoritma ve Sistem Ortak Tasarımı , Bilgisayar mimarisinin en önemli konferansı olan HPCA 2020'ye dahildir. Alibaba, Çin'de kağıtlar içeren tek şirkettir Makalenin yazarlarından Alibaba kıdemli teknik uzmanı Jiang Xiaowei konferansta makalenin içeriğini paylaştı.

Yapay zeka kümelerinin teknik ayrıntılarını göstermenin yanı sıra, Alibaba'nın dahili işine ve algoritmalarına nasıl değer getirebileceğini de tanıttı. Bu küme, Alibaba'nın yapay zeka işletmesinin model eğitimine hizmet etmek için Alibaba bilgi işlem platformunun yapay zeka eğitim platformuna (PAI) uygulandı:

Polaroid milyon sınıflandırma modelinin eğitim hızını 4 kat artırabilir ve ilk kez on milyonlarca sınıflandırma modelinin eğitimini destekleyebilir; Alibaba çeviri modelinin doğruluğunu artırırken eğitim süresini 100 saatten 12 saate indirebilir.

Ve dünyanın en iyi AI bilgi işlem sistemiyle karşılaştırıldığında, Ali'nin AI kümesi, daha düşük performanslı donanım kaynaklarını kullanmasına rağmen önemli bir performans gösterdi.

Alibaba, yüksek performanslı yapay zeka kümelerinin performansını ilk kez açıkladı.Söz konusu durum nedir? Ali araştırma ekibinin yorumundan yola çıkarak bunlara tek tek bakıyoruz.

İşletmeden başlayarak, AI küme mimarisini optimize edin

Derin sinir ağlarındaki teknolojik atılımlar nedeniyle, AI ile ilgili AI algoritma modelleri, eğitim çerçeveleri ve temelde yatan hızlandırıcı tasarımı gibi teknik araştırmalar giderek daha fazla dikkat çekmiş ve uygulamaları gittikçe daha kapsamlı hale gelmiş ve sosyal yaşamın tüm yönlerine uygulanmıştır. Görünüş.

Ali araştırma ekibi, "Ancak, çok az kişi küme mimarisi perspektifinden, yapay zeka işinin çalışma modu ile geleneksel büyük veri işleme işi arasındaki farkı ve yapay zeka kümesinin mimari tasarımının nasıl optimize edilmesi gerektiğini keşfetti" dedi.

Yapay zeka işinin güçlü veri paralelliğine sahip olmasına rağmen, bunun büyük veri işleme işinden ve yüksek performanslı bilgi işlem işletme özelliklerinden açıkça farklı olduğuna inanıyorlar. İki temel fark vardır:

Birincisi, AI hizmetlerinin alt görevleri bağımsızlık açısından çok düşüktür ve gradyan senkronizasyonu sağlamak için periyodik olarak iletişim kurmaları gerekir; ikincisi, AI hizmetlerinin çalışması hızlandırma bileşenlerine odaklanır ve hızlandırma bileşenleri arasındaki doğrudan iletişimin eşzamanlılığı, Geleneksel sunucu.

Bu nedenle, AI hizmetlerinin geleneksel veri merkezinin sunucu mimarisi ve ağ mimarisinde çalıştırılmasında birçok ciddi sorun olacaktır.

Spesifik olarak, sunucu mimarisi sorunları temelde dengesiz kaynak tahsisinin neden olduğu tıkanıklık sorunları ve PCIe bağlantılarının QoS sorunlarıdır.

Genel olarak, geleneksel sunucular, düğümler arasındaki iletişim için bir ağ kartıyla donatılmıştır ve birden çok GPU, AI hizmetlerini desteklemek için yapılandırılır.

Ancak, AI eğitimi genellikle GPU'lar arasındaki gradyanların senkronizasyonunu gerektirir. Birden fazla GPU ağa aynı anda erişirse, tek ağ kartı sistemin darboğazı haline gelir.

Ek olarak, PCIe bağlantısındaki bant genişliği tahsisi, yol uzunluğu ile yakından ilgilidir, uzun yol tarafından elde edilen bant genişliği tahsisi daha düşüktür ve Soketler arası iletişim sorunu daha ciddidir.

Ağ mimarisi sorunu esas olarak AI eğitiminde senkronize iletişimin neden olduğu kısa tahta etkisinde yatmaktadır. Ağ tıkanıklığı çok yaygın bir sorundur ve ilgili araştırmalar onlarca yıldır devam etmektedir.

Ancak tıkanıklık kontrol algoritmasının nihai amacı, iki çarpışan akışın hızını, fiziksel bant genişliğini mümkün olan en kısa sürede eşit olarak bölme hedefine ulaşabilmesi ve AI eğitim kümesinin iletişim verimliliği sorununu çözememesi için sınırlamaktır.

AI iş iletişiminin senkronizasyonu nedeniyle, her iletişim işleminin nihai performansı en yavaş bağlantı tarafından belirlenir. Bant genişliğinin paylaşılması, işlem tamamlanma süresinin iki katına çıkarılması anlamına gelir ve bu, AI iletişiminin performansını ciddi şekilde etkileyecektir.

Buna dayanarak Alibaba, AI işi için kendi geliştirdiği yüksek performanslı bir AI kümesi geliştirmeye karar verdi.

Ali AI kümesinin temel teknolojileri

Alibaba'nın kendi geliştirdiği yüksek performanslı AI kümesine EFlop adı verilir.Üç anahtar teknoloji vardır: ağa bağlı heterojen bilgi işlem sunucusu mimarisi, yüksek ölçeklenebilirlikli ağ mimarisi ve sistem mimarisiyle koordine edilmiş yüksek performanslı iletişim kitaplığı.

Ağ kartında veri tıkanıklığını önlemek için, her GPU için diğer GPU'larla iletişimden sorumlu olmak üzere özel bir ağ kartı sağlarlar.

Ek olarak, Sunucunun Üstü tasarım fikrine dayanarak, düğümdeki hızlandırıcılar arasındaki iletişim düğümün dışına aktarılır ve olgun Ethernet QoS mekanizması sıkışık trafiğin adil olmasını sağlamak için kullanılır.

Araştırma ekibi, hızlandırıcı yonga hesaplama gücünün hızlı gelişimi ve iletişim performansı için daha yüksek ve daha yüksek gereksinimlerle, birden çok ağ kartına sahip bu ağa bağlı heterojen bilgi işlem sunucusu mimarisinin yakında ana akım haline geleceğine inanıyor.

Ağ mimarisi düzeyinde, EFlops, iki katmanlı ağ ve katmanlar arası yönlendirmenin kontrol edilebilirliği arasında zengin bir bağlantı kaynağı sağlayan BiGraph ağ topolojisini tasarladı.

Çoklu ağ kart sunucusu yapısı ile, EFlops projesinde, geleneksel Fat-tree topolojisine benzer, ancak aynı zamanda temel bir farka sahip olan BiGraph ağ topolojisini önerdiler.

Yağ ağacı topolojisine benzerlik, ağı iki parçaya (Üst ve Alt) ayırmaları ve parçaların, Omurga ve Yaprak anahtarlarının iki katmanlı bir Yağ ağacı topolojisi gibi şekillendirilen Clos mimarisi aracılığıyla birbirine bağlanmasıdır.

Fat-tree'den farklı olarak, her iki anahtarda da bilgi işlem sunucusuna doğrudan erişebilirler; yani, her anahtar Fat-tree topolojisinde Spine ve Leaf rollerini oynar ve maksimum atlama sayısı 3'tür.

Ayrıca BiGraph topolojisine iki önemli özellik getiriyor:

Bir yandan, iki anahtar katmanı arasında bol miktarda fiziksel bağlantı kaynağı sağlanır. N bilgi işlem sunucusu sisteminde, iki anahtar katmanı arasında kullanılabilecek en az N / 2 fiziksel bağlantı vardır. Öte yandan, farklı düzeylerdeki herhangi iki bilgi işlem sunucusu arasındaki en kısa yol benzersizdir.

Bu nedenle, iletişim kitaplığındaki sunucular arasındaki veya hatta daha yüksek düzeylerdeki sunucular arasındaki iletişim modunu yönetmek için bu özelliği tam olarak kullanabilirler. Örneğin, bir bağlantı kurarken, ağdaki yol seçimini kontrol etmek için uygun kaynak ve hedef sunucuları seçin.

Bu noktayı açıklığa kavuşturmak için yeni bir konseptin tanıtılması gerekiyor: Allreduce - paralel veri eğitim senaryosundaki en önemli toplu iletişim operasyonu.

Yaygın olarak kullanılan iletişim algoritmaları arasında Halka tabanlı (Halka), Ağaç tabanlı (Ağaç) ve Yarıya İkiye Katlama (HD) vardır.

Alibaba tarafından yazılan bu makalede, ana odak Halka ve HD üzerinedir. İlki en yaygın kullanılan algoritmalardan biridir ve ikincisi bu araştırmadaki optimizasyon nesneleridir.

Halka ve HD algoritmalarının veri aktarım miktarında hiçbir farkı yoktur, her ikisi de 2S'dir; burada S, Mesajın boyutudur. İletişim sayısı açısından, Halka algoritması N-1 Adımlı iletişim gerektirirken, HD algoritması yalnızca log2N Adımlarını gerektirir; burada N, katılan düğümlerin sayısıdır.

Halka algoritması yalnızca N bağlantı gerektirirken, HD algoritması N * log2N bağlantısı gerektirir. HD algoritmasının her Adımının yalnızca N / 2 bağlantıya ihtiyaç duyduğu belirtilmelidir.

BiGraph topolojisinin özelliklerinin analizine dayanarak, BiGraph topolojisindeki iki anahtar arasında N / 2 fiziksel bağlantı olduğu ve HD algoritmasının her adımının N / 2 bağlantı gerektirdiği görülebilir.

BiGraph topolojisinin iki katmanı arasındaki en kısa yolun determinizmi, bir olasılık sağlar: HD algoritmasının bağlantısını ve BiGraph topolojisinin fiziksel bağlantısını bire bir haritalamak ve tamamen çözmek için aralarındaki bağlantı çekişmesini önlemek için Ağ tıkanıklığı sorunu.

Buna dayanarak, HD algoritmasının iletişim bağlantılarını BiGraph ağının fiziksel bağlantılarına tek tek eşleyerek ağ tıkanıklığını önleyen Rank haritalama algoritmasını da önerdiler. Rank-Mapping (HDRM) ile Halving-Doubling algoritması Ali'de zaten mevcut. Özelleştirilmiş entegre iletişim kütüphanesi ACCL uygulaması. Belirli adımlar aşağıdaki gibidir:

Böyle bir kümenin performansı nasıl olur?

EFlops sisteminin performansını değerlendirmek için, toplam 64 GPU ile 16 düğümden oluşan bir eğitim kümesi kurdular. Her düğüm 4 Tesla V100-32G GPU ve 4 ConnectX-5100Gbps ağ kartı ile donatılmıştır.

Ağ ortamı, 8 fiziksel anahtarın sırasıyla BiGraph'ın iki katmanına yerleştirilen 16 sanal anahtara bölündüğü BiGraph topolojisine göre tasarlanmıştır.

Araştırma ekibi, küme performansını değerlendirmek için MLPerf'in ResNet50 modelini kullandı.Özel yöntem, belirtilen doğruluğa ulaştıktan sonra birim zaman başına görüntü işleme sayısını hesaplamaktı.

Aşağıdaki şekil, tüm sistemin verimi ve tek bir GPU'nun ortalama verimi dahil olmak üzere EFlops sistemi ile tek ağ kartı sistemi arasındaki performans karşılaştırmasını göstermektedir.

EFlops sisteminin performansının temelde doğrusal genişlemeye ulaştığı, tek bir ağ kartı sisteminin birim veriminin ölçekle birlikte kademeli olarak azaldığı görülebilir.

Dünyanın en iyi AI bilgi işlem sistemi ile karşılaştırıldığında EFlops, daha düşük performanslı donanım kaynakları kullanmasına rağmen önemli bir performans göstermiştir (V100-PCIe performansı, V100-SXM2'den yaklaşık% 10 daha düşüktür).

Ek olarak, Alibaba'nın dahili uygulamalarının performans faydalarını analiz ettiler. Polaroid milyon sınıflandırma modelini örnek olarak alırsak, EFlops sistemi iletişim performansını 5,57 kat ve uçtan uca performansı% 34,8 oranında artırabilir.

İletişim hacmi yüksek olmadığı için, HDRM algoritması iletişim performansını% 43,5 artırır ve genel performans% 4,3'tür. BERT modeli için, iletişim hacmi Polaroid milyon sınıflandırma modelinden önemli ölçüde daha yüksektir.HDRM algoritması tek başına iletişim performansını% 36 ve uçtan-uca performansı% 15.8 oranında artırabilir.

Araştırma ekibi, sistem ölçeği büyüdükçe EFlopların performans faydalarının önemli ölçüde artacağının öngörülebilir olduğunu söyledi. 64 düğümlü kümenin gelirine dayanarak, 512 GPU'lu yüksek performanslı bir yapay zeka eğitim kümesi oluşturdular.

Ön değerlendirme sonuçları, Resnet50 modelinde ImageNet eğitim setine dayalı olarak EFlops kümesinin doğrusal ölçeklenebilirliğe yakın bir seviyede tutabildiğini göstermektedir.

Alibaba altyapı ekibi oluşturma

Pingtou ekibi tarafından desteklenen, çoğu Alibaba altyapı ekibinden olmak üzere EFlops kümesinin oluşturulmasına toplam 17 Alibaba teknik uzmanı katıldı.

Makalenin ilk yazarı, Çin Bilimler Akademisi Bilgisayar Teknolojisi Enstitüsü'nden mezun olan ve şu anda Alibaba'da kıdemli bir teknik uzman olan Dong Jianbo'dur. Makalenin ilgili yazarı, Alibaba Dharma Akademisi'nin kıdemli araştırmacısı ve Pingtou Ge'nin baş bilim adamı olan Xie Yuan'dır.

Xie Yuan, bilgisayar mimarisi ve yonga tasarımı alanında güçlü bir varlıktır.Araştırma yönleri bilgisayar mimarisi, entegre devre tasarımı, elektronik tasarım otomasyonu ve gömülü sistem tasarımıdır. 300'den fazla en iyi dergi ve konferans bildirisi yayınlamıştır.

IEEE, AAAS ve ACM Fellow unvanını aldıktan sonra, 28 Şubat'ta uluslararası akademik onur olan IEEE CS 2020 Yıllık Teknik Başarı Ödülü'nü tekrar kazandı.

- Bitiş -

Qubit QbitAI · Toutiao İmzalı

Bize dikkat edin ve en son teknolojideki en son gelişmeleri alın

Jack Welch vefat etti, idol girişimcilerin idolü Edisonun kariyerini ileri taşıdı.

Batıda Musk ve doğuda Li Shufu: Geely uyduları fırlatacak ve havacılık endüstrisine girmek için asker toplayacak