On milyonlarca ölçek kategorisi sınıflandırma teknolojisini destekleyen Baidu Feida, endüstriyel düzeyde bir derin öğrenme çerçevesi tanımlıyor

2016 yılında AlphaGo doğdu ve yapay zeka çağı geldi. Aynı yıl, Baidu'nun açık kaynak ve kendi geliştirdiği derin öğrenme çerçevesi PaddlePaddle (Flying Paddle), Çin'in ilk açık kaynaklı derin öğrenme çerçevesi oldu.

Bununla birlikte, derin öğrenmenin yönlendirdiği bu teknoloji ve endüstri dalgası da birçok zorlukla karşı karşıyadır.

Veri miktarı gittikçe artıyor ve bazı modellerin eğitim verileri kolayca terabaytlar; modeller AlexNet'in 8 katmanından ResNet-1000'in 1202 katmanına kadar daha derin ve daha karmaşık hale geliyor; model parametreleri artıyor, hatta aşıyor 10 milyar...

Derin öğrenme modellerinin eğitim verimliliği önemli bir konu haline geldi.

Derin öğrenme modelinin etki yinelemesi eğitim hızına çok duyarlı olduğundan, yüksek performanslı dağıtılmış eğitim getirebilen bir derin öğrenme çerçevesi, gerçek geliştirme ve uygulama için katı bir ihtiyaçtır ve aynı zamanda yapay zekanın sektöre gerçekten girmesinin temelidir.

Aynı sayıda donanım cihazı ve yüksek düzeyde verimli dağıtılmış eğitim, ürün yineleme döngüsünü büyük ölçüde kısaltabilir. Sınırlı zaman gereksinimleri altında, yüksek verimli platform tabanlı araçlar, donanım gereksinimlerini de önemli ölçüde azaltabilir.

Çin olarak İlk ve tek açık kaynaklı, tamamen işlevsel derin öğrenme platformu . Yıllarca süren endüstriyel uygulamalardan sonra Baidu Feida, temel çerçeveleri, araç bileşenlerini ve hizmet platformlarını entegre eden uçtan uca bir açık kaynak derin öğrenme platformuna dönüştü. Feidanın büyük ölçekli dağıtılmış eğitim yetenekleri her zaman önemli bir vurgu olmuştur.

Baidu'nun derin öğrenme teknolojisi platformu departmanının yöneticisi olan Ma Yanjun, CSDN tarafından düzenlenen AI Geliştiriciler Konferansı'nda tanıtıldı: "Uçan kürek, ultra büyük ölçekli derin öğrenme paralel eğitiminin hem yoğun parametre senaryolarını hem de seyrek parametre senaryolarını destekliyor ve trilyonlarca veya daha yüksek ölçekli parametreleri destekliyor. Verimli paralel eğitim, aynı zamanda böylesine güçlü bir derin öğrenme paralel teknolojisi sağlayan ilk derin öğrenme platformudur. Teknolojik yenilikler sayesinde, verimli, istikrarlı ve düşük maliyetlidir. "

Gerçek endüstriyel ölçek: yüz milyarlarca ölçeğin seyrek özellikleri, on milyonlarca ölçeğin sınıflandırılması

Sıradan derin öğrenme modeli geliştiricileri için ultra büyük ölçekli sınıflandırma uygulamalarının eşiğini düşürmek ve geliştiricilerin kişiselleştirilmiş öneri uygulamalarının performansını iyileştirmelerine yardımcı olmak için Feida, dağıtılmış eğitim için yeni bir yüksek eşzamanlılık parametre sunucusu uygulamaları seti başlattı ve piyasaya sürdü Süper büyük ölçekli sınıflandırma eğitimi kütüphanesi PLSC, geliştiricilerin yüz milyarlarca seyrek özellik eğitimini ve on milyonlarca kategorinin sınıflandırmasını sağlamalarına yardımcı olmak için kullanılır.

100 milyar seyrek özellik

Yüz milyarlarca seyrek özellik: Öneri sistemleri, bilgi akışları ve kısa videolar gibi kullanıcı odaklı ürünlerde giderek daha fazla kullanılmaktadır ve kişiselleştirilmiş öneriler, bu ürünler tarafından takip edilen önemli bir hedeftir. Kişiselleştirmeyi başarmanın önemli ve etkili bir yolu, genelleme becerisine sahip bir modelde çok sayıda kişiselleştirilmiş özelliği ezberlemek için derin öğrenme yöntemlerini kullanmaktır. Yüz milyonlarca günlük aktif kullanıcısı olan ürünler için, kullanıcının kişiselleştirilmiş bilgileri sadece görseller ve metinler gibi kaynakların içerik özellikleriyle bir araya getirildiği sürece, özellik ölçeği kolayca onlarca hatta yüz milyara kadar genişletilebilir.

Yüz milyarlarca seyrek özelliği ve trilyonlarca model parametresini desteklemek için Feida, dağıtılmış bir Anahtar-Değer erişim yöntemi tasarladı ve eşzamanlı güncelleme isteklerini desteklemek için Anahtar-Değer tablosunu segment kilitleriyle parçalara ayırdı. Büyük ölçekli seyrek özelliklerin güncelleme ve iletişim özelliklerini hedefleyen dağıtılmış eğitim mantığının iletişim katmanı kapsüllemesi, Baidu tarafından geliştirilen baidu-rpc iletişim kitaplığına dayalı olarak gerçekleştirilir. Parametre sunucusunun entegre fonksiyonları arasında, istemci gönderme parametrelerinin entegrasyonu, talep parçalama, model parametre güncelleme, yükleme, kaydetme vb., Yüksek eşzamanlılığı destekleyen ve bilgi akışına hizmet eden bir dizi takılabilir parametre sunucusu bileşeni oluşturma, Kısa videolar gibi önerilen sahneler.

Şekil 1: 100 milyar yuan ölçeğinde seyrek bir parametre sunucusunun tasarımı

On milyon ölçekli kategori sınıflandırması

On milyonlarca sınıflandırma için gerçekçi gereksinimler: görüntü sınıflandırma, yüz tanıma ve öneri sistemlerindeki etiket önerisi gibi görsel alandaki uygulamalar genellikle milyonlarca, hatta on milyonlarca sınıflandırma problemiyle karşı karşıyadır. Şu anda, derin öğrenme modellerine dayalı sınıflandırma Bu sorunu çözmenin en etkili yolu, ancak mevcut donanım rastgele erişimli depolama kapasitesiyle sınırlı olan sınıflandırma modelinin model parametrelerini tek bir GPU kartında kaydetmek zordur, bu da sıradan kullanıcıların büyük ölçekli sınıflandırma modellerini eğitme becerisini sınırlar. Bu problem için, şu anda en iyi çözüm model paralelliği kullanmaktır, ancak model paralelizminin tasarımı, uygulanması, performansı ve hata ayıklama, sıradan derin öğrenme modeli geliştiricileri için daha yüksek bir eşik değerine sahiptir. Bu amaçla, Flying Paddle, model tabanlı paralel ultra büyük ölçekli sınıflandırmanın uygulama eşiğini büyük ölçüde azaltabilen ve mükemmel performans ve ölçeklenebilirliğe sahip olan PLSC'yi (Paddle Büyük Ölçekli Sınıflandırma) piyasaya sürdü, böylece her geliştirici hızlı bir şekilde eğitim alabilir. Hiper ölçek kategorileri için sınıflandırma modeli.

Uçan kürek PLSC özelliği: görüntü görevleri için genel veri okuma yöntemini, on milyonlarca kategorinin sınıflandırılmasını, çok makineli dağıtılmış modelin paralel eğitimini, otomatik karışık hassas eğitimi ve sınıflandırma katmanının anlamsal gösterimini sağlayan hizmet odaklı hesaplamayı destekler.

PLSC'nin performansı ve ölçeklenebilirliği: 8 kartlı ve 32G video belleğine sahip bağımsız bir V100 için PLSC, geleneksel veri paralel yöntemine kıyasla sınıflandırma görevlerinin sayısını% 250 artırabilir. Model paralel eğitimi için 128 v100 bloğu kullanıldığında, PLSC tarafından genişletilen kategori sayısı 50 milyona ulaşabilir. Paralel olarak çok makineli çoklu kart modeli durumunda, sekiz kartlı V100 tek makineye kıyasla, PLSC'nin hızlanma verimlilik oranı 10 milyon kategorinin üzerinde olduğunda% 80'e ulaşabilir.

Şekil 2: Model paralelliğine dayalı büyük ölçekli kategori sınıflandırma teknolojisi

Tablo 1: Uçan kanatta Arcface PLSC, çok makineli genişleme verimliliğini gerçekleştirir

Gerçek endüstriyel hız: model eğitiminin hızının uçmasına izin verin

Hogwild kilitsiz modu gibi endüstri deneyimine ve Baidunun kapsamlı iş senaryoları için pratik destek birikimine dayanan Flying Paddle ayrıca yeni bir seyrek parametre iletişimi, IO eşzamansız okuma, Geo-SGD eğitim modu ve birden fazla makine önerir. Kart yüksek performanslı eğitim, karışık hassasiyetli eğitim ve diğer işlevler, sıradan kullanıcıların endüstriyel sınıf model eğitim hızından yararlanmasına yardımcı olur. İletişim ve eğitim modlarındaki yenilikler sayesinde, uçan kanatların eğitim hızı ve etkisi süper büyük ölçekli modeller veya veri akışının ve ağ iletişiminin darboğaz haline gelme eğiliminde olduğu görevler büyük ölçüde iyileştirildi ve piyasadaki benzer ürünlerin performansını tamamen aştı.

Tamamen eşzamansız parametre sunucusu eğitimi

Seyrek parametre iletişimi : Derin öğrenme modellerinde seyrek özellikler genellikle özel işlem gerektirir, aksi takdirde hafıza ve iletişim tüketiminde ciddi sorunlara neden olur. Mevcut ana derin öğrenme çerçevesinde, seyrek özelliklerle başa çıkmanın daha yaygın yöntemi, seyrek özellikleri değişken uzunluklu tensörler aracılığıyla vektörleştirmek ve ilgili özellik yerleştirmeleri için seyrek arama yapmaktır. Parametre sunucusunun çok makineli eğitim sürecinde, uçan kanat, seyrek parametreler için bazı farklı işleme yöntemlerini benimser, yani tek bir düğüm altında eşzamanlı eğitim iş parçacığı tarafından üretilen seyrek gradyan, eşzamansız olarak birleştirilir ve ardından toplu iletişim gerçekleştirilir. Operasyon, eğitim sırasında iletişim miktarını büyük ölçüde azaltır. Seyrek özellik tabanlı model eğitimi için, çoklu makine hızlandırma etkisi neredeyse doğrusaldır. Çok kuyruklu eşzamansız GÇ : Veri miktarının özellikle büyük olduğu ve verim gereksinimlerinin yüksek olduğu, ancak modelin kendisinin küçük bir hesaplama maliyetine sahip olduğu bazı görevlerde, verilerin GÇ'si kolayca eğitim verimliliğinin darboğazı haline gelebilir. Bu sorunu çözmek için Flying Paddle, çok kuyruklu eşzamansız okuma işlevini özel olarak tasarladı.Veri okumanın tutarlılığından uygun şekilde ödün vererek, modelin performansı büyük ölçüde iyileştirildi. Kilit parametresi paylaşım modu yok : 2010 gibi erken bir tarihte, Hogwild! Kilitsiz bir parametre paylaşım modu önerdi. Temel fikri, seyrek parametre modelinin kilitsiz okuma ve yazma modunda da yakınsama sağlayabilmesidir. Flying Paddle, bu modu parametre sunucusu eğitimi için varsayılan ayar olarak kullanır ve CPU sunucusunun donanım kaynaklarının potansiyelini en üst düzeye çıkarmak için seyrek iletişim ve çok kuyruklu eşzamansız GÇ ile işbirliği yapar.

Şekil 2: Uçan kürekler için tam asenkron eğitim ilkesi

Tablo 2: Uçan küreğin Criteo-CTR veri kümesinde tamamen eşzamansız eğitiminin veri aktarım ölçeklenebilirliği

Flying Paddle Geo-SGD Eğitimi

Geo-SGD: Geleneksel parametre sunucusu eğitim yönteminden farklı olarak, Flying Oar'ın orijinal Geo-SGD'si (Geometrik-SDG), model parametrelerini optimize etmek için İşçi terminalini kullanır ve tanımlanabilir bir iletişim aralığı aracılığıyla yerel eğitim modeli parametre enterpolasyonunu senkronize eder. . Ek olarak, sunucu, her bir işçi tarafından gönderilen model parametresi farklılıklarını entegre etmek için zaman uyumsuz bir yöntem kullanacaktır. Model yakınsadıkça, işçi tarafındaki model parametrelerindeki fark giderek küçülecek ve sunucu tarafındaki global model parametrelerinin güncelleme aralığı da geometrik bir ilerlemede azalacaktır.

Geo-SGD asenkron eğitim modunda, Çalışan, sunucunun yeni parametreler göndermesini beklemeden eğitim gerçekleştirebilir.Bu yöntem, eğitim etkisini ve hızını büyük ölçüde geliştirir. Ancak bu mod, kelime vektörleri, anlamsal eşleştirme ve diğer senaryolar gibi tamamen tek bir makineye kaydedilebilen modeller için daha uygundur. Word2vec modelini çok az miktarda hesaplama, ancak çok çeşitli kullanım senaryoları örnek olarak alırsak, Geo-SGD eğitim modunu kullanarak uçan kürek dağıtımlı eğitimin eğitim hızı, sınıfının en iyisi ürünü 18 kat aşabilir. Kamusal veri setinin doğrulanmasında, model Etki kaybı yoktur.

Şekil 3: Uçan pervaneler için kendi geliştirdiği Geo-SGD algoritmasının ilkesi

Tablo 3: Veri okuma ve iletişimin darboğazlara dönüşme eğiliminde olduğu model altında Geo-SGD'nin ölçeklenebilirliği

GPU çok makineli çoklu kart yüksek performanslı eğitim, karışık hassasiyet

İletişim uzantısı

İletişim topolojisi desteği: Uçan kanatçık, Halka Tabanlı AllReduce, Hierachical Allreduce, 2-D Allreduce, vb. Gibi birden çok iletişim topolojisi yapısını destekler. Kullanıcılar, farklı küme ortamları için genel iletişim performansını iyileştirmek için farklı iletişim topolojilerini özelleştirebilir.

Gradyan otomatik toplama: Model parametrelerinin gradyan boyutunun analizi yoluyla, uçan kanatçık, yüksek performanslı iletişim ağına oyun vermek için gradyanları sezgisel olarak toplar ve belirli bir aralıktaki veri paketlerinin iletişim gecikmesi temelde değişmez.

İletişim eşzamanlılığı: Çoklu akış iletişimi destekleme teknolojisi sayesinde Flying Paddle, bant genişliğinin avantajlarından tam olarak yararlanmak ve genel iletişim gecikmesini büyük ölçüde azaltmak için ilgili operatörlerle aynı anda iletişim kurabilir.

Toplu Operatör: Uçan kanat, iletişim bileşenlerini çalıştırarak paralel algoritma tanımının esnekliğini büyük ölçüde geliştirir. Örnek olarak büyük ölçekli sınıflandırma kitaplığı PLSC'yi ele alın.Büyük ölçekli modeller için özelleştirilmiş paralel algoritmalar geliştirmek için birden fazla Kolektif Operatör aracılığıyla esnek bir şekilde monte edilebilir.

Optimal optimizasyon stratejilerinin birleşimine dayanarak, doğal dil işleme ve bilgisayar görüşü olmak üzere iki alanda halka açık klasik modelleri karşılaştırdık.Uçan küreklerin çok makineli eğitim avantajı, GPU kartlarının sayısındaki artışla birlikte giderek artıyor. Hem performans hem de ölçeklenebilirlik, diğer genel çerçeveleri geride bırakıyor.

Tablo 4: Uçan kanatlı çok makineli çok kartlı çok makineli eğitim ve referans çerçevesi arasındaki uzunlamasına karşılaştırma

Karışık hassas iletişim kutsaması

Yarı hassasiyeti destekleyen GPU kartlarında, uçan kürek tek bir kod satırıyla Otomatik Karışık Hassasiyet (AMP) hesaplamalarını etkinleştirebilir ve bu da tek bir kartın bellek kullanımını ve hesaplama süresini önemli ölçüde azaltır. Çok makineli çoklu kart eğitimi durumunda, uçan kürek dağıtılmış eğitim teknolojisi hesaplama grafiğini analiz eder ve Op'un rolünü, karışık hassasiyetli çok makineli çoklu kart eğitimi durumunda tüm azaltma operatörünün bağımlılık ilişkisine ince ayar yapmak için birleştirir. , Çok makineli iletişim sürecinde yarı hassas iletişimin kullanılmasını sağlamak. Karışık hassasiyetli iletişim durumunda, modelin eğitim doğruluğu etkilenmez ve iletişim bant genişliği doluluğu% 50 azaltılır, bu da uçan kanatlı otomatik karışık hassasiyetli çok makineli çoklu kart eğitiminin hala iyi bir hızlanma oranına sahip olmasını sağlar.

Şekil 4: Uçan pervanenin otomatik karışık hassasiyetinde çok makineli çok kartlı eğitimin yarı hassas iletişim ilkesi

Tablo 5, Resnet50 modelinde Imagenet veri seti testine dayalı tam hassasiyetli eğitim ve karışık hassasiyetli eğitimin yatay ölçeklenebilirliğini ve dikey ölçeklenebilirliğini göstermektedir. Uçan raketin karışık hassasiyetinin desteğiyle, GPU çoklu makine ve çoklu kart altındaki yatay genişletme kapasitesi, tam hassasiyetli duruma eşdeğerdir ve dikey genişletmenin eğitim verimi 2 kattan fazla artmıştır.

Tablo 5: Otomatik karışık hassas eğitimin birden çok uçak ve birden çok kartla ölçeklenebilirliği

Gerçek AI kapsayıcılığı: maliyetleri düşürmek ve verimliliği artırmak, tüm geliştiricilere fayda sağlamak

Flying Paddle, sıradan kullanıcılara daha fazla fayda sağlamak amacıyla, çeşitli farklı dağıtılmış eğitim modları için Fleet API'nin özelleştirilmesi ve genel bulut GPU eğitiminin hızını ve etkisini iyileştirmeye yardımcı olmak için Deep Gradient Compression teknolojisi gibi bir dizi farklı senaryo için özel olarak geliştirilmiştir. LocalSGD teknolojisinin yanı sıra, ultra büyük ölçekli eğitimde parti boyutunu büyük ölçüde artırabilen yeniden hesaplama teknolojisi. Mevcut işlevlerin entegrasyonu ve mevcut teknolojilerin yeniliği sayesinde, uçan kürek, kullanıcıların dağıtılmış modelleri eğitmesi için öğrenme, hata ayıklama ve hesaplama gücünü büyük ölçüde azaltır ve kullanıcıların optimum eğitim sonuçlarını daha hızlı elde etmelerine yardımcı olur.

Filo API'si

Çoğu derin öğrenme kullanıcısı dağıtılmış eğitim işlevini kullandığında, genellikle dört ana sorunla karşılaşırlar: 1) Yerel bir programı dağıtılmış bir şekilde eğitilebilecek bir programa dönüştürme; 2) Kümeye dağıtılmış bir eğitim programı nasıl gönderilir; 3) Ne tür bir paralel eğitim yöntemi kullanılır ve nasıl tanımlanır; 4) Kendi görevlerinin eğitim verimliliği nasıl daha da artırılır.

Flying Paddle, kullanıcıların dağıtılmış eğitim ve eğitim maliyetlerini kullanması için eşiği düşürmek amacıyla, kullanıcıların mükemmel bir performans deneyimi elde etmelerine yardımcı olmak için dağıtılmış eğitim Fleet API'si sağlar.

Fleet API kullanarak, kullanıcıların senkronize eğitim, eşzamansız eğitim, Geo-SGD ve GPU çok makineli çoklu kart eşzamanlı eğitimi gerçekleştirmek için uçan raketin parametre sunucusunu kullanmak için yalnızca on satırdan fazla kod eklemesi gerekir, bu da kullanıcının birden çok modunu büyük ölçüde azaltır. Arasında geçiş yapmanın öğrenme maliyeti. Ayrıca Fleet API, küme kaynaklarıyla etkileşim için bir arabirim sağlar ve kullanıcılar için şeffaftır, bu da kullanıcıların küme kaynaklarında hata ayıklama maliyetini büyük ölçüde azaltır. Fleet API ayrıca topluluk geliştiricilerinin paralel eğitim hızlandırma algoritmalarını özelleştirmesini kolaylaştırmak için genişletilebilir bir arabirim sağlar.

Genel bulut senaryolarında dağıtılmış eğitimin zorlukları

Zayıf bir ağ ortamına sahip bir kümede, birden fazla makine arasındaki iletişim bant genişliğiyle sınırlı olduğundan, daha fazla düğümle dağıtılmış eğitim görevlerini eğitirken, iletişim aşaması genellikle tüm dağıtılmış eğitimin verimlilik darboğazı haline gelir. Bu durum özellikle GPU kümeleri üzerinde eğitim sırasında yaygındır. Flying Paddle, genel bulut kullanıcılarının daha düşük bant genişliğinde yüksek performanslı dağıtılmış eğitim gerçekleştirmesine olanak sağlamak için Derin Gradyan Sıkıştırma teknolojisi sağlar.

Uçan kanat, orijinal kağıdın algoritmasına göre daha da optimize edilmiştir. Farklı modeller altındaki model parametre gradyanlarının parçalanma derecesi göz önüne alındığında, uçan kanatçık, parametreleri senkronize etmek için yalnızca belirli bir boyutun üzerindeki model parametre gradyanlarıyla seyrek iletişim gerçekleştirir. Küçük blok modelinin parametre gradyanı için, iletişim gecikmesi ile TopK modelinin parametre gradyanı arasında çok fazla fark olmadığı göz önüne alındığında, ortak çok makineli çoklu kart senkronizasyon mekanizması hala kullanılmaktadır. Şu anda, uçan çarkın derin gradyan sıkıştırma teknolojisi, genel bulutta kurulan bazı AI platformlarına uygulanmıştır.Dahili iş verileri değerlendirmesinden sonra, tahmini P4 kartının zayıf bilgi işlem gücüne sahip çok makineli çoklu kart eğitimi durumunda bile, uçuş Paddle DGC teknolojisi ayrıca eğitim süresini% 40 -% 60 oranında azaltacaktır.

LocalSGD

Flying Paddle, genel bulut senaryoları için, birden çok makine ve birden çok kart arasında çok adımlı yerel güncelleme modeli parametrelerinin ağırlıklı bir şekilde birleştirilmesini gerçekleştirebilen LocalSGD çok makineli eğitim teknolojisi de sağlar. Çok sayıda deney, çok makineli eğitim için LocalSGD uçan kürek teknolojisinin kullanılmasının modelin yakınsama etkisi üzerinde önemli bir etkiye sahip olmayacağını kanıtlamıştır. Aynı zamanda, senkronizasyon parametreleri aralığı, geleneksel çok makineli çoklu kart eğitimine kıyasla genişletildiğinden, genel hızlanma oranı da iyileştirildi.

Büyük grupların paralel eğitimi için video belleğinden tasarruf etmek üzere yeniden hesaplama teknolojisini kullanın

Uçan raketin çok makineli çoklu kartlı GPU eğitiminde, kullanıcılar, küçük yonga üzerinde bellek veya yetersiz GPU kartlarına sahip bazı sahnelerde çok etkili olan yeniden hesaplama teknolojisi ile küresel parti boyutunu artırabilir.

Uçan kürek ağırlık hesaplama teknolojisi: Eğitim verilerinin ölçeğindeki kademeli artışla birlikte, daha büyük ve daha derin derin öğrenme modellerini eğitmek giderek ana akım trend haline geldi. Mevcut derin öğrenme modeli eğitiminde, modelin genellikle ileriye dönük hesaplamanın gizli katman sonuçlarını tutması gerekir. Model katmanlarının sayısı arttıkça sonuçların sayısı doğrusal olarak artacağından, şu anda kullanılabilen bilgi işlem yongasının bellek boyutu için bir zorluk oluşturmaktadır. Bu nedenle Flying Paddle, katman sayısı arttıkça video belleğinin alt doğrusal büyümesini sağlamak için ters işlemde gerekli ileri mantığı yeniden hesaplayan İleri Yeniden Hesaplama Geri Yayılım (FRB) teknolojisini önerir.

Şekil 5: Uçan pervane ağırlığı hesaplaması için video belleği optimizasyonu ilkesi

Genişletilmiş Parti Boyutunu yeniden hesaplama ilkesi: ileri ara gizli katmanın sonucunun video belleğini serbest bırakın ve ters işlemdeki bağlantı noktasına dayalı olarak kısmi yeniden hesaplama gerçekleştirin.

Şekil 6. Video belleğinin değişim eğrisinin tek adımlı hesaplanmasında Bert modeli

32G V100 ve FP32 kullanırken, maksimum parti boyutunu birkaç farklı model altında test ettik ve artış% 600'e kadar çıktı. Dağıtılmış durumda, iletişim süresi ile yeniden hesaplama süresinin otomatik çakışması nedeniyle, çoğu modelin eğitim performansı düşüşü% 20 içinde kontrol edilecek ve algılama modellerinin çok makineli eğitim verimi etkilenmeyecektir.

Tablo 6. Uçan pervane ağırlığı hesaplama teknolojisi ile birden fazla modelden oluşan maksimum eğitilebilir Parti'nin iyileştirilmesi

Açık kaynak kolay değil, uçan kürekler hızlanıyor, sadece nimetler

2013 yılında Baidu, derin öğrenme çerçevesi PaddlePaddle'ı geliştirmeye başladı ve arama gibi temel işler için DNN modelleri piyasaya sürüldü.

Baidu, 2016'da Baidu Dünya Konferansı'nda PaddlePaddle'ın açık kaynak olduğunu duyurdu ve yerel bir açık kaynak derin öğrenme platformunun doğuşunu işaret etti.

2019'da PaddlePaddle, tamamen işlevsel, endüstriyel düzeyde açık kaynaklı bir açık platforma yükseltilen ve teknoloji ve endüstriyel ekoloji yapısını artıran Çince "Flying Paddle" adını piyasaya sürdü.

Doğru yolda birkaç yıl geçtikten sonra, uçan kürek hızlanmaya başladı.

Bununla birlikte, bu başarıların elde edilmesi kolay değildir, çünkü açık kaynak, ekolojik yapının çok küçük bir parçasıdır, ticari şirketler genellikle girdi-çıktı oranını göz önünde bulundurmak ve kendi derin öğrenme çerçevelerini geliştirmek zorundadır, yalnızca yapay zekanın kapsamlı teknik gücünü değil, aynı zamanda geliştirmeyi de gerektirir. Kaynaklar yıl boyunca yatırılmaya devam ediyor ve şu anda dünyada Google, Facebook ve Baidu gibi yalnızca birkaç büyük AI devi bu yönde yatırım yapmaya devam ediyor.

Bir derin öğrenme çerçeve ürünü, geliştiricilerin çoğunluğu tarafından, yalnızca kapsamlı teknik rekabet gücü, kullanıcı ihtiyaçlarının uzun vadede sürekli olarak parlatılması, çerçeve etrafında yukarı ve aşağı akış ekosistemi oluşturma ve ardından yüksek engellerle kapsamlı bir rekabet gücü oluşturma temelinde tanınmalıdır.

Derin bir öğrenme çerçevesi oluşturmak için hiçbir kısayol yoktur. Gerçek bir endüstriyel düzeyde derin öğrenme çerçevesi oluşturmak daha da zordur.Baidu Feida ve yeni gelenlere diliyorum.

HOGWILD !: Stokastik Gradyan İnişini Paralelleştirmeye Kilitsiz Bir Yaklaşım Feng Niu, Benjamin Recht, Christopher Re, Stephen J. Wright

Derin Gradyan Sıkıştırma: Dağıtılmış Eğitim için İletişim Bant Genişliğini Azaltma Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally

Yerel SGD Hızlı ve İletişimi Az Buluşturuyor Sebastian U. Stich

Alt Doğrusal Bellek Maliyetiyle Derin Ağların Eğitimi. Tianqi Chen, Bing Xu, Chiyuan Zhang, Carlos Guestrin

Ödemek? reklam? Bağış? Açık kaynak yazılımı nasıl canlı tutabilirim?
önceki
350.000 satır kod, ağır açık kaynaklı Tianyuan derin öğrenme çerçevesini küçümsüyor, geliştirme sağlamak için dört ana özellik
Sonraki
Tsinghuanın "Jitu" ve "Tianyuan" büyük ölçüde açık kaynaklıdır ve yerel derin öğrenme çerçeveleri burada
Şaşırdınız, bu şekilde bir Redis kümesi oluşturabilir misiniz?
Programcılar, 60.000 yuan'ın başındaki Pekin konut fiyatları için kendi evlerini nasıl yapabilirler?
Tsinghua Xueba Group'un endüstriyel AIoT girişimleri on milyonlarca finansman alıyor: oyuncular uç AI çiplerinde algoritmaları teşvik etmelidir
Python öğrenin, bu 22 pakette nasıl ustalaşamazsınız?
Alibaba "Pinduoduo çalışanı Taobao hesabı bloke edildi" yanıtını verdi; WeChat ve Facebook yeni taç virüsü hackathonunu birlikte organize etti; Kubernetes 1.18 yayınlandı | Geek Manşetleri
Bu nihai Docker komutu öğreticisini öğrenmek için yalnızca 8 adım
Siri, 911'i otomatik olarak arar, Google bir tarama web sitesi oluşturur, IBM ilaç bileşenlerini test eder, uluslararası salgın önleyici eylem
ByteDance Wuhan 2.000 kişiyi işe alıyor ve büyük fabrika teklifinden uzaktaysanız, bu Java kuru mallarından eksiksiniz! | Güç Projesi
İşletmeniz hangi durumlarda yapay zekaya ihtiyaç duyar? | Milyonlarca insan AI öğreniyor
Canlı vücut algılama, yüz karşılaştırması ... Megvii FaceID'yi nasıl yapıyor? | Milyonlarca insan AI öğreniyor
Kıdemli Microsoft Araştırmacısı Interleaved Group Convolution'a Dayalı Verimli DNN'yi Açıkladı | Milyonlarca Kişi AI'yı Öğreniyor
To Top