Dağıtılmış derin öğrenmede yeni ilerleme: "dağıtılmış" ve "derin öğrenme" gerçekten derinlemesine bütünleşsin

Xinzhiyuan önerilir

Kaynak: Microsoft Research AI başlıkları (ID: MSRAsia)

Yazar: Chen Wei

Xin Zhiyuan Rehberi Son yıllarda derin öğrenme, NLP, görüntü tanıma, konuşma tanıma ve makine çevirisinde inanılmaz sonuçlar elde etti. Bununla birlikte, derin öğrenmenin uygulama kapsamı, veri miktarı ve modelin ölçeği ile giderek daha fazla sınırlanmaktadır. Derin öğrenme modellerini verimli bir şekilde nasıl eğitebiliriz? Microsoft Research Asia'nın makine öğrenimi grubundan sorumlu bir araştırmacı olan Chen Wei ve ekibi, makine öğrenimine ilişkin eksiksiz bir anlayışa dayanarak yeni bir gerçek entegre "dağıtılmış derin öğrenme" algoritmasını keşfetmek için dağıtılmış teknoloji ile derin öğrenmeyi yakından birleştirdi .

Büyük verilerin ve verimli bilgi işlem kaynaklarının ortaya çıkmasıyla birlikte derin öğrenme, yapay zekanın birçok alanında büyük atılımlar yaptı. Ancak, giderek karmaşıklaşan görevler karşısında, Veri ölçeği ve derin öğrenme modelleri giderek büyüyor . Örneğin, görüntü sınıflandırıcıları eğitmek için kullanılan etiketli görüntü verisi miktarı milyonlarca, hatta on milyonları bulmaktadır. Büyük ölçekli eğitim verilerinin ortaya çıkışı, büyük modellerin eğitimi için önemli bir temel sağlar.Bu nedenle, son yıllarda Microsoft Research Asia tarafından 20 milyardan fazla parametre ile geliştirilen LightLDA tema modeli gibi birçok büyük ölçekli makine öğrenimi modeli ortaya çıkmıştır. . ancak, Eğitim verilerinin kelime haznesi on milyonlara ulaştığında, budama yapılmazsa, derin öğrenme modelinde on milyarlarca, hatta yüz milyarlarca parametre olabilir. .

Derin öğrenme modellerinin eğitim verimliliğini artırmak ve eğitim süresini azaltmak için, dağıtılmış ve verimli bir şekilde mükemmel performansa sahip bir sinir ağı modelini eğitmek için aynı anda birden fazla çalışma düğümünü kullanarak eğitim görevlerini gerçekleştirmek için genellikle dağıtılmış teknolojiyi kullanırız. Dağıtılmış teknoloji, derin öğrenme teknolojisinin hızlandırıcısıdır Derin öğrenmenin eğitim verimliliğini önemli ölçüde artırabilir ve uygulama aralığını daha da artırabilir.

Derin öğrenmenin amacı, tahminlerde bulunmamıza yardımcı olmak için verilerden kalıplar çıkarmaktır. Derin öğrenme algoritmalarının genel çerçevesi, eğitim verilerindeki ampirik riski yinelemeli olarak en aza indirmek için optimizasyon algoritmalarını kullanmaktır. Verilerin istatistiksel özellikleri, optimizasyonun yakınsama özellikleri ve öğrenmenin genelleme özellikleri nedeniyle, çok makineli yürütmenin esnekliği daha yüksektir.Diğer hesaplama görevleriyle karşılaştırıldığında, derin öğrenme algoritmalarının paralel olarak yürütülmesine gerek yoktur. Hesaplama düğümü, algoritmanın bağımsız sürümünü iletişim yoluyla kesinlikle yürütür. Bu nedenle, "dağıtılmış" "derin öğrenme" ile karşılaştığında, yalnızca seri algoritmaların çoklu makine uygulaması teknolojisi ve temeldeki uygulama ile sınırlı kalmamalıyız, aynı zamanda makine öğreniminin tam olarak anlaşılmasına dayanmalıyız. Dağıtılmış ve derin öğrenmeyi yakından entegre edin ve yeni ve gerçekten entegre bir "dağıtılmış derin öğrenme" algoritması tasarlamak için derin öğrenmenin özelliklerini birleştirin.

Şekil 1 Dağıtılmış derin öğrenme çerçevesi

Dağıtılmış derin öğrenme çerçevesi, veri / model segmentasyonu, yerel tek makineli optimizasyon algoritması eğitimi, iletişim mekanizması ve veri / model birleştirme gibi modülleri içerir. Mevcut algoritmalar genellikle rastgele karıştırma ve bölümleme veri dağıtım yöntemlerini, rastgele optimizasyon algoritmalarının yerel eğitim algoritmalarını (stokastik gradyan yöntemleri gibi), eşzamanlı veya eşzamansız iletişim mekanizmalarını ve parametre ortalamasının model toplama yöntemlerini kullanır.

Microsoft Research Asia'nın makine öğrenimi ekibi, derin öğrenme algoritmalarının özelliklerini birleştirerek bu modülleri yeniden tasarladı / anladı. Dağıtılmış derin öğrenme alanında temel olarak üç çalışma yönü yaptık: İlk çalışma, asenkron mekanizmalardaki gradyan gecikme problemine yanıt olarak, derin öğrenme için "gecikme telafili asenkron algoritmalar" tasarladık. İkinci çalışmada, sinir ağlarının dışbükey olmayan doğasına dikkat ederek, parametre ortalamasından daha etkili olan entegre bir toplama yöntemi önerdik ve bir "entegre sıkıştırma" paralel derin öğrenme algoritması tasarladık. Üçüncü çalışmada, önce rastgele karıştırma ve segmentasyon altında dağıtılmış derin öğrenme algoritmalarının yakınsama oranını analiz ettik ve algoritma tasarımı için teorik rehberlik sağladık. .

DC-ASGD algoritması: Eşzamansız iletişimde gradyan gecikmesi telafisi

Stokastik Gradient Descent (SGD) şu anda en popüler derin öğrenme optimizasyon algoritmalarından biridir. Güncelleme formülü şöyledir:

Formül 1

Bunlar arasında, wt mevcut modeldir, (xt, yt) rastgele seçilmiş verilerdir, g (wt; xt, yt) mevcut model wt'ye göre (xt, yt) 'ye karşılık gelen ampirik kayıp fonksiyonunun gradyanıdır ve adım boyutu / Öğrenme oranı.

Sinir ağı modelini paralel olarak optimize etmek için stokastik gradyan yöntemini kullanan sistemde birden fazla çalışma düğümü olduğunu varsayarsak, senkronizasyon ve asenkron, yaygın olarak kullanılan iki iletişim senkronizasyon mekanizmasıdır.

Eşzamanlı SGD (Eşzamanlı SGD), her optimizasyon yinelemesinde, tüm hesaplama düğümlerinin gradyan hesaplamasını tamamlamasını bekler ve ardından her bir çalışma düğümünde hesaplanan rastgele gradyanları toplar ve ortalamasını alır ve modeli Formula 1'e göre günceller. Bundan sonra, çalışma düğümü güncellenmiş modeli alır ve bir sonraki yinelemeye girer. Sync SGD, tüm hesaplama düğümlerinin gradyan hesaplamasını tamamlamasını beklediğinden, varil etkisi gibidir Sync SGD'nin hesaplama hızı, en düşük hesaplama verimliliğine sahip çalışma düğümü tarafından aşağı sürüklenecektir.

Eşzamansız SGD (Eşzamansız SGD) her yinelemede, her bir çalışan düğüm, tüm hesaplama düğümlerinin gradyan hesaplamasını tamamlamasını beklemeden stokastik gradyanı hesapladıktan sonra modeli doğrudan günceller. Bu nedenle, asenkron stokastik gradyan iniş yöntemi daha hızlı bir yineleme hızına sahiptir ve ayrıca derin sinir ağlarının eğitiminde yaygın olarak kullanılmaktadır. Ancak, Async SGD hızlı olmasına rağmen, modeli güncellemek için kullanılan gradyan gecikir ve bu da algoritmanın doğruluğunu etkiler. "Gecikme gradyanı" nedir? Aşağıdaki resme bakalım.

Şekil 2 Asenkron stokastik gradyan iniş yöntemi

Eşzamansız SGD'nin çalışması sırasında, bir işçi düğümü İşçi (m), tinci yinelemenin başlangıcında modelin en son parametresini wt ve verilerini (xt, yt) alır, karşılık gelen rastgele gradyan gt'yi hesaplar ve Global modele güncelleme w. Gradyanı hesaplamak belirli bir süre aldığından, bu çalışma düğümü gt stokastik gradyanı döndürdüğünde, wt modeli diğer çalışma düğümleri tarafından turları için güncellenmiştir ve wt + olur. Başka bir deyişle, Async SGD'nin güncelleme formülü şöyledir:

Formül 2

Formül 1 ile karşılaştırıldığında, formül 2'de wt + modelini güncellerken kullanılan stokastik gradyan, SGD'de kullanılması gereken stokastik gradyan g (wt + ; xt + , yt) ile karşılaştırılan g (wt; xt, yt) 'dir. + ), adımlık bir gecikme üretir. Bu nedenle, Async SGD'deki stokastik gradyanı "gecikme gradyanı" olarak adlandırıyoruz.

Gecikme gradyanının neden olduğu en büyük sorun, modeli her seferinde güncellemek için kullanılan gradyanın doğru gradyan olmamasıdır (lütfen unutmayın g (wt; xt, yt) g (wt + ; xt + , yt + ) ), bu nedenle Async SGD modelin doğruluğuna zarar verir ve bu fenomen, makine sayısı arttıkça daha da ciddi hale gelecektir. Aşağıdaki şekilde gösterildiği gibi, hesaplama düğümlerinin sayısı arttıkça, Async SGD'nin doğruluğu kademeli olarak bozulur.

Şekil 3 Eşzamansız stokastik gradyan iniş yönteminin performansı

Peki, asenkron stokastik gradyan iniş yöntemi eğitim hızını korurken nasıl daha yüksek doğruluk sağlayabilir? Gradyan gecikmesini telafi edebilen bir DC-ASGD (Gecikme telafili Async SGD) algoritması tasarladık.

Doğru gradyan g (wt + ) ve gecikme gradyanı g (wt) arasındaki ilişkiyi incelemek için, wt'de g (wt + ) Taylor açılımını gerçekleştiriyoruz:

Bunlar arasında, g (wt), degradenin gradyanıdır; bu, kayıp fonksiyonunun Hessian matrisidir ve H (g (wt)), degradenin Hessian matrisidir. Açıktır ki, gecikme gradyanı aslında gerçek gradyanın sıfır dereceli bir yaklaşımıdır ve diğer öğeler gecikmeye neden olur. Bu nedenle, doğal bir fikir, tüm yüksek dereceli terimleri hesaplarsak, gecikme gradyanını doğru bir gradyan olarak düzeltebileceğimizdir. Bununla birlikte, geri kalan sonsuz terime sahip olduğundan, doğru bir şekilde hesaplanamaz. Bu nedenle, gecikme tazminatı için yukarıdaki formülde birinci dereceden terimi kullanmayı seçiyoruz:

Hepimizin bildiği gibi, modern derin sinir ağı modellerinde milyonlarca veya daha fazla parametre vardır.Hessian matris g (wt) 'yi hesaplamak ve saklamak neredeyse imkansızdır. Bu nedenle, Hessian matrisinin iyi bir yaklaşımını bulmak, gradyan gecikmesinin telafi edilip edilemeyeceğinin anahtarıdır. Fisher bilgi matrisinin tanımına göre, gradyanın dış çarpım matrisi

Bu, Hessen matrisinin asimptotik olarak tarafsız bir tahminidir, bu nedenle Hessian matrisine yaklaşmak için G (wt) kullanmayı seçiyoruz. Önceki çalışmalara göre, Hessian matrisinin köşegen öğeleri sinir ağı modelindeki Hessian matrisine yaklaşmak için kullanılırsa, işlem ve depolamanın karmaşıklığını önemli ölçüde azaltan meslektaşlar, algoritmanın doğruluğunu yine de koruyabilirler, bu nedenle diag (G (wt)) Hessian matrisinin bir yaklaşımı olarak. Yaklaşık varyansı daha da azaltmak için, sapma ve varyansı ayarlamak için (0,1> arasında bir parametresi kullanıyoruz.Özet olarak, aşağıdaki asenkron stokastik gradyan iniş yöntemini gecikme kompanzasyonlu (DC-ASGD) tasarlıyoruz,

Bunlar arasında, gecikme gradyanı g (wt) için telafi terimi, hesaplama ve depolama maliyetlerini neredeyse hiç artırmayan yalnızca bir adım bilgisi içerir.

DC-ASGD algoritmasını CIFAR10 veri seti ve ImageNet veri seti üzerinde değerlendirdik.Deneysel sonuçlar aşağıdaki iki şekilde gösterilmektedir.

Şekil 4 DC-ASGD_CIFAR-10'un eğitim / test hatası

Şekil 5 DC-ASGD_ImageNet'in eğitim / test hatası

Async SGD algoritması ile karşılaştırıldığında, DC-ASGD algoritmasının aynı zamanda elde edilen model doğruluğunda önemli bir iyileşmeye sahip olduğu ve temelde SGD ile aynı model doğruluğunu sağlayabilen Sync SGD'den daha yüksek olduğu görülmektedir.

Ensemble-Compression algoritması: dışbükey olmayan modellerin geliştirilmiş toplama yöntemi

Parametre ortalaması, mevcut dağıtılmış derin öğrenme algoritmalarında çok yaygın bir model toplama yöntemidir. Kayıp işlevi model parametrelerine göre dışbükey ise, aşağıdaki eşitsizlik geçerlidir:

Bunlar arasında K hesaplama düğümlerinin sayısı, wk yerel modeldir,

Parametre ortalamasından sonraki modeldir, (x, y) herhangi bir örnek veridir. Eşitsizliğin sol ucu, ortalama modele karşılık gelen kayıp fonksiyonudur ve sağ uç, her yerel modelin kayıp fonksiyonu değerinin ortalama değeridir. Dışbükey problemdeki ortalama parametrelerin modelin performansını koruyabildiği görülmektedir.

Bununla birlikte, dışbükey olmayan sinir ağı modelleri için, yukarıdaki eşitsizlik artık geçerli olmayacak, bu nedenle ortalama modelin performansı artık garanti edilmiyor. Bu aynı zamanda deneysel olarak da doğrulanmıştır: Şekil 6'da gösterildiği gibi, farklı etkileşim frekansları (özellikle daha düşük frekanslı etkileşimler) için, parametre ortalaması genellikle eğitim doğruluğunu büyük ölçüde azaltarak eğitim sürecini son derece istikrarsız hale getirir.

Şekil 6 Parametre ortalamasına (DNN modeli) dayalı dağıtılmış algoritma eğitim eğrisi

Bu problemi çözmek için, Dağıtılmış derin öğrenmede bir model toplama yöntemi olarak model ortalamasını model entegrasyonuyla değiştirmeyi öneriyoruz. Sinir ağının kayıp işlevi model parametrelerine göre dışbükey olmasa da, modelin çıktısı genellikle dışbükeydir (derin öğrenmede yaygın olarak kullanılan çapraz entropi kaybı gibi). Şu anda, aşağıdaki eşitsizlik dışbükeylik kullanılarak elde edilebilir:

Bunların arasında eşitsizliğin sol tarafı, topluluk modelinin kayıp fonksiyonunun değeridir. Dışbükey olmayan modeller için entegre modelin performansı koruyabildiği görülebilir.

Bununla birlikte, her entegrasyondan sonra, sinir ağı modelinin ölçeği iki katına çıkacak ve model ölçeğinde patlama sorunu ortaya çıkacaktır. Öyleyse, model entegrasyonunun avantajlarını kullanmanın ve modeli yükseltmekten kaçınmanın bir yolu var mı? Önerdik Hem model entegrasyonuna hem de model sıkıştırmaya dayalı bir model toplama yöntemi, yani topluluk sıkıştırma yöntemi. Her entegrasyondan sonra entegre modeli bir kez sıkıştırıyoruz.

Algoritma üç adıma bölünmüştür:

  • Her bilgi işlem düğümü, yerel optimizasyon algoritması eğitimine ve yerel verilere göre yerel bir model eğitir;

  • Hesaplama düğümleri arasındaki karşılıklı iletişimin yerel modelleri entegre modeli elde eder ve yerel veriler (bir kısmı) bunlara entegre modelin çıktı değeri ile işaretlenir;

  • Model sıkıştırma teknolojisi (bilgi damıtma gibi) kullanılarak, verilerin yeniden etiketleme bilgileri ile birlikte, her bir çalışan düğümde ayrı ayrı model sıkıştırması gerçekleştirilir ve nihai toplama modeli olarak yerel modelle aynı boyutta yeni bir model elde edilir. Hesaplama miktarından daha fazla tasarruf etmek için damıtma işlemi yerel model eğitim süreci ile birleştirilebilir.

  • Bu entegrasyon-sıkıştırma toplama yöntemi, yalnızca entegrasyon yoluyla performans iyileştirmeleri elde etmekle kalmaz, aynı zamanda yinelemeli öğrenme süreci sırasında küresel modelin ölçeğini de korur. CIFA-10 ve ImageNet üzerindeki deneysel sonuçlar, entegrasyon-sıkıştırma toplama yönteminin etkinliğini de doğrulamaktadır (bkz. Şekil 7 ve Şekil 8). Çalışan düğümler arasındaki iletişim sıklığı düşük olduğunda, parametre ortalama yöntemi kötü performans gösterir, ancak model entegrasyon-sıkıştırma yöntemi yine de ideal sonuçlar elde edebilir. Bunun nedeni ise Alt modellerin çeşitliliği olduğunda topluluk öğrenme daha iyidir ve daha düşük iletişim frekansı her yerel modelin daha dağınık ve daha çeşitli olmasına neden olur; aynı zamanda, daha düşük iletişim frekansı daha düşük iletişim maliyeti anlamına gelir. bu nedenle Model entegrasyon-sıkıştırma yöntemi, ağ ortamının nispeten zayıf olduğu senaryolar için daha uygundur.

    Şekil 7 CIFAR veri setinde çeşitli dağıtılmış algoritmaların karşılaştırması

    Şekil 8 ImageNet veri kümesindeki çeşitli dağıtılmış algoritmaların karşılaştırması

    Model entegrasyonuna dayalı dağıtılmış algoritma nispeten yeni bir araştırma alanıdır ve hala birçok çözülmemiş sorun vardır. Örneğin, çok sayıda çalışan düğüm olduğunda veya yerel modelin kendisi büyük olduğunda, entegre modelin ölçeği çok büyük hale gelecek ve bu da daha fazla ağ ek yükü getirecektir. Ek olarak, entegre model büyük olduğunda, model sıkıştırması da büyük bir ek yük haline gelecektir. ICLR 2018'de Hinton vd. Tarafından önerilen Co-distilasyon yönteminin motivasyonu bu çalışmadan farklı olsa da algoritmasının bu çalışmaya çok benzediğini belirtmekte fayda var. Bu ilişkilerin nasıl anlaşılacağı ve bu sınırlamaların nasıl çözüleceği yeni araştırmalara yol açacaktır ve ilgilenen okuyucular bunun hakkında düşünebilir.

    Rastgele yeniden düzenleme altında algoritmaların yakınsama analizi: geliştirilmiş dağıtılmış derin öğrenme teorisi

    Son olarak, dağıtılmış derin öğrenme teorisini geliştirmeye yönelik son çalışmalarımıza kısa bir giriş.

    Dağıtılmış derin öğrenmede yaygın olarak kullanılan veri tahsis stratejisi, rastgele yeniden düzenlemeden sonra eşit olarak bölmektir. Spesifik olarak, tüm eğitim verileri, verilerin yeniden düzenlenmesini elde etmek için rastgele karıştırılır ve daha sonra, veri seti sırasıyla eşit parçalara bölünür ve her kopya, hesaplama düğümünde saklanır. Veriler bir turu geçtikten sonra, tüm yerel veriler toplanırsa ve yukarıdaki işlem tekrarlanırsa, genellikle "global yeniden düzenleme" olarak adlandırılır, yalnızca kısmi veriler rastgele yeniden düzenlenirse, genellikle "yerel yeniden düzenleme" olarak adlandırılır.

    Mevcut dağıtılmış derin öğrenme teorilerinin çoğu, verilerin bağımsız ve aynı şekilde dağıtıldığını varsayar. Bununla birlikte, Fisher-Yates algoritmasına dayalı rastgele yeniden düzenleme aslında değiştirilmeden örneklemeye eşdeğerdir ve eğitim verileri artık bağımsız değildir ve aynı şekilde dağıtılmış değildir. Bu nedenle, her turda hesaplanan stokastik gradyan artık kesin gradyanın tarafsız bir tahmini değildir, bu nedenle önceki dağıtılmış stokastik optimizasyon algoritmasının teorik analiz yöntemi artık geçerli değildir ve mevcut yakınsama sonuçları hala geçerli olmayabilir.

    Transductive Rademancher Complexity'yi, kesin gradyanla ilgili stokastik gradyan sapmasının üst sınırını vermek ve rastgele yeniden düzenleme altında dağıtılmış derin öğrenme algoritmasının yakınsama analizini kanıtlamak için bir araç olarak kullanıyoruz.

    Amaç işlevinin düzgün (dışbükey olması gerekmez) varsayıldığında, sistemde K hesaplama düğümü vardır, eğitim turlarının sayısı (dönem) S'dir ve toplam eğitim verisi vardır, dağıtılmış SGD algoritmasını düşünün.

    (1) Global rastgele yeniden düzenleme veri tahsis stratejisi benimsenirse, algoritmanın yakınsama oranı

    , İ.i.d dışı doğanın neden olduğu ek hata

    . Bu nedenle, veri turlarının sayısı eğitim örneklerinin sayısından (S n) çok daha küçük olduğunda, ek hataların etkisi göz ardı edilebilir. Mevcut dağıtılmış derin öğrenme görevlerinde, S n'nin kolaylıkla tatmin edildiği göz önüne alındığında, küresel rastgele yeniden düzenleme, dağıtılmış algoritmanın yakınsama oranını etkilemeyecektir.

    (2) Yerel yeniden düzenleme stratejisi veri dağıtım stratejisi benimsenirse, algoritmanın yakınsama oranı

    İ.i.d olmayan doğanın daha büyük ek hata getirdiği

    . Bunun nedeni, rastgele yeniden düzenlemenin yerel ve yerel olarak gerçekleştirilmesi nedeniyle, farklı hesaplama düğümleri arasındaki verilerin etkileşime girmemesi, verilerin daha çeşitli olması ve rasgele gradyan sapmasının da daha büyük olmasıdır. Veri turlarının sayısı Sn / K2 olduğunda, ek hataların etkisi göz ardı edilebilir. Yani, yerel yeniden düzenleme veri tahsis stratejisi kullanılırken, algoritmadaki veri turlarının sayısı, hesaplama düğümlerinin sayısından etkilenir. Daha fazla bilgi işlem düğümü varsa, geçiş sayısı çok büyük olamaz.

    Şu anda, dağıtılmış derin öğrenme alanı çok hızlı gelişmektedir ve yukarıdaki çalışma, araştırma grubumuz tarafından yapılan sadece bazı ön keşiflerdir. Umarım bu makale, daha fazla araştırmacının "dağıtılmış" olanın "derin öğrenme" ile derinlemesine entegre edilmesi gerektiğini anlamasını sağlar ve herkes dağıtılmış derin öğrenmenin yeni gelişimini desteklemek için birlikte çalışır!

    Yazar hakkında:

    Chen Wei, Microsoft Research Asia Makine Öğrenimi Grubundan sorumlu bir araştırmacıdır.Özellikle derin öğrenme, pekiştirmeli öğrenme, dağıtılmış makine öğrenimi, oyun makinesi öğrenimi, sıralama öğrenimi vb. Konulara özellikle dikkat ederek makine öğreniminin çeşitli dallarında teorik açıklamalar ve algoritma iyileştirmeleri üzerinde çalışmaktadır. Chen Wei, Microsoft Research Asia'ya 2011 yılında katıldı ve makine öğrenimi teorisi projelerinden sorumludur.NIPS, ICML, AAAI, IJCAI gibi ilgili alanlarda en iyi uluslararası konferans ve dergilerde makaleler yayınlamıştır.

    Referanslar:

    • Shuxin Zheng, Qi Meng, Taifeng Wang, Wei Chen, Zhi-Ming Ma ve Tie-Yan Liu, Gecikme Telafili Asenkron Stokastik Gradyan İnişi, ICML2017

    • Shizhao Sun, Wei Chen, Jiang Bian, Xiaoguang Liu ve Tie-Yan Liu, Ensemble-Compression: Parallel Training for Deep Neural Networks, ECML 2017

    • Qi Meng, Wei Chen, Yue Wang, Zhi-Ming Ma ve Tie-Yan Liu, Karıştırma ile Dağıtılmış Stokastik Gradyan İnişinin Yakınsama Analizi, https://arxiv.org/abs/1709.10432

    (Bu makale, Microsoft Research AI başlıklarından yeniden basma yetkisine sahiptir)

    Topluluğa katıl

    Xinzhiyuan AI teknolojisi + endüstri topluluğunun işe alımında, AI teknolojisi + endüstrisiyle ilgilenen öğrenciler küçük bir WeChat asistanı hesabı ekleyebilirler: aiera2015_3 Gruba katılın; incelemeyi geçtikten sonra sizi gruba katılmaya davet edeceğiz. Topluluğa katıldıktan sonra, grup açıklamalarını değiştirmelisiniz (isim-şirket-pozisyon; profesyonel grup incelemesi katıdır, lütfen anlayın).

    Mitsubishi neden Eclipse Cross'u zorlamak zorunda?
    önceki
    Yaşa karşı çıkın! Su Bingtian 3 Ocak'ta Asya rekorunu kırdı ve bir sonraki hedefi sarı yarış için 100 metre rekorunu ele geçirmek.
    Sonraki
    Bir gezinin tadını çıkarmak için bu 18 yere gelmelisiniz.
    Bugatti Kehu'yu şok mu yapacaksın? Koenigsegg Regera yolda teslim edilecek
    İnanılmaz Su Bingtian! Bir ayda üç Asya rekoru kırıldı Çinli uçan adamın sınırı nerede?
    Python 3.7.0 burada!
    Kaptan ve hostes, gözlerini ziyafet çekerek fotoğrafları çekti!
    Audi A3'ten 150.000 kez bahsedilmesi sadece bir yuhalama mı? Lüks marka ipotekli araç alımlarının püf noktaları nelerdir?
    Google Cloud COO'su ayrıldığını veya CEO olarak görevi devralmak için Intel'e döneceğini onayladı
    Su Bingtian, Dünya Şampiyonası podyumunda ilk kez 60 metre gümüş madalya kazandı ve bir ayda üç kez Asya rekorunu kırdı.
    Porsche'yi bir arkadaşına ödünç vermiş, ancak arabayı iade etmek istemiş ancak 180.000 ödemiş
    Değerli dosyalar: Mao Zedong, 1949'da bir Yeni Yıl konuşması yaparak devrimin sonuna kadar taşınması çağrısında bulundu.
    Çin'in otomobil endüstrisindeki üç gizemli organizasyondan biri olan Shenzhen Sekizinci: Di Fan
    Hanchuan'da mutlaka yemeniz gereken birkaç kahvaltılık lezzet var, her zaman favorilerinizden biri var!
    To Top