Hinton Google Brain'in en son araştırması: 137 milyar parametreli süper büyük ölçekli sinir ağı

1 Yeni Zhiyuan derlemesi

Çok büyük ölçekli sinir ağı: seyrek kapılı karışık uzman katman

Özet

Bir sinir ağının bilgiyi absorbe etme yeteneği, parametrelerinin sayısıyla sınırlıdır. Birisi teorik olarak, hesaplama gücü gereksinimlerini önemli ölçüde artırmadan modelin kapasitesini büyük ölçüde artırmanın bir yolu olarak koşullu hesaplama kavramını önerdi. Koşullu hesaplamalarda, bazı ağ aktiviteleri örnek sayısına bağlıdır (örnek bazında aktif). Bununla birlikte, uygulamada, koşullu hesaplamalara ulaşmak için, algoritmalarda ve performansta hala büyük zorluklar vardır.

Bu araştırmada, bu sorunları hedefledik ve nihayet koşullu hesaplamanın uygulamadaki potansiyelini fark ettik.Model kapasitesini 1.000 kattan fazla geliştirdik ve aynı zamanda modern GPU kümelerinin hesaplama verimliliğinde sadece küçük bir kayba neden olduk. Binlerce ileri beslemeli alt ağdan oluşan Seyrek Kapılı Uzman Karışımı katmanı (MoE) öneriyoruz. Eğitilebilir geçitli ağ, bu uzman katmanların seyrek kombinasyonunu belirleyecek ve her örnek için kullanacaktır.

MoE'yi dil modelleme ve makine çevirisi görevlerine uyguluyoruz, burada model kapasitesi eğitim külliyatında bulunan büyük miktarda bilgiyi absorbe etmek için gerekli. Önerilen model mimarimizde, yığılmış LSTM katmanlarına 137 milyara kadar parametre evrişimli olarak uygulanır. Büyük ölçekli dil modelleme ve makine çevirisi karşılaştırma testlerinde, bu modeller daha düşük hesaplama maliyetiyle mevcut en iyi teknolojilerden daha iyi sonuçlar elde etmiştir.

1. Giriş ve ilgili çalışma

1.1 Koşullu Hesaplama (Koşullu Hesaplama)

Eğitim verilerinin ve model boyutunun kullanılması, derin öğrenmenin başarısının anahtarıdır. Veri seti yeterince büyük olduğunda, sinir ağının kapasitesini (parametre sayısını) artırmak, daha yüksek tahmin doğruluğu sağlayabilir. Bu, metin, resim, ses ve diğer alanlar dahil olmak üzere bir dizi araştırma alanında onaylanmıştır. Her örnek için tüm modelin etkinleştirildiği tipik bir derin öğrenme modeli için, eğitim maliyeti, model boyutundaki ve eğitim örneklerinin sayısındaki artış nedeniyle neredeyse ikinci dereceden artar. Ancak, bilgi işlem gücündeki ve dağıtılmış bilgi işlemdeki gelişmeler bu talebi karşılayamaz.

Hesaplama maliyetini orantılı olarak artırmadan modelin yeteneklerini geliştirmek için, önceki çalışmalar çeşitli koşullu hesaplama biçimleri önermiştir. Bu tasarımlarda, ağın çoğu örnek bazında aktif veya pasif olabilir. Geçiş kararları ikili, seyrek ve sürekli, stokastik veya deterministik olabilir. Kapılı karar verme eğitimi için pekiştirmeli öğrenme ve geri yayılım algoritmaları da birçok biçimde gelir.

Şekil 1: Döngüsel dil modeline gömülü Uzmanlar Karması (MoE) katmanı. Bu durumda, seyrek geçitleme işlevi, hesaplamayı gerçekleştirmek için iki uzman seçer ve bunların çıktısı geçit ağının çıktısı tarafından kontrol edilir.

Bu fikirler teoride iyi olmasına rağmen, şimdiye kadar hiçbir çalışma, model kapasitesini, eğitim süresini veya model kalitesini büyük ölçüde iyileştirdiklerini kanıtlamadı. Bunu aşağıdaki zorluklara bağlıyoruz:

  • Modern bilgi işlem cihazları, özellikle GPU'lar, hesaplamada (aritmetik) dallara ayırmaya (dallanma) göre çok daha hızlıdır. Daha önce bahsedilen çalışmaların çoğu bunu kabul eder ve ağın daha büyük parçalarını açmak / kapatmak için her bir kapılı kararı kullanmayı önerir.

  • Parti boyutları, parametre iletimi ve güncellemesinin maliyetini amorti ettikleri için ağ performansı için kritiktir. Koşullu hesaplama, ağın koşullu etkinleştirme bloğunun parti boyutunu azaltır.

  • Ağ bant genişliği bir darboğaz olabilir. Bir grup GPU, cihazlar arası toplu ağın bant genişliğinden binlerce kat daha fazla bilgi işlem gücüne sahip olabilir. Verimliliği hesaplamak için, hesaplamanın ağ talebine oranı bu oranı aşmalıdır. Gömme katmanı, bu problemin dezavantajı olan bir koşullu hesaplama biçimi olarak kabul edilebilir. Gömme işleminin genellikle ağ üzerinden iletilmesi gerektiğinden, etkileşim sayısı (parametrelerin sayısı gibi), hesaplama gücü yerine ağ bant genişliği ile sınırlıdır.

  • Böyle bir şemaya göre, her yığın ve / veya örneğin istenen seyrekliğini elde etmek için kayıp terimleri gerekli olabilir. Bengio ve diğerlerinin (2015) çalışmasında bu tür üç kayıp maddesi kullanılmıştır. Bu sorunlar, model kalitesini ve yük dengesini aynı anda etkileyebilir.

Model kapasitesi, çok büyük veri kümeleri için en kritik olanıdır. Koşullu hesaplama ile ilgili önceki çalışmalar, daha küçük bir görüntü tanıma veri setinden oluşan 600.000 görüntü içeren bir veri setini içerir. Bu görüntülerin etiketlerinin, milyonlarca hatta milyarlarca parametreye sahip modelleri yeterince eğitmek için yeterli sinyal sağladığını hayal etmek zor.

Bu araştırmada, yukarıda belirtilen tüm zorlukları ilk kez çözdük ve sonunda koşullu hesaplamaların faydalarını fark ettik. Hesaplama verimliliğinde yalnızca küçük bir kayıpla model kapasitesini 1.000 kattan fazla artırdık ve genel dil modelleme ve çeviri veri setlerinde optimum sonuçları önemli ölçüde iyileştirdik.

1.2 Yöntemimiz: Seyrek Kapılı Uzman Karışımı katmanı

Koşullu hesaplama yöntemimiz, yeni bir tür genel sinir ağı bileşeni önermektir: seyrek kapılı karma uzman katmanı (MoE). MoE birçok uzmandan oluşur ve her uzmanın basit bir ileri beslemeli sinir ağı ve her girdiyi işlemek için seyrek bir uzman kombinasyonu seçen eğitilebilir bir geçit ağı vardır (bkz. Şekil 1). Ağın tüm bölümleri, geri yayılım yoluyla birlikte eğitilir.

Önerdiğimiz teknoloji evrensel olsa da, bu araştırmada çok büyük modellerden faydalandığı kanıtlanmış dil modelleme ve makine çevirisi görevlerine odaklanıyoruz. Şekil 1'de gösterildiği gibi, yığılmış LSTM katmanları arasına evrişimli bir MoE (Hochreiter & Schmidhuber, 1997) uyguluyoruz. MoE, metindeki her pozisyon için bir kez çağrılır ve her pozisyonda farklı bir uzman kombinasyonu seçilebilir. Sözdizimi ve anlambilime dayalı olarak (bkz. Ek E Tablo 9), farklı uzmanlar oldukça uzmanlaşabilir. Dil modelleme ve makine çevirisi karşılaştırmalarında, küçük bir hesaplama maliyetiyle yayınlanan en iyi sonuçlardan daha iyi performans elde ettik.

2. MEB katmanının yapısı

Uzmanların karma (MoE) katmanı, çıktısı seyrek bir n boyutlu vektör olan bir dizi n "uzman ağ" E1, ..., En ve "geçitli ağlardan" G oluşur. Şekil 1, MoE modülünün yapısını göstermektedir. Her uzman aynı zamanda bir sinir ağıdır ve kendi parametrelerine sahiptir. Prensipte sadece uzmanların aynı büyüklükte girdileri kabul etmesi ve aynı büyüklükte çıktılar üretmesi gerekmesine rağmen, bu makalenin ön incelemesinde, durumu bu modellerin aynı mimariye sahip ileri beslemeli ağlar olması, ancak parametrelerin birbirinden bağımsız olmasıyla sınırlandırıyoruz.

2.1 Kapılı ağ

Softmax geçitleme Seyrek olmayan geçitleme fonksiyonunun basit seçimi (Jordan ve Jacobs, 1994), girdiyi eğitilebilir ağırlık matrisi Wg ile çarpmak ve ardından Softmax fonksiyonunu uygulamaktır.

Gürültülü Top-K Geçidi Softmax geçitli ağa iki bileşen ekledik: seyreklik ve gürültü. Softmax işlevini gerçekleştirmeden önce, ayarlanabilir Gauss gürültüsü ekleriz, sonra sadece ilk k değerlerini tutarız ve geri kalanını - olarak ayarlarız (bu, karşılık gelen geçit değerinin 0'a eşit olmasına neden olur). Seyreklik, bilgi işlem gücünden tasarruf sağlayabilir. Bu seyreklik biçimi, geçitleme fonksiyonunun çıktısında bazı teorik süreksizlikler üretmesine rağmen, bunun pratikte bir sorun haline geldiğini gözlemlemedik. Gürültü terimi, yük dengelemesine katkıda bulunur. Her bileşendeki gürültü miktarı, eğitilebilir ağırlıklara sahip ikinci matris Wnoise tarafından kontrol edilir.

Kapılı ağı eğitin Geçitli ağı ve modelin geri kalanını eğitmek için basit geri yayılım kullanıyoruz. K seçersek > 1, o zaman ilk k uzmanlarının geçit değeri, kapılı ağın ağırlığına göre sıfır olmayan bir türeve sahiptir. Bu tür davranış, gürültü redresörleri üzerine yapılan araştırmada (Bengio ve diğerleri, 2013) açıklanmıştır. Gradyan ayrıca geçitli ağ üzerinden girişine geri yayılır. Yaklaşımımız (Bengio ve diğerleri, 2015) 'den farklıdır, Boolean kapıları ve geçitli ağı eğitmek için REINFORCE tarzı bir yöntem kullanırlar.

3. Performans Zorluğu

3.1 Toplu işleme sorunları

Modern CPU'larda ve GPU'larda, hesaplama verimliliği için büyük miktarda toplu işlem gereklidir, böylece parametre yükleme ve güncellemenin ek yükü paylaşılabilir. Kapılı ağ, her numune için n uzmandan k'yi seçerse, bir parti numunesi için, her bir uzmanın aldığı parti, b numunelerinden çok daha küçüktür. Sonuç olarak, uzman sayısı arttıkça, Naif MoE'nin uygulanması çok verimsiz hale geliyor. Bu küçülen parti probleminin çözümü, orijinal parti boyutunu mümkün olduğu kadar büyük yapmaktır. Bununla birlikte, parti boyutu çoğunlukla ileri ve geri depolama arasında etkinleştirme için gereken bellekle sınırlıdır. Bu nedenle, parti boyutunu artırmak için aşağıdaki teknikleri öneriyoruz:

Veri Paralelliği ile Model Paralelliğini Karıştırma: Geleneksel bir dağıtılmış eğitim ortamında, farklı cihazlardaki çoklu model kopyaları, farklı veri yığınlarını eşzamansız olarak işler ve parametreleri bir dizi parametre sunucusu aracılığıyla senkronize eder. Teknolojimizde, bu farklı gruplar eşzamanlı olarak çalışır, böylece bir MoE katmanında birleştirilebilirler.

Evrişim kullanın: Dil modelimizde, aynı MoE'yi üst katmanın her zaman adımına uyguluyoruz. Bir önceki katmanın tamamlanmasını beklersek, MoE'yi büyük bir parti olarak kullanabilir ve tüm zaman adımlarına uygulayabiliriz. Bunu yapmak, giriş MoE katmanı parti boyutunu bir n faktörü ile artıracaktır, burada n = açılma zaman adımlarının sayısı.

Tekrarlayan MoE katmanının parti boyutunu artırın: Daha güçlü modellerin MoE'yi döngüsel olarak kullanması gerekebileceğini düşünüyoruz. Örneğin, MoE, LSTM veya diğer RNN'lerin ağırlık matrisini değiştirmek için kullanılabilir. Ne yazık ki, bunu yapmak, yukarıda bahsedilen evrişim kullanımını ortadan kaldıracaktır, çünkü bir zaman adımında MoE'ye sağlanan girdi, önceki zaman adımındaki MoE'nin çıktısına bağlıdır. Gruslys ve diğerleri (2016), ileri aktivasyonları yeniden hesaplayarak genişletilmiş RNN'de depolanan aktivasyonların sayısını büyük ölçüde azaltan bir tekniği açıklar. Bu teknolojiyi kullanmak, toplu işlem hacmini büyük ölçüde artırabilir.

3.2 Bant genişliği

Dağıtılmış hesaplamadaki diğer bir önemli performans sorunu, ağ bant genişliğidir. Uzman sabit olduğundan (yukarıya bakın) ve geçitleme parametrelerinin sayısı az olduğundan, çoğu bilgi aktarımı, uzmanın giriş ve çıkışının ağa gönderilmesini gerektirir. Hesaplama verimliliğini korumak için, uzman hesaplamasının girdi ve çıktısının boyutuna oranı, hesaplama ekipmanının ağ kapasitesine oranını aşmalıdır. GPU'lar için bu binde bir olabilir. Deneyde, bir uzman ve onbinlerce RELU aktivasyon birimi içeren gizli bir katman kullanıyoruz, böylece hesaplamanın girdi ve çıktıya oranı gizli katmanın boyutuna eşittir. Bu nedenle, daha büyük bir gizli katman kullanarak veya daha gizli katmanlar kullanarak hesaplama verimliliğini artırabiliriz.

4. Uzman kullanımının dengelenmesi (Uzman kullanımının dengelenmesi)

biraz

5. Deneyler ve sonuçlar

5.1 Bir milyar dil modelleme karşılaştırması

Aşağıdaki şekil (Şekil 2) MoE'nin 1 milyar kelime dili modelleme karşılaştırması ve mevcut en son teknoloji üzerindeki sonuçlarının bir karşılaştırmasını göstermektedir. Soldaki grafik, benzer hesaplama bütçelerine sahip modeller için model kapasitesinin bir fonksiyonu olarak test karmaşıklığı eğrisidir (zaman adımı başına yaklaşık 8 milyon işlem). Sağdaki şekil, bütçenin hesaplanmasının bir fonksiyonu olarak test şaşkınlığıdır. Aşağıdaki şekilde, üstteki satır LSTM modelini (Jozefowicz vd., 2016), alt satır ise farklı hesaplama bütçelerine sahip 4 milyar parametreli MoE modelini temsil etmektedir.

Tablo 1: Farklı hesaplama bütçelerine ilişkin yüksek kapasiteli MoE geliştirme modelinin sonuçlarının daha önce yayınlanan en iyi sonuçlarla karşılaştırılması (Jozefowicz vd., 2016).

5.2100 milyar kelime Google Haberler veritabanı

Şekil 3, 10 milyar kelime (üst satır) ve 100 milyar kelimelik (alt satır) veriler üzerinde eğitimden sonra hacmin bir fonksiyonu olarak test karışıklığını göstermektedir. Eğitim verisi 100 milyar kelimeyi aştığında, test şaşkınlığı 65536 uzmana (68 milyar parametre) önemli ölçüde yükselir; bu, eşleşmeyi hesaplamak için taban çizgisinden% 39 daha düşüktür, ancak 131072 uzman azalır, bu da çok yüksek seyreklik olabilir. . İki hat arasındaki boşluğun genişlemesi, artan model yeteneklerinin daha büyük eğitim setleri için faydalı olduğunu göstermektedir. 65536 uzman üzerinde bile (% 99,994 katman seyrekliği), bu modelin hesaplama verimliliği 0,72 TFLOPS / GPU'da korunabilir.

Şekil 3: 100 milyar kelimelik bir külliyat üzerinde dil modellemesi. Modelin benzer bir hesaplama bütçesi vardır (8 milyon işlem / zaman adımı).

5.3 WMT'14 İngilizce-Fransızca çeviri, İngilizce-Almanca çeviri ve Google Prodüksiyon İngilizce-Fransızca çeviri sonuçları

5.4 Çok makineli çeviri sonuçları

Kağıt adresi: https://arxiv.org/pdf/1701.06538v1.pdf

İlgili tartışma

Denny Britz: Bu çalışma bana Otoyol Ağlarını hatırlatıyor, ancak ek kısıtlamalar getiriyor ve bilgi işlem gücünden tasarruf etmek için geçitli seyreklik kullanıyor. Yazar, her bir alt ağın (uzman) yapısı farklı olduğunda ne olacağını tartışırsa daha iyi olur.

Smerity: Google, makine çevirisi ve dil modellemede en gelişmiş teknolojileri uygulamak için milyarlarca parametre kullanır. Modelin yapısının bir kısmının esnek kullanımı (süper büyük ölçekli ile aynı zamanda), toplam hesaplama miktarını işlemeyi oldukça kolaylaştırır!

[Xinzhiyuan'ın resmi hesabını girin, kağıdı indirmek için iletişim kutusuna "0125" girin]

[AI Unicorn'u Arıyor] Xinzhiyuan, 10 büyük başkentle güçlerini birleştirdi

2017 Girişimcilik Yarışması'nı başlatın

AI Girişimcilik Yarışması, Xinzhiyuan ve 10 ana akım AI girişim sermayesi kuruluşundan oluşur: Blue Run Ventures, Sequoia Capital China Fund, Hillhouse Smart Artificial Intelligence Fund, Blue Lake Capital, Blue Elephant Capital, IDG Capital, Gaorong Capital, CITIC Jiantou Securities, Mingshi Capital ve Songhe Yuanwang Fund tarafından ortaklaşa başlatılan, Xinzhiyuan sponsorluğunda, Pekin Zhongguancun Bilim Parkı Yönetim Komitesi ve Zhongguancun Bilim Parkı Haidian Park Yönetim Komitesi tarafından desteklenen, AI teknoloji liderleri ve yatırım liderlerinin bir araya gelmesidir. Büyük olay. Xinzhiyuan, risk sermayesi kaynaklarıyla geleceğin iddialı AI tek boynuzlu atlarına bağlanmak için güçlü bir fırsat sunuyor ve en iyi risk sermayesi TS sizi bekliyor.

Orijinal metni okumak ve çevrimiçi başvuru formunu doldurmak için makalenin altına tıklayın. Seçime katılmak için kayıt formu gereklidir.

Daha fazla bilgiye sahipseniz (BP, vb.), Xzy100@aiera.com.cn adresine gönderebilirsiniz.Lütfen e-postanın konusuna şirket adını belirtin. Herhangi bir sorunuz varsa, posta kutusuna bir mektup da gönderebilirsiniz.

ABD doları, dünyadaki birçok ülke tarafından hayır demesini istedi, ancak Çin parası ABD borç temel kampında.
önceki
Hala kötü haber! Gümrük sert grevde, Pudong "Katliam" satın alıyor ~
Sonraki
Falcon Commando Özel Kuvvetlerinin yıllık Çince karakterleri yayınlandı, 2018'e cevap veriyorlar
Pekin kadar büyük, neden sayısız dünyada ilkler yarattı?
Başka yerlerdeki ihlaller için puan düşersem ne yapmalıyım?
EN İYİ 5 gezi noktasını seçin, Fransa'ya seyahat edin, sadece bunu toplayın!
Görünüşe göre görsel notlar hiç de zor değil Notes Academy
En Çinli kim | Avlu dışında bir çiçek
Çin, Rusya ve Hindistan, ABD dolarının "terk edilmesini" hızlandırmaya odaklanıyor olabilir ve Fed'in altını geri göndermeyi reddetme hakkı yoktur.
Şaşırdım! Ulusal Gün, az sayıda insanın olduğu ve daha ucuz olduğu bir yerdir ve şimdi başlamak hiç de gecikmiş değil!
1978 doğumlu | Zhu Ding: Denize bakan, tüm bahar çiçekleri açmıyor
Ekim ayında Nanyang'ı görün ve antik manzara yolculuğuna çıkın
Nesnelerin İnterneti altında istediğiniz "küresel köy" mü? İnsan 2.0
2018'de Jingdezhen'i etkilediler! Bugün, bu mücadelecilere haraç ödeyin!
To Top