ICLR 2020 | Reformer, verimli bir Transformatör

Bu makale, ICLR2020'nin seçilmiş sözlü makalesi olan "Reformer: The Efficient Transformer" ı tanıtıyor, yazar UC Berkeley ve Google Brain'den geliyor.

Yazar | Li Guangming

Düzenle | Kongun Sonu

Kağıt adresi: https://openreview.net/pdf?id=rkgNKkHtvB

Transformer, NLP'de yaygın olarak kullanılan olgun bir teknolojidir.Özellikle uzun sıralı metinler olmak üzere birçok görevde etkileyici sonuçlar elde etmiştir, ancak son derece hesaplama yoğun ve bellek yoğundur.Transformer ağının ilk katmanındaki parametre miktarı yaklaşık 0,5'tir. B. 2G bellek alanı gereklidir.Tek katmanlı bir ağın Transformatörü yine de tek bir makinede karşılanabilir, ancak aşağıdaki hususlar göz önüne alındığında, tüm Transformer ağının ihtiyaç duyduğu kaynaklar şaşırtıcıdır:

  • N katmanlı bir ağ, bir katmanın gerektirdiği belleğin N katından daha fazla bellek kaynağı gerektirir, çünkü etkinleştirme sonuçlarının aynı anda depolanması ve geri yayılma sırasında kullanılması gerekir.

  • Transformatör ileri beslemeli tam bağlı sinir ağının genişliği (sinir birimlerinin sayısı), daha fazla bellek tüketimi gerektiren dikkat etkinleştirme genişliğinden (gömme boyutu olarak anlaşılabilir) fazladır.

  • L uzunluğundaki bir dizi için, Dikkat katmanının karmaşıklığı, bunun uzun sıralı metin işleme için kabul edilemez olmasıdır.

Yukarıdaki sorunlara yanıt olarak, bu makale yukarıda belirtilen sorunları aşağıdaki teknolojiler aracılığıyla çözer:

  • Standart artık katmanı değiştirmek için tersine çevrilebilir artık katmanı kullanın Eğitim aşamasında, N katman yerine yalnızca bir katmanın etkinleştirme sonuçlarının saklanması gerekir (N, ağ katmanlarının sayısıdır) (ağdaki N'nin katlarını ortadan kaldırır).

  • İleri beslemeli tam bağlı katmanın etkin bölümünü ayırın ve bellek tüketimini ortadan kaldırmak için bloklar halinde işleyin.

  • Dikkat bölümünü (esas olarak nokta üründen) hesaplamanın karmaşıklığını (burada L, sıra uzunluğunu temsil eder) olarak azaltmak için Yerel Hassas Karma (LSH) teknolojisini kullanın.

1 LSH Dikkat

Transformatörün dikkat hesaplama formülü (kodlayıcı ve kod çözücü aynıdır) aşağıdaki gibidir:

Q, K ve V şekillerinin hepsinin olduğunu varsayın. Hesaplama karmaşıklığı esas olarak şekilden kaynaklanır. 64k uzunluktaki bir diziyi işlerken, 1 bile olsa, 64k * 64k kayan matris, genellikle kesilmeyen 16G bellek gerektirir Pratik.

Aslında, matrisin bellekte saklanması gerekmez, sadece her sorgunun hesaplanması

Daha fazla analiz, aslında, tüm tuşların sonuçlarını hesaplamak gerekli değildir, çünkü nokta ürünün maksimum değeri, dikkatin sonucu üzerinde en büyük etkiye sahip olan softmax'tan sonra en büyük ağırlığı alacaktır, bu nedenle yalnızca benzer tuşlara dikkat etmeniz gerekir ( Verimliliği büyük ölçüde artırabilen daha büyük nokta ürün değeri). LSH, en yakın komşuları bulmanın etkili bir yoludur.Her vektöre bir hash değeri atar ve yakın olan bir vektörün aynı hash değerini elde etme olasılığı yüksek olurken, uzaktaki bir vektör farklı olacaktır.

Yukarıdaki şekil LSH'nin basit bir diyagramıdır.Şemanın üst kısmında x ve y komşu değildir, bu nedenle üç rastgele dönüşten sonra iki çıkıntı farklıdır ve diyagramın alt kısmında x ve y çok yakındır. Üç rastgele rotasyondan sonra, üç projeksiyon da aynıdır Bu LSH'nin temel prensibidir.

LSH dikkatini hesaplamak için, yeniden yazılan ilk dikkat hesaplaması aşağıdaki gibidir:

Bunların arasında, dikkat edilmesi gereken anahtar kümesi, yazma kolaylığı açısından burada atlanan bir bölümleme işlevidir (softmax'ın paydası olarak anlaşılabilir). Toplu işlemenin rahatlığı için formül ayrıca şu şekilde değiştirilmiştir:

Bunların arasında daha büyük bir küme vardır (tam küme olarak anlaşılabilir) Formülden, eğer ona ait değilse, maskelenen karşılık gelen anahtarın eşdeğeri olan pozitif sonsuza (0'a yakın) ayarlandığı görülebilir. LSH'nin rolü üretmektir. Dikkat hesaplamasına yalnızca aynı Karma grubundaki anahtarlar katılır ve bu durum şunları tatmin eder:

Aşağıdaki şekil, geleneksel katsayı dikkat matrisini ve Hash kovasına göre sıralandıktan sonra dikkat matrisini göstermektedir. Hash değeri bölümünün düzensiz olabileceği şekilden görülebilir (birden çok kova arasında toplu işlem daha zordur ) ve bir bölümdeki sorguların ve anahtarların sayısı mutlaka eşit değildir ve kovada yalnızca sorguların olduğu ancak anahtarların olmadığı durumlar bile olabilir.

Bu sorunu çözmek için önce garantiyi geç. Daha sonra sorgular, kova numarasına ve kova içindeki sıra konumuna göre iki katman halinde sıralanır.Sıralamadan sonra yeni bir sıralama elde edilebilir.Aşağıdaki Şekil c'de gösterildiği gibi, aynı kepçenin köşegeninin yakınında dikkat matrisi toplanacaktır ( Q = K, metindeki ayar, deneysel aşama bu ayarın çok fazla etkiye neden olmayacağını doğrular), ardından aşağıdaki Şekil d'de gösterildiği gibi, sıralamadan sonra m ardışık bloğun birbiriyle ilişkili olmasını sağlamak için bir toplu işleme yöntemi tanımlayabilirsiniz. Gösterildiği gibi, ilişkilendirme kuralı aşağıdaki blokların yalnızca bir blok ileriye gitmesi gerektiğidir ve ayarlar aşağıdaki gibidir:

Bunlar arasında (namlu uzunluğunun ortalama namlu uzunluğunun iki katını aşma olasılığının çok küçük olduğu düşünülmektedir)

LSH dikkatinin tüm işlem akışı aşağıdaki şekilde gösterilmektedir:

Tek bir Karma işlevinin, benzer öğelerin aynı paket içinde sınıflandırılamama olasılığı hala düşüktür. Bu sorun, birden çok Karma işlevi turu aracılığıyla önlenebilir. Birden çok Karma turu, aşağıdakiler dahil farklı Karma işlevlerini kullanır:

onların arasında

Birden fazla Hash işlemi turu paralel olabilir.

2 Tersinir Trafo

Tersinir artık ağ fikri, gradyan geri yayıldığında, müteakip ağ katmanının, yalnızca model parametrelerine güvenerek belirli bir katmanın aktivasyon sonucunu geri yüklemek için kullanılabilmesi ve böylece bellek alanından tasarruf edilmesidir. Standart artık katman, bir girdiden bir çıktıya bir eşlemedir, tersine çevrilebilir katmanın girdisi ve çıktısı çiftlenir: Hesaplama formülü aşağıdaki gibidir:

Ters işlem, kalıntıların azaltılmasıyla gerçekleştirilir:

Tersine çevrilebilir artık ağ fikrini Transformer'a uygulayın, Dikkat katmanını ve İleri Besleme katmanını tam olarak birleştirin, yukarıdaki formül Dikkat katmanı olur ve İleri Besleme katmanı olur, bu nedenle şunlar vardır:

3 blok

Transformer ileri besleme ağının ara vektör boyutu veya hatta daha yüksek boyutu hala hafızayı kaplar; aslında, dizideki farklı konumlardaki metin tamamen bağımsız olarak hesaplanabilir, böylece paralel hesaplama için birden çok bloğa bölünebilir:

Yukarıda bahsedilen BP işleminin tersine çevrilebilir çalışması da bloklar halinde paralelleştirilebilir.

4 deney

Deneysel aşamada, iki veri seti, imagenet64 ve enwik8-64K, tersinir katmanın ve paylaşılan Q-K'nin (Q = K) model etkisini etkilemeyeceğini doğrulamak ve ardından Hash Attention ve tüm Reformer mimarisinin sonuçlarını analiz etmek ve doğrulamak için kullanılacaktır. Aşağıdaki şekildeki şaşkınlık eğrisi (burada modelin kalitesini değerlendirmek için kullanılan bilgi teorisindeki olasılık dağılım tahmininin bir göstergesi), ikideki normal artık katmana kıyasla paylaşılan QK'yi bağımsız QK'ye (solda) ve ters çevrilebilir katmana (sağda) gösterir. Veri seti üzerindeki etkisi, paylaşılan QK ve tersine çevrilebilir katman kullanımının model doğruluğunda bir azalmaya yol açmadığı şekilden görülebilir.

Aşağıdaki şekil LSH Dikkatinin etkisini göstermektedir: Hash fonksiyonlarının miktarı arttıkça, LSH Attention'ın doğruluk kaybı azalır Hash fonksiyonlarının miktarı 8'e ulaştığında, temelde tam dikkatin etkisi ile aynıdır.

Yukarıdaki şekil ayrıca hash fonksiyonunun miktarının (bir hiperparametre olarak düşünülebilir) Reformer'ın genel etkisini etkileyeceğini ve ayrıca Reformer'ın performansını da etkileyeceğini göstermektedir.Aşağıdaki şekil hash fonksiyonunun miktarının performans üzerindeki etkisini göstermektedir:

Sekans uzunluğu artmaya devam ettikçe, tüm dikkat modeli daha yavaş ve yavaşlarken, Reformer temelde çok fazla değişmez ve hızlanma etkisi çok açıktır.

ICLR 2020 makale serisinin yorumlanması

0 ICLR 2020 konferans haber raporu

Salgın ciddi, ICLR2020 sanal bir konferans düzenleyecek ve Afrika'nın ilk AI uluslararası zirvesi sırılsıklam olacak

Salgından etkilenen ICLR aniden çevrimiçi moda geçti. 2020 zirvenin değişim yılı mı olacak?

Popüler grafik makine öğrenimi, ICLR 2020'deki araştırma trendleri nelerdir?

1. Canlı yayın

Tekrar | Huawei Noah's Ark ICLR Full Score Paper: Reinforcement Learning'e Dayalı Nedensel Keşif

2, Oral

01. Sözlü | Yansıtılmış üretken makine çevirisi modeli: MGNMT

02. Oral | Negatif çeşitlilik cehaletini hafifletmeden önce Ekstra Gauss

03. Oral | Ek geçitleme işlemleri uygulayın, LSTM biraz değiştirildi, performans Transformer-XL ile karşılaştırılabilir

04. Oral | Paralel Monte Carlo araması, performans kaybı olmadan, doğrusal hızlanma ve "Eksik Eğlence" nin 1000 seviyesini cesurca aşma!

05. Sözlü | Meta yoğunlaştırılmış öğrenme, soğuk su dolu bir tencerede başlatıldı: yuan-Q öğrenmesinden çok daha iyi değil

06. Oral | Derin, eşdeğer bir kapsül ağı oluşturmak için grup evrişimini kullanın

07. Oral | Google, dağıtılmış pekiştirmeli öğrenme çerçevesi SEED'i başlattı, performans "patlayıcı" IMPALA, binlerce makineye genişletilebilir, ancak aynı zamanda çok ucuz

3. Gündem

01. Gündem | Bu kadar çok model parametresi varken, genelleme yeteneği neden bu kadar güçlü?

02. Gündem | Adalet ve hassasiyet aynı derecede önemlidir! CMU, algoritma adaletini sağlamak için öğrenmede adil bir temsil yöntemi önerir

03. Gündem | Zayıf kombinasyon genelleme yeteneği? Derin öğrenme füzyon kombinasyonu çözücüyü kullanmayı deneyin

04. Gündem | NAS'ı hızlandırın, aramayı yalnızca 0,1 saniyede tamamlayın

05. Gündem | Washington Üniversitesi: Görüntü sınıflandırmada ulaşılabilir saldırılara karşı savunma (video yorumlama)

06. Gündem | Grafik sinir ağına dayalı geleneksel, endüktif matris tamamlamanın ötesinde

4. Afiş

01. Afiş | Huawei Noah: Zekice düşünme, NAS ve "yüzleşme" kombinasyonu hızı 11 kat artırıyor

02. Poster | Evrişimin yanı sıra, çok başlı öz-ilgi herhangi bir evrişim işlemini ifade edebilir

03. Poster | NAS çok zor, arama sonuçları rastgele örnekleme ile karşılaştırılabilir! Huawei 6 öneri veriyor

04. Poster | Tsinghua, yorumlanabilirliği öğrenmek için "nöron yürütme ağacını" kullanarak NExT çerçevesini önerdi

05. Poster | Google'ın son araştırması: "Bileşik diverjans" nicel modelle genelleme yeteneğini sentezleyin

06. Poster | Google'ın en iyi NLP ön eğitim modeli BERT'e karşı zafer, açık kaynaktır, tek kartlı eğitim yalnızca 4 gün sürer

07. Poster | FSNet: Evrişim çekirdek özeti kullanılarak derin evrişimli sinir ağlarının sıkıştırılması

08. Poster | "Eşzamanlı Ortalama Öğretim" çerçevesi, denetimsiz öğrenim için daha sağlam sözde etiketler sağlar

09. Poster | Hızlı Sinir Ağı Uyarlanabilir Teknoloji

CVPR 2020 Oral | İkili Şube Ağı BBN: Uzun Kuyruk Dağıtımı ile Gerçek Dünya Görevlerinin Üstesinden Gelmek
önceki
Shan Shiguang: Yapay zeka metodolojisinin güncellenmesi gerekiyor Salgından sonra yapay zeka nasıl gelişecek?
Sonraki
Today Paper | DeepCap; metin sınıflandırması; frekans etki alanı grafik dikkat ağı; 3D insan poz tahmini vb.
Canlı | Yang Qiang, WeBank Yapay Zeka Başkanı: Neden federal öğrenmeye ihtiyacımız var?
Süpüren robotun "gözlerinin" evrimsel tarihi
Canlı | Microsoft Super Mahjong AI Suphx Ar-Ge ekibi teknik ayrıntıları derinlemesine açıklıyor
Today Paper | ScrabbleGAN; UnrealText; izleme modeli; G2L-Net, vb.
Today Paper | Güçlendirmeli Öğrenme; Yeniden Yapılandırılabilir GAN'lar; BachGAN; Zaman Serisi Sınıflandırması, vb.
Today Paper | COVID-19; Derin İlgi Ağı; COVIDX-NET; Sahne Metni Geçişi, vb.
NLP'nin en iyi konferansları birbiri ardına ertelendi, COLING bunu Mart ayında ertelemeyi tercih etti ve ayrıca çevrimdışı konferanslar düzenledi
Evde kalırken egzersiz yapmak istersen ne yapmalı? Neden bu koşu bandını denemiyorsunuz | Titanium Geek
Bankacılık sektörü 2019'da 1.531 bilet çıkardı ve dönüşümün acısı devam ediyor
Hebei'den eşim Liu Yanli: Karavan kullanma ve ülke çapında canlı yayın yapma hayali
Redmi Lu Weibing: 5G cep telefonu K30 Pro 2999 yuan'da başlıyor. 2020'de Honor Titanium Express'i tamamen aşacak
To Top