Bu makale, ICLR2020'nin seçilmiş sözlü makalesi olan "Reformer: The Efficient Transformer" ı tanıtıyor, yazar UC Berkeley ve Google Brain'den geliyor.
Yazar | Li Guangming
Düzenle | Kongun Sonu
Kağıt adresi: https://openreview.net/pdf?id=rkgNKkHtvB
Transformer, NLP'de yaygın olarak kullanılan olgun bir teknolojidir.Özellikle uzun sıralı metinler olmak üzere birçok görevde etkileyici sonuçlar elde etmiştir, ancak son derece hesaplama yoğun ve bellek yoğundur.Transformer ağının ilk katmanındaki parametre miktarı yaklaşık 0,5'tir. B. 2G bellek alanı gereklidir.Tek katmanlı bir ağın Transformatörü yine de tek bir makinede karşılanabilir, ancak aşağıdaki hususlar göz önüne alındığında, tüm Transformer ağının ihtiyaç duyduğu kaynaklar şaşırtıcıdır:
N katmanlı bir ağ, bir katmanın gerektirdiği belleğin N katından daha fazla bellek kaynağı gerektirir, çünkü etkinleştirme sonuçlarının aynı anda depolanması ve geri yayılma sırasında kullanılması gerekir.
Transformatör ileri beslemeli tam bağlı sinir ağının genişliği (sinir birimlerinin sayısı), daha fazla bellek tüketimi gerektiren dikkat etkinleştirme genişliğinden (gömme boyutu olarak anlaşılabilir) fazladır.
L uzunluğundaki bir dizi için, Dikkat katmanının karmaşıklığı, bunun uzun sıralı metin işleme için kabul edilemez olmasıdır.
Yukarıdaki sorunlara yanıt olarak, bu makale yukarıda belirtilen sorunları aşağıdaki teknolojiler aracılığıyla çözer:
Standart artık katmanı değiştirmek için tersine çevrilebilir artık katmanı kullanın Eğitim aşamasında, N katman yerine yalnızca bir katmanın etkinleştirme sonuçlarının saklanması gerekir (N, ağ katmanlarının sayısıdır) (ağdaki N'nin katlarını ortadan kaldırır).
İleri beslemeli tam bağlı katmanın etkin bölümünü ayırın ve bellek tüketimini ortadan kaldırmak için bloklar halinde işleyin.
Dikkat bölümünü (esas olarak nokta üründen) hesaplamanın karmaşıklığını (burada L, sıra uzunluğunu temsil eder) olarak azaltmak için Yerel Hassas Karma (LSH) teknolojisini kullanın.
1 LSH Dikkat
Transformatörün dikkat hesaplama formülü (kodlayıcı ve kod çözücü aynıdır) aşağıdaki gibidir:
Q, K ve V şekillerinin hepsinin olduğunu varsayın. Hesaplama karmaşıklığı esas olarak şekilden kaynaklanır. 64k uzunluktaki bir diziyi işlerken, 1 bile olsa, 64k * 64k kayan matris, genellikle kesilmeyen 16G bellek gerektirir Pratik.
Aslında, matrisin bellekte saklanması gerekmez, sadece her sorgunun hesaplanması
Daha fazla analiz, aslında, tüm tuşların sonuçlarını hesaplamak gerekli değildir, çünkü nokta ürünün maksimum değeri, dikkatin sonucu üzerinde en büyük etkiye sahip olan softmax'tan sonra en büyük ağırlığı alacaktır, bu nedenle yalnızca benzer tuşlara dikkat etmeniz gerekir ( Verimliliği büyük ölçüde artırabilen daha büyük nokta ürün değeri). LSH, en yakın komşuları bulmanın etkili bir yoludur.Her vektöre bir hash değeri atar ve yakın olan bir vektörün aynı hash değerini elde etme olasılığı yüksek olurken, uzaktaki bir vektör farklı olacaktır.
Yukarıdaki şekil LSH'nin basit bir diyagramıdır.Şemanın üst kısmında x ve y komşu değildir, bu nedenle üç rastgele dönüşten sonra iki çıkıntı farklıdır ve diyagramın alt kısmında x ve y çok yakındır. Üç rastgele rotasyondan sonra, üç projeksiyon da aynıdır Bu LSH'nin temel prensibidir.
LSH dikkatini hesaplamak için, yeniden yazılan ilk dikkat hesaplaması aşağıdaki gibidir:
Bunların arasında, dikkat edilmesi gereken anahtar kümesi, yazma kolaylığı açısından burada atlanan bir bölümleme işlevidir (softmax'ın paydası olarak anlaşılabilir). Toplu işlemenin rahatlığı için formül ayrıca şu şekilde değiştirilmiştir:
Bunların arasında daha büyük bir küme vardır (tam küme olarak anlaşılabilir) Formülden, eğer ona ait değilse, maskelenen karşılık gelen anahtarın eşdeğeri olan pozitif sonsuza (0'a yakın) ayarlandığı görülebilir. LSH'nin rolü üretmektir. Dikkat hesaplamasına yalnızca aynı Karma grubundaki anahtarlar katılır ve bu durum şunları tatmin eder:
Aşağıdaki şekil, geleneksel katsayı dikkat matrisini ve Hash kovasına göre sıralandıktan sonra dikkat matrisini göstermektedir. Hash değeri bölümünün düzensiz olabileceği şekilden görülebilir (birden çok kova arasında toplu işlem daha zordur ) ve bir bölümdeki sorguların ve anahtarların sayısı mutlaka eşit değildir ve kovada yalnızca sorguların olduğu ancak anahtarların olmadığı durumlar bile olabilir.
Bu sorunu çözmek için önce garantiyi geç. Daha sonra sorgular, kova numarasına ve kova içindeki sıra konumuna göre iki katman halinde sıralanır.Sıralamadan sonra yeni bir sıralama elde edilebilir.Aşağıdaki Şekil c'de gösterildiği gibi, aynı kepçenin köşegeninin yakınında dikkat matrisi toplanacaktır ( Q = K, metindeki ayar, deneysel aşama bu ayarın çok fazla etkiye neden olmayacağını doğrular), ardından aşağıdaki Şekil d'de gösterildiği gibi, sıralamadan sonra m ardışık bloğun birbiriyle ilişkili olmasını sağlamak için bir toplu işleme yöntemi tanımlayabilirsiniz. Gösterildiği gibi, ilişkilendirme kuralı aşağıdaki blokların yalnızca bir blok ileriye gitmesi gerektiğidir ve ayarlar aşağıdaki gibidir:
Bunlar arasında (namlu uzunluğunun ortalama namlu uzunluğunun iki katını aşma olasılığının çok küçük olduğu düşünülmektedir)
LSH dikkatinin tüm işlem akışı aşağıdaki şekilde gösterilmektedir:
Tek bir Karma işlevinin, benzer öğelerin aynı paket içinde sınıflandırılamama olasılığı hala düşüktür. Bu sorun, birden çok Karma işlevi turu aracılığıyla önlenebilir. Birden çok Karma turu, aşağıdakiler dahil farklı Karma işlevlerini kullanır:
onların arasında
Birden fazla Hash işlemi turu paralel olabilir.
2 Tersinir Trafo
Tersinir artık ağ fikri, gradyan geri yayıldığında, müteakip ağ katmanının, yalnızca model parametrelerine güvenerek belirli bir katmanın aktivasyon sonucunu geri yüklemek için kullanılabilmesi ve böylece bellek alanından tasarruf edilmesidir. Standart artık katman, bir girdiden bir çıktıya bir eşlemedir, tersine çevrilebilir katmanın girdisi ve çıktısı çiftlenir: Hesaplama formülü aşağıdaki gibidir:
Ters işlem, kalıntıların azaltılmasıyla gerçekleştirilir:
Tersine çevrilebilir artık ağ fikrini Transformer'a uygulayın, Dikkat katmanını ve İleri Besleme katmanını tam olarak birleştirin, yukarıdaki formül Dikkat katmanı olur ve İleri Besleme katmanı olur, bu nedenle şunlar vardır:
3 blok
Transformer ileri besleme ağının ara vektör boyutu veya hatta daha yüksek boyutu hala hafızayı kaplar; aslında, dizideki farklı konumlardaki metin tamamen bağımsız olarak hesaplanabilir, böylece paralel hesaplama için birden çok bloğa bölünebilir:
Yukarıda bahsedilen BP işleminin tersine çevrilebilir çalışması da bloklar halinde paralelleştirilebilir.
4 deney
Deneysel aşamada, iki veri seti, imagenet64 ve enwik8-64K, tersinir katmanın ve paylaşılan Q-K'nin (Q = K) model etkisini etkilemeyeceğini doğrulamak ve ardından Hash Attention ve tüm Reformer mimarisinin sonuçlarını analiz etmek ve doğrulamak için kullanılacaktır. Aşağıdaki şekildeki şaşkınlık eğrisi (burada modelin kalitesini değerlendirmek için kullanılan bilgi teorisindeki olasılık dağılım tahmininin bir göstergesi), ikideki normal artık katmana kıyasla paylaşılan QK'yi bağımsız QK'ye (solda) ve ters çevrilebilir katmana (sağda) gösterir. Veri seti üzerindeki etkisi, paylaşılan QK ve tersine çevrilebilir katman kullanımının model doğruluğunda bir azalmaya yol açmadığı şekilden görülebilir.
Aşağıdaki şekil LSH Dikkatinin etkisini göstermektedir: Hash fonksiyonlarının miktarı arttıkça, LSH Attention'ın doğruluk kaybı azalır Hash fonksiyonlarının miktarı 8'e ulaştığında, temelde tam dikkatin etkisi ile aynıdır.
Yukarıdaki şekil ayrıca hash fonksiyonunun miktarının (bir hiperparametre olarak düşünülebilir) Reformer'ın genel etkisini etkileyeceğini ve ayrıca Reformer'ın performansını da etkileyeceğini göstermektedir.Aşağıdaki şekil hash fonksiyonunun miktarının performans üzerindeki etkisini göstermektedir:
Sekans uzunluğu artmaya devam ettikçe, tüm dikkat modeli daha yavaş ve yavaşlarken, Reformer temelde çok fazla değişmez ve hızlanma etkisi çok açıktır.
ICLR 2020 makale serisinin yorumlanması
0 ICLR 2020 konferans haber raporu
Salgın ciddi, ICLR2020 sanal bir konferans düzenleyecek ve Afrika'nın ilk AI uluslararası zirvesi sırılsıklam olacak
Salgından etkilenen ICLR aniden çevrimiçi moda geçti. 2020 zirvenin değişim yılı mı olacak?
1. Canlı yayın
Tekrar | Huawei Noah's Ark ICLR Full Score Paper: Reinforcement Learning'e Dayalı Nedensel Keşif
2, Oral
01. Sözlü | Yansıtılmış üretken makine çevirisi modeli: MGNMT
02. Oral | Negatif çeşitlilik cehaletini hafifletmeden önce Ekstra Gauss
03. Oral | Ek geçitleme işlemleri uygulayın, LSTM biraz değiştirildi, performans Transformer-XL ile karşılaştırılabilir
04. Oral | Paralel Monte Carlo araması, performans kaybı olmadan, doğrusal hızlanma ve "Eksik Eğlence" nin 1000 seviyesini cesurca aşma!
05. Sözlü | Meta yoğunlaştırılmış öğrenme, soğuk su dolu bir tencerede başlatıldı: yuan-Q öğrenmesinden çok daha iyi değil
06. Oral | Derin, eşdeğer bir kapsül ağı oluşturmak için grup evrişimini kullanın
07. Oral | Google, dağıtılmış pekiştirmeli öğrenme çerçevesi SEED'i başlattı, performans "patlayıcı" IMPALA, binlerce makineye genişletilebilir, ancak aynı zamanda çok ucuz
3. Gündem
01. Gündem | Bu kadar çok model parametresi varken, genelleme yeteneği neden bu kadar güçlü?
02. Gündem | Adalet ve hassasiyet aynı derecede önemlidir! CMU, algoritma adaletini sağlamak için öğrenmede adil bir temsil yöntemi önerir
03. Gündem | Zayıf kombinasyon genelleme yeteneği? Derin öğrenme füzyon kombinasyonu çözücüyü kullanmayı deneyin
05. Gündem | Washington Üniversitesi: Görüntü sınıflandırmada ulaşılabilir saldırılara karşı savunma (video yorumlama)
06. Gündem | Grafik sinir ağına dayalı geleneksel, endüktif matris tamamlamanın ötesinde
4. Afiş
01. Afiş | Huawei Noah: Zekice düşünme, NAS ve "yüzleşme" kombinasyonu hızı 11 kat artırıyor
02. Poster | Evrişimin yanı sıra, çok başlı öz-ilgi herhangi bir evrişim işlemini ifade edebilir
03. Poster | NAS çok zor, arama sonuçları rastgele örnekleme ile karşılaştırılabilir! Huawei 6 öneri veriyor
04. Poster | Tsinghua, yorumlanabilirliği öğrenmek için "nöron yürütme ağacını" kullanarak NExT çerçevesini önerdi
05. Poster | Google'ın son araştırması: "Bileşik diverjans" nicel modelle genelleme yeteneğini sentezleyin
06. Poster | Google'ın en iyi NLP ön eğitim modeli BERT'e karşı zafer, açık kaynaktır, tek kartlı eğitim yalnızca 4 gün sürer
07. Poster | FSNet: Evrişim çekirdek özeti kullanılarak derin evrişimli sinir ağlarının sıkıştırılması
08. Poster | "Eşzamanlı Ortalama Öğretim" çerçevesi, denetimsiz öğrenim için daha sağlam sözde etiketler sağlar
09. Poster | Hızlı Sinir Ağı Uyarlanabilir Teknoloji