Aufei Tapınağı'ndan Balık ve Koyun
Qubit Raporu | Genel Hesap QbitAI
Başlangıcından bu yana, Transformer NLP alanında birbiri ardına yeni rekorlar kırdı ve şu anda en popüler derin öğrenme çerçevesi olarak adlandırmak abartı olmaz.
Ancak, SOTA'yı kazanmak mükemmellik anlamına gelmez.
Örneğin, uzun sıralı eğitimde, Transformer'ın büyük miktarda hesaplama ve yüksek eğitim maliyeti sorunu vardır.
Bellek gereksinimleri GB ile TB arasındadır. Bu, modelin yalnızca kısa metni işleyebileceği ve kısa müzik üretebileceği anlamına gelir.
Ek olarak, birçok büyük Transformer modeli, paralel model eğitiminden sonra tek bir GPU'da ince ayar yapılamaz.
Şimdi, Google ve UC Berkeley daha verimli bir Transformer modeli başlattı Reformcu .
L uzunluğundaki bir dizide, karmaşıklık O (L2) 'den O (L logL)' ye azaltılır.
Üstelik model eğitildikten sonra, yalnızca 16 GB belleğe sahip tek bir GPU kullanılarak çalıştırılabilir.
Makale ICLR 2020 tarafından kabul edildi. Model ayrıca açık kaynaklı. (Makalenin sonundaki adrese bakınız)
Reformer esas olarak aşağıdaki teknolojileri tanıttı:
Yerel Olarak Hassas Hash (LSH) dikkati
Transformer'da kullanılan standart dikkat noktalı dikkattir.
Bunların arasında, Q matrisi bir dizi sorgu dikkat işlevinden oluşur, anahtar bir K matrisine paketlenir, değer bir matris V içine paketlenir ve dk, sorgunun ve anahtarın boyutlarıdır.
Softmax'ta (QKT), softmax en büyük eleman tarafından kontrol edilir, bu nedenle her sorgu (qi) için, sadece K'deki qi'ye en yakın olan anahtara dikkat edilmesi gerekir. Bu verimlilik çok daha yüksek olacak.
Peki anahtardaki en yakın komşuları nasıl bulabilirim?
Yerel olarak hassas hashing, yüksek boyutlu bir uzayda en yakın komşuyu hızla bulma sorununu çözebilir.
Lokal olarak hassas hashing, bitişik vektörlerin aynı hash değerini alması muhtemelse, ancak uzak bir vektör mümkün değilse, her x vektörüne bir h (x) hash değeri atamayı ifade eder.
Bu araştırmada, aslında, aynı hash'i yüksek olasılıkla elde etmek için sadece komşu vektörler gereklidir ve hash kovasının boyutu, yüksek bir olasılıkla benzerdir.
LSH dikkatinin basitleştirilmiş açıklaması
Yaklaşım kabul edilebilir olduğu sürece, dikkatin karmaşıklığı dizi uzunluğunun karesi kadar doğrusalya indirgenecektir.
Tersinir Trafo
Ardından sorun geliyor Aşağıdaki tablodan da görülebileceği gibi, bazı durumlarda bellek karmaşıklığı ve zaman karmaşıklığı hala çok yüksek.
Sonuç olarak, araştırmacılar maliyetleri daha da düşürmek için tersine çevrilebilir katmanlar ve bölümlere ayrılmış işlemeyi tanıttı.
Tersinir Transformatörün her katmanda aktivasyonları saklamasına gerek yoktur.
Bu şekilde, tüm ağdaki aktivasyonların kapladığı belleğin katman sayısıyla ilgisi yoktur.
Deneysel sonuçlar
Araştırmacılar, enwik8 ve imagenet64 veri kümelerinde 20 katmanlı bir Reformer modeli eğitti.
Deneyler, Reformer'ın Transformer ile aynı performansı elde edebileceğini ve daha yüksek bellek verimliliğine sahip olduğunu ve modelin uzun sıralı görevlerde daha hızlı eğitilebileceğini göstermektedir.
Yalnızca tek bir GPU'da ince ayar yapmak da mümkündür.
uygulama
Reformer, Transformer'in modelleme yeteneklerini uzun sıralı görevleri verimli bir şekilde gerçekleştiren bir mimariyle birleştirir.Çok sayıda katmana sahip modeller için bile, bellek maliyeti büyük ölçüde azalacaktır.
Araştırmacılar, bunun büyük, zengin parametreli Transformer modellerinin tanıtımına yardımcı olacağına inanıyor.
Ek olarak, Reformer'ın uzun sıralı işleme yetenekleri, Transformer'in işlevlerini zaman serisi tahmini, müzik, görüntü ve video oluşturma gibi daha geniş bir alana getirecektir.
Kağıt adresi: https://arxiv.org/abs/2001.04451
GitHub: https://github.com/google/trax/tree/master/trax/models/reformer
- Bitiş -
Qubit QbitAI · Toutiao İmzalı
Bize dikkat edin ve en son teknolojideki en son gelişmeleri alın