g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Tek bir GPU üzerinde çalışabilen transformatör, Google Berkeley'in en son araştırması açık kaynaktır

Aufei Tapınağı'ndan Balık ve Koyun

Qubit Raporu | Genel Hesap QbitAI

Başlangıcından bu yana, Transformer NLP alanında birbiri ardına yeni rekorlar kırdı ve şu anda en popüler derin öğrenme çerçevesi olarak adlandırmak abartı olmaz.

Ancak, SOTA'yı kazanmak mükemmellik anlamına gelmez.

Örneğin, uzun sıralı eğitimde, Transformer'ın büyük miktarda hesaplama ve yüksek eğitim maliyeti sorunu vardır.

Bellek gereksinimleri GB ile TB arasındadır. Bu, modelin yalnızca kısa metni işleyebileceği ve kısa müzik üretebileceği anlamına gelir.

Ek olarak, birçok büyük Transformer modeli, paralel model eğitiminden sonra tek bir GPU'da ince ayar yapılamaz.

Şimdi, Google ve UC Berkeley daha verimli bir Transformer modeli başlattı Reformcu .

L uzunluğundaki bir dizide, karmaşıklık O (L2) 'den O (L logL)' ye azaltılır.

Üstelik model eğitildikten sonra, yalnızca 16 GB belleğe sahip tek bir GPU kullanılarak çalıştırılabilir.

Makale ICLR 2020 tarafından kabul edildi. Model ayrıca açık kaynaklı. (Makalenin sonundaki adrese bakınız)

Reformcu

Reformer esas olarak aşağıdaki teknolojileri tanıttı:

Tersinir katman . Tersine çevrilebilir artık katman, standart kalıntı yerine kullanılır, böylece model, etkinleştirmeleri N kez yerine eğitim sürecinde yalnızca bir kez depolar (N katman sayısıdır).
İleri besleme katmanındaki aktivasyonları bölün ve dff faktörünü ortadan kaldırmak ve ileri besleme katmanının belleğini kaydetmek için segmentasyon işlemini gerçekleştirin.
Nokta ürün dikkati, yerellik duyarlı karma dikkat ile değiştirilir ve karmaşıklık, uzun dizilerde çalışabilmesi için O (L2) 'den O (L logL)' ye düşürülür.

Yerel Olarak Hassas Hash (LSH) dikkati

Transformer'da kullanılan standart dikkat noktalı dikkattir.

Bunların arasında, Q matrisi bir dizi sorgu dikkat işlevinden oluşur, anahtar bir K matrisine paketlenir, değer bir matris V içine paketlenir ve dk, sorgunun ve anahtarın boyutlarıdır.

Softmax'ta (QKT), softmax en büyük eleman tarafından kontrol edilir, bu nedenle her sorgu (qi) için, sadece K'deki qi'ye en yakın olan anahtara dikkat edilmesi gerekir. Bu verimlilik çok daha yüksek olacak.

Peki anahtardaki en yakın komşuları nasıl bulabilirim?

Yerel olarak hassas hashing, yüksek boyutlu bir uzayda en yakın komşuyu hızla bulma sorununu çözebilir.

Lokal olarak hassas hashing, bitişik vektörlerin aynı hash değerini alması muhtemelse, ancak uzak bir vektör mümkün değilse, her x vektörüne bir h (x) hash değeri atamayı ifade eder.

Bu araştırmada, aslında, aynı hash'i yüksek olasılıkla elde etmek için sadece komşu vektörler gereklidir ve hash kovasının boyutu, yüksek bir olasılıkla benzerdir.

LSH dikkatinin basitleştirilmiş açıklaması

Yaklaşım kabul edilebilir olduğu sürece, dikkatin karmaşıklığı dizi uzunluğunun karesi kadar doğrusalya indirgenecektir.

Tersinir Trafo

Ardından sorun geliyor Aşağıdaki tablodan da görülebileceği gibi, bazı durumlarda bellek karmaşıklığı ve zaman karmaşıklığı hala çok yüksek.

Sonuç olarak, araştırmacılar maliyetleri daha da düşürmek için tersine çevrilebilir katmanlar ve bölümlere ayrılmış işlemeyi tanıttı.

Tersinir Transformatörün her katmanda aktivasyonları saklamasına gerek yoktur.

Bu şekilde, tüm ağdaki aktivasyonların kapladığı belleğin katman sayısıyla ilgisi yoktur.

Deneysel sonuçlar

Araştırmacılar, enwik8 ve imagenet64 veri kümelerinde 20 katmanlı bir Reformer modeli eğitti.

Deneyler, Reformer'ın Transformer ile aynı performansı elde edebileceğini ve daha yüksek bellek verimliliğine sahip olduğunu ve modelin uzun sıralı görevlerde daha hızlı eğitilebileceğini göstermektedir.

Yalnızca tek bir GPU'da ince ayar yapmak da mümkündür.

uygulama

Reformer, Transformer'in modelleme yeteneklerini uzun sıralı görevleri verimli bir şekilde gerçekleştiren bir mimariyle birleştirir.Çok sayıda katmana sahip modeller için bile, bellek maliyeti büyük ölçüde azalacaktır.

Araştırmacılar, bunun büyük, zengin parametreli Transformer modellerinin tanıtımına yardımcı olacağına inanıyor.

Ek olarak, Reformer'ın uzun sıralı işleme yetenekleri, Transformer'in işlevlerini zaman serisi tahmini, müzik, görüntü ve video oluşturma gibi daha geniş bir alana getirecektir.