Yeni OpenAI araştırması, Transformer'in eksikliklerini tamamlıyor ve öngörülebilir dizi uzunluğunu 30 kat artırıyor

OpenAI'nin yeni araştırması, Transformer'in eksikliklerini tamamlıyor ve tahmin edilebilir dizi uzunluğunu 30 kat artırıyor 2019-04-24

Transformer güçlü bir sekans modelidir, ancak ihtiyaç duyduğu zaman ve hafıza, sekans uzunluğunun ikinci derecesiyle artacaktır. Son zamanlarda OpenAI araştırmacıları, uzun sekansları tahmin etmek için yeni bir rekor (tahmin metin, görüntü veya ses) koyan derin bir sinir ağı olan Sparse Transformer'ı geliştirdiler. Sinir ağı, 30 kat daha uzun olabilen dizilerden desenler çıkarmak için dikkat mekanizmasında gelişmiş bir algoritma kullanır.

Şimdi, yapay zeka araştırmasındaki zorluk, görüntüler, videolar veya sesler gibi karmaşık verilerdeki uzun dizilerin ince korelasyon modellemesini gerçekleştirmektir. Seyrek Transformatör, O (N ^ 2) Transformatörü öz-dikkat mekanizmasının O (NN) yeniden düzenlenmesini ve bu zengin veri türlerini doğrudan kullanmak için bazı diğer iyileştirmeleri içerir. Önceden, bu verilerde kullanılan modeller belirli bir alan için özel olarak yapılmıştı veya diziyi binlerce öğeyi içerecek şekilde genişletmek zordu.

Buna karşılık OpenAI tarafından geliştirilen model, yüzlerce katman kullanarak on binlerce öğe içeren dizileri modelleyebilmekte ve birçok alanda mevcut en iyi performansı elde etmiştir. OpenAI araştırmacıları, dünyayı daha iyi anlayabilen AI sistemleri oluşturmaya yardımcı olmak için bu modeli kullanıyor.

Derin ilgi

Transformer'da her çıkış elemanı giriş elemanına bağlanır ve aralarındaki ağırlık belirli duruma göre dinamik olarak hesaplanır.Bu işleme "dikkat mekanizması" denir. Bunun Transformer'ı sabit bağlantı modlu modellerden daha esnek kıldığına inanılıyor olsa da, gerçek operasyonda her katman ve dikkat kafası için bir N × N dikkat matrisi oluşturmak gerekir.Görüntülere veya orijinal sese uygulandığında çok Öğenin veri türü çok fazla bellek tüketir.

Matris bellekte saklandığında veya ters hesaplama işlemi sırasında yeniden hesaplandığında, derin Transformer'in dikkat belleği kullanımı (64 katman ve 4 kafa). Referans olarak, derin öğrenme için kullanılan standart GPU belleği genellikle 12-32 GB'dir.

Bellek tüketimini azaltmanın bir yolu, geri yayılım işlemi sırasında dikkat matrisini kontrol noktasından yeniden hesaplamaktır Bu, bellek kullanımını azaltmak için daha fazla hesaplama kullanan derin öğrenmede olgun bir yöntemdir.

Transformer'daki dikkat matrisi tamamlandığında, bu, maksimum bellek tüketiminin katman sayısı tarafından yönetilmeyeceği anlamına gelir, bu da araştırmacıların ağı eskisinden çok daha derinlemesine eğitmesine olanak tanır. Pratikte araştırmacılar, CIFAR-10 gibi kıyaslama görevleriyle uğraşırken 128 katman derinliğine sahip Transformer'in sığ ağdan daha iyi performans gösterdiğini buldular.

Daha derin bir modeli eğitmek için araştırmacılar, transformatörün çalışma sırasını birkaç kez ayarladılar ve başlatma yöntemini değiştirdiler. Ayrıntılar için kağıda bakın.

Seyrek dikkat

Ancak, çok büyük girdiler için, tek bir dikkat matrisini hesaplamak bile gerçekçi değildir. Bu nedenle, OpenAI, her çıktı konumunun yalnızca girdi konumlarının bir alt kümesinden ağırlıkları hesapladığı seyrek dikkat modunu kullanır. Alt küme tüm girdi kümesine göre küçük olduğunda (örneğin, eleman sayısı N yerine N'dir), çok uzun diziler için bile dikkat hesaplaması daha kolay hale gelir ve algoritma karmaşıklığı O (NN) olur ve O değil (N ^ 2).

Bu yöntemin uygulanabilirliğini değerlendirmek için, araştırmacılar önce derin Transformer'ın dikkat modellerini görüntüler üzerinde görselleştirdi ve öğrendi ve çoğunun yorumlanabilir ve yapılandırılmış seyrek desenler sergilediğini buldu. Aşağıdaki görüntülerin her biri, görüntüdeki bir sonraki değeri tahmin etmek için belirli bir dikkat başlığı tarafından hangi giriş pikselinin (beyazla vurgulanmış) işlendiğini gösterir. Giriş bölümü küçük bir alt kümede yoğunlaştığında ve yüksek derecede düzenlilik gösterdiğinde, katmanın dağılması kolaydır. Aşağıda, CIFAR-10 görüntüsündeki 128 katmanlı modelin bir örneğidir:

Sol: Katman 19, sağ: Katman 20. 128 katmanlı CIFAR-10 ağının birkaç katmanı için dikkat modellerini (beyazla vurgulanmış) öğrenin. Bu katmanlar dikkati iki boyuta bölmeyi öğrendi. Katman 19, her satırın bilgilerini özetler ve Katman 20, bilgileri sütunlar halinde özetler, böylece tüm dikkat hesaplamasını etkili bir şekilde ayrıştırır.

Konum belleği elde etmek için eğitilen katmanlar (sol: Katman 6; sağ: Katman 36), genellikle giriş verileri veya zaman adımından (Katman 6) bağımsız olarak benzer konumlara odaklanırlar. Diğer katmanlarda öğrenme, büyük ölçüde veri erişim modeline bağlıdır (Katman 36).

Birçok katman seyrek bir yapı gösterse de, bazı katmanlar, tüm görüntüye kadar uzanan dinamik bir dikkati açıkça gösterir. Ağın bu modeli öğrenme yeteneğini sürdürmek için araştırmacılar, ağın iki aşamalı seyrek dikkat yoluyla tüm konumlara odaklanabildiği dikkat matrisinin iki boyutlu bir ayrıştırmasını uyguladılar.

Adım adım dikkatin ilk versiyonu kabaca kendi satırlarını ve sütunlarını işleyen her pozisyona eşdeğerdir, bu yukarıdaki ağ tarafından öğrenilen dikkat modeline benzer. (Sütun dikkatinin, transpoze matrisin satırlarını işlemeye eşdeğer olabileceğini unutmayın). Sabit dikkatin ikinci baskısı, en son sütun öğelerinden sonra sabit sütunlar ve öğelerle ilgilenir.Araştırmacılar, bu modun iki boyutlu bir yapıya (metin gibi) sığamayan veriler için yararlı olduğuna inanırlar.

Deneysel sonuçlar

Sparse Transformer, CIFAR-10, Enwik8 ve Imagenet 64 veri setlerinde mevcut optimal yoğunluk tahmin skorlarını yeniledi.

CIFAR-10, Enwik8 ve Imagenet 64 veri setlerinde yoğunluk tahmin performansı (birim: bayt başına bit / dim). M, ağda kullanılan parametreleri (milyon olarak), W ağ genişliğini, L katman sayısını ve H başlık sayısını temsil etmektedir.

Araştırmacılar ayrıca, seyrek dikkatin tam dikkatten daha düşük kayıp ve daha hızlı olduğunu buldular. Bu, seyrek mod tarafından üretilen yararlı endüktif önyargıya veya yoğun dikkatin altında yatan optimizasyon problemine işaret edebilir.

Görüntü oluştur

Seyrek dikkat kullanan transformatör, görüntünün tamamlanması gözlemlenerek nitel olarak değerlendirilebilen küresel bir yapı kavramına sahip gibi görünüyor. Aşağıdaki şekil 64 × 64 ImageNet üzerinde eğitilmiş bir modeli görselleştirmektedir:

Orijinal görüntü hasar görmüş

Resmi onar

Gerçek görüntü

Araştırmacılar ayrıca, 1.0 değerinde ayarlanmamış softmax sıcaklığına sahip tamamen koşulsuz bir numune üretti. Bu modeller, verilerin daha küçük bir bölümünün doğruluğunu artırmak yerine tüm veri modellerini (mevcut olmayan veriler dahil) kapsayan maksimum olasılık hedefleri kullanılarak eğitilir. Ayarlanmamış sıcaklığa sahip bir modelden örnek alan araştırmacılar, modelin dünyada var olduğuna inandığı görüntülerin tam dağılımını gördüler. Bu nedenle bazı örnekler tuhaf görünüyor.

Model örneği

Ham ses dalga formu oluştur

Yalnızca gömme konumunu değiştirerek, seyrek Transformatör görüntüler yerine ham ses üretmek için de kullanılabilir. Derin öğrenme yeni veri türlerine genişledikçe, bu tür ağlarda endüktif önyargıları belirlemek kolaydır.

Model, orijinal klasik müzik parçaları üzerine eğitildi ve 65.000 uzunlukta bir sekans oluşturmak için seyrek dikkat kullanıyor. Bu, yaklaşık 5 saniyelik orijinal sese eşdeğerdir ve araştırmacılar, aşağıdaki her klipte birkaç örnek birleştirdi.

Kod duyurusu

Genel olarak, seyrek dikkat elde etmek için sorgunun ve anahtar matrisinin bloklara bölünmesi gerekir, bu nedenle deneyi basitleştirmek için OpenAI, bu işlemleri GPU'da verimli bir şekilde gerçekleştiren bir dizi blok seyrek çekirdek uygular. OpenAI bu çekirdeklerden açık kaynaklı ve seyrek dikkat işlevlerinin örneklerini sağladı:

https://github.com/openai/sparse_attention

Gelecekteki geliştirme ve kısıtlamalar

Bu makalede tanıtılan seyrek dikkat modu, uzun sekansları verimli bir şekilde modellemek için yalnızca bir ön girişimdir. Araştırmacılar, farklı modları ve seyrek dikkat kombinasyonlarını keşfetmenin çok faydalı olduğuna ve seyrek modları öğrenmenin de yeni nesil sinir ağı mimarileri için önemli bir araştırma yaklaşımı olduğuna inanıyor.

Yukarıdaki geliştirmelerle bile, otoregresif sekans oluşturma, çok yüksek çözünürlüklü görüntüler ve ses için hala pratik değildir. Bununla birlikte, araştırmacılar tarafından sunulan optimize edilmiş dikkat operasyonu yararlı olabilir, diğer yöntemlerle (çok ölçekli yöntemler gibi) birleştirmek, yüksek boyutlu verileri modelleyebilir.

Kağıt: Seyrek Transformatörlerle Uzun Diziler Oluşturma

Makaleye bağlantı: https://d4mucfpksywv.cloudfront.net/Sparse_Transformer/sparse_transformers.pdf

Özet: Transformer güçlü bir dizi modelidir, ancak ihtiyaç duyduğu zaman ve bellek, dizi uzunluğuyla birlikte ikinci sırada artacaktır. Bu makale, dikkat matrisinin seyrek çarpanlarına ayırmasını tanıtmaktadır ve bu da O (NN) 'ye indirgenebilir. Araştırma, a) daha derin ağları eğitmek için mimari ve başlangıç varyantları; b) hafızadan tasarruf etmek için dikkat matrisini yeniden hesaplama; c) eğitim için hızlı bir dikkat çekirdeği önerir. Araştırmacılar, bu değişikliklerle ağı Seyrek Transformatör olarak adlandırdılar ve ağın, binlerce zaman adımı dizisini modellemek için yüzlerce katman kullanabileceğini kanıtladılar.

Ağ, ham baytlardan görüntüleri, sesi ve metni modellerken aynı mimariyi kullanır ve Enwik8, CIFAR10 ve ImageNet-64 veri setlerinde mevcut en iyi yoğunluk tahmin performansını elde etmiştir. Araştırmacılar tarafından üretilen koşulsuz örnekler, küresel tutarlılık ve büyük çeşitlilik gösterdi ve prensipte, bir milyondan fazla uzunluğa sahip dizileri modellemek için öz dikkatin kullanılabileceğini kanıtladı.

Tottenham, West Ham United'a 0-1 kaybetti, Antonio tek vuruşla kazandı
önceki
Geçmişte, Evergrande güçlendirmek için Kongka ile donatılmıştı ve şimdi Taliska'nın tek başına şarkı söylemek zor.
Sonraki
Ücretsiz V100 bilgi işlem güç kartı Baidu ilk olarak PaddlePaddle panoramasını duyurdu, 11 yeni modül yayınlandı
pratik! Otobüs, metro, kendi kendine sürüş ... Expo Ulaşım Rehberi burada
Akademik makale Gelişmiş DEA algoritmasına dayalı akustik şifreleme iletim sistemi
Çin'de üretilen ilk yerli katı hal sürücü kontrol çipinin piyasaya sürülmesi
Yüksek kare hızlı görsel gerçek zamanlı hedef tespit sistemi
İlk yarı-Tottenham 0-0 West Ham United, Sun Xingmin fırsatı kaçırdı
Bugün, Wu Jing, Huang Bo, Shen Teng ve Han Han, Sırf bunun için, Kamu Güvenliği Bakanlığı'nın basın toplantısının kürsüsünde oturdu ...
Kentsel ilişkiler Exp Expo'nun Zhejiang Pavyonu, Ningbo ekibi tarafından inşa edildi. En büyük vurgu: 9 metre uzunluğundaki koridorun dört mevsim çiçek sınırı var
18.000 ateşleme, 110 havai fişek! Beijing Expo'nun üzerinde şiirsel ve pitoresk gökyüzü
Sensör düğümü denetleyicisi - gelecekteki bağlantılı sensörlere yardımcı olur
Yüksek Sesle Haberler | Çin Maaş Haritası: 10.000 yuan'ın üzerindeki aylık maaş oranı Guangzhou Ninghang kadar iyi değil, Shanghai Beishen ilk üçe giriyor
Dalgacık dönüşümü ve modül maksimum yöntemine dayalı epileptik nöbet tespiti ve analizi
To Top