g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

"NIPS 2018" Toronto Üniversitesi tersine çevrilebilir RNN önermektedir: bellek büyük ölçüde azalır, performans azalmaz!

Xinzhiyuan Raporu

Tekrarlayan Sinir Ağları (RNN), sıra verilerini işlemede iyi bir performansa sahip olabilir, ancak eğitim sırasında çok fazla bellek gerektirir ve bu da eğitilebilir RNN modellerinin esnekliğini sınırlar.

Son zamanlarda, Toronto Üniversitesi Vector Enstitüsü'nden araştırmacılar, Tersinir RNN , RNN eğitiminin hafıza gereksinimlerini azaltabilecek yeni bir yöntemi açıklar. Makalenin başlığı Reversible Recurrent Neural Networks olup, NIPS 2018 tarafından kabul edilmiştir.

https://arxiv.org/pdf/1810.10999.pdf

Tersinir RNN (Tersinir RNN), ağdaki gizli-gizli dönüşümün tersine çevrilebildiği RNN'yi ifade eder, bu da eğitim için bellek gereksinimlerini azaltmak için bir yol sağlar, çünkü gizli durumun depolanması gerekmez, ancak geri yayılabilir Dönemi yeniden hesaplayın.

Bu makale ilk olarak, tamamen tersine çevrilebilir RNN'lerin (mükemmel şekilde tersine çevrilebilen RNN'ler), yani gizli aktivasyonları depolamaya gerek olmadığını kanıtlamaktadır. kısıtlı Evet, çünkü gizli durum bilgilerini unutamazlar.

Ardından, makale bir Birkaç bit depolayın Unutma durumunda mükemmel bir geri dönüşe izin vermek için.

Bu yöntem elde eder Geleneksel modellerle karşılaştırılabilir performans, etkinleştirme belleğinin maliyetini 10-15 kat azaltır .

Araştırmacılar, bu yöntemi dikkat temelli sekans-sekans modeline genişletti.Deneyler, performansı koruyabildiğini, kodlayıcıda aktivasyon belleği maliyetini 5-10 kat ve kod çözücüde 10-15 azalttığını gösterdi. Zamanlar.

Tersinir döngü yapısı

RevNets oluşturmak için kullanılan teknoloji, geri dönüşümlü RNN'ler oluşturmak için geleneksel RNN modelleriyle birleştirilebilir. Bu bölümde, GRU ve LSTM'nin tersine çevrilebilir versiyonlarını öneriyoruz.

Tersinir GRU

Önce bir sonraki gizli durumu hesaplamak için neyin kullanıldığını gözden geçirelim

Mevcut gizli durum verildiğinde GRU denklemi

Ve mevcut giriş

(Sapmayı atla):

Burada , elementsel çarpma anlamına gelir. Bu güncellemeyi geri döndürülebilir kılmak için gizli durumu h iki gruba ayırıyoruz,

. Bu grupları güncellemek için aşağıdaki kuralları kullanın:

Yerine dikkat

Hesaplamak için kullanılır

Güncelleme. Bu modele Reversible Gated Recurrent Unit veya kısaca RevGRU diyoruz.

İ = 1,2 için,

, Sigmoid fonksiyonunun çıktısı olduğundan, açık aralığa (0,1) eşlenir. Bu, RevGRU güncellemelerinin tam aritmetik olarak tersine çevrilebileceği anlamına gelir:

, Bulmak için ileri hesaplamayı kullanabilir ve yeniden yapabiliriz

ile

. Daha sonra bulmak için aşağıdaki formülü kullanabiliriz

Tersinir LSTM

Sonra tersine çevrilebilir bir LSTM oluşturuyoruz. LSTM gizli durumu çıkış durumu h ve birim durumu c olarak ayırır. Güncelleme denklemi:

Tersine çevrilebilir teknolojiyi doğrudan uygulayamayız çünkü güncelleme

Sıfır olmayan doğrusal dönüşüm. Ancak tersine çevrilebilirliği sağlamak için aşağıdaki formülü kullanabilirsiniz:

kullanım

Ve c2, h2'nin güncellemesini yukarıdaki denklemle aynı şekilde hesaplayın. Bu modele Tersinir LSTM diyoruz veya RevLSTM .

Unutmamanın Sınırlandırılması

Hiçbir bilginin atılmamasını sağlayarak, sınırlı doğrulukta tersine çevrilebilir bir RNN oluşturulabileceğini gösterdik.

Bununla birlikte, dil modelleme gibi görevler için, kabul edilebilir performansa ulaşabilecek bir mimari bulamıyoruz.

Bunun sebebi olduğunu düşünüyoruz Unutulmaz ters çevrilebilir model (Unutmadan tersine çevrilebilir modellerin) temel sınırlaması şunlara yol açar: herhangi bir gizli durum unutulamazsa, herhangi bir zaman adımındaki gizli durum, önceki tüm gizli durumları yeniden yapılandırmak için yeterli bilgi içermelidir. Bu nedenle, bir zaman adımında, modelin depolama kapasitesini aşan doğru yeniden yapılandırmayı sağlamak için gizli durumda depolanan herhangi bir bilgi gelecekteki tüm zaman adımlarında saklanmalıdır.

Şekil 1: Yinelenen görevde tamamen tersine çevrilebilir modelin ters hesaplamasını genişletin ve sıra-sıra hesaplamasını alın. Sol: Modelin her girdi etiketini tekrarladığı görevin kendisini tekrarlama. Sağ: Ters çevirmeyi genişletin. Model, tüm girdi belirteçlerini yeniden yapılandırmak için son gizli durumu etkin bir şekilde kullanır, bu da tüm girdi dizisinin son gizli durumda depolanması gerektiği anlamına gelir.

Bu problemi, temel bir sıralı öğrenme görevini, yani tekrar eden bir görevi ele alarak açıklıyoruz. Bu görevde, RNN bir dizi ayrı jetona girilir ve her jeton sonraki zaman adımlarında basitçe tekrarlanmalıdır.

Sıradan RNN modeli, bu görevi kolayca çözmek için yalnızca az sayıda gizli birime ihtiyaç duyar, çünkü uzun mesafeli bağımlılıkları modellemesi gerekmez. Ancak tamamen tersine çevrilebilir bir modelin tekrarlayan görevleri nasıl yerine getirdiğini düşünün.

Ters hesaplamayı, kodlayıcı ve kod çözücü ağırlıklarının ilişkilendirildiği sekans-sekans hesaplamasını gösteren Şekil 1'de gösterildiği gibi genişletin. Kodlayıcı jetonu alır ve son gizli durumu oluşturur. Kod çözücü, giriş sırasını ters sırada üretmek için bu son gizli durumu kullanır.

Deneyler aracılığıyla doğruladık. Sınırlı kapasiteye sahip NF-RevGRU ve NF-RevLSM ağları, tekrarlayan görevleri çözemez .

Tersinirlik elde etmeyi sınırlı unutmak

Unutmama imkansız olduğu için, tersine çevrilebilirliğe ulaşmanın ikinci olasılığını keşfetmemiz gerekiyor: ileri işlem sırasında gizli durumda kaybolan bilgileri depolayın ve ardından ters hesaplamanın sonunda geri yükleyin.

Kısmi unutmayı inceledik, yani Az sayıda biti unutmaya izin verin .

Algoritma 1, tersinir çarpma işleminin tamamını açıklar.

Deneyler ve sonuçlar

Tersinir modelin performansını iki standart RNN görevi üzerinde değerlendirdik: dil modelleme ve makine çevirisi. Geliştirdiğimiz teknolojiyi kullanarak ne kadar bellek tasarrufu yapılabileceğini, bu tasarrufların ideal arabelleği kullanarak mümkün olan bellek tasarruflarıyla karşılaştırılabilir mi ve bu bellek tasarruflarının performans pahasına gelip gelmediğini belirlemek istiyoruz.

Tablo 1: Penn TreeBank kelime düzeyinde dil modelleme doğrulaması karmaşası (bellek tasarrufu). Unutma, zaman adımı başına gizli birim başına 2, 3 ve 5 bit ile sınırlıdır ve sonuç sınırlama olmaksızın.

Tablo 2: WikiText-2 kelime düzeyinde dil modellemesinin doğrulama karmaşıklığı. Unutma, zaman adımı başına gizli birim başına 2, 3 ve 5 bit ile sınırlıdır ve sonuç sınırlama olmaksızın.

Tablo 3: Farklı unutma sınırlarına sahip Multi30K veri kümesindeki performans. P, test BLEU puanlarını temsil eder; M, eğitim sırasında kodlayıcının ortalama bellek tasarrufunu temsil eder.

Genel olarak, Emb care en iyi bellek tasarrufunu sağlasa da, Emb + 20H performans ve bellek tasarrufu arasındaki en iyi dengeyi sağlar.

Emb + 20H dikkat ve 2 bit'e kadar unutmakla RevGRU, standart GRU'dan daha iyi olan 34.41'lik bir test BLEU puanı elde eder.Aynı zamanda, bellek gereksinimleri sırasıyla kodlayıcı ve kod çözücüde etkinleştirilecektir. 7,1 kat ve 14,8 kat azaltıldı .

RevLSTM'nin Emb + 20H dikkat ve 3 bit'e kadar unutma ile test BLEU puanı 37.23'tür, bu standart LSTM'den daha iyidir ve bellek gereksinimleri sırasıyla kodlayıcı ve kod çözücüde etkinleştirilecektir. 8,9 kat ve 11,1 kat azaldı .

Temel GRU ve LSTM modellerinin test BLEU puanları sırasıyla 16.07 ve 22.35'tir. RevGRU'nun test BLEU puanı, GRU'dan daha iyi olan 20.70'dir ve sırasıyla kodlayıcı ve kod çözücüdedir. Belleği 7,15 kez ve 12,92 kez kaydedin . RevLSTM, sırasıyla kodlayıcı ve kod çözücüde LSTM'ye kıyasla 22.34 puan aldı 8,32 kat ve 6,57 kat bellek tasarruf edin . Her iki ters çevrilebilir model de 5 biti unutmakla sınırlıdır.

Kağıt adresi:

https://arxiv.org/pdf/1810.10999.pdf

Xinzhiyuan AI DÜNYA 2018

Dünya Yapay Zeka Zirvesi Tam inceleme

Xinzhiyuan, 20 Eylül'de Pekin'deki Ulusal Kongre Merkezi'nde AI WORLD 2018 Dünya Yapay Zeka Zirvesi'ne ev sahipliği yaptı. Makine zekası ve insan kaderi.

Xinzhiyuan AI World 2018'in büyük olayını hatırlatarak:

IQIYI

Sabah: https://www.iqiyi.com/v_19rr54cusk.html

Öğleden sonra: https://www.iqiyi.com/v_19rr54hels.html

Sina: