Ek geçit operasyonu sağlayın, LSTM biraz değiştirildi, performans Transformer-XL ile karşılaştırılabilir

Yazar | Fantasy Wind

Sorumlu Editör | Jia Wei

AAAI 2020, 7-12 Şubat tarihleri arasında New York'ta gerçekleştirildi.Az alanındaki araştırmacılar için bir sonraki en son etkinlik, 26 Nisan'da Etiyopya'da (Ais Ababa) yapılacak ICLR 2020 olacak. .

ICLR konferansı, derin öğrenmenin çeşitli yönleri üzerine en son araştırmalara odaklanmak için, derin öğrenmenin üç devinden ikincisi olan Yoshua Bengio ve Yann LeCun tarafından 2013 yılında kuruldu. ICLR 2020 yalnızca dokuzuncu konferans olmasına rağmen, bu konferans sektörün zihninde en önemli konferans haline geldi. Özellikle bir süre önce Tsinghua tarafından yayınlanan AI Summit'in yeni versiyonunda ICLR, A seviyesi bir toplantı olarak derecelendirildi.

Bu ICLR konferansına 687 bildiri kabul edilen toplam 2594 bildiri sunuldu ve kabul oranı% 26,5 oldu. Bu makale, DeepMind ve Cambridge Üniversitesi araştırmacıları tarafından ICLR 2020'de yayınlanan bir sözlü makaledir.OpenReview web sitesindeki makalenin puanı 6-8-8'dir.

Yazarın makaleye girişi şöyledir:

Son teknoloji ürünü dil modelleme sonuçlarına sahip bir LSTM uzantısı. Bir LSTM uzantısı, SOTA dil modelinin sonuçlarını elde edebilir.

Kağıt adresi: https://arxiv.org/pdf/1909.01792.pdf

Kod çoğaltma: https://github.com/deepmind/lamb

Gelişmiş sinir ağı modellerinin uygulanması, doğal dil anlayışındaki (Doğal Dil İşleme) birçok görevin ilerlemesinin temel nedenidir. Ancak, mevcut sinir ağı modeli hala mükemmel değil, örneğin zayıf genelleme yeteneği ve dil modelleme yeteneği gibi birçok sorun var.

Bu soruna yanıt olarak, bu makale, doğal dil anlamada en yaygın olarak kullanılan bir sinir ağı modeli olan Uzun Kısa Süreli Belleği (LSTM) geliştirmekte ve deforme olmuş bir LSTM önermektedir.Ek geçitleme işlemleri getirilerek, x girişi ve durumu iyileştirilmiştir. hprw, LSTM'ye giriş yapmadan önce çok sayıda etkileşimli hesaplama turu gerçekleştirir ve son olarak, girdi ve bağlamın daha zengin bir etkileşimli temsile sahip olmasını sağlar. Bu iyileştirme karmaşık değildir, ancak bu basit değişiklik dil modelinde dikkate değer sonuçlar elde etmiştir.

Önem

LSTM, tekrarlayan sinir ağı RNN'den gelir ve özü, RNN'deki unutkanlık sorununu çözmektir.

Bu nedenle, LSTM, sıradan RNN'ler temelinde gizli katmanın sinir birimlerine bellek birimleri ekler, böylece zaman serilerindeki bellek bilgileri kontrol edilebilir.Gizli katmanın birimleri arasında her geçişinde, birkaç kontrol edilebilir kapıdan geçer (unutma kapıları, Giriş kapısı, çıkış geçidi), hafızayı kontrol edebilen ve önceki bilgilerin ve mevcut bilgilerin derecesini unutabilen, böylece RNN ağının, RNN'nin pratik uygulaması üzerinde büyük bir etkiye sahip olan uzun vadeli bir hafıza işlevine sahip olması için.

LSTM, birçok NLP görevi için standart bir konfigürasyon haline geldi ve hatta mevcut ana akım sekans-sekans modelinin temel bir bileşeni haline geldi, bu nedenle LSTM'de yenilik yapmak çok anlamlı.

Ana fikir

Şekil 1'de gösterildiği gibi, xt girişi ve ht durumunun LSTM'ye bağımsız girişler olduğunu görebiliriz.

Şekil 1 LSTM

Yazar, bunun bazı problemler getireceğine inanmaktadır, çünkü x girdisi ve ht durumu sadece LSTM içinde etkileşim halindedir, bundan önceki etkileşim eksikliği bağlam bilgisinin kaybına yol açabilir. Bu amaçla, bu makale, LSTM'nin yapısını değiştirmeyen, ancak önce girdi ve durumun etkileşime girmesine izin veren ve ardından modelin bağlam modelleme yeteneklerini bu şekilde geliştiren Mogrifier LSTM'yi önermektedir.

şekil 2

Yukarıdaki formülde gösterildiği gibi, orijinal LSTM'nin hesaplama adımlarını görebiliriz, burada f, önceki anda Cprev'in ne kadar bellek tuttuğunu kontrol etmek için kullanılan unutma kapısıdır; i, ne kadar akım bilgisinin j girilmesi gerektiğini kontrol etmek için kullanılan giriş kapısıdır. ; O, mevcut bellek biriminin ne kadar çıktı vermesi gerektiğini kontrol etmek için kullanılan çıkış kapısıdır (çıkış).

Bu makale Şekil 2'de gösterilen hesaplama sürecini değiştirmez, yani LSTM'nin orijinal yapısını değiştirmez. X ve hprev girişini LSTM'ye değiştirir Spesifik süreç Şekil 3'te gösterilmektedir.

resim 3

Şekil 3'te gösterildiği gibi, x ve h LSTM'ye girildiğinde, x-1'in x ve h0'ın hprev olduğu ve geçtikleri etkileşimli turların sayısının r, ve r'nin gösterildiği birden fazla etkileşimli hesaplama turunun gerçekleştirildiğini görebiliriz. Bir hiperparametre, r = 0 olduğunda, orijinal LSTM hesaplamasına eşdeğer olan x ve hprev'i doğrudan LSTM'ye girmeye eşdeğerdir. Bu hesaplama sürecini matematiksel olarak ifade edin:

Şekil 4

Formülde gösterildiği gibi, formül (1) 'e göre, x1, x-1 ve h0 ile hesaplanır ve daha sonra formül (2)' ye göre, h2, x1 ve h0 ile hesaplanır. Birden fazla yinelemeli etkileşim turundan sonra, erimiş x ve h bilgileri nihayet elde edilir. H4 ve x5 daha sonra Şekil 2'de gösterilen hesaplamayı gerçekleştirmek için LSTM'ye girdi ve girdi olarak kullanılır.

Şekil 4'te gösterilen x ve h'nin etkileşimli hesaplama süreci, bu makalenin temel yeniliğidir. Yazar, bu etkileşim hesaplaması yoluyla girdi ve bağlam arasındaki bilgi temsilini geliştirebileceğine inanmaktadır, ancak bu, çok fazla derinlik nedeniyle yazarın tahminidir. Öğrenme modeli şu anda yorumlanamaz, ancak deneysel bir perspektiften bu şekilde inşa edilen yeni LSTM modelinin gerçekten orijinal LSTM'den daha iyi olduğu görülebilir. Aşağıdaki deneye bir göz atalım: Geliştirilmiş LSTM ne kadar etkili?

Deney

Bu yazıda kullanılan veri setleri iki kategoriye ayrılmıştır, biri kelime seviyesinde veri seti ve diğeri kelime seviyesinde veri setidir. Kelime düzeyindeki veri setleri Enwik8, PTB ve MWC'yi içerir ve kelime düzeyinde veri setleri şunlardır: PTB ve Wikitext-2. İyileştirilmiş LSTM'nin bu veri kümelerindeki performansına bir göz atalım.

Şekil 5 Parametre açıklaması: dn, sinir ağının kaç katmana sahip olduğunu gösterir. MoS, hibrit bir softmax'tır. MC, Monto Carlo'nun rastgele etkisiz hale getirilmesidir.

Şekil 5'te gösterildiği gibi, geliştirilmiş LSTM'nin kelime düzeyindeki deneysel etkisi, orijinal LSTM modelini tamamen aşar, bu da geliştirilmiş LSTM'nin anlamlı olduğunu kanıtlayabilir, ancak mevcut ana akım Transformer-XL'yi aşmaz.

Şekil 6'da gösterildiği gibi, kelime düzeyinde geliştirilmiş LSTM'nin deneysel sonuçları. Geliştirilmiş LSTM'nin orijinal LSTM'den daha iyi olduğu, ancak yine de Transformer-XL'den daha kötü olduğu görülebilir.

Resim 6

Bundan sonra, bu makalenin yazarı, geliştirilmiş model üzerinde birkaç küçük deney yaptı.İlk deney, Şekil 7'de gösterildiği gibi, etkileşimli tur sayısının model üzerindeki etkisini yargılamaktı.

Şekil 7

Şekil 7'de gösterildiği gibi, etkileşimli tur sayısı arttıkça modelin etkisinin daha iyi hale geldiğini ve mermi sayısı r = 4 olduğunda model etkisinin en iyi seviyeye ulaştığını görebiliriz.

Figür 8

Daha sonra, yazar Şekil 3'te gösterilen modeli geliştirdi, böylece her kapı hesaplaması orijinal x ve h'ye bağlı. Bu yönteme Şekil 8'de gösterildiği gibi zikzak yok denir. Modelin karmaşıklığını azaltmak için, Qi ve Ri matrisleri düşük sıralı matrislerin ürününe ayrıştırılır. Buna Tam sıra denir. Bunu orijinal LSTM, geliştirilmiş LSTM ve mLSTM ile karşılaştırın. Etki Şekil 9'da gösterilmiştir.

Resim 9

Şekil 9'da gösterilen deneysel sonuçlar aracılığıyla, Mogrifier'de Tam sıra, zikzak yok, mLSTM (Çarpımsal LSTM) karşılaştırmasını görebilirsiniz. Tam rütbenin etkisinin çok geliştirilmediği, zikzakların ise daha büyük bir iyileşme göstermediği görülebilir.

Daha sonra yazar ters açıklama görevini yerine getirdi.Özellikle, model önce bir metin parçasını okur ve belirli bir karakter aldıktan sonra metni geriye doğru çıkarır. Bu şekilde, modelin bağlamın bilgi temsili ile iyi entegre olup olmadığı tespit edilebilir, çünkü yalnızca bağlamın daha iyi öğrenilmesi ters açıklama görevini daha iyi tamamlayabilir. Bu makale, geliştirilmiş LSTM ve LSTM modellerini karşılaştırmaktadır ve deneysel sonuçlar Şekil 10'da gösterilmektedir.

Resim 10

Şekil 10'da gösterildiği gibi, uzunluğu 100'den az olan cümleler için her ikisinin de çok iyi performans gösterdiğini görebiliriz, ancak metin uzunluğu arttıkça Mogrifer, özellikle sözlük büyük olduğunda LSTM ile boşluğu kademeli olarak açabilir ( 10K). Deneysel sonuçlardan bir sonuca varabiliriz: Geliştirilmiş LSTM, bağlamsal bilgileri önemli ölçüde geliştirebilir ve girdi bilgilerini modele daha iyi entegre edebilir.

sonuç olarak

Bu makalenin özü, Şekil 3'te gösterilen iyileştirmedir. Geliştirilmiş LSTM'nin daha iyi sonuçlar elde edebileceğini kanıtlamak için, yazar birçok deney yapmıştır.Yazar, daha iyi sonuçların ana sebebinin bu yöntemin kullanımının önemli olabileceğine inanmaktadır. Bağlamın bilgi temsilini geliştirmek de orijinal LSTM modeliyle ilgili bir sorundur. Ancak bu, yalnızca yazarın deneyler yoluyla yaptığı tahmindir, bu aynı zamanda derin öğrenmenin sınırlandırılmasıdır ve yorumlanamaz, bu nedenle yazar birçok varsayımda bulunmuştur.

Kişisel algı: Binlerce iyileştirilmiş RNN ağı vardır ve en ünlüleri LSTM ve GRU'dur. Bu makalede, LSTM geliştirildi, bu nedenle aynı şekilde GRU'da benzer iyileştirmeler yapabilir miyim veya Şekil 3'te gösterilen hesaplama sürecini iyileştirebilir, yeni hesaplama yöntemlerini kullanabilir veya bir dikkat mekanizması sunabilir ve bazılarını dikkat mekanizması aracılığıyla seçici olarak filtreleyebilir miyim? İkincil özellikler, böylece ana özellikleri daha belirgin hale getirir. Bu aynı zamanda, sinir ağına daha fazla bilginin entegre edildiği şeklindeki uzun vadeli fikrimi kanıtlıyor.Modelin entegrasyonu ne kadar yüksekse, sinir ağının etkisi o kadar iyi.Bence herhangi bir model bu yönde biraz hareket edebilir. İyileştirme iyi sonuçlar sağlayabilir.

ICLR 2020 yazı dizisinin yorumlanması:

1. Bildiriler

Popüler grafik makine öğrenimi, ICLR 2020'deki araştırma trendleri nelerdir?

1, Oral

01. Yansıtılmış bir üretken makine çevirisi modeli: MGNMT

02. Negatif çeşitlilik cehaletini hafifletmek için Ekstra Gauss öncelikli hedefi

2. Gündem

01. Gündem | Bu kadar çok model parametresi varken, genelleme yeteneği neden bu kadar güçlü?

02. Gündem | Adalet ve hassasiyet aynı derecede önemlidir! CMU, algoritma adaletini sağlamak için öğrenmede adil bir temsil yöntemi önerir

03. Gündem | Zayıf kombinasyon genelleme yeteneği? Derin öğrenme füzyon kombinasyonu çözücüyü kullanmayı deneyin

04. Gündem | NAS'ı hızlandırın, aramayı yalnızca 0,1 saniyede tamamlayın

3. Afiş

Afiş | Huawei Noah: Zekice düşünme, NAS ve "yüzleşme" kombinasyonu hızı 11 kat artırıyor

Bu makaleye genel bir bakış, derin öğrenme çağında, karmaşık senaryolarda OCR'ye nasıl ulaşılır?
önceki
Today Paper | Dünyayı saf görüntülerden yeniden inşa etmek; hiyerarşik tekrarlayan ağ dizisi; dikkat sinir ağı; adlandırılmış varlık tanıma vb.
Sonraki
Genelden özel bilgi geçişine, Tencent AI Lab, alan dönüştürme ağına dayalı çok alanlı makine çevirisi önerir
Birleştirilmiş bilgi damıtmasına dayalı olarak hız, videoda önemli alan tespiti için yeni bir algoritma olan 200 kat artırıldı
Kağıdın tekrarlanabilirliği nicel olarak analiz edilebilir mi?
İşe alma emri: şirketler buna bakar ve "ilkbaharda işe alımlar" konusunda paniğe kapılmaz
Kaynak ve hedef cümleler artık bağımsız değildir ve ortak ifade, makine çevirisi performansını artırabilir
Adalet, hassasiyet kadar önemlidir! CMU, algoritma adaletini sağlamak için öğrenmede adil bir temsil yöntemi önerir
Veriler ayrım gözetmeden kullanılamaz Yeni on yılda şirketler neden yeni veri paylaşımı paradigmasını kullanmalı?
Tencent AI Lab, ilişki ayıklamadaki hata iletimini büyük ölçüde hafifletmek için "tamamen bağımlı orman" önermektedir
Hinton AAAI2020 Konuşması: Bu sefer nihayet kapsül ağını doğru anladım
Today Paper | Gradyan Kırpma; Adlandırılmış Varlık Tanıma; Doğal Dil İşleme; Serbest Güç Fonksiyonu Öğrenme, vb.
2020 Sloan Araştırma Ödülü açıklandı, Pekin Üniversitesi'nden 4 Çinli bilim insanı seçildi
Makaleye genel bir bakış, AAAI 2020'deki bilgi grafiği
To Top