Xinzhiyuan Derlemesi
Kaynak: arxiv
Editör: Xiao Qin
Xin Zhiyuan Rehberi Geleneksel bellek mimarisi ilişkisel akıl yürütmede güçlük çekiyor.DeepMind ve University College London tarafından hazırlanan bu makale, sıra bilgilerinde ilişkisel akıl yürütme yapabilen ilişkisel bir muhakeme modülü RMC önermektedir.WikiText-103, Project Gutenberg ve GigaWord veri setinde mevcut seviyeye ulaşmıştır. En iyi performans.
Kağıt: https://arxiv.org/pdf/1806.01822v1.pdf
Bellek tabanlı sinir ağları, bilgileri uzun süre hatırlama yeteneğini kullanarak zaman serisi verilerini modellemektedir. Bununla birlikte, hatırladıkları bilgileri karmaşık ilişkisel muhakeme yapmak için kullanma yeteneklerine sahip olup olmadıkları açık değildir.
Bu makalede, DeepMind ve University College London araştırmacıları ilk olarak, ilişkisel akıl yürütmeyi içeren bazı görevler için standart bellek mimarisinin zor olduğu sezgisel bir fikri doğruladılar. Daha sonra araştırmacılar, bellek etkileşimine izin vermek için çok başlı nokta ürün dikkatini kullanan yeni bir bellek modülü olan İlişkisel Bellek Çekirdeği (RMC) kullanarak bu kusuru iyileştirdiler.
Son olarak, araştırmacılar RMC'yi, sekans bilgilerinde daha güçlü ilişkisel muhakemeden yararlanabilecek bir dizi görev üzerinde test etti ve RL alanında (Mini PacMan gibi), program değerlendirmesinde ve dil modellemesinde büyük değer gösterdi. Yararlanın, WikiText-103, Project Gutenberg ve GigaWord veri kümelerinde son teknoloji sonuçları alın.
İnsanlar, bilginin ilk ne zaman algılandığına bakılmaksızın, önemli bilgilere erişmek ve bunlar hakkında mantık yürütmek için karmaşık bellek sistemlerini kullanır. Sinir ağı araştırmasında, birçok başarılı sekans veri modelleme yöntemi, LSTM ve bellek artırılmış sinir ağları gibi bellek sistemlerini de kullanır. Bellek kapasitesini, zaman içinde sınırlı hesaplama maliyetini ve gradyanların ortadan kalkmasıyla başa çıkma becerisini geliştirerek, bu ağlar bilgiyi verimli bir şekilde depolamak ve almak için olayları zaman içinde ilişkilendirmeyi öğrenirler.
Burada tavsiye ediyoruz Depolamayı ve geri almayı düşünürken bellek etkileşimini göz önünde bulundurun , Bu verimli. Mevcut modeller, dağıtılmış, vektörleştirilmiş bellekleri bölümlemeyi ve ilişkilendirmeyi öğrenebilse de, bunu yapma eğiliminde değillerdir. Böyle bir önyargının, bir modelin anıların nasıl ilişkili olduğunu daha iyi anlamasına izin verebileceğini ve bu nedenle ilişkisel akıl yürütme için onu daha iyi hale getirebileceğini varsayıyoruz.
İlk olarak, sıralı bilginin ilişkisel muhakemesini vurgulamak ve mevcut modelin bu alanda zorluklar yaşadığını kanıtlamak için bir gösteri görevi geliştiriyoruz. Yeni kullan İlişkisel Bellek Çekirdeği (RMC) , Anıların birbirleriyle etkileşime girmesini sağlamak için çok başlı nokta ürün dikkatini kullanarak bu sorunu çözdük ve analiz ettik. Ardından, RMC'yi daha açık bellek-bellek etkileşimlerinden yararlanabilecek ve bu nedenle zamanla ilişkisel akıl yürütme yeteneğini artırabilecek bir dizi göreve uyguluyoruz: Wikitext-103'te, Project Gutenberg GigaWord veri setinde, bazı pekiştirmeli öğrenme görevleri, program değerlendirmesi ve dil modellemesi gözlemlendi.
İnanıyoruz İlişkisel akıl yürütme Varlıkların nasıl bağlandığını anlama ve bu anlayışı daha üst düzey hedeflere ulaşmak için kullanma sürecidir. Örneğin, çeşitli ağaçlar ve park bankları arasındaki mesafeyi sıralamayı düşünün: Bir çözüm bulmak için varlıklar (ağaçlar ve banklar) arasındaki ilişkiyi (mesafeyi) karşılaştırın; her bir varlığın özelliklerini ayrı ayrı ele alırsak (Konum), çözüm elde edilemez.
Neyin oluştuğunu genellikle çok akıcı bir şekilde tanımlayabildiğimiz için " varlık "(Varlık) veya" ilişki "(İlişki), böylece ilişkisel akıl yürütme dilinde ifade edilebilen bir dizi sinir ağının neden olduğu önyargıları hayal edebiliriz. Örneğin, alıcı bir alandaki varlıkların (piksellerin) ilişkisini (doğrusal kombinasyonunu) hesaplamak için bir evrişim çekirdeği kullanılabilir. .
Zamansal alanda, ilişkisel akıl yürütme, zamanın farklı noktalarında bilgileri karşılaştırma ve karşılaştırmayı içerebilir. Burada, dikkat mekanizması örtük olarak bir tür ilişkisel akıl yürütme gerçekleştirir; önceki gizli durum bir varlık olarak yorumlanırsa, o zaman ağırlıklı varlık toplamını hesaplamak için dikkati kullanmak, RNN'deki yerellik yanlılığını ortadan kaldırmaya yardımcı olur.
Mevcut mimarimiz karmaşık zamanlama görevlerini çözdüğü için, zamanla ilişkisel muhakeme yeteneklerine sahip olmaları gerekir. Bununla birlikte, tümevarımsal önyargılarının kısıtlanıp kısıtlanmadığı ve bu kısıtlamaların belirli türde zamansal ilişkisel akıl yürütme gerektiren görevlerde ortaya çıkıp çıkmayacağı açık değildir.
Yol gösterici tasarım prensibimiz, bu temelde mimarinin omurgasını sağlamaktır, Model, bilginin nasıl bölüneceğini ve bölünmüş bilgiler arasındaki etkileşimin nasıl hesaplanacağını öğrenebilir. . Bunu başarmak için, LSTM'den, bellek artırılmış sinir ağlarından ve yerel olmayan ağlardan (özellikle Transformer seq2seq modelleri) yapı bloklarını bir araya getiriyoruz. Bellek geliştirme mimarisine benzer şekilde, bir dizi sabit bellek yuvasını düşünürüz; ancak, dikkat mekanizmasının bellek yuvaları arasında etkileşime girmesine izin veririz. Önceki çalışmanın aksine, önceki gözlemlerde hesaplanan önceki tüm temsiller yerine, tek bir zaman adımında anılar arasında dikkati uyguluyoruz.
Şekil 1: İlişkisel Bellek Çekirdeği
Şekil 2: Görev
RMC'yi bir dizi denetimli öğrenme ve pekiştirmeli öğrenme görevi üzerinde test ediyoruz. N Farthest'in görevi ve dil modellemesi olduğunu belirtmekte fayda var. İlkinde çözüm, açık ilişkisel akıl yürütmeyi gerektirir, çünkü model, vektörlerin kendileri değil, vektörler arasındaki mesafe ilişkilerini sınıflandırmalıdır. İkincisi, modeli büyük miktarda doğal veri üzerinde test eder ve performansı iyi ayarlanmış modellerle karşılaştırmamızı sağlar.
RMC'yi uygulamanın deneysel görevlerine kısa bir giriş burada.Her bir görev ve modelin hiperparametre ayarları hakkında ayrıntılı bilgi için lütfen orijinal makaleyi okuyun.
Açıklayıcı denetim görevi
N En Uzak
N'inci en önemli görev, zaman içinde ilişkisel akıl yürütme yeteneğini vurgulamaktır. Girdi rastgele örneklenmiş bir vektör dizisidir ve amaç şu biçimsel soruyu yanıtlamaktır: "m vektöründen en uzaktaki n'inci vektör nedir?", Burada vektörün değeri, bunların kimliği, n ve m her dizidir Rastgele örneklenmiş. Modelin, vektörlerin kendileri değil, vektörler arasındaki uzaklık ilişkilerini sıralaması gerektiğini vurguluyoruz.
Program Değerlendirme
Yürütmeyi Öğrenme (LTE) veri seti, Turing'in eksiksiz sözde kod programlama dilindeki algoritma parçalarından oluşur ve bunlar üç kategoriye ayrılabilir: eklenti, kontrol ve eksiksiz program. Giriş, bu kod parçalarını temsil eden alfanümerik kelime dağarcığı üzerindeki bir karakter dizisidir ve hedef, belirli bir programlama girdisinin yürütme çıktısı olan bir sayısal karakterler dizisidir. Bu parçaların değişkenlerin sembolik manipülasyonunu içerdiğini düşünürsek, modelin ilişkisel muhakeme yeteneğini etkileyebileceğini düşünüyoruz; sembolik operatörler operand üzerinde bir ilişkiyi tanımlıyor olarak yorumlanabildiğinden, başarılı öğrenme bu ilişkinin anlaşılmasını yansıtabilir. Klasik sıralı görevlerin model performansını değerlendirmek için bellek görevlerini de değerlendirdik.Bu görevlerde çıktı, bir dizi çalıştırma talimatından bir değerlendirme değil, yalnızca girdinin permütasyonudur.
Takviye öğrenme
Görüntü alanlı Mini Pacman
Literatürdeki Mini Pacman'ın açıklamasını takip ediyoruz. Kısacası, ajan hayaletler tarafından kovalandığında yiyecek toplamak için labirentte dolaşır. Bu görevi gerçekleştirmek için bir görüntü alanı kullanıyoruz: algısal girdi içeren, aracıyı çevreleyen 5 × 5'lik bir pencere. Bu nedenle, görev kısmen gözlemlenebilir. Temsilci, hafızadaki hayaletlerin hareketini tahmin etmeli ve buna göre navigasyonu ve ayrıca toplanan yiyeceğin hafıza bilgisini temel almalıdır. Bu görev hafıza alanında ilişkisel muhakeme gerektirir.
Dil modelleme
Son olarak, kelime temelli dil modelleme görevini araştırdık.
Şekil 3: Model analizi
Her satır, belirli bir dizinin her bir zaman adımı için dikkat matrisini açıklar. Aşağıdaki metin, kodlanan ve modele girdi olarak sağlanan dizinin belirli görevlerini açıklamaktadır. Görevde referans verilen vektörü kırmızı ile işaretliyoruz.
Tablo 1: Test programı, hafıza görevindeki her karakterin doğruluğunu değerlendirir.
Tablo 2: WikiText-103, Project Gutenberg ve GigaWord v5 veri kümelerinde doğrulama ve test karışıklığı
Genel olarak, sonuçlarımız, bellek etkileşiminin açık modellemesinin, aynı zamanda, tekrarlayan sinir ağlarına ilişkisel akıl yürütme yetenekleri eklemenin değerini gösteren program değerlendirme, karşılaştırmalı akıl yürütme ve dil modellemesinin yanı sıra, pekiştirici öğrenme görevlerinin performansını da geliştirdiğini göstermektedir.