Dinamik bellek ağı: genel NLP'ye bir adım daha yakın

Bu makale, okuyucuların LSTM ve GRU gibi (seq2seq kodlayıcı-kod çözücü mimarisi dahil) belirli bir tekrarlayan sinir ağlarına sahip olmasını gerektirir.

Hepimizin bildiği gibi, genel NLP'nin önündeki en büyük engel, farklı görevlerin (metin sınıflandırması, sıra etiketleme ve metin oluşturma gibi) farklı dizi yapıları gerektirmesidir. Bu sorunu çözmenin bir yolu, bu farklı görevleri soru-cevap soruları olarak ele almaktır. Örneğin, bir metin sınıflandırma sorusu, modele belirli bir metin parçasında hangi duygunun ifade edildiğini soruyor olarak kabul edilebilir ve cevap "olumlu", "olumsuz" veya "nötr" olabilir.

"Bana Her Şeyi Sor: Doğal Dil İşleme için Dinamik Bellek Ağları" (Bana Her Şeyi Sor: Doğal Dil İşleme için Dinamik Bellek Ağları) makalesi, soru ve cevap formları için yeni bir modüler yapı sunar.

Karmaşık soru-cevap soruları için, LSTM ve GRU'nun bellek bileşenleri bir darboğaz haline gelebilir. Bellek bileşeninde ilgili tüm bilgileri yalnızca bir ileri beslemeyle biriktirmek çok zordur, bu nedenle, bu makalenin arkasındaki temel fikir, modelin verilere gerektiği gibi erişmesine izin vermektir.

İlk bakışta bu mimari çok karmaşık olsa da, birçok basit bileşene bölünebilir.

Modeli

Anlamsal bellek modülü

Anlamsal bellek modülü, girdi metninin giriş modülüne iletilmeden önce dönüştürüldüğü vektör olan Eldiven vektörü gibi kelime gömme (kelime vektörü gösterimi) anlamına gelir.

Giriş modülü

Giriş modülü, standart GRU (veya BiGRU) ile ilgilidir ve her cümlenin son gizli durumuna açıkça erişilebilir.

Problem modülü

Soru modülü ayrıca, cevaplanacak sorunun bir girdi öğesi olarak kullanıldığı ve son gizli duruma erişilebilen standart bir GRU'dur.

Epizodik bellek modülü

Bu modül, giriş verilerinin birçok kez ileri beslenmesine izin verir. Her ileri beslemede, giriş modülüne gömme cümle, epizodik bellek modülündeki GRU'ya girdi olarak aktarılır. Şu anda, her cümleye gömülü temsile bir ağırlık verilecek ve ağırlık, sorulan sorunun alaka düzeyine karşılık gelir.

Farklı ileri beslemeler için, cümle yerleştirme temsillerine farklı ağırlıklar verilecektir. Örneğin, aşağıdaki örnekte:

Cümle (1) doğrudan soru ile ilgili olmadığından, ilk seferde yüksek ağırlık verilemeyebilir. Bununla birlikte, ilk ileri beslemede, model futbolun John ile ilişkili olduğunu buldu, bu nedenle ikinci ileri beslemede, cümleye (1) daha fazla ağırlık verildi.

İlk ileri beslemede (veya ilk "bölümde"), giriş modülünden yerleştirilen cümlenin dikkat puanını hesaplamak için yerleştirme sorusu 'q' kullanılır. Daha sonra, s sent cümlesinin dikkat puanını softmax katmanına (toplam dikkat puanı 1 yaparak) veya g elde etmek için tek bir sigmoid birimine girin. g, s cümlesine verilen ağırlıktır ve i zaman adımında GRU çıktısı için global bir kapı olarak kullanılır.

Zaman adımı i ve bölüm t'nin gizli durumları şu şekilde hesaplanır:

G = 0 olduğunda, gizli durum doğrudan kopyalanır:

Makalede, m, GRU'nun t. Bölümünün son gizli durumunu temsil etmek için kullanılmıştır ve bu, t. Bölümde bulunan gerçeklerin bir derlemesi olarak kabul edilebilir. İkinci bölümden başlayarak m represent, temsili gömen cümlenin dikkat puanını hesaplamak ve temsili q t + 1. bölümde gömmek için kullanılır.

Hesaplama süreci aşağıdaki gibidir:

Makale, s ve q arasındaki ve s ile m-1 arasındaki benzerliği, yani eleman çarpımı ve mutlak değeri hesaplamak için birçok basit ölçüm yöntemi kullanır. Ardından, s'nin dikkat puanını hesaplamak için bağlı sonucu 2 katmanlı bir sinir ağına girin. İlk bölüm için m, q ile değiştirilir.

Bölüm sayısı sabit, önceden tanımlanmış bir sayı olabilir veya ağın kendisi tarafından belirlenebilir. İkinci durumda, girişe özel bir ileri beslemeli geçiş sonu gösterimi eklenir. Kapı işlevi bu vektörü seçerse, yinelemeyi durdurur.

Cevap modülü

Cevap modülü, kod çözücü GRU'dan oluşur. Her zaman adımında, önceki çıktı modüle, soru gömme gösterimi ile birlikte bir girdi olarak girilecektir.

Ardından çıktıyı oluşturmak için kelime haznesindeki standart softmax'ı kullanın.

Kod çözücü, m vektörlerinin bir işlevi ile başlatılır (epizodik bellek modülünden GRU tarafından hesaplanan son gizli durum).

Duygu analizi uygulaması

Makale yayınlandığında, modeli o dönemde duygu analizi alanında en gelişmiş sonuçları elde etti.

Örneğin, aşağıdaki örnekte, model tüm sıfatlara odaklanacaktır.Sadece 1 ileri beslemeye izin verildiğinde, model yanlış tahminler üretecektir. Bununla birlikte, 2 ileri beslemeye izin verildiğinde, model ikinci ileri besleme sırasında olumlu sıfatlara çok fazla dikkat edecek ve doğru tahminler üretecektir.

Diğer veri setlerinin performansı

Yedek modül

Modülerliğin önemli bir avantajı, değiştirilen modül doğru arayüze sahip olduğu sürece bir modülün diğer modülleri değiştirmeden başka bir modülle değiştirilebilmesidir.

"Görsel ve Yazılı Soru Cevaplama için Dinamik Hafıza Ağı" yazısı, görüntülere dayalı soruları cevaplamada dinamik hafıza ağının rolünü göstermektedir.

Giriş modülü, görüntüden özellik vektörlerini çıkarmak için CNN tabanlı bir ağ kullanan başka bir modülle değiştirilir. Ardından çıkarılan özellik vektörü, daha önce olduğu gibi olay bellek modülüne girilecektir.

Orijinal metni okuyun:

https://towardsdatascience.com/a-step-towards-general-nlp-with-dynamic-memory-networks-2a888376ce8f

Çin'deki üniversite öğrencilerini kim destekliyor?
önceki
Taobao kategori öznitelik sistemi hakkında konuşmak: ürün aramanın ardındaki mantıksal yapı
Sonraki
Kaç tane otoriter kedi gördün?
Flink sürgülü pencere optimizasyonu
Kapsamlı pratik rehber: transfer öğrenimi ve derin öğrenmedeki uygulaması
LinkedIn işe alım arama ve öneri sisteminin arkasındaki yapay zeka
Acemi Kedi Yetiştirme: Kediler ne yiyemez? Dikkat edilmesi gereken başka ne var?
Özellikler nasıl filtrelenir? Rastgele Orman (RF) Kullan
Acemi köpek yetiştirme stratejisi, anlamadıysanız büyütmeyin
7 * 24 saat esnek sürüm nasıl elde edilir? Ali teknik ekibi bunu yaptı
Taobao, Jingdong, Amazon, kullanıcı tercihlerini anlamak için makine öğrenimini nasıl kullanıyor?
Ortak bitkilerimizden bazıları köpeklerde alerjiye neden olabilir, bu yüzden boktan kürekçiler hatırlamalı
On milyonlarca günlük aktif, 1 milyar düzeyinde APP büyük veri istatistiksel analiz platformu mimari evrimi
10.000 özellik, 10 milyar veri ve saniyede 100.000 işlem hacmi ile mimari nasıl tasarlanıyor?
To Top