AAAI2018'de öz-dikkat mekanizması

Son yıllarda, dikkat mekanizması, derin öğrenmeye dayalı doğal dil işlemenin (NLP) çeşitli görevlerinde yaygın olarak kullanılmaktadır. Dikkat mekanizmasının derinlemesine incelenmesiyle, araştırmacılar tarafından tekli, çoklu, etkileşimli ve benzeri gibi çeşitli dikkat türleri önerilmiştir. Geçen yıl haziran ayında, google makine çeviri ekibinin arXiv'de hazırladığı "Tek ihtiyacınız olan dikkat" makalesi büyük ilgi gördü. Bunların arasında öz-ilgi mekanizmaları ve çok başlı mekanizmaları da başladı Sinir ağı dikkatinin araştırma noktası haline geldi ve çeşitli görevlerde iyi sonuçlar elde etti. AAAI2018 tarafından alınan bildiriler arasında 30'dan fazla makale dikkat mekanizmasını, 3'ü de öz-ilgi kullandı. Bu makaledeki öz dikkat ve ilgili bazı çalışmaların bir çalışma özetini yaptım (ayrıca Dr. Zhang Junlinin "Derin Öğrenmede Dikkat Mekanizması (2017 Sürümü)" bloguna ve Su Jianlinin "Dikkat Hepsi Sizindir "Okuma (Giriş + Kod)") ihtiyacınız varsa, herkesle paylaşın.

I.Giriş

Dikkat mekanizması görsel imgeler alanında önerildi. 2014 yılında Bahdanau, bunu NLP alanına uygulanan ilk makale olan "Hizalamayı ve Çevirmeyi Ortak Öğrenerek Nöral Makine Çevirisi" nde makine çevirisi görevlerine uyguladı. Daha sonra, 15, 16, 17 ve hatta bu yıl, çeşitli NLP görevlerini işlemek için derin öğrenme ağı modelleriyle birleştirilmiş çeşitli dikkat mekanizmaları kullanıldı. 2017'de, Google makine çeviri ekibi tarafından yayınlanan "Tek ihtiyacınız olan dikkat", metin temsillerini öğrenmek için çok fazla özveri kullandı, geleneksel RNN / CNN'den ayrılmış ve aynı zamanda yeni çoklu kafa mekanizması. Öz dikkat mekanizması da son araştırmalarda sıcak bir konu haline geldi ve çeşitli NLP görevlerine uygulanabilir.

Geleneksel makine çevirisi için, aşağıdaki şekilde gösterildiği gibi, çeviri için sıralı model (kodlayıcı-kod çözücü) modelini kullanabiliriz.

Burada aşağıdaki resmi elde etmek için yukarıdaki resmi özetleyebiliriz. Giriş dizisi {x1, x2, x3, x4}, anlamsal kod c'yi elde etmek için kodlayıcıya (kodlayıcı) geçirilir ve ardından {y1, y2, y3} çıkış dizisini elde etmek için kod çözücü (kod çözücü) tarafından kodu çözülür, giriş Ve çıktıların sayısı eşit olmayabilir.

Ancak bu yaklaşımda bir sorun var: Uzun cümlelerin çevrilmesi bazı zorluklara neden olacak ve dikkat mekanizmasının devreye girmesi bu sorunu çözebilir. Aşağıda gösterildiği gibi:

Burada, kod çözücüde birkaç çıktı dizisi olduğunu ve karşılık gelen anlamsal kod c'nin aynı numaraya sahip olduğunu, yani bir anlamsal kod ci'nin bir çıktı yi'ye karşılık geldiğini görebiliriz. Ve her bir ci dikkat mekanizması ile elde edilir, özel formül aşağıdaki gibidir:

Geleneksel dikkat modelini inceledikten sonra, Google çeviri ekibinin yaptığı dikkat modelinin oldukça soyutlanmış genel bakışına bir göz atalım. Bunu bir sorgu ve bir dizi < anahtar, değer > , Ve son olarak dikkat değerini verme sürecini elde edin. Buradaki sorgu, kod çözücüdeki si-1'e eşdeğerdir.Hem anahtar hem de değer, kodlayıcının hj'sinden gelir ve fark, ön ve arka durumların hj'sindedir. Daha sonra sorgu ve keyi arasındaki benzerliği hesaplayın, valuei ile çarpın ve sonra toplayın.

Yukarıda belirtilen sorgu ve anahtar arasındaki benzerliği hesaplamanın nokta, genel, concat ve MLP gibi birçok yolu vardır. Spesifik formül aşağıdaki gibidir. Dikkat modeli, toplam 3 aşamalı sorgu, anahtar ve değer arasındaki benzerliğin hesaplanması olarak soyutlanmıştır. İlk aşama: sorgu ve keyi, si'yi elde etmek için benzerliği hesaplamak için belirli bir benzerlik işlevi kullanır; ikinci aşama: ai'yi elde etmek için si'yi softmax () ile normalize edin; üçüncü aşama, ai ve valuei'yi karşılık gelen şekilde çarpın ve sonra toplayın , Son dikkat değerini alın. Aslında, geleneksel dikkat formülünü karşılaştırdığımızda, iki formül setinin hala çok benzer olduğunu görebiliriz.

2. Öz dikkat mekanizması

Aşağıda NIPS2017'de yayınlanan "Tek ihtiyacınız olan dikkat" makalesini tanıtmaktadır. Bu makalenin yeniliği şöyledir: (1) Önceki RNN tabanlı seq2seq model çerçevesinden farklı olarak, makale modeli oluşturmak için RNN yerine dikkat mekanizmasını kullanır; (2) çok başlı bir öz-ilgi mekanizması önerir ; (3) WMT2014 külliyatında gelişmiş sonuçlar elde edilmiştir ve eğitim hızı çok daha hızlıdır.

Modelin mimarisi şekilde gösterilmiştir ve yine de kodlayıcı ve kod çözücüden oluşan seq2seq mimarisine uygundur. Kodlayıcı birçok tekrarlanan ağ bloğundan oluşur.Bir ağ bloğu, çok başlı bir dikkat katmanından ve bir ileri sinir ağından oluşur (tek başına dikkat modelini kullanmak yerine) ve kodlayıcının tamamı N bloğu istifler. Kod çözücü, kodlayıcıya benzer, kodlayıcıdan kod çözücüye öğrenmeye ek olarak, kod çözücüden kod çözücüye öğrenme de vardır. Aynı zamanda, daha derin bir ağ yapısı oluşturmak için model, artık yapıyı (Add) ve katmanların normalizasyonunu (Norm) kullanır.

Bu makale temel dikkat modelinde birkaç iyileştirme yaptı ve ölçeklendirilmiş nokta ürün dikkatini önerdi. İç çarpım işlemi kullanılarak benzerlik hesaplamasına göre,

Times (dk, kelime vektörünün boyutudur). Amacı, iç ürünün kolayca çok büyük olmaması için ayarlamaktır.

Çok başlı dikkatin yapısı ve formülü şekilde gösterilmiştir. Öncelikle, sorgu, anahtar ve değer üzerinde doğrusal bir dönüşüm gerçekleştirmeniz gerekir; daha sonra yakınlaştırma noktası ürün dikkat mekanizmasına giriş yapın, h kez tekrarlayın, her girdi doğrusal dönüşümden sonra orijinal girdidir, burada, çoklu başlık, birden fazla dikkatten sonra anlamına gelir Ekleme için, her bir kafa sayıldığında, Q, K ve V'nin doğrusal dönüşüm parametreleri W her seferinde farklıdır; son olarak, eklenmiş model doğrusal bir dönüşüme tabi tutulur ve elde edilen değer, çok başlı dikkatin sonucudur. Çok başlı dikkat ile geleneksel dikkat arasındaki farkın h kez hesaplanmış olması, böylece ilgili bilgilerin farklı boyutlardan ve temsil alt uzaylarından öğrenilebilmesi ve dikkat görselleştirme mekanizması ile doğrulanabileceği görülmektedir.

Tüm modelde, kodlayıcıdan kod çözücüye bağlanmak için çok başlıklı dikkat kullanılır.K, V ve Q, kodlayıcının katman çıkışıdır (burada K = V) ve kod çözücüdeki çok başlıklı dikkatin girdisidir. Bu aslında Ana makine çevirisi modelindeki dikkat gibi, geleneksel çeviri hizalama görevleri gerçekleştirilir. Daha sonra, hem kodlayıcı hem de kod çözücü, metnin temsilini öğrenmek için çoklu öz dikkati kullanır, K = V = Q, yani içindeki her kelime cümledeki tüm kelimelerle hesaplanmalıdır. Temel amacı cümle içindeki kelime bağımlılığı ilişkisini öğrenmek ve cümle içerisindeki iç yapıyı yakalamaktır.

Burada konum kodlamasına odaklanmak istiyorum. Model, RNN gibi dizi modellerini kullanmadığından ve zamanlama bilgisini hesaba katamadığından, sözcük dizisini simüle etmek için buraya bir konum kodlama işlevi yerleştirilmiştir. Deneysel sonuçlar, bu yöntemin makul ve etkili olduğunu göstermektedir.

AAAI2018'de üç, öz-ilgi

Yeni yayınlanan AAAI2018 kağıtları arasında, çeşitli NLP görevlerini işlemek için dikkat modelini kullanan toplam 30'dan fazla makale var Burada, öz-dikkat mekanizmasını kullanan üç makale esas olarak tanıtıldı.

1. DiSAN: RNN / CNN'siz Dil Anlayışı için Yönlü Öz-Dikkat Ağı

Bu makale, Sidney Teknoloji Üniversitesi'nden Profesör Zhang Chengqi tarafından yayınlanan bir makaledir ve AAAI2018'de yayınlanmıştır. Bu makale, doğal dil çıkarımı, duygu analizi, anlambilimsel ilişki ve cümle sınıflandırmaları gibi görevlerde iyi sonuçlar elde eden genel bir çerçeve önermeyi amaçlamaktadır.

İnovasyonun iki ana noktası vardır: birincisi, çok boyutluluk: Buradaki dikkat, her bir özelliği hesaplamak için kullanılır; ikincisi, yönlülük: dikkati modellemek için bir veya daha fazla konum maskesi kullanın.

Burada, giriş sırası x = ve kelime vektör boyutu de'dir.

İlk olarak, gizli durumu elde etmek için tamamen bağlı katmanı gömme katmanına geçirin: h =, formül aşağıdaki gibidir:

Daha sonra hi ve hj arasındaki benzerlik fonksiyonunu f (hi, hj) hesaplayın, formül aşağıdaki gibidir. C = 5 nerede.

Formüldeki M, konum kodlama maskesidir. Bu makale ileri (fw), geri (bw) ve diyagonal (diag) olmak üzere üç konum maskesi yöntemi önermektedir, formül aşağıdaki gibidir:

Ardından, elde edilen benzerlik fonksiyonu f (hi, hj) üzerinde softmax normalleştirme işlemini gerçekleştirerek (0, 1) arasındaki P sayısını elde edin. Ardından, giriş vektörünü x, toplamı uygun şekilde çarpın ve son olarak çıktı vektörü s'yi alın.

Bu makale aynı zamanda kapı mekanizmasını da tanıtmaktadır. Vektör s ve gizli katman durumu h doğrusal olarak dönüştürülür ve sonra toplanır ve F'yi elde etmek için sigmoid işlemi gerçekleştirilir. H'nin s'ye oranını kontrol etmek için F kapısını kullanın ve son çıktı vektörü u elde edin.

Bu makalede, giriş vektöründe, ileri öz-dikkat mekanizması ve geri öz-dikkat mekanizması sırasıyla iki parçanın sonuçlarını birleştirmek ve çok boyutlu öz-dikkati ve son olarak çıktıyı kullanmak için kullanılmıştır. Deneyler, modelin birçok görevde iyi sonuçlar elde ettiğini göstermektedir.

2. Öz Dikkatle Derin Anlamsal Rol Etiketleme

Bu makale AAAI2018, Xiamen Üniversitesi'nin çalışmasından alınmıştır. Öz dikkat, bir dizi etiketleme sorunu olarak görülen ve BIO etiketleriyle etiketlenen anlamsal rol etiketleme görevine (SRL) uygulanır. Daha sonra etiketleme için Derin Dikkat Sinir Ağının kullanılması önerilmiştir Ağ yapısı aşağıdaki gibidir. Her ağ bloğunda, bir RNN / CNN / FNN alt katmanı ve bir öz-ilgi alt katmanı vardır. Son olarak, softmax'ı sekans etiketleme için doğrudan etiket sınıflandırması olarak kullanın. Kağıt, ağ bloklarının sayısı 10 olduğunda iyi sonuçlar elde etti.

3. Tam Soyut Biyolojik İlişki Çıkarma için Tüm Bahislere Aynı Anda Kendi Kendine Katılma

Bu makale Andrew McCallum ekibinin biyomedikal ilişki çıkarımı görevi üzerine öz ilgi gösteren bir çalışmasıdır ve NAACL2018 tarafından kabul edilmiş olması gerekirdi. Bu makalenin yazarı, çok fazla çalışma yapmış olan ve ilgilenen okuyucular orijinal metni daha derinlemesine okuyabilen, belge düzeyinde bir biyolojik ilişki çıkarma modeli önermektedir. Burada sadece öz ilgilerinin uygulama kısmından kısaca bahsediyoruz. Tez modelinin genel yapısı aşağıda gösterilmiştir.

Dört, özet

Google tarafından önerilen öz dikkat, dikkat modelinin özel bir şeklidir. Kendi kendine öğrenme sürecidir, Q = K = V; önerilen çok başlı dikkat, birden çok kez hesaplayarak farklı boyutlarda ve farklı alt uzaylarda ilgili bilgileri yakalamaktır. . Özbakım, sözcükler arasındaki mesafeyi dikkate almadan doğrudan bağımlılık ilişkisini hesaplayabilir, bir cümlenin iç yapısını öğrenebilir, basit paralel hesaplayabilir, CNN ve RNN'den ayrılabilir, ancak konum işlevini makul bir şekilde düşünmesi ve ayarlaması gerekir. Tabii ki, AAAI 2018 makalesinde görülebileceği gibi, öz-dikkat, NLP alanındaki görevleri daha iyi çözmek için RNN, CNN ve FNN ile birlikte kullanılan bir katman olarak da kullanılabilir.

Referanslar:

Vaswani, Ashish, et al. İhtiyacınız olan tek şey dikkat. Nöral Bilgi İşleme Sistemlerindeki Gelişmeler.2017.

Shen, T .; Zhou, T .; Long, G .; Jiang, J .; Pan, S .; and Zhang, C.Disan: rnn / cnn içermeyen dil anlayışı için yönlendirmeli öz-ilgi ağı. AAAI 2018.

Verga P, Strubell E, McCallum A.Tam Soyut Biyolojik İlişki Çıkarma için Tüm Bahislere Eşzamanlı Olarak Kendi Kendine Katılma. AAAI 2018.

Tan Z, Wang M, Xie J, ve diğerleri.Kendine Dikkatle Derin Anlamsal Rol Etiketleme. AAAI 2018.

Referans blogu:

Zhang Junlin, Derin Öğrenmede Dikkat Mekanizması (2017 Sürümü), https://blog.csdn.net/malefactor/article/details/78767781

Su Jianlin, "Tek İhtiyacınız Olan Dikkat" Yüzeysel Okuma (Giriş + Kod), https://kexue.fm/archives/4765

Her zaman kim olmak istediğini hatırla!

Transfer: https://www.cnblogs.com/demo-deng/p/10716018.html

"Longing for Life" 3. Sezon Tema Şarkısı Yayınlandı: Mao Buyi "An Ordinary Day"
önceki
Günaydın Lingnan | Üzgünüm, Kantonca okumayı erteledim
Sonraki
2018'de makine öğrenimi ve yapay zeka alanındaki temel gelişmeler neler? 2019'daki trendler neler?
Etkili bir algoritmanın uygulanması, Taobao'nun "mallarının" toplam satışını% 2,75 artırır.
Topluluk soru ve cevap sistemi, acil bilgi edinme ihtiyacınızı karşılamak için bilgileri ve insanları doğru bir şekilde eşleştirir
"Koku Kitaplığı" nı sökmek: Ünlülerin beğenisinden satışları üçe katlamaya kadar, yerel markalar 100 milyar koku pazarını nasıl kırabilir?
Kuru mallar | Mühendis olmayı reddetti: hiperparametre arama algoritmalarının listesi
Güney + Erken Otobüs | "Laoguang" heyecan verici bir yolla Sri Lanka'dan Guangzhou'ya geri dönüyor (sesli yayın)
Kullanıcı portreleri ile ilgili olarak bu makale yeterli
İlkbahar esintisinde sizinle Taobao'da buluşmak daha iyi Derin öğrenme özellikli Taobao akıllı arama
"Kuru mallar" Alibaba, derin takviyeli öğrenme ve uyarlanabilir çevrimiçi öğrenme uygulaması
"Çin Ticari Araç Süspansiyon Sektörü Geliştirme Raporu (2019)" Mavi Kitap Lansman Konferansı Gerçekleştirildi
"Kuşak ve Yol" Zirve Forumu: Gıda Füzyonunun "Kuşak ve Yolu"
Makine öğrenmiyor: Alibaba'nın arama önerilerinde derin öğrenme uygulaması
To Top