Derin öğrenmenin Dikkat modelinin ayrıntılı açıklaması

Yeniden basıldı: Datawhale (ID: Datawhale)

Eser sahibi: yif

Bu makale 8434 kelime 41 fotoğraf , Okumanız tavsiye edilir 22 dakika .

Bu makale, derin öğrenmede Dikkat modelini tanıtır.

Dikkat oluşturma

Neden: "Sinir Ağları ile Sıralamaya Göre Öğrenme"

Dikkat modelinin kullanılmasının nedenleri:

  • seq2seq, girdi dizisini sabit boyutlu bir gizli değişkene sıkıştırır, tıpkı bizim sıkıştırılmış dosyamız gibi, bu işlem kayıplı sıkıştırmadır ve girdi dizisindeki birçok bilginin kaybını zorlar;
  • Hizalamada güçlük sorunu var. Örneğin, Çince harf çevirisi "Seni seviyorum" ve "Seni seviyorum", giriş dizisindeki "I" "I" (en çok katkı) ile hizalanmalıdır, ancak seq2seq modelinde "I" "I", "aşk" içindir, "Siz" in katkıları tutarlı.
  • Dikkat gelişimi

    Gösterin, katılın ve anlatın: Görsel dikkat ile sinirsel resim yazısı oluşturma

    Bu makale ilk Dikkat kağıdı olarak kabul edilebilir.

    Görev, grafik dönüştürme elde etmektir. Daha önce açıklanan seq2seq probleminde olduğu gibi, önceki resim-metin dönüştürme görevinde de hizalamada zorluk sorunu vardır. Hizalanması zor denen şeyin hiçbir anlamı yok.

    Bu makale iki tür dikkat önermektedir:

  • sırala Dikkat
  • zor dikkat
  • Bu makalenin model yapısı:

    Resim bir CNN ile LD'ye dönüştürülür.Burada L vektörlerine L açıklama vektörleri, D ise öznitelik boyutudur Resimdeki L bölgelerinin özelliklerinin çıkarıldığı düşünülebilir. L alanı vektörleri ağırlıklandırılır ve bu resmi temsil etmek için eklenir. Farklı anlardaki ilgi noktaları farklı olduğu için, açıklama vektörünün de bir sonraki anda ilgilenilen alanı bilmesi için kod çözücüdeki gizli durumla etkileşime girmesi gerekir.

    Burada kodlayıcı VGG'dir ve kod çözücü LSTM'dir. LTSM girişi, resimlerin farklı anlardaki odak bilgisidir ve ardından o anda sözcükler üretir.

    Dikkat hesaplama

    Yukarıda bahsedildiği gibi, dikkatin değeri sadece açıklama vektörüyle değil, aynı zamanda kod çözücünün önceki andaki gizli durumuyla da ilgilidir. Bu nedenle:

    T, t süresini, i, i-inci alanı ve a, aldığımız dikkat ağırlık dağılımıdır.

    f aslında hizalama puanını hesaplamak için kullanılan hizalama işlevidir Yaygın hizalama işlevleri şunlardır: nokta çarpım, genel ve çok katmanlı algılayıcı.

    1. Hafif dikkat: L vektörlerine ağırlık eklemek için dikkatin ağırlığını doğrudan kullanın.Bunun avantajı, tüm problemin farklılaştırılabilir olması ve BP'nin uçtan uca kullanılabilmesidir.

    2. Yoğun dikkat: Yoğun dikkat çok kabadır, en büyük ağırlığa sahip vektörü seçin ve kalan vektörleri eleyin (0'a ayarlayın). Açıktır ki, bu model biçimi ayırt edilebilir değildir .. BP'ye ulaşmak için, burada modülün gradyanını tahmin etmek için Monte Carlo örneklemesi kullanılır.

    Son seçilen vektör olarak t anında i'inci vektörü seçmemize yardım edin, bir değişken tanıtın, i bölgesi seçildiğinde değer 1'dir, aksi takdirde 0'dır.

    Sorunun nasıl üretileceği, bu makalede gizli bir değişken, parametreli çok değişkenli bir Bernoulli dağılımı olarak ele alınacaktır (Bernoulli iki noktalı bir dağılımdır)

    $$ P (s_ {t, i} = 1 | s_ {t < j}, a) = \ alpha_ {t, i} $$ = ""

    Bu, gizli değişkenlerle amaç fonksiyonumuz olarak düşünülebilir.

    Amaç fonksiyonunun gradyanını bulun:

    Aşağıdakileri tahmin etmek için N kere Monte Carlo kullanın (bir gümüş para atın):

    Gradyanı tahmin etmek için Monte Carlo yöntemi kullanıldığında, gradyan varyansını azaltmak için hareketli ortalama kullanılabilir. Kinci mini partide, hareketli ortalama, üstel zayıflama ile önceki log-olabilirliklerin kümülatif toplamı olarak tahmin edilir:

    sonuç olarak

    Genel olarak, cümlelerin ve belirli blokların alaka düzeyini iyileştirmek için her an resmin her alanına dikkat ağırlıkları atayarak yumuşak dikkat ve sert dikkati ilk kez burada bulabilirsiniz.

    sonuç:

    İstatistiksel Makine Çevirisi için RNN Kodlayıcı-Kod Çözücüyü Kullanarak İfade Temsillerini Öğrenmek

    Bu makale, seq2seq (2015.07) 'de tanıtılan ilk Dikkat belgesi olarak kabul edilebilir.

    Bu makale aynı zamanda yumuşak ve sıkı bir dikkat gerektirir. Çözüm formu öncekinden farklı değil.

    Makalede dört uygulama senaryosu ele alınmıştır: 1. Nöral Makine Çevirisi; 2. Görüntü Yazısı Üretimi; 3. Video Açıklama Üretimi; 4. Uçtan Uca Sinirsel Konuşma Tanıma.

    Dikkat Temelli Nöral Makine Çevirisine Etkili Yaklaşımlar

    Bu makale bir öncekinden 2 ay sonra yayınlandı. . .

    Makale, dikkatin iki geliştirilmiş versiyonunu, yani küresel dikkat ve yerel dikkat önermektedir.

  • küresel ilgi
  • Genel dikkat, bağlam vektörünü hesaplarken kodlayıcı tarafından oluşturulan tüm gizli durumu dikkate alacaktır. Aslında ilk yazının dikkat yöntemidir.

    2. yerel ilgi

    Bu makale, yerel dikkatin sert dikkat ve yumuşak dikkatin (avantajlı karıştırma) bir karışımı olduğuna inanmaktadır, çünkü hesaplama karmaşıklığı küresel dikkatten daha düşüktür, yumuşak dikkat ve sert ilginin aksine, yerel dikkat hemen hemen her yerde farklılaştırılabilir. Eğitilmesi kolay.

    Yerel dikkat, hesaplama açısından pahalı olan ve uzun cümleler için iyi olmayan her kaynakta gizli durumu taramanın eksikliklerinin üstesinden gelir.Etkinliği artırmak için yerel dikkat önerilir. Bir seferde kaynak konumun yalnızca bir kısmına odaklanın.

    Burada bağlam vektörünün hesaplanması, yalnızca penceredeki 2D + 1 kaynak gizli durumuna odaklanır. Diyelim ki, dikkatin odağı olarak anlaşılabilecek bir kaynak konum indeksi Modelin bir parametresi olarak D deneyime dayalı olarak seçilir.

    Hesaplama ile ilgili olarak, makale iki hesaplama şeması verir:

    1) Monotonik hizalama (yerel-m)

    2) tahmine dayalı hizalama (yerel-p)

    Toplam, modelin parametresidir ve S, bilinmesi kolay olan kaynak cümlenin uzunluğudur.

    Ağırlık şu şekilde hesaplanır:

    Görülebileceği gibi, konum merkezden ne kadar uzaksa, konumunda kaynak gizli durumuna karşılık gelen ağırlık o kadar fazla sıkıştırılacaktır. Bu D / 2 olarak ayarlanmıştır.

    buraya,

    Skor fonksiyonu aslında ilk makalede anlatılan hizalama fonksiyonudur.Üç çeşit iç çarpım vardır, genel ve concat.

    Deneysel karşılaştırma:

    Metinsel Benzerlik Ölçümü için Dikkat Temelli Çok Perspektifli Evrişimli Sinir Ağları

    Bu makalenin görevi STS'dir (semantik metinsel benzerlik), bir cümle verilecek ve karşılaştırılacak olan benzerlik puanlarının hesaplanmasını ifade etmektedir.

    Geçmiş modelde, girdi cümlesi bağımsız olarak ele alındı ve cümlenin bağlamsal etkileşimi göz ardı edildi. Bu nedenle dikkat çekilir.

    Bu makalenin temel model yapısı: MPCNN'dir (çok perspektifli yapısal sinir ağı modeli), bu temelde iki bölümden oluşur: 1. çok perspektifli cümle modeli, 2. yapısal benzerlik ölçüm katmanı.

  • çok perspektifli cümle modeli
  • Çok perspektifli cümle modeli, her cümle için farklı tanecikli ifadeler elde etmek için farklı türlerde evrişim çekirdekleri, farklı türlerde havuzlama yöntemleri ve farklı boyutlarda evrişim pencereleri kullanan evrişimli bir sinir ağı kullanır.

    a. Evrişim katmanı iki evrişim yöntemine sahiptir: (1) Sözcük tanecikliği ile evrişim; (2) Gömme boyutunun tanecikliği ile evrişim. İlki, n-gram öznitelik çıkarımına eşdeğerdir ve ikincisi, vektörün her boyutundaki bilgileri çıkarır. Yazar, ikinci yöntemin, daha küçük ayrıntı düzeyi nedeniyle girdi özelliği bilgisini tam olarak çıkarmak için yardımcı olduğuna inanmaktadır. Yazar, daha zengin ifade elde etmek için bu iki yöntemi kullanır.

    b. Evrişim penceresi boyutu: Farklı evrişim pencerelerinin boyutu, pencere boyutunun {1, 2, 3, } olduğu, yani unigramlar, bigramlar, trigramlar anlamına gelen ve giriş cümlesinde kullanılmayan farklı n-gram uzunlukları altındaki bilgileri yakalar Evrişimli katman.

    c. Havuzlama yöntemi: Havuzlama katmanı, bir evrişim modelinin en önemli ve genel özelliklerini koruyabilir.Burada, maks, min ve ortalama olmak üzere üç yöntem kullanılır.

  • Yapısal Benzerlik Ölçüm katmanı
  • Yapılandırılmış Benzerlik Ölçüm Katmanının amacı, cümle ifadesinin benzerliğini hesaplamaktır.

    Yapılandırılmış Benzerlik Ölçüm Katmanının amacı, cümle ifadesinin benzerliğini hesaplamaktır. Yazar, oluşturulan son cümle vektörünün her bir parçasının anlamının farklı olduğuna ve kosinüs benzerliği gibi geleneksel benzerlik hesaplama yöntemlerinin doğrudan uygulanmasının iki cümle vektörü üzerinde optimal olmadığına inanmaktadır ve cümle vektörünün her parçası için kullanılmalıdır. İlgili karşılaştırmaları ve hesaplamaları yapın (Yapılandırılmış Karşılaştırma). Cümle vektörünün parçaları arasındaki karşılaştırma ve hesaplamayı daha etkili hale getirmek için aşağıdaki hususları dikkate almamız gerekir:

    (1) Aynı yapı bloğundan olup olmadığı; (2) Aynı evrişim pencere boyutu altında evrişimin sonucunun olup olmadığı; (3) Aynı havuz katmanından olup olmadığı; (4) Aynı Özellik Haritasından olup olmadığı;

    Cümlenin karşılık gelen kısımları yalnızca yukarıdaki iki koşul en azından karşılandığında karşılaştırıldığında, yazar benzerlikleri karşılaştırmak için iki algoritma kullanır. Biri sadece tanecikliği kelime olan evrişim için, diğeri ise tanecikliği boyutu gömme boyut olan sözcükler ve evrişim olan evrişim içindir.

    Yazar, cümle bölümlerinin benzerliğini hesapladıktan sonra, iki doğrusal katmanı üst üste bindirdi ve ortadaki tanh aktivasyon işlevini kullandı ve sonunda log-softmax çıktısını kullandı. Daha fazla ayrıntı için He ve diğerleri 2015'e bakın.

    Dikkat Temelli Girdi Etkileşim Katmanı

    Yukarıdaki modele dayanarak, bu makalenin yazarı, dikkati temel alan bir etkileşim katmanı ekliyor. Amaç, yerleştirmeden hemen sonra iki cümlenin daha alakalı kısımlarına daha fazla ağırlık vermektir.

    Giriş dizisi, aralarında, bakır tambur, dikkat çekmek için karşılık gelen vektörün kosinüs benzerliğini hesaplar.

    Dikkat ağırlık matrisi elde edildikten sonra, her cümleye karşılık gelen dikkat vektörü hesaplanabilir ve normalleştirilebilir:

    Son olarak, yeniden ağırlıklandırılmış dikkat vektörünü elde etmek için bir araya getirin:

    Yazar ek parametreler eklemedi, sadece kosinüs mesafesini dikkat ağırlığı olarak kullandı ve sonra normalleştirdi ve deneyde iyi sonuçlar elde etti.

    ABCNN: Cümle Çiftlerini Modellemek için Dikkat Temelli Evrişimli Sinir Ağı

    Bu makalenin görevi (cümle çifti) cümle eşleştirmesidir. Buna Yanıt Seçimi (AS), Açıklama tanımlama (PI) ve Metinsel işlem (TE) dahildir.

    Temel model: BCNN (Temel Bi-CNN). BCNN'nin dört bölümü vardır: 1. Giriş katmanı, 2. Evrişimli katman, 3. Havuzlama katmanı, 4. Çıkış katmanı. Özellikle, kıvrımlı katmana dikkat edin. Buradaki evrişimli katman geniş evrişim (Geniş evrişim) kullanır. Diğer bir deyişle, cümlenin kenar kısmı, çıktı dizisi uzunluğu giriş dizisi uzunluğundan daha büyük olacak şekilde gerçekleştirilir. (Geniş evrişim genellikle, evrişim çekirdeğinin boyutu giriş vektörünün uzunluğundan daha büyük olduğunda kullanılır)

    Burada üç ABCNN önerilmektedir

  • ABCNN-1
  • Tansiyon matrisinin hesaplanması:

    Yukarıdaki şekilde matristeki bir sütunun bir kelimeyi ve satırların özellikleri temsil ettiği görülebilir.

    Buradaki maç skoru çeşitli şekillerde hesaplanabilir, bu makale hesaplamayı kullanır.

    Cümledeki dikkat özelliğinin hesaplanması:

    Buradaki çıktı evrişimli katmana gönderilir.

  • ABCNN-2
  • Burada Dikkat matrisinin hesaplama yöntemi ABCN-1'e benzerdir.Aradaki fark, iki cümlenin biriminin ABCN-1'e göre birimin dikkat değeri olarak toplanmasıdır.

    Sonra bu dikkat değerini, evrişimli katmanın çıktısını ağırlıklandırmak için kullanın. Spesifik formül aşağıdaki gibidir:

    Buradaki çıktı, havuzlama katmanının girdisidir.

  • ABCNN-3
  • Yukarıdaki iki yapı üst üste bindirilmiştir. Dikkat, hem girdi hem de havuzlamada ortaya çıkar.

    Bu makale aslında dikkat çekmek için iki konum önermektedir, biri Conv'den (ABCNN-1) önce, diğeri Conv'den (ABCNN-2) sonra. Sonuçlardan, Dönş. Sonrasındaki Dikkat'in etkisi öncekinden daha iyidir. Bunun olası nedeni, Conv'den sonra Word katıştırmanın, bağlamı temsil edebilen n-gram'ı ayıklamaya eşdeğer olmasıdır. Dönş. Sonra Dikkat'i birleştirmek, yalnızca girişten sonra Dikkat'den daha fazla bilgi içerebilir.

    Grafik Dikkat Ağı (GAT)

    Özet 1

    "Multi-Attention CNN for FGVC: MA-CNN", "Coupled Multi-Layer Attentions for Co-Extraction of Aspect and Opinion Terms", vb. Gibi bir dizi makaleden sonra, uygulanan görevlerin hepsi süslü ve Dikkatli olmasına rağmen, Dikkatin kullanımı hala aynı.

    Tek ihtiyacın olan dikkat

    Motivasyon önerildi:

  • Orijinal çerez kesici dikkat formundan çıkın, CNN kullanmayın, RNN kullanmayın, yüksek paralelleştirme elde etmek için yalnızca ilgiye güvenin;
  • Daha güçlü uzun mesafe bağımlılıkları yakalayın.
  • Yenilik:

  • Genel dikkat biçimini özetler;
  • Kendine dikkat, çok başlı dikkat ortaya koy;
  • Yapıyı dönüştürün.
  • Dikkatin genel biçimini özetleyin

    Yazar, Dikkatin q, k, v biçimi olduğunu anlar.

    Aslında, yukarıda açıklanan dikkat bu çerçeveye uygulanabilir.

    Öz dikkat önerin, çok başlı dikkat

    Buradaki öz ilgi, dikkati hesaplamak için kendi bilgisini kullanmak anlamına gelir. Geleneksel dikkat, dikkati hesaplamak için her zaman dış bilgileri kullanmayı düşünür.

    Burada kullanılan dikkat hesaplama yöntemi de Ölçekli Nokta-Ürün biçiminde öncekilerden farklıdır.

    Not: Payda, softmax işlevinin doygunluk bölgesine girmekten kaçınmak için normalleştirme içindir ve gradyanı küçüktür.

    Çok başlı dikkati kullanmanın amacı, farklı kafaların farklı alt uzay semantiğini öğrenmesine izin vermektir. Açıkçası, deney de bu formun sonucunun daha iyi olduğunu doğruladı.

    Öz dikkatte mevcut metin cümlesindeki kelime bağımlılık puanının hesaplanması aslında yapılır.

    Örneğin, iki kelime "Think Machines":

    avantaj:

  • Öz ilgi tüm metin cümlesine dikkat çektiğinden, mevcut kelime ile metin cümlesindeki tüm kelimeler arasındaki bağımlılık ilişkisinin gücünü yakalayabilir. Bu yetenek, açıkça RNN'nin uzun vadeli bağımlılık elde etme yeteneğinden çok daha güçlüdür;
  • Şu anda, RNN'nin seri modu kullanılmamaktadır, yani hesaplamanın her adımı, önceki adımın hesaplama sonucuna bağlıdır. Bu nedenle, CNN gibi paralel olarak işlenebilirken, CNN yalnızca yerel bilgileri yakalayabilir ve görünümü geliştirmek için kademeli olarak küresel bağlantılar elde edebilir.
  • Dezavantajlar: Açıkçası, hem paralel hem de küreseldir, ancak kelime sırasını yakalayamaz. Bu çok kötü, biraz kelime torbası modeli gibi. Çünkü aynı kelimenin farklı kelime sıralarındaki anlamı çok farklı olacaktır. Yazar, bu sorunun üstesinden gelmek için Konum yerleştirmeyi tanıttı. Bu daha sonra bir şey.

    Dönüştürme

    Dönüşüm, geniş kapsamlı etkiye sahip sihirli bir silahtır.

    Yukarıdaki şeklin kaba görünümünden, Dönüşüm hala bir Kodlayıcı ve Kod Çözücü biçimini sürdürmektedir.

    Önemli parçalar:

  • Konumsal yerleştirme. Yukarıda belirtildiği gibi, öz ilgi, mantıksız olan konum bilgisinden yoksundur. Konum bilgisini tanıtmak için burada bir bileşen konumu gömme kullanılır.
  • Burada, her bir jetonun pozisyon gömülmesinin vektör boyutunun da d-boyutlu olduğu ve bu giriş gömme çıktısıyla aynı olduğu ve daha sonra giriş gömme ve pozisyon gömme işlemlerinin, yukarıdaki kodlayıcı / şifre çözücüye nihai gömme ve girişi oluşturmak için eklendiği kabul edilir. Buraya yerleştirme konumu hesaplama formülü aşağıdaki gibidir:

    Konum, konumun dizinini ve i boyut dizinini temsil eder.

    Konum Gömme kendisi mutlak bir konum bilgisidir, ancak dilde göreceli konum da çok önemlidir. Google'ın yukarıda belirtilen konum vektörü formülünü seçmesinin önemli bir nedeni şudur:

    Bu, p + k pozisyonundaki vektörün, göreceli pozisyon bilgisinin ifade edilme olasılığını sağlayan p pozisyonundaki vektörün doğrusal bir dönüşümü olarak ifade edilebileceğini gösterir.

  • artık bağlantı. İster kodlayıcı ister kod çözücü olsun, artık bağlantı gibi bir atlama bağlantısı olduğunu görebiliriz.
  • Derinlik arttıkça, gradyan yayılacak veya patlayacak ve daha ciddi olanı modelin bozulmasına yol açacaktır (yani, eğitim setinin performansı, aşırı uydurmadan farklı olarak doymuş veya hatta azalmıştır). Derin kalıntı ağ, bozulma sorununu çözmektir. Aslında, artık bağlantının getirilmesi, aynı zamanda orijinal girdi x'in bilgisini olabildiğince korumaktır.

  • Katman Normalleştirme
  • BN'nin aksine, LN yatay bir standardizasyondur.

    LN, tek bir eğitim örneğinde gerçekleştirilir ve diğer verilere bağlı değildir. Mini toplu işteki diğer verilerden etkilenmekten kaçının.

    BN, farklı mini grupların veri dağıtımının çok farklı olmadığı ve BN'nin her bir düğümün ortalamasını ve varyansını depolamak için değişkenleri açması gereken ve biraz daha fazla yer kapladığı durumlar için uygundur ve BN, mini_batch ile senaryolar için uygundur.

  • Maskeli Çok Başlı Dikkat
  • Maske burada mevcut konumun arkasındaki kelimeleri maskelemek için kullanılır. Üst üçgeni 1 ve alt üçgeni 0 olan bir matris kullanarak uygulama da çok basittir.

    Özet: Bu makale esasen dikkat kavramını değiştirdi. Geleneksel dikkat, kaynak metnin her bir belirtecinin o andaki kelimeye katkısını hesaplamaktır. Kendi kendine dikkat, bu süreci bir bağlantı noktası olarak ifade eder ve her bir simgenin anlamını tam olarak ifade etmek için mevcut cümledeki belirteçlerin alaka düzeyini hesaplar. Basitçe söylemek gerekirse, geleneksel dikkat çıktının tamamen ifade edilmesini sağlamaktır ve öz ilgi de girdinin tam olarak ifade edilmesini sağlamaktır. Formları Q, K ve V çerçeveleriyle açıklanabilse de.

    Dikkat Modelleri Üzerine Dikkatli Bir Araştırma

    "Dikkat Modelleri Dikkatli Bir İnceleme", Shannon Technology tarafından önerilen dikkat üzerine bir anket çalışmasıdır.

    Bu makale, dört sınıflandırma yöntemine bölünerek dikkati sınıflandırır:

    1, dizi sayısı

    a) farklı. Yalnızca tek bir girişi ve karşılık gelen çıktı dizisini içeren durumları göz önünde bulundurun (örneğin, sıra2seq'deki dikkat);

    b) ortak ilgi. Aynı anda birden fazla giriş dizisi üzerinde çalışın ve bu girdiler arasındaki etkileşimi yakalamak için dikkat ağırlıklarını birlikte öğrenin (örneğin, yukarıda açıklanan ABCNN);

    c) iç dikkat. Aynı giriş sırasındaki her bir etikete karşılık gelen giriş sırasındaki ilgili etiketleri öğrenmeye dikkat edin (örneğin, öz dikkat).

    2. Soyutlama seviyesi sayısı

    Girdi özelliklerinin soyutlama düzeyine göre, buradaki soyutlama düzeyi sözcük ayrıntı düzeyi, kelime öbeği ayrıntı düzeyi, cümle ayrıntı düzeyi ve belge ayrıntı düzeyi olabilir.

    a) tek seviyeli. Yalnızca orijinal giriş sırası için dikkat ağırlığını hesaplayın;

    b) çok seviyeli. Giriş dizisindeki birden çok soyutlama düzeyine sırayla dikkat edilebilir.

    3. Pozisyon sayısı

    a) yumuşak dikkat. Bağlam vektörünü oluşturmak için girdi dizisinin tüm gizli durumlarının ağırlıklı ortalamasını kullanır;

    b) yoğun ilgi. Bağlam vektörü, girdi dizisinden rastgele örneklenen gizli durumdan hesaplanır;

    c) küresel ilgi. Yumuşak dikkat ile aynı;

    d) yerel ilgi. Sert dikkat ile yumuşak dikkat arasında bir uzlaşmadır.

    4. Temsil sayısı

    a) çoklu Temsili Dikkat modeli. Girişin farklı yönlerini yakalamak için çoklu özellik temsillerini kullanın ve dikkat, bu farklı temsillere önemli ağırlıklar atamak için kullanılabilir.Bu temsiller, girdideki gürültü ve fazlalığı göz ardı ederek en ilgili yönleri belirleyebilir;

    b) çok boyutlu. Bu dikkat boyutlara etki eder ve dikkatin ağırlığı her boyutun önemini gösterir.

    Ardından yazar ağ yapısını dikkatle sınıflandırır.

    1, Kodlayıcı-Kod Çözücü

    2. Bellek Ağları

    Soru-Cevap ve sohbet robotları gibi uygulamaların, gerçekte veritabanlarından bilgi edinmesi gerekir. Ağın girdisi bir bilgi veri tabanı ve bir sorgudur, bunlardan bazıları sorguyla diğerlerinden daha alakalı. Uçtan uca bellek ağları, olgu veritabanlarını depolamak için bir dizi bellek bloğu kullanarak ve sorguları yanıtlarken bellekteki her olgu için bir ilişkilendirme modeli oluşturmaya dikkat ederek bunu başarır.

    Dikkat kullanmak ayrıca hesaplama avantajları sağlar, hedefi sürekli tutar ve geri yayılım yoluyla uçtan uca eğitimi destekler. Uçtan-uca bellek ağı, AM'nin bir genellemesi olarak kabul edilebilir.Yalnızca tek bir sekans üzerinde değil, aynı zamanda çok sayıda sekans (gerçekler) içeren bir veritabanında dikkati modellemektedir.

    3. RNN'siz Ağların en iyi temsilcisi Transformatördür.

    Devam edecek

    Aslında Hafıza Ağında dikkat (V olarak harici hafıza) ve Grafik sinir ağında dikkat gibi eklenecek daha birçok şey var Teori aynı olsa da hepsinin başlığı doğru olmalı. Eklenecek.

    - Bitiş -

    Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

    Üst düzey hizmet sektörü işletmeleri Baoan'a giriyor, OCT Shenxi Group, Marriott International Group ile bir sözleşme imzaladı
    önceki
    Jiangmen, "Riskleri Önleme ve Güvenliği Koruma" başlıklı kapsamlı bir yangın tatbikatı gerçekleştirecek, nerede yapılacak? Gidip görelim
    Sonraki
    CCCF Röportajı | Loongson Twenty Years
    Açık yaşam! Seçilmiş akademisyen, Çinli akademisyenler ACM / IEEE Double Fellow
    "Öğrenmek annemi mutlu eder", komik üzüntü | Yatmadan önce bir süre konuşun
    Longgang Wisdom Homes'da neden denizaşırı büyük isimler toplanıyor? Yarı iletken endüstrisindeki bu uluslararası proje tanıtım gezisi hakkında bilgi edinin
    Stanford Google | Robotlar için Makine Öğrenimi (63 sayfalık PPT indirme ile)
    "ETC olduktan" sonra "alacaklandırıldıktan" sonra mı? Uzman: Makul bir yaklaşım ancak şeffaflığı artırması gerekiyor
    AAAIKDD: "Sinir Ağı Kod Üretimi" ve "Açık Akademik Grafik" i anlamanıza yardımcı olur
    30 yıl içinde, bilginin hevesinin gözleri Yatmadan önce bir süre konuşun
    Los Angeles Otomobil Fuarı resmi olarak halka açık
    İngiltere seçimi final sprintine giriyor. Kimler "Double Twelve" ile gurur duyabilir?
    Generative Adversarial Network'e (GAN) Dayalı Yüz Deformasyonu (bağlantı ile)
    Özel | Bir Makalede Olasılık Teorisini Okuma: Bayes Teorisi (bağlantı ile)
    To Top