10.000 karakterlik uzun deneme, EMNLP 2017'de kabul edilen 11 makalenin derinlemesine yorumu

Leifeng.com AI teknolojisi inceleme notu: Bu makalenin yazarı Xu Aheng, orijinal metin kişisel ana sayfasında yayınlanmıştır Leifeng.com AI teknoloji incelemesi yayınlama yetkisine sahiptir.

16 Ağustos'ta Pekin'deki Çin Bilimler Akademisi Yazılım Enstitüsü tarafından düzenlenen "Natural Language Processing Frontier Technology Symposium and EMNLP2017 Paper Report" da EMNLP 2017 tarafından kabul edilen makalelerin bazı yerli yazarları araştırma sonuçlarını bildirmeye davet edildi. Raporun tamamı dört bölüme ayrılacaktır: metin özeti ve duygu analizi, makine çevirisi, bilgi çıkarma ve otomatik soru ve cevap, metin analizi ve temsil öğrenme. Son CCF-GAIR katılım notlarının çalışan bir hesap gibi yazıldığını hissediyorum, bu sefer başka bir şekilde not alıyorum.

Bu makale dört bölüme ayrılmıştır ve paylaşılan tüm makaleleri içermez. İlk bölüm en sevdiğim makaleleri yazıyor, ikinci bölüm ana yöntem olarak model füzyonu olan bazı kağıtları özetliyor, üçüncü bölüm model bileşenlerinin ince ayarına ilişkin bazı makaleleri özetliyor ve dördüncü bölüm eski yeni şarap şişelerine benzer bir fikir.

severim

Metin, Görüntü, Ses ve Videonun Eşzamansız Toplanması için Çok Modlu Özetleme

Eşzamansız metin, görüntü, ses ve video çok modlu özetler, genel metin özetleri dikkat çekmeye odaklanır, fazlalık olmamasına odaklanır, burada okunabilirlik, görsel bilgi, görsel bilgi üzerine odaklanır, işte resim bilgileri, olayın önemli noktalarını ima eder. Görsel bir modaliteye ve bir ses modalitesine sahip bir video haberi düşünün.ASR aracılığıyla bir metin modalitesi de oluşturulabilir.Soru, harika resimlerle bir metin özeti oluşturmak için bu modalitelerin nasıl bağlanacağıdır? Bu makale bu konuyu tartışmaktadır.Tüm modelin girdisi bir konu metni ve videodur ve çıktı resimlerle birlikte bir metin özetidir.

1. Ön İşlem:

Video oluşturma resimleri: CV'nin temel fikri, Videoyu tek tek çekimler halinde (çekimler / paragraflar) kesmektir, her çekim bir hikaye (sahne) olarak gruplandırılabilir ve her çekim ayrıca alt çekimlere bölünebilir. Bir alt çekim bir anahtar çerçeve ile temsil edilebilir ve görsel bilgi olarak anahtar çerçeve seçilir, aynı zamanda uzun çekimin resminin kısa çekimden daha önemli olduğu düşünülür ve buna göre resmin önemi puanlanır. Ses metni üretir: ASR. Bir yandan konuşma tanıma sonuçları çok doğru değil, öte yandan ses modelinde hangi içeriğin önemli olduğuna dair bize ipucu verebilecek bazı ses sinyalleri olacak.Bu iki noktadan yola çıkarak daha sonra bahsedilecek olan iki yönlendirme stratejisi üretilecek.

2. Metin önem puanı:

kullanım LexRank , Cümleler noktadır ve bağlantılar önemlidir. Rastgele yürüyüş gerçekleştirilir. Sesle oluşturulan metnin iki özelliği için iki rehberlik stratejisi kullanılır:

  • Konuşma tanıma sonucu ve metin cümlesi aynı semantiğe sahipse, konuşma tanıma sonucunun metni önermesine izin verin ve bunun tersi de geçerlidir;

  • Ses sinyali açıksa, ses metni önerir ve bunun tersi de geçerlidir;

Bu iki yol gösterici strateji, metnin okunabilirliğini artıracaktır.

3. Resim ve metin eşleştirme sorunu:

Umarım özet görsel bilgileri kapsayabilir ve resimleri açıklayabilir, bu nedenle bir metin görüntüsü sınıflandırıcıya ihtiyaç vardır. Görüntü vcr kod çözme, iki ileri ağ katmanına bağlanır, metin bir Gauss dağılımına dönüştürülür ve ardından iki ileri ağ katmanına da bağlanan balıkçı sıralaması hesaplanır ve son olarak iki metin, eşleştirme derecesini hesaplamak için aynı anlamsal alana eşlenir.

Bir problem, karmaşık cümlelerde cümleciklerin nasıl önerileceğidir.Yazar, eşleşen çerçeve bilgisini (yüklem, argüman1, argüman2) çıkarmak için merkezi yüklemi kullanarak geleneksel anlamsal rol etiketlemesine dayalı bir yöntem önermektedir. Avantaj, anlamsal olarak bağımsız kısımların çıkarılabilmesidir. Çerçeveyi ayarlayarak (yalnızca alarak, alarak ve tahminler) resimlere yansıtılması zor olan zaman gibi bilgileri de filtreleyebilirsiniz.

4. Amaç işlevi:

Üç amaç işlevinden bahsedilmektedir:

  • Metinleri hedefleme: metnin önemi için ödüller ve fazlalık için cezalar

  • Vizyon için: resmin önemi (çekim uzunluğu), metin özeti kapsamında olup olmadığı (bir eşleşme olup olmadığı)

  • Görsel ve metinsel bilgileri dengeleyin

Bir sonraki makale Çoklu Belge Özetleme için Affinity-Preserving Random Walking ayrıca burada atlanan grafik sıralama modelini de kullanıyor.

Sağduyu Makine Anlayışı için Heterojen Bilgi ile Muhakeme

İki konuya odaklanın: Sağduyu bilgisi nasıl edinilir ve ifade edilir? Ve edinilen sağduyu bilgisinin muhakeme için nasıl uygulanacağı? Tez, farklı kaynaklardan heterojen bilgi tabanlarından ilgili bilgileri elde etmeye çalışır ve bilgiyi muhakeme maliyetleri ile birlikte muhakeme kuralları şeklinde tek tip bir şekilde ifade eder ve sentezlenecek dikkat mekanizmasına dayalı çok bilgili bir akıl yürütme modelini benimser. Muhakeme görevini tamamlamak için yukarıdaki tüm bilgileri göz önünde bulundurun.

Görev türü: Hikayenin ilk 4 cümlesi verilen RocStories veri setinde, sistemin hikayenin sonu olarak iki aday cümleden birini seçmesi gerekir.

Çıkarım kuralları: bilgiyi aşağıdaki gibi çıkarım kuralları biçiminde tekdüze bir şekilde ifade edin: f ilişkisi altında, Y öğesi X öğesinden çıkarılabilir ve çıkarım maliyeti s'dir.

Bilgi edinme

Aşağıdakiler dahil olmak üzere farklı kaynaklardan üç tür bilgi elde edilir:

  • Etkinlik Anlatım Bilgisi

    Olaylar arasındaki zamanı, nedenselliği yakalayın (restorana gittim- > Yemek sipariş et)

    Bu bilgiyi yakalamak için iki model kullanılır, biri sıralı bir PMI modeline dayanır ve diğeri Skip-Gram'a dayalı vektörleştirilmiş bir temsil modelidir.Öz, metindeki olayların düzenli bir şekilde birlikte oluşma sıklığına göre hesaplanır. Çıkarım kurallarının maliyeti.

  • Varlık anlamsal bilgisi

    Varlıklar arasındaki anlamsal ilişkiyi yakalayın.

    Starbucks'ı örnek olarak alırsak, yakalanan ilk ilişki türü, Starbucks'a atıfta bulunmak için "kahvehane" gibi varlıklar arasındaki temel farktır. Varlıklar arasındaki üst ve alt ilişkiler hakkında Wordnet'ten bilgi edinin. maliyet 1'dir, ancak ve ancak X ve Y eşanlamlıysa veya üst düzey bir ilişkiye sahipse

    İkinci tip ilişki ilişkiseldir.Örneğin, Starbucks ortaya çıktığında, onunla ilgili "latte kahve" gibi varlıklar olabilir. Wikipedia'daki varlık sayfalarının bağlantı ilişkisi aracılığıyla varlıklar arasındaki ilgili ilişki hakkında bilgi edinin.Maliyet, iki varlık arasındaki mesafedir (Milne ve Witten (2008).)

  • Duyarlı tutarlı bilgi

    Öğeler arasındaki duygusal ilişkiyi yakalayın

    Hikayenin sonu ve hikayenin genel duygusu temelde tutarlı olmalıdır, aksi takdirde son çok ani görünecektir, bu durumda böyle bir son iyi bir son değildir. SentiWordnet'ten bu farklı unsur arasındaki duygusal tutarlılık hakkında bilgi edinin. Hem öznel hem de zıt duygusal kutuplara sahipse maliyet 1'dir; hem öznel hem de aynı duygusal kutuplara sahipse -1'dir; aksi takdirde 0'dır

Yukarıdaki çıkarım kurallarının maliyetinin hesaplama yöntemi farklıdır Makale, her kategorinin çıkarım kurallarına doğrusal olmayan bir katman ekleyerek farklı türdeki çıkarım kurallarının maliyetinin kalibrasyonunu otomatik olarak öğrenen Metrik Öğrenmeye benzer bir yöntem kullanır.

Ek olarak, olumsuzlamanın varlığı olay ilişkilerinin ve duygusal ilişkilerin çıkarım sonuçlarını tersine çevirebileceğinden, makale özellikle olumsuzlamayı ele almaktadır.

Bilgi muhakemesi

Kurallar okuduğunu anlamaya nasıl uygulanır? Başka bir deyişle, bir belge ve aday cevabı verildiğinde, aday cevabın doğru olup olmadığı nasıl ölçülür? İlk olarak, belge ve aday cevapları unsurlara bölünür ve tüm çıkarım süreci, bu çıkarımın rasyonelliğinin değerlendirilmesi ve çıkarım kuralı seçimi sürecine dönüştürülür.

Önemli varsayım: Geçerli bir muhakeme seti, sondaki tüm unsurları kapsayabilmelidir. Başka bir deyişle, sonda görünen her öğe, orijinal metindeki görünümünün temelini bulabilmelidir.

Aynı belge ve aday cevap için pek çok farklı çıkarımımız olabilir.

Yukarıdaki akıl yürütme bir dizi etkili akıl yürütmedir, bu akıl yürütme dizisi insan bilişiyle çok tutarlıdır. Çünkü bu sonucun doğru olup olmadığını belirlemek için genellikle Mary ve She arasındaki varlık ortak referans ilişkisini, restoran ile düzen arasındaki sıra ilişkisini ve restoran ile yemek arasındaki korelasyon ilişkisini kullanırız.

Bu pek mantıklı değil, çünkü bir kişi ile bir olay arasında zamansal bir ilişki olup olmadığını ve yürüme ile yemek gibi bir eylem arasındaki ilişkiyi düşünmemiz pek olası değil.

Her bir muhakeme türünü kullanma olasılığı farklıdır.Bu muhakemenin seçimini modellemek için P (R | D, H) P (R | D, H) kullanın. Element bağımsızlığı varsayımına dayanarak, aşağıdaki formül elde edilir

Varsayımsal bir unsur olan hihi'nin çıkarımına katılmak için bir çıkarım kuralı seçip seçmeme, orijinal metinde hihinin çıkarıldığı djdj öğesinin seçimine ve djdj ile hihi arasındaki çıkarım ilişkisinin seçimine bağlıdır. Daha sonra bu olasılık dağılımı, üç faktörle ilişkili bir önem fonksiyonu olarak yeniden tanımlanır:

  • s (h, d) Belgedeki öğeler ile aday yanıttaki öğeler arasındaki anlamsal eşleşmenin derecesi

  • a (h, f) ve a (d, f) bu çıkarım kuralı ile bir ilişkilendirme derecesinin bir öğesi, bu ilişkilendirme derecesini modellemek için bir dikkat işlevi kullanın

Orijinal metinden adaya çıkarsama maliyetini tüm geçerli çıkarımların beklenen maliyeti olarak tanımlayın

Tüm adayların maliyet değerini normalleştirmek için bir softmax işlevi kullanın ve modeldeki parametreleri tahmin etmek için maksimum posterior olasılık tahminini kullanın.

Deney

Üç Temel karşılaştırıldı:

  • Anlatı Olay Zinciri (Chambers ve Jurafsky, 2008) yalnızca olaylar arasındaki ilişkili bilgileri dikkate alır

  • DSSM (Huang vd., 2013) belgeyi ve aday cevabı anlamsal bir vektör olarak temsil eder ve aralarındaki anlamsal mesafeyi hesaplar

  • LSTM modeli (Pichotta ve Mooney, 2015), önceki olayların sırasını modelleyerek sonraki olayların olasılığını tahmin eder.

Farklı bilginin etkisi

Her tür bilgi bir rol oynayabilir ve her türlü bilgiyi ortadan kaldırmak, sistemin performansında önemli bir düşüşe neden olacaktır.

Çıkarım kurallarının seçimine eklenen dikkat mekanizmasının etkisi

diğer

İlk olarak, çıkarım kuralları nasıl giderek daha karmaşık çıkarımlar üretir? İkincisi eğitim verileridir Bir yandan sağduyulu okuduğunu anlama verileri hala eksiktir Eğitim verilerini genişletmek için yarı denetimli veya uzaktan denetim gerekebilir, diğer yandan daha fazla veri kaynağının genişletilmesi gerekebilir.

Yaklaşık Gömme Katmanı ile GAN aracılığıyla Nöral Yanıt Üretimi

Üretken sohbet sistemi özel bir çeviri süreci olarak düşünülebilir.Bir soru-cevap çifti, SMT'nin işlemesi gereken paralel bir külliyatla eşdeğerdir ve SMT eğitim süreci aslında soru ve cevaptaki kelimelerin anlambilimini oluşturmaya eşdeğerdir. İlişkilendirme süreci. SMT'nin gelişmiş sürümü olan NMT, otomatik olarak sohbet yanıtları oluşturmak için kullanılabilir. Bu yeni otomatik sohbet modeli mimarisine Neural Response Generation (NRG) adı verilmiştir.

Şimdi NRG ile ilgili sorun, üretilen cevapların oldukça benzer olması ve pratik bir değerinin olmamasıdır.Örneğin, herhangi bir kullanıcı sorgusu için üretilen sonuç "ben de düşünüyorum" veya "ben de öyle düşünüyorum" olabilir. Güvenli yanıt aradı. Güvenli yanıtın nedenleri aşağıdaki gibidir:

  • Chat corpus veri dağıtımı

  • İstatistiksel modellerin temel doğası

Sohbet verilerinde cümlenin farklı pozisyonlarındaki kelimelerin olasılık dağılımı, özellikle cümlenin başında çok açık uzun kuyruk özelliklerine sahiptir. Sohbet yanıtlarının büyük bir kısmı "" ve "" ile başlayan cümledir. Kelime olasılık dağılımındaki kalıp İlk olarak kod çözücünün dil modeli tarafından öğrenilir ve sorgu ve yanıt arasındaki kelime ilişkilendirme modunun rolü, oluşturma işlemi sırasında ciddi şekilde bastırılır. Yani, bir koşul olarak sorgunun anlamsal vektörü olsa bile, kod çözücü yine de en olası olanı seçecektir "I "Yanıtın ilk kelimesi olarak ve dil modelinin özelliklerinden dolayı, sonraki kelimeler büyük olasılıkla" aynı zamanda "olacaktır ... ve bu şekilde güvenli bir yanıt üretilir.

Yaygın çözümler şunları içerir: Sorgudaki anahtar anlamsal bilgileri güçlendirmek için dikkat mekanizmasının tanıtılması; kod çözücüdeki dil modelinin etkisinin zayıflatılması; kullanıcı modellemesi veya harici bilgi ve diğer bilgilerin tanıtılması, üretilen yanıtların çeşitliliğini de artırabilir. Bunlar aslında modelin veya verilerin yerel algılarıdır.Güvenli yanıt sorununu daha küresel bir perspektiften ele alırsanız, güvenli bir yanıt üreten S2S modelinin aslında yerel bir optimal çözüme düştüğünü göreceksiniz ve ihtiyacımız olan şey Model, yerel çözümden çıkıp daha optimize bir duruma girmesini sağlamak için bir girişim empoze eder.Daha sonra en basit pozitif girişim, modele oluşturduğu güvenli yanıtın çok zayıf bir sonuç olduğunu söylemektir, ancak böyle bir sonucun üretilmesindeki kayıp küçüktür. . Bu, üretici sohbet probleminde Generative Adversarial Networks'ün (GAN) dolambaçlı keşfini açar.

GAN'ı sohbet yanıtları oluşturma fikrine dahil etme: Belirtilen sorgunun yanıtını oluşturmaktan sorumlu olan bir yanıt oluşturucu G oluşturmak için kodlayıcı-kod çözücü mimarisini kullanın ve üretilen sonucun gerçek yanıttan ne kadar uzakta olduğuna karar vermekten sorumlu bir D ayırıcı oluşturun. Jeneratörü G, güvenli yanıt üretmenin yerel optimal durumundan dışarı atlamasını sağlamak için ayırıcının çıkışına göre ayarlayın.

Önemli bir konu, ayırıcı D'nin eğitim hatasının jeneratör G'ye geri yayılımının nasıl gerçekleştirileceğidir. Metnin oluşturulması için, bir metin örneğinin oluşturulmasına çıktı katmanındaki G örnekleme süreci eşlik etmelidir.Bu örneklemenin prensibi, açgözlü maksimum olasılık veya ışın arama fikrini seçmek olursa olsun, aslında ayrık Bu kılavuzsuz süreç, aniden yolda beliren, geri yayılma ayak seslerini engelleyen ve G'nin yüzleşme eğitiminin ilerlemesini imkansız hale getiren bir uçurum gibidir. Bu makale, metin oluşturma sürecinde örnekleme işleminin neden olduğu hatanın iletilemeyeceği asıl soruna bir çözüm önermektedir.

Kağıt, jeneratör G için bir Yaklaşık Gömme Katmanı oluşturur (AEL resminde kırmızı dikdörtgenle gösterilmiştir ve ayrıntılar resmin sağ kısmında verilmiştir) Bu katmanın işlevi, her bir örnekleme işlemini yaklaşık olarak ifade etmektir. Bir oluşturma adımında, belirli kelimeleri elde etmek için daha fazla girişimde bulunulmaz, ancak kelimelerin olasılık dağılımına dayalı olarak bir örnekleme vektörü hesaplanır. Bu işlemin spesifik süreci, her bir oluşturma adımında, GRU tarafından gizli durum hihi çıktısına rastgele bir rahatsızlık zizi ekledikten sonra, tüm kelime haznesindeki her bir kelimenin olasılık dağılımının tamamen bağlı katman ve softmax'tan sonra elde edilmesidir. Olasılık dağılımı, halihazırda örneklenmiş olan kelimenin (şekilde sağdaki yeşil kutuda gösterildiği gibi) yaklaşık vektör temsilini elde etmek için kelime haznesindeki tüm kelimelerin gömülmesini toplamak için bir ağırlık olarak kullanılır ve bunu bir sonraki nesil adımın girdisi olarak kullanır. . Aynı zamanda, bu yaklaşık vektör, D eğitimi için sahte yanıtın temsilini birleştirmek için de kullanılabilir. Örnekleme sonuçları için bu yaklaşık temsil işleminin sürekli ve türetilebilir olduğunu görmek zor değildir ve bu yaklaşık temsilin tanıtılması, G modelinin eğitim hedefini değiştirmez.

İyi sonuçlar elde etti.

Önce ayrıntılı damga! Triangle Beast, EMNLP tarafından makalenin özünü okumak için kabul edildi: Çekişmeli öğrenmeye dayalı üretken diyalog modeline kısa bir giriş

Model füzyonu

Geleneksel modelleri sinir ağlarıyla birleştirin.

Nöral Makine Çevirisinde İfadeleri Çevirme

Mevcut NMT'de, kod çözücü bir seferde bir kelime üretir ve bir-çok ve çok-çoğunu çeviremez, yani ifadeyi hedef dilde çeviremez, ancak SMT bunu yapabilir, bu yüzden fikir ikisini birleştirmektir. Genel olarak konuşursak, iki kombinasyon yöntemi vardır: Biri, NMT'nin geleneksel çerçevede ön ayarlama için bir özellik olarak yerleştirildiği sığdır; diğeri derin, NMT için SMT önerilir ve NMT, SMT şeylerini almak için sinir ağlarını kullanır. Bu makale ikinci yöntemi kullanıyor.

Önce SMT çevrilir ve ilgili hedef ifadeler NMT'nin Cümle Hafızasına atılır.NMT hedef cümleleri Cümle Hafızasından okur ve puanlar.Sonra sistem aynı anda hedef kelime grubu ve kelime tahmin edicisinin sonuçlarına bakar ve SMT ile NMT'yi karşılaştırmak için bir dengeleyici kullanır Avantajlar, bir sonraki kelime veya cümlenin olasılığını belirlemek ve hangisinin seçileceğine karar vermek için birleştirilir. Dolayısıyla, y = y1, y2,, yTuy = y1, y2,, yTu çevirisi aslında iki parçadan oluşur, NMT w = w1, w2,, wKw = w1, w2, , WK ve ifade belleğinde depolanan ilgili ifadeler p = p1, p2, pLp = p1, p2, pL (buradaki ilgili hedef ifadeler iki koşulu karşılamalıdır: orijinal metinle ilgili (yeterlilik); yinelenen çeviri yok (kapsam) ))

Bir başka nokta da yazarın aynı zamanda yığın tabanlı bir çeviri önerdiğidir. SMT, kaynaktan yığın bilgileri çıkarır, Başkan Bush ve ABD hükümetini SMT'nin ön çevirmesi için parçalar olarak kullanır ve ardından bunları cümle belleğine yazar. Sonraki adımlar değişmeden kalır. Parçaların uygulanması esas olarak sıralı etiketleme ile tamamlanır. Aynı etiket aynı parçayı temsil eder ve başlangıç sembolü ayrı olarak işaretlenir. Örneğin, "bilgi güvenliği" "NP _B NP" olarak işaretlenir ve ardından yeni giriş orijinal kelime gömme ve yığın oluşturma etiketi olur katıştırma. Yığının avantajı, bir yandan ifadeler arasındaki örtüşmeyi azaltan ve diğer yandan kod çözme doğruluğunu artıran kaynak tarafındaki ifade bilgisini sınırlamasıdır.

Makine çevirisi ile ilgili damgalar

NLP notları-makine çevirisi

NLP notları-Nöral Makine Çevirisi

Sorun şu ki, SMT o kadar güçlü değil (doğruluğu garanti etmek zordur) ve NMT o kadar zayıf değildir (kelime kelime çeviri aynı zamanda doğru ifadeyi çevirebilir)

Sinirsel İlişki Çıkarımında İlişki Yollarını Dahil Etme

İlişki çıkarma görevini tamamlamak için metindeki ilişki yolunun CNN modeli (Zeng, vd. (2014). Evrişimli derin sinir ağı aracılığıyla ilişki sınıflandırması. CGLING) ile birlikte modellenmesi önerilmiştir.

Geleneksel CNN tabanlı yöntem, orijinal metni CNN aracılığıyla özellik alanına otomatik olarak eşler ve cümle tarafından ifade edilen ilişkiyi buna göre değerlendirir.

Bu CNN modelindeki sorun, çok cümleli metinler üzerindeki anlamsal bilgileri anlamanın zor olmasıdır. Örneğin, A, B'nin babasıdır B, C'nin babasıdır. A ve C arasındaki ilişkiyi türetmek imkansızdır. Buna dayanarak, makale, aslında orijinal olan bir sinir ağına dayalı bir ilişkisel yol kodlayıcı tanıtmak için bir yöntem önermektedir. Sözcük gömme girdisi artı bir konum gömme katmanı, konum gömme, geçerli sözcük ile baş varlık / kuyruk varlığı arasındaki göreceli yolu temsil etmek için iki vektör kullanır. Ardından, metin kodlayıcı (E) ve yol kodlayıcıyı (G) dengelemek için kullanın.

L (h, r, t) = E (h, r, t | S) + G (h, r, t | P)

Kodlayıcı ayrıca, ilişkiyi birlikte tahmin etmek için bir cümle seti kullanarak çoklu bir örnek öğrenme mekanizması (Çoklu Örneklerle Öğrenme) kullanır; cümle kümesinin seçim yöntemi, rastgele yöntem (rand), maksimizasyon yöntemi (maks, en çok temsili olanı seçin), seçim -Dikkat mekanizması (att), dikkat mekanizması en iyi şekilde çalışır.

Deneysel sonuçlar:

Devam edilebilecek iki iyileştirme yönü vardır. Birincisi, modelin daha karmaşık anlamsal durumları ele alabilmesi için çok adımlı ilişki yolunu modellemek, ancak metindeki ilişki yolunu bilgi grafiğindeki ilişki yolu ile organik olarak birleştirmek ve daha fazlasıdır. İlişki çıkarma ve bilgi grafiği tamamlama görevlerini iyi tamamlayın.

Parça ayarı

Mevcut model parçalarında bazı ayarlamalar.

Birden Çok Dilde Evrensel Duygu Sınıflandırıcıya Doğru

Burada ilginç bulduğum şey, yazarın atlama-gram modelini taklit etmesi ve aynı anda çok dilli yerleştirme eğitimi için bir yöntem önermesidir. Tek cümlelik açıklama, kişinin kendi / diğer dilleri çevreleyen kelimeleri tahmin etmek için baş kelimeyi kullanmaktır. Örneğin, iki dilli tahminde, Çincenin Çince'yi çevreleyen kelimeleri tahmin etmesi, İngilizcenin İngilizceyi çevreleyen kelimeleri öğrenmesi ve Çince'yi hizalama yoluyla tahmin etmek için İngilizce ve İngilizceyi tahmin etmek için Çince öğrenmesi gerekir. skip-gram ile ilgili pullar Kelime vektörü özet notları (kısa versiyon).

C, kaynak dil S ve hedef dil T arasında paralel bir bütün olarak kullanılır. Korpus, CSCS ve CTCT olmak üzere iki kısma ayrılabilir. Amaç işlevi aşağıdaki gibidir

Ardından duygu sınıflandırması için bir LR modeli kullanın.

Kelime Tahminli Nöral Makine Çevirisi

NMT'de eğitim maliyetinin esas olarak tüm hedef kelime haznesindeki çıktı katmanının softmax hesaplamasından geldiğini biliyoruz.Bu maliyeti düşürmek için, akademisyenler çeşitli çabalar sarf ettiler.Örneğin, Devlin vd. (2014) Hesaplama perspektifinden Kendi kendini normalleştirme teknolojisi, nesnel işlevi çıktı katmanının her satırının değerini hesaplayacak şekilde dönüştürerek tüm matrisin hesaplamasını optimize etmek için önerilmiştir (NLP notları-Nöral Makine Çevirisi) Nöral Makine Çevirisi ile Kelime Tahminleri başlıklı makalede, yazar Hedef kelime dağarcığını azaltmak için, esas olarak kelime tahmin aracını kullanan bir yöntem önerilmiştir.

Önceden, MT'nin amacı sıralı bir sıra oluşturmaktı, ancak şimdi kelime tahminleyicinin amacı y1..yn kelimeleri oluşturmaktır, ancak hiçbir sıra dikkate alınmaz.

Yukarıdaki resim ile aynı fikir, kelime tahmininde, başlangıç durumu (WPEWPE) hedef cümledeki tüm bilgileri içermelidir ve gizli durum (WP_D), çevrilmemiş kelimenin tüm bilgilerini içermelidir.

PWPE (y | x) = j = 1 | y | PWPE (yj | x) PWPE (y | x) = j = 1 | y | PWPE (yj | x)

PWPD (yj, yj + 1,, y | y || y

Bu şekilde, hem etki hem de verimlilik önemli ölçüde iyileştirildi

Bu yöntemin iyi yanı, hedefteki kelimelerin kelime tahmini için doğal açıklamalar olması ve yapının basit olmasıdır. Bununla birlikte, dikkat edilmesi gereken iki nokta, tahminin doğru ve hızlı olması gerektiğidir, aksi takdirde anlamını kaybedecektir. Diğer bir sorun, mantıksal olarak daha geniş bir kelime haznesinin daha kaliteli olmasıdır, ancak çeviri verimliliği düşüktür Bu makalede önerildiği gibi daha küçük bir kelime haznesi, yeni bir küçük kelime haznesi oluşturmak için önceden bir cümleyi tercüme etmektir. Dekoder için verimlilik şüphesiz artacaktır, ancak kalite, neden daha iyi? Pek anlamıyorum, sadece gazeteyi bekleyin.

Dikkat Temelli Nöral Makine Çevirisi İçin Çift Yönlü Hiyerarşik Temsillere Doğru

Geleneksel ağaç tabanlı kodlayıcıda bir iyileştirme. Geleneksel ağaç tabanlı kodlayıcı, yerel bilgileri yakalayabilen ancak küresel bilgileri yakalayamayan aşağıdan yukarıya bir yapıya sahiptir.

Bu makale, ağaç tabanlı kodlayıcıyı hem yerel anlamsal bilgileri hem de küresel anlamsal bilgileri yakalayabilecek şekilde değiştirdi.

Aşağıdan yukarıya kodlama yerel bilgiyi elde eder ve yukarıdan aşağıya kodlama global bilgiyi alır. OOV (kelime dağarcığı) problemi için, alt kelime fikrine dayalı olarak, ikili bir sözcük ağacı ayrı ayrı oluşturulur ve orijinal sözdizimi ağacına entegre edilir. Bu şekilde, aşağıdaki şekilde gösterildiği gibi, model maksimum ifade eden cümleler, tümcecikler, kelimeler, alt kelimeler ve çeşitli global / yerel bilgileri içerir. Bununla birlikte, aynı sorun, tekrarlanan bilgilerin üretilmesidir, bu da tekrarlanan çeviriye neden olabilir.

Tekrarlanan çeviri sorununu veya kelime / kelime öbeği vektörlerinin dengesini çözmek için, dikkat mekanizması da burada tanıtılmıştır.

Etki geliştirildi. Ağaç tabanlı kodlayıcının avantajlarını göstermek için bir örnek verin. PP'yi sıradan sıralı kodlayıcı ile çevirirken hatalar oluşacaktır Sıradan ağaç tabanlı PP'yi iyi bir şekilde çevirebilir, ancak denizaşırı ve diğer bölgeler arasında hala küçük bir boşluk vardır.Ağaç-kod çözücü çevirisinin yeni versiyonu stressiz olacaktır.

Göç fikri

Aslında mevcut problemleri başka alanlarda kullanılabilecek mevcut modeller / düşünceler ile çözmektir.

Duygu Nedenini Çıkarma için Soru Cevaplama Yaklaşımı

Bu bölüm daha önce çalışılmadı, şimdi duyguların neden çıkarılmasının ne olduğuna bir bakalım

1 Belge: Dün telefonumu kaybettim ve şimdi üzgünüm. (Dün telefonumu kaybettim ve şimdi üzgün hissediyorum.)

2 Duygu: Üzgün

3 Duygusal İfade: Üzgün

4 Duygu Nedeni: Dün telefonumu kaybettim

Görev amacı, metin bilgisine ve içerdiği duygusal ifadeye dayalı olarak duygusal nedeni çıkarmaktır. Makalenin yazarı, duygusal nedeni bir ağaç sınıflandırma görevine dönüştürmek için bağımlılık ayrıştırmaya dayalı bir yöntem kullanarak daha önce bir makale yayınladı, ancak sonuç bağımlılık ayrıştırmasının doğruluğuna bağlıdır ve yalnızca cümle / cümle düzeyindeki nedenleri ele alabilir, değil İnce taneli ifade düzeyinin nedenleri. Dolayısıyla bu makale zihniyeti değiştirdi, duygu neden çıkarma problemini soru cevaplama problemine dönüştürdü ve evrişime dayalı çok katmanlı bir bellek ağı yöntemi önerdi.Sonuç, önceki ağaç tabanlı yöntemden 2 puan daha yüksek.

1 Duygusal Metin = > Metin Okuma

2 Duygusal Kelime = > Soru / Sorgu

3 Duygu Nedeni İkili Sınıflandırma Sonuçları = > Cevap

Temel model olarak geleneksel hafıza ağını kullanarak, okuma metni kelime vektörü gömülerek ifade edilir ve hafıza ünitesinde saklanır.Yargılanacak duygusal kelimenin kelime vektörü dikkat ünitesi olarak kullanılır ve her bir sorgu ve metin kelimesi iç ürün işlemine tabi tutulur ve softmax normalleştirilir. Ağırlık kelimesi olarak, ağırlıklı dikkat toplamı tüm cümlenin ifadesi olarak kullanılır. Kelimelerin bağlamını tanıtmak için evrişime benzer bir dikkat ağırlıklandırma yöntemi kullanılır.Her kelimenin dikkati o anki kelime, önceki kelimeler ve sonraki kelimeler tarafından belirlenir.Ağırlıklandırma işleminde, farklı konumlardaki kelimeler bağlam dikkatine göre ağırlıklandırılır. Ağırlıklı sonucu ifade pencere biriminde elde edin ve ardından çıktı alın. Aynı zamanda, bellek ağı, daha derin özellikleri öğrenmek için birden çok katman halinde istiflenir. Nihai etki iyileştirildi ve duygusal nedenlerin ifade düzeyinde çıkarılmasında iyi sonuçlar elde edildi.

Soru şu ki, sorgu nasıl ortaya çıktı? = > Veri seti, duygusal ifade sözcükleriyle işaretlenmiştir!

Denetimsiz İki Dilli Sözlük İndüksiyonu için Earth Moverın Mesafe Minimizasyonu

Ana araştırma, denetimsiz iki dilli hizalama yöntemi, yani iki sözcük vektör uzayının denetimsiz bağlantısıdır Temelde, sözcük vektör uzayları veya sözcük vektörlerinin dağılımı arasındaki mesafeyi ölçmesi gerekir. Kullanılan EMD fikri, kaynak dil kelime vektörü dağılımı ile haritalamadan sonra hedef dil kelime vektörü dağılımı arasındaki EMD veya Wasserstein mesafesini en aza indiren bir eşleme G bulmaktır. Ayrıntılar, makale yayınlandıktan sonra incelenecektir.

Derin Bellek Ağı ile Çin Sıfır Zamir Çözünürlüğü

Sıfır referanslı çözünürlük problemini Çince'de çözün. Ana fikir, biri önceki metni (soldan sağa) modellemek, biri aşağıdaki metni (sağdan sola) modellemek için iki LSTM kullanarak ZP'yi temsil etmek için bağlam kullanmak ve ardından her iki taraftaki son gizli katmanın vektörünü birbirine bağlamaktır. AZP'nin bir ifadesi olarak (ayrıca ortalamayı / toplamayı deneyebilirsiniz)

Daha sonra, bir AZP verildiğinde, bir dizi NP aday öncül olarak çıkarılacak, her aday öncülün önemine göre ek bir bellek üretilecek ve aday öncüller, önceki LSTM tarafından oluşturulan gizli vektörler çıkarılarak kodlanacaktır. , Ve sonra, son aday öncüllerin ifadesi olarak son vektörü oluşturmak için yukarıdaki ve aşağıdaki vektörleri bağlayın ve bunu harici bellekte saklayın.

Bu şekilde, hafızamızda bir grup aday NP var ve sonra aday öncüllerin önemini sınıflandırmalı ve boşluğu doldurmak için doğru NP'yi (ZP) seçmeliyiz. Burada dikkat mekanizması kullanılmış ve v (özellik) tvt (özellik) olarak belirtilen bazı yapay özellikler (Chen ve Ng (2016)) eklenmiştir.

Model yapay özellikler kullanıyor, geliştirilebilir mi? OOV ile nasıl başa çıkılacağı da var.

özet

Raporun tamamı duyulacak ve yine de kazançlar olacak, ancak hayal edildiği kadar çarpıcı değil. Çeşitli parçalar değiştirildi, bir ilgi eklendi ve geleneksel özellikler eklendi. Bu, insanlara ilaçları değil çorbaları değiştirme hissi veriyor. Öte yandan en büyük kazanım, dikkat mekanizmasının gücünü yeniden fark etmek olabilir .. Makalelerin çoğu dikkat çekti ve sonuçlar büyük ölçüde iyileştirildi. Her neyse, doğruluğu / eğitim verimliliğini artırabilen bir model iyi bir modeldir! Herkes harika! Öğrenin!

Kırmızı kış çilekleri olgunlaşmış! Lütfen Chongqing'in bir seçim haritasını kabul edin ~
önceki
Sokağın her yerinde Japon arabaları kullanıyor. Sadece bu şirket Japonya'ya araba sattı!
Sonraki
`` Blog gönderisi seçimi '' Jenkins ardışık düzeni harika komut dosyası yürütme iznini iptal ediyor
Hem şık hem de evde sadece 200.000 fiyata sahip dört orta sınıf spor otomobil
Google+ hizmeti erken kapandı ve 2 Nisan'dan sonra artık tüketicilere açık olmayacak
4K, 1 inç mikro ekran VR başlığı deneyimi: "gösteri" ekranına sahip bir cihaz
40,000 yuan'ın iyi bir araba alamayacağını kim söyledi? 4 önerilen mobilite aracı
Zhiqi 6 kanallı kraliyet halberd yayınladı: en yüksek kapasite 192 GB
Genç modeller için pahalı değil, 100.000 yuan gençlerin ortak girişim aracı önermesi için uygun
"Endişesiz Market", "gizli" sinemanın ana yaratıcısıdır. Dong Zijian "şişman değildir" ve seyirciler tarafından sevilir
Cherry, Şubat ayında satışa sunulacak DW9000SLIM paketini yayınladı
Zhu Dan'in kısa saçları ve düz yüzü yok olmuş ve kızının yüzü somurtarak aynaya el sallıyor.
"Blog Sonrası Seçimi" Jenkins ardışık düzeni paralel olarak yürütülen işlerin sayısını kontrol eder
80.000'in sadece Haval'i alabileceğini kim söyledi? Açıkçası satın alabileceğiniz çok sayıda SUV var!
To Top