Deep Transformer, NLP'de nasıl etkin bir şekilde kullanılır?

Yazar | Wang Ziyang Editör | Camel

Google, 2017'de ilk olarak, makine çevirisi gibi sekans modellerinin ilgili sorunlarının üstesinden gelmek için kullanılan "Tek ihtiyacınız olan dikkat" makalesinde tamamen kendi kendine dikkat mekanizmasına dayalı bir transformatör modeli önerdi. Geleneksel sinir makinesi çeviri modelleri, kodlayıcı-kod çözücü modelinin temeli olarak çoğunlukla RNN veya CNN kullanır, Transformer modeli ise doğal modu terk eder ve eğitim hızını artırırken modelin performansını artıran tamamen paralelleştirilmiş bir yapı kullanır. , Doğal dil işleme ile ilgili bir dizi görevi kapsayacak şekilde genişletilmiştir.

Doğal dil işlemenin ilgili görevlerini çözmek için sinir ağı yöntemi kullanıldığında, modelin performansını kısıtlayan faktörler temel olarak modelin açıklayıcılığı ve model eğitimi için kullanılan verileri içerir. Bununla birlikte, büyük veri çağı bağlamında, birçok doğal dil işleme görevi için büyük miktarda yüksek kaliteli veri elde edebildik.Basit bir yapıya sahip bir model, büyük verilerin avantajlarına tam anlamıyla yer veremez ve verilerden potansiyel bilgi ve verileri çıkarmak için yeterli değildir. Veri hacminin artmasına neden olan metinler arası yasa, performansı önemli ölçüde iyileştirmez, ancak eğitim yükünü artırır. Bu nedenle, modelin ifade gücünü arttırmak için genellikle model kapasitesini arttırmak gerekir.Ana yöntemler, modelin genişliğini ve derinliğini arttırmayı içerir.

Transformer-Big kullanımının, modelin gizli katman temsil boyutunu (genişliğini) artırarak çeviri performansını etkili bir şekilde artırabileceği yaygın olarak kabul edilmektedir.Ancak son yıllarda derin ağlar giderek daha fazla ilgi görmüştür.Genişliği artırmakla karşılaştırıldığında, modeli artırmak Deep, düşük donanım gereksinimleri ve hızlı model yakınsaması gibi avantajlara sahiptir.Bu makale, son yıllarda tanıtılacak derin Transformer model yapısı üzerine yapılan çalışmaları seçecektir.

1. Makine çevirisinde Derin Transformatör Uygulaması (1)

Bildiri Başlığı: Makine Çevirisi için Derin Transformatör Modellerini Öğrenmek

Bu makale Northeastern Üniversitesi Mavericks çeviri ekibi tarafından 2019 ACL konferansında yayınlandı. Bu makalenin ana katkıları şunları içerir: 1) İlk kez, transformatördeki katman düzenleme konumunun derin bir ağın eğitimi için gerekli olduğu önerilmiştir; 2) Bilgi aktarımının verimliliğini artıran ve derin katman sorununu çözen bir dinamik katman bilgi füzyon yöntemi önerilmiştir. Zayıf ağ bilgi aktarım verimliliği sorunu, Çok Derin ağın performansını iyileştirdi.

Pre-norm ve Post-norm

Makale, transformatör modelinde katman düzenlemenin doğru kullanımının derin kodlayıcıları öğrenmenin anahtarı olduğuna işaret ediyor. Katmanın düzenlenme konumunu yeniden konumlandırarak ve her bir alt katmanın girişinden önce yerleştirerek, derin ağda meydana gelmesi kolay gradyan patlamasını veya gradyan kaybolmasını etkili bir şekilde çözebilir.Bunun derin ağ eğitimi üzerindeki etkisi daha önce çalışılmamıştır. .

Şekil 1 post-norm ve pre-norm

Şekil 1 (a) 'da gösterildiği gibi, geleneksel post-norm yöntemidir, yani katman düzenlileştirme konumu her bir alt katmanın artık bağlantısından sonra yerleştirilir ve katman çıktısı, parametre kaymasını önlemek ve model eğitimini artırmak için normalize edilir. Sağlamlık. Spesifik hesaplama yöntemi aşağıdaki süreçle temsil edilebilir: Katman girişi- > Katman hesaplama > bırakmak- > Artık Biriktirmek - > Katman düzenlenmesi. Ve katman düzenlileştirme konumunu ilerletin, hesaplama yöntemi aşağıdaki gibidir: katman girişi- > Katman düzenleme > Katman hesaplama > bırakmak- > Artık Biriktirmek .

Aşağıdaki Şekil 1 (b) 'de gösterildiği gibi, ağ ön norm yöntemiyle ters yönde güncellendiğinde, alt katman ağ parametreleri diğer dönüşümler olmadan doğrudan üst düzey gradyan bilgisini elde edebilirken, geleneksel norm sonrası yöntem gradyandır. İletim sırasında, temeldeki ağın, gradyan patlamasına ve gradyan kaybolmasına eğilimli her düzenleme teriminden geçmesi gerekir.

Katmanların Dinamik Doğrusal Kombinasyonu

Ek olarak, ön norm yaklaşımı, derin kodlama katmanları olan bir sinir makinesi çeviri sistemini eğitmemize yardımcı oldu. Bununla birlikte, kodlama ucundaki katman sayısı derinleştikçe, altta yatan bilgi iletim işlemi sırasında kademeli olarak zayıflar ve temeldeki ağ eğitimi yetersizdir.Bu nedenle, bilgi bir sonraki katmana iletildiğinde önceki tüm katmanların çıktılarını çıkarmak için makalede dinamik bir doğrusal toplama yöntemi önerilmiştir. Doğrusal polimerizasyon gerçekleştirin. Form, önceki katmanların çıktısını bütünleştiren bir fenomen toplama fonksiyonudur. Metinde şu şekilde tanımlanmıştır:

Bunların arasında, her bir çıktı katmanına doğrusal olarak ağırlık veren bir ağırlık vardır. DLCL yöntemi evrensel bir yöntem olarak kabul edilebilir.Örneğin, standart artık bağlantı özel bir DLCL durumu olarak kabul edilebilir. Bunlar arasında ,,, Şekil a'da gösterildiği gibi, yoğun artık bağlantı bir standart olarak kabul edilebilir Ağırlıklı tam bağlı ağ Şekil b'de gösterilmektedir ve çok katmanlı temsil füzyonu, Şekil c'de gösterildiği gibi yalnızca kodlama ucunun en üst seviyesinde dinamik doğrusal füzyon işlemi olarak ifade edilebilir. DLCL yöntemi, her bir ardışık kodlama katmanı için ayrı bir ağırlık toplaması yapar. Bu şekilde, Şekil d'de gösterildiği gibi katmanlar arasında daha fazla bağlantı oluşturabilirsiniz.

WMT16-en2de, NIST OpenMT12-ch2en ve WMT18-zh2en gibi görevlerde, DLCLnin derin Transformer modeli ( 30 / 25 katmanlı kodlama katmanı) Transformer-Big / Base ile karşılaştırıldığında 0,4 ~ 2,4 BLEU değerlerini artırmış ve aynı zamanda Transformer ile karşılaştırıldığında 3 kat eğitim hızlandırma ve 1,6 kat model sıkıştırma elde etmiştir.

2. Derin Transformatörün konuşma tanımada uygulanması

Bildiri Başlığı: Uçtan Uca Konuşma Tanıma için Çok Derin Öz-Dikkat Ağları

Bu çalışma, makine çevirisine benzeyen konuşma tanıma görevi için derin dönüştürücü yapısını kullanır ve uçtan uca bir model yapısı kullanır. Makaledeki analiz, güçlü öğrenme yeteneğine sahip derin Transformer ağının önceki uçtan uca modellerin performansını aşabileceğini göstermektedir. Ek olarak, kodlayıcılar ve kod çözücüler için Birleştirmek Rastgele artık bağlantı, 48 kodlama katmanına sahip derin bir ağ modelini eğitir.

Derin ağı eğitirken gradyan kaybolması ve gradyan patlaması sorununu çözmek için, derin ağ, daha önce olduğu gibi aynı pre-norm yöntemi kullanılarak istikrarlı bir şekilde eğitilebilir.Aynı zamanda, yazar, transformatörün artık ağda birden çok katmanda eğitilebileceğine inanmaktadır, ancak Katman sayısının derinleşmesiyle birlikte artık bağlantının da fazlalığı vardır, bu nedenle yazar eğitim sürecinde rastgele bazı alt katmanları atlayan düşmeye benzer bir yöntem tasarlamıştır.Görüntü alanında Stokastik Derinlik gibi benzer yöntemler olmuştur. NLP alanındaki derin ağların sürekli gelişimi ile bu yöntem aynı zamanda ilk kez NLP görevlerine uygulanıyor ve hedeflenen ayarlamalar yapıldı.

Ön normun alt katman hesaplaması, öz-dikkat alt katmanı, ileri beslemeli sinir ağı alt katmanı veya kodlama ve kod çözme dikkat alt katmanı gibi karşılık gelen alt katman işlemi olarak tanımlanır. Rastgele artık bağlantı yöntemi, aşağıdaki gibi alt katman işlemine bir M maskesi uygulamaktır:

M maskesi, bırakmaya benzer şekilde Bernoulli dağılımından üretilen 1 veya 0'dır M = 1 olduğunda, alt katman işlemi etkinleştirilir ve M = 0 olduğunda, alt katman işlemi atlanır. Rastgele artık bağlantı, eğitim aşamasında daha fazla alt ağ yapısı oluşturan modeldir, çıkarım aşamasında ise tüm ağ kullanılır, bu da model entegrasyonuna benzer bir etki üretir.

Her katmanı atlama olasılığı p ile ilgili olarak yazar, p olasılığının daha düşük olması gerektiğine inanmaktadır, bu nedenle yazarın p'yi ayarlama stratejisi: 1) Aynı katmandaki alt katmanlar aynı maskeyi paylaşır; 2) Sığ katman daha düşüktür. Olasılık: burada p, modelin rastgele kalıntısının gücünü kontrol etmek için kullanılan küresel bir değişkendir.

Ek olarak, her bir alt katmanın çıktısı için yazar, ölçekleme faktörü ile, bırakmaya benzer bir ölçekleme işlemi gerçekleştirdi.

3. Makine çevirisinde Derin Transformatör Uygulaması (2)

Kağıt Başlığı: Derinlik Ölçekli Başlatma ve Birleştirilmiş Dikkat ile Derin Transformatörü İyileştirme

Bu makalede yazar ayrıca, doğal dil işleme görevlerinin geliştirilmesindeki genel eğilimin, modelin kapasitesinin ve performansının daha derin sinir ağları aracılığıyla geliştirilebileceğini gösterdiğine inanıyor. Aynı zamanda transformatör modelinin katman sayısı arttıkça modelin yakınsaması zorlaşır, eğitim maliyeti artar ve hatta gradyan patlaması veya gradyan kaybolması sorunu ortaya çıkar. Yazar, analiz yoluyla, Zen çay bağlantısı ve katman düzenleme işlemi arasındaki etkileşimin, derin ağdaki gradyanın kaybolmasına veya patlamasına yol açtığını, bu sorunu çözmek için önceki katman düzenleme ayarlamasından farklı olduğunu açıkladı.Yazar, parametrelerden başlattı. Perspektif açısından, başlangıç aşamasında parametreler arasındaki varyansı azaltan ve aynı zamanda gradyan kaybolması veya patlama problemini etkin bir şekilde azaltan artık bağlantı çıktısının varyansını azaltan derinlik ölçeklendirmesine (DS-Init) dayalı başlatma önerilmektedir.

Yazar aynı zamanda, hesaplama maliyetinden tasarruf etmek için öz-dikkat ve öz-ilgiyi kodlama ve çözme temeline dayanan bir dikkat alt katman füzyon yöntemi (MAtt) önermektedir.

DS-Init

Geleneksel Transformatör modelindeki tüm parametreler standart bir normal dağılımdan rastgele örneklenir. Formül aşağıdaki gibidir:

Bunlar arasında girdi ve çıktı boyutlarını temsil eder. Bu tür bir başlatma, etkinleştirme varyansını ve geri yayılma varyansını koruma avantajına sahiptir, bu nedenle derin sinir ağlarını eğitmeye yardımcı olabilir.

Yazar, Transformatör katmanlarının sayısının artmasının gradyanın kaybolmasına veya patlamasına neden olacağı problemi göz önüne alındığında, bunun artık bağlantı (RC) ve katman düzenleme (LN) arasındaki etkileşimden kaynaklandığına inanmaktadır. Giriş vektörü için geleneksel hesaplama şöyledir:

Evet, ara işlemin ve sinir ağının çalışmasının sonucudur.Yazar, geri yayılma işlemi sırasında LN çıkışının hata sinyalinin olduğunu ve RC ve LN'nin hata sinyaline katkısının aşağıdaki gibi olduğunu varsayar:

,

Yazar, hata sinyalinin değişimini olarak tanımlamaktadır. ,, Sırasıyla model, LN ve RC işlemlerinin bir oranını temsil eder. Değer ne kadar büyükse, gradyan patlaması veya gradyan kaybolması o kadar olasıdır. Bir sinir ağının, birini kararlı bir şekilde eğitebilmesi için katmanları arasındaki gradyan normu olması gerekir Derin ağ. Yazar, deneysel hesaplamalarla, LN işleminin hata sinyalini zayıflatabileceğini, ancak RC'nin artırılacağını ve zayıflamış gücün, artmış güçten daha az olduğunu keşfetti; bu, artık bağlantının çıktısının varyansının daha büyük olmasına, gradyan patlaması veya gradyan kaybolma riskini artıracaktır. DS-Init'i önerin, orijinal başlatma yöntemi aşağıdaki gibi değiştirilir:

İlk katmanı temsil eden 0 ile 1 arasında bir hiperparametredir Bu şekilde, daha yüksek katman daha küçük bir RRC çıktı varyansına sahip olabilir ve daha fazla gradyan yeniden akışı yapabilir. Spesifik sonuçlar aşağıdaki gibidir

Birleştirilmiş Dikkat Modeli

Bu yöntem, doğrusal dönüşüm dışındaki tüm matris işlemlerini kaldıran AAN'ın (Ortalama Dikkat Ağı) basitleştirilmesidir:

Evet, AAN'daki maske matrisidir. Kodlama ve kod çözme dikkat mekanizmasıyla birleştirmek için aşağıdaki yöntemi kullanıyoruz Birleştirmek :

SAAN ve ATT'de paylaşılan, kodlama ucunun çıktısıdır, ATT kodlama ve kod çözme dikkat mekanizmasıdır.Bu şekilde, MAtt, AAN ile kodlama ve kod çözme dikkatinin aşağıdaki şekilde gösterildiği gibi paralel olmasına izin verir:

4. Deep Transformer'ın dil modelinde uygulanması

Bildiri Başlığı: Daha Derin Öz Dikkatle Karakter Düzeyinde Dil Modellemesi

Kesilmiş geri yayılım yöntemi kullanılarak eğitilen LSTM ve RNN'nin çeşitli varyantlarına dayanan dil modeli, temel olarak uzun vadeli bağlam için güçlü bellek yeteneğinden kaynaklanan güçlü performans göstermiştir, ancak bu makalede yazar Derin modelin güçlü performansını bir kez daha gösteren, 64 katman derinliğine sahip dönüştürücü tabanlı karakter düzeyinde bir dil modeli kullanılır.

Yazar, uzun dizilerin karakter düzeyinde dil modellemesi için, transformatör modelinin bilgiyi herhangi bir uzunluk ve mesafe üzerinden hızlı bir şekilde iletebileceğine, döngünün yapısının adım adım iletilmesi gerektiğine ve böylece daha iyi sonuçlar elde edilebileceğine inanıyor. Ek olarak, model yakınsamasını hızlandırmak ve derin bir modelin kararlı eğitimini sağlamak için yazar, eğitime yardımcı olmak için üç ek yardımcı kayıp işlevi ekledi.

Derin Transformer dil modeli, kodlama katmanı ile aynı tek uçlu yapıyı benimser ve ek olarak, aşağıdaki şekilde gösterildiği gibi bilgi akışını soldan sağa kısıtlamak için dikkat maskesi mekanizmasını uygular.

Yardımcı Kayıplar

Yazar, ondan fazla katmandan oluşan bir Transformer ağını eğitirken, yavaş yakınsama hızına ve daha düşük doğruluğa neden olmanın kolay olduğunu buldu.Yardımcı kaybı artırarak, ağın daha iyi optimize edilebileceğini ve model eğitimi ve yakınsama hızının önemli ölçüde hızlandırılabileceğini buldu. Yazar, orta konuma, orta katmana ve bitişik olmayan katmana uygulanan, eğitime yardımcı olan ve modelin performansını iyileştiren üç tür yardımcı kayıp tasarladı.

Çoklu Pozisyon kaybı

Yalnızca son konumda görünen kelimelerin tahmin edilmesiyle karşılaştırıldığında, son katmandaki her konum için ek bir tahmin görevi eklenir ve tahmin hedefi L'ye (sıra uzunluğu) genişletilir, çünkü transformatör modeli dil modelinde gruplar arasında parti yoktur. Bilgi aktarımı. Bu yöntem, küçük bir bağlamda tahmini zorlar. Tüm bağlamın tahmin edilmesinde yardımcı olup olmadığından emin olmasa da, bu yardımcı kayıp eğitimi hızlandırır ve daha iyi sonuçlar elde eder. Aşağıdaki şekil göstermektedir Bu kayıp nasıl eklenir:

Ara Katman Kayıpları

Yazar, son katmanda tahminler yapmanın yanı sıra, modelin orta katmanına da tahmin hedefleri ekledi. Son katmanda olduğu gibi, tüm ara konum tahminleri diziye eklenir (aşağıdaki şekilde gösterildiği gibi). Toplam n katman varsa, ilk katman 1 / 2n eğitim aşamasını tamamladıktan sonra tahmin etmeyi durduracak ve ek yardımcı kayıp hesaplanmayacaktır. Yani, eğitimin yarısı tamamlandıktan sonra model artık ara katman kayıpları üretmez.

Çoklu Hedefler

Dizideki her konumda, model gelecekteki karakterler için iki (veya daha fazla) tahmin yapar. Her yeni hedef için ayrı bir sınıflandırıcı tanıtılır. Ek hedef kaybı, karşılık gelen katman kaybı eklenmeden önce 0,5 çarpanıyla ağırlıklandırılır.

Yardımcı kayıp yardımıyla, 64 katman derinliğine sahip trafo yapısına dayalı bir dil modelini başarıyla eğitti ve performansı RNN'ye dayalı yapıdan çok daha iyi ve iki text8 ve enwik8 görevinde o sırada en iyi performansı elde etti. .

5. Özet

Bu makale, trafo yapısına dayalı olarak derin ağlar üzerinde dört güncel temsili çalışmayı listelemektedir.Transformatör yapısında basitçe ağ yapısının istiflenmesinin eğimin kaybolmasına / patlamasına ve eğitimde kararsızlığa neden olacağı görülebilir.

Bununla birlikte, katman düzenlileştirme konumunu ayarlama, başlatma yöntemini değiştirme veya kayıp işlevini yeniden tasarlama gibi çeşitli yollarla yapılan ayarlamalar, derin ağ eğitiminin kararlılığını etkili bir şekilde artırabilir. Aynı zamanda ağ katmanlarının sayısı arttıkça modelin kapasitesinin ve performansının da büyük ölçüde arttığını gözlemleyebiliriz.

Model performansını iyileştirmek için artırılmış model kapasitesi kullanan geleneksel transformatör-büyük modelle karşılaştırıldığında, modelin derinliğinin artırılması daha fazla performans artışı sağlar ve düşük ekipman gereksinimleri ve hızlı model yakınsaması avantajlarına sahiptir.

Şu anda, NLP görevlerinde derin ağların geliştirilmesi hala emekleme aşamasında.Gelecekte NLP alanında derin ağlar üzerinde daha fazla çalışma olacağına inanıyorum.

yazar hakkında:

Wang Ziyang, Northeastern Üniversitesi Doğal Dil İşleme Laboratuvarı'nda yüksek lisans öğrencisidir ve araştırma alanı makine çevirisi üzerinedir.

Temel üyeleri Northeastern Üniversitesi Doğal Dil İşleme Laboratuvarı'ndan gelen Mavericks Translation, 1980 yılında Profesör Yao Tianshun tarafından kuruldu ve şu anda Profesör Zhu Jingbo ve Dr. Xiao Tong tarafından yönetiliyor. Uzun zamandır bilgisayar çevirisi ve dil dahil olmak üzere hesaplamalı dilbilimle ilgili araştırma çalışmaları yapıyorlar. Analiz, metin madenciliği vb. Ekip tarafından geliştirilen ve 187 dil arasında çeviriyi destekleyen Xiaoniu çeviri sistemi yaygın olarak kullanıldı ve Xiaoniu Çeviri Bulutu (https://niutrans.vip), küresel işletmeleri makine çevirisi teknolojisiyle güçlendirmek için geliştirildi.

Yapay sinir ağı çok ilkel. "Bilim" in yeni çalışması, nöronların dendritlerinin aynı zamanda hesaplama gücü anlamına geldiğini ortaya koyuyor.
önceki
Paper Today | Küçük örnek öğrenme; görsel duyarlılık sınıflandırması; sinir mimarisi araması; doğal görüntü anahtarlama vb.
Sonraki
2020'de AI akademik topluluğunda ani bir tartışma: Derin öğrenme nedir?
AAAI 2020 | Pekin Üniversitesi ve Şanghay Jiaotong Üniversitesi: Aktif hedef takibi elde etmek için tutum destekli çoklu kamera işbirliği
Kalp Atışı Anormalliği Tespit Yarışması: 2020'de sağlığa bir adım daha atın
Today Paper | Sivrisinek çağrısı veri seti; konuşma tanımanın doğruluğunu artırın; ikili dikkat öneri sistemi vb.
AAAI 2020 | Bilgisayar Teknolojisi Enstitüsü'nden Feng Yang Grubu: Makine çevirisinin akıcılığını ve doğruluğunu iyileştirmek için değerlendirme modüllerini tanıtın (açık kaynaklı)
Koronavirüs "bu aile" ile neler oluyor?
"Dadong lehçe güvenliği" popüler orijinal makaleler envanteri (aşağıda) Altıncı Altıncı Altıncı
Uzun süreli izolasyondan sonra nasıl endişeli olunmaz?
"Dadong lehçe güvenliği" popüler orijinal makaleler envanteri (Bölüm 1) Junior Beşinci
Bitkilerin ve "sıçan" ın hikayesi birbirini seviyor junior dördüncü
"Sıçan" kelimesini içeren bitkileri biliyor musunuz? İlk yılın ikisi
"Sıçan" sen en iyisisin
To Top