g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Fanteziden vazgeçin ve Transformer'ı kucaklayın: Doğal dil işleme (CNN / RNN / TF) için üç ana özellik çıkarıcısının karşılaştırması (Bölüm 2)

Leifeng.com AI teknolojisi yorum notu: Bu makalenin yazarı, Çin Çin Bilgi Toplumu'nun direktörü ve Çin Bilimler Akademisi Yazılım Enstitüsü'nden bir doktora öğrencisi olan öğretmen Zhang Junlin'dir. Şu anda Sina Weibo AI Lab'da kıdemli bir algoritma uzmanıdır. Bundan önce, Bay Zhang Junlin, Alibaba'da kıdemli teknik uzman olarak görev yaptı ve yeni teknik ekipten sorumluydu, ayrıca Baidu ve UFIDA'da teknik müdür ve teknik direktör olarak görev yaptı. Aynı zamanda, "This is Search Engine: Detailed Explanation of Core Technology" (bu kitap 12. Ulusal Mükemmel Kitap Ödülü'nü kazandı) ve "Big Data Daily Knowledge: Architecture and Algorithms" adlı teknik kitapların yazarıdır. Bu makale ilk olarak Zhihu'da yayınlandı ve yazarın izniyle Leifeng.com AI Technology Review tarafından yeniden basıldı.

Bu kısım bir sonraki kısımdır.

Huashan Lunjian: Üç Özellik Çıkarıcıların Karşılaştırması

NLP alanının özellikleriyle birleştirildiğinde, yukarıdaki bölümler RNN / CNN / Transformatörün ilgili özelliklerini sunar. Yukarıdaki girişten, üç ana özellik çıkarıcının NLP alanında kendi güçlü yönleri var gibi görünüyor Görünüşe göre NLP görev arenasına çekilirlerse, karşılıklı olarak başarılı olmaları gerekir ve her biri kazanmada iyidir, değil mi?

Gerçekler neler? Üç özellik çıkarıcı hepsi bir arada mı yoksa diğerinde mi? Bu problemi bazı deneylerle açıklıyoruz.

Üçünü daha ayrıntılı ve adil bir şekilde karşılaştırmak için, üçünü birkaç farklı perspektiften karşılaştırmayı planlıyorum. Başlangıçta aşağıdaki boyutlardan analiz ve yargılamayı planladım: sözdizimsel özellik çıkarma yeteneği; anlamsal özellik çıkarma yeteneği; uzun Mesafe özelliği yakalama yeteneği; görev kapsamlı özellik çıkarma yeteneği. Yukarıdaki dört perspektif, NLP özellik çıkarıcısının gücü perspektifinden değerlendirilir ve büyük ölçekli pratiklik için uygun olup olmadığı perspektifinden paralel hesaplama gücü ve işletim verimliliği eklenir.

Öznitelik çıkarıcının sözdizimsel öznitelik çıkarma yeteneklerinin karşılaştırılmasıyla ilgili çok az literatür olduğu için, sadece bir makale görmüşüm gibi görünüyor.Sonuç, CNN'nin RNN'den daha iyi sözdizimsel öznitelik çıkarma yeteneklerine sahip olduğu, ancak daha önceki bir makale olduğu ve transformatörlerin karşılaştırılmadığı için Sözdizimsel özellik çıkarma yeteneği, bu nedenle bu parçayı ayrı ayrı karşılaştırmak zor, bu yüzden aşağıdaki yeteneklerin karşılaştırılmasıyla basitleştirdim:

Anlamsal özellik çıkarma yeteneği;
Uzun mesafe özelliği yakalama yeteneği;
Görev kapsamlı özellik çıkarma yeteneği;
Paralel bilgi işlem gücü ve işletim verimliliği

Üçü bu boyutlarda nasıl performans gösteriyor? Aşağıda ayrı ayrı açıklayalım.

Anlamsal özellik çıkarma yeteneği

Anlamsal özellik çıkarma yetenekleri perspektifinden bakıldığında, mevcut deneyler aşağıdaki sonuçları desteklemektedir: Transformatörün bu alandaki yetenekleri RNN ve CNN'den çok daha fazladır (WSD'deki anlamsal yetenekleri araştırma görevinde, Transformer RNN ve CNN'yi yaklaşık 4-8 mutlak yüzde puanı ile aşar. ), RNN ve CNN'in yetenekleri arasında çok fazla fark yoktur.

Uzun mesafe özelliği yakalama yeteneği

Uzun mesafeli özellik yakalama yetenekleri açısından, şu anda belirli bir uzun mesafe özelliği yakalama yeteneği testi görevinde (konu-koşulu tutarlılık algılama, mesela ... ...), deney şu sonucu desteklemektedir: yerel CNN özelliği çıkarıcı burada RNN ve Transformer'dan çok önemli ölçüde daha zayıftır.Transformer, RNN modelinden biraz daha iyidir (özellikle özne-tahmin mesafesi 13'ten az olduğunda) ve yeteneği, güçlüden zayıfa, Transformatör'e doğru sıralanır. > RNN > > CNN; Ancak nispeten uzun bir mesafede (özne-yüklem mesafesi 13'ten daha büyük), RNN, Transformer'dan daha zayıftır, bu yüzden kapsamlı olarak, Transformer ve RNN'nin bu açıdan çok az farka sahip olduğu, CNN'in ise önceki ikisinden önemli ölçüde daha zayıf olduğu düşünülebilir. .

Öyleyse CNN uzun mesafeli özellikleri yakalamada neden bu kadar zayıf? Önceki yazımızda CNN'den bahsettiğimizde, CNN'in daha uzun bir giriş uzunluğu elde etmek için derinliği istifleyerek bu sorunu çözdüğünü, yani CNN'in bu alandaki performansının evrişim çekirdeğinin kapsayabileceği maksimum giriş mesafesi ile ilgili olduğunu söylemiştik. . Evrişim çekirdeğinin çekirdek boyutunu artırır ve ağ derinliğini derinleştirirseniz, giriş kapsamının uzunluğunu artırabilirsiniz. Deneyler, bunun CNN'nin uzun menzilli özelliği yakalama kapasitesini önemli ölçüde geliştirebileceğini göstermektedir. Ancak buna rağmen CNN, bu açıdan hala RNN ve Transformer'dan önemli ölçüde daha zayıf. Bu sorunun arkasındaki sebep nedir (çünkü yukarıdaki konu-yüklem tutarlılık görevinde, CNN derinliği kesinlikle 13-25 uzunluğunu kapsayabilir, ancak performans hala çok zayıf)? Aslında bu, keşfetmeye değer iyi bir noktadır.

Transformer için, Çok başlı dikkatin kafa sayısı, NLP görevlerinde uzun menzilli özellikleri yakalama yeteneğini ciddi şekilde etkiler: Sonuç, ne kadar fazla kafa olursa, uzun menzilli özellikleri yakalamak o kadar iyi olur. Bir önceki sayfada PPT'de yazılan makale çıkmadan önce, bir çalışmanın sonucu (makale: Hiyerarşik Yapıyı Modellemek İçin Tekrarlanan Olmanın Önemi) yukarıdaki sonuçla tutarsızdı: sonucu "özne-yüklem tutarlılığı" görevindeydi. Yukarıda, Transformatör performansı LSTM'den daha zayıftır. Bu iki makaleyi birleştirirsek, çelişkili sonuçlara varmış gibi görünüyoruz, o zaman kim haklı? Why Self-care makalesi bunu araştırdı ve bu farkın, iki makaledeki deneylerdeki Transformer'in farklı hiperparametre ayarlarından, özellikle de sonuçlar üzerinde ciddi etkisi olan çoklu başlık sayısından kaynaklandığı sonucuna varıldı. , Ve eğer bazı hiper parametreler doğru ayarlanmışsa, Trans'ın tezinin sonucu geçerli değildir. Yani, şu sonucu hala koruyabiliriz: Transformer ve RNN, uzun mesafeli özellik yakalama yetenekleri açısından benzer yeteneklere sahipken, CNN bu açıdan önceki ikisinden önemli ölçüde daha zayıf.

Görev kapsamlı özellik çıkarma yeteneği

Yukarıdaki iki karşılaştırma, özellik çıkarmanın iki daha önemli bireysel yeteneği perspektifinden değerlendirilir. Aslında, belirli görevlerde farklı özellik çıkarıcıları tanıtmak ve ardından üçünün entegrasyonunu kapsamlı bir şekilde değerlendirmek için etkideki farklılıkları karşılaştırmak daha önemlidir. kabiliyet. Dolayısıyla bu bir soruya yol açar: NLP'de birçok görev vardır, hangi görevler en çok temsil eden görevlerdir? Cevap, makine çevirisidir. NLP'nin birçok önemli yenilikçi modelinin makine çevirisi görevinde öne sürüldüğünü göreceksiniz, bu da arkasında mantıklıdır, çünkü makine çevirisi temelde NLP'nin çeşitli işleme yetenekleri için en yüksek kapsamlı gereksinimlere sahip görevlerden biridir. Yüksek kaliteli çeviri sonuçları elde etmek için morfoloji, sözdizimi, anlambilim, bağlam işleme yetenekleri, uzun mesafeli özellik yakalama ve iki dilden daha fazlasının dikkate alınması gerekir. Bu nedenle, makine çevirisi üzerinde birçok karşılaştırmalı çalışma yapıldığını görüyoruz.İşte, tek bir görev ve ikna edici olmayan sorun hakkında sorgulanmaktan kaçınmak için arkasındaki nedenin açıklaması. Tabii ki, "daha az acı çektiğim için beni bıçaklamayı seven" sınıf arkadaşının beni böyle sorgulamasını bekliyordum, önemli değil. Bunu sorgulasanız bile, yine de kanıt gösterebilirim. Neden bunu söylüyorsunuz? Lütfen geriye bakın.

Öyleyse, makine çevirisi ile temsil edilen kapsamlı özellik çıkarma yetenekleri açısından, üç özellik çıkarıcıdan hangisi daha iyidir?

İlk olarak, bir makine çevirisi görevi için kanıt verin, bu hala Neden Kendi Kendine Dikkat Etme belgesinin sonucudur. Deneysel sonuçların karşılaştırması için yukarıdaki şekle bakın. İki makine çevirisi görevinde, çeviri kalite göstergesi BLEU'nun aşağıdaki sonucu kanıtladığı görülebilir: Transformatörün kapsamlı yeteneği, RNN ve CNN'den önemli ölçüde daha güçlüdür (BLEU'nun mutlak değerinin, teknoloji mevcut aşamaya geliştirildiğinde 1 puan arttığını bilmelisiniz. Zor şey) ve RNN ve CNN temelde aynı şekilde çalışıyor gibi görünüyor, CNN biraz daha iyi performans gösteriyor gibi görünüyor.

Bir makalenin sonucunun sorunu açıklayamayacağını düşünebilirsiniz, bu yüzden başka bir kanıt daha vereceğim, ancak bu kanıt yalnızca Transformer ve RNN'yi CNN olmadan karşılaştırır, ancak ikna edici olup olmadığını sorgulamayacağınıza inanıyorum. aşağıdaki gibi:

Yukarıdakiler, GPT makalesinin deneysel sonucudur. 8 farklı NLP görevinde, aynı diğer koşullar altında, özellik çıkarıcıyı Transformer'dan LSTM'ye değiştirin ve ortalama 8 görev 5'ten fazla puan aldı. Bu yeterince inandırıcı mı?

Aslında makine çevirisi ile ilgili başka deneysel veriler de var, uzunluğun nedenleri tek tek listelenmiyor. Daha ciddi biriyseniz ve gerçekten görmek istiyorsanız, lütfen bir sonraki bölüme bakın Sizi ikna edecek başka bir veri örneği var. Özetleyebilirseniz, şimdi çıkarılabilecek sonuç şudur: Kapsamlı özellik çıkarma yetenekleri perspektifinden, Transformer RNN ve CNN'den önemli ölçüde daha güçlüdür ve RNN ile CNN'nin performansı çok farklı değildir. Karşılaştırıldığında, CNN'nin performansı genellikle RNN'ninkinden biraz daha iyidir.

Tabi bu bölümde bahsedilen RNN ve CNN'nin yerli RNN ve CNN modellerine atıfta bulunduğunu da vurgulamak gerekir ki bu da klasik yapıya dikkat, istifleme seviyeleri ve diğer iyileştirmeler ekleyebileceğiniz anlamına gelir ancak özel yapıyı kapsamaz. Büyük bir değişiklik, plastik cerrahiyi desteklediği ancak dejenerasyonu desteklemediği anlamına gelir. Burada bahsedilen orijinal versiyon, yüz germe versiyonuna atıfta bulunuyor. RNN ve CNN'in cinsiyet değiştirme versiyonları olup olmadığı konusunda çok endişelenmeniz gerektiğini biliyorum.Size sorumlu bir şekilde söyleyeceğim, evet. Transseksüelden sonra neye benzediğini bilmek ister misin? Onları bir süre sonra göreceksin ve bende senin için fotoğrafları var.

Paralel bilgi işlem gücü ve bilgi işlem verimliliği

Üç özellik çıkarıcının paralel hesaplama yetenekleriyle ilgili olarak, aslında, önceki makalede üç modeli böldüğümüzde bunlardan kabaca bahsetmiştik. İşte sadece bir özet. Sonuçlar aşağıdaki gibidir:

RNN'nin paralel hesaplamada ciddi eksiklikleri vardır.Bu, kendi sıra bağımlılık özelliklerinden kaynaklanır. Sözde başarı ve başarısızlık da zayıftır.Doğrusal sıra bağımlılığı, NLP görevlerini çözmek için çok uygundur. Bu nedenle RNN, NLP'ye tanıtılmıştır. Hızlı popülerliğin nedeni, ancak aynı zamanda paralel hesaplamada nitel bir sıçrama elde etmeyi zorlaştıran bu doğrusal dizinin bağımlılığıdır ve bu neredeyse imkansız bir görevdir.

CNN ve Transformer'a gelince, ağın ara durumunda farklı zaman adımlarının girdisine bağımlı olmadıkları için paralel hesaplama dönüşümünü çok rahat ve özgürce yapabilirler ki bu anlaşılması kolaydır.

Özetlemek gerekirse, paralel hesaplama gücünün yüksekten düşüğe doğru sıralandığı düşünülebilir: Transformer ve CNN benzerdir ve her ikisi de RNN'den çok daha güçlüdür.

Başka bir bakış açısıyla, paralel bilgi işlem gücü konusunu bir kenara bırakalım ve basitçe üç modelin hesaplama verimliliğini karşılaştıralım. Belki de herkesin sezgisel izlenimi, Transformer'in daha ağır, daha karmaşık ve daha düşük hesaplama verimliliğine sahip olmasıdır. Bu doğru mu?

Yukarıdaki şekil, tek katmanlı bir Öz dikkat / RNN / CNN'nin hesaplama verimliliğini listelemektedir.Öncelikle, dikkat etmeliyiz: Yukarıdaki liste, Transformer Bloğu değil, Öz dikkatidir, çünkü Transformer Bloğu aslında tek bir katman değil, birkaç katman içerir. Önce öz ilgiden bahsedelim, ardından Transformer Bloğu hesaplama miktarından bahsedelim.

Yukarıdaki şekilden de görülebileceği gibi, öz ilgi / CNN / RNN tek katmanlı karşılaştırma hesaplaması ise, her üçü de bir kare terim içerir. Asıl fark şudur: öz dikkatin kare terimi cümlenin uzunluğudur, çünkü her kelimenin bir toplama ihtiyacı vardır. Herhangi bir kelime, dikkati hesaplamakla ilgilidir, bu yüzden bir kare terim n içerir. RNN ve CNN'nin kare terimi, gömme boyutudur. Öyleyse hepsi kare terimler içerdiğinden, üç modelin hesaplamalarını nasıl karşılaştırırsınız? Her şeyden önce, CNN'nin hesaplama miktarının RNN'ninkinden daha büyük olduğunu görmek kolaydır, bu yüzden öz ilgi diğer ikisiyle karşılaştırıldığında nasıldır? Şu şekilde düşünülebilir: ortalama cümle uzunluğu n gömme boyutundan büyükse, Öz dikkatin hesaplama miktarının RNN ve CNNinkinden daha büyük olduğu anlamına gelir; ve tersi ise, yani gömme boyutu cümlenin ortalama uzunluğundan büyükse, o zaman RNN ve CNN hesaplama miktarının Öz dikkat operasyonundan daha büyüktür. Ve gerçekte nedir? Bunun hakkında düşünebiliriz, normal bir cümle uzunluğu ortalama olarak sadece birkaç düzine kelimedir. Şu anda yaygın olarak kullanılan gömme boyutları, 128 ile 512 arasında yaygındır, bu nedenle çoğu görevde, öz dikkatin hesaplama verimliliği aslında RNN ve CNN'ninkinden daha yüksektir.

Ancak, daha az yiyeceğe sahip olduğu için beni bıçaklamayı seven öğrenci soru sormaya devam edecek: "Kardeşim, bilmek istediğim, Transformer, RNN ve CNN'in hesaplama verimliliğinin karşılaştırılması, kendi kendine ilgilenmek değil. Ayrıca, kafanızdaki sorunu azaltabilirsiniz. Su sesi miktarı? ". Pekala, bu soru çok mantıklı. Kabaca bir tahmin yapmama izin verin Transformer birden fazla katman içerdiğinden, Bağlantıyı atladıktan sonra Add işlemi ve LayerNorm işlemi hesaplama açısından çok yoğun değildir. İlk önce onu görmezden geleceğim. Daha sonra FFN işlemi nispeten pahalıdır. Zaman, zaman karmaşıklığı d'nin karesinin n katı olmalıdır. Dolayısıyla, Transformer Bloğu çok katmanlı bir bütün olarak RNN ve CNN tek katmanını karşılaştırırsanız, Transformer Bloğu RNN ve CNN'den daha fazla hesaplamaya sahip olmalıdır, çünkü yukarıda listelendiği gibi n çarpı d karesini de içerir. Öz dikkatin zaman karmaşıklığı ekstra hesaplamadır. Bu şekilde, tek bir Transformatör Bloğunun hesaplanması, tek katmanlı RNN ve CNN'ninkinden daha büyüktür ve bunda yanlış bir şey yoktur.

Yukarıdaki husus, üç tek katmanın hesaplama miktarıdır ve sonucun şu olduğu görülebilir: Trafo Bloğu > CNN > RNN. Farklı spesifik modeller düşünüyorsanız, bunun modelin ağ katmanı derinliği ile ilgisi olacaktır.Ayrıca, ortak dikkat operasyonları vardır, bu nedenle sorun daha karmaşık hale gelecektir ve burada detaylı olarak tartışmayacağım.

Paralel olmayan durumda üç tek katmanlı hesaplamadan bahsettikten sonra, paralel hesaplama probleminden bahsedelim. Açıktır ki, Transformer ve CNN için, cümle uzunluğu n paralel hesaplama ile elimine edilebilirken, RNN n'yi sıra bağımlılığı nedeniyle ortadan kaldıramaz.Bu nedenle, paralel hesaplama gücünü dikkate aldığımızda, RNN Elimine edilemeyen n korkunçtur. Bu sadece teorik bir analizdir, pratikte üçünün hesaplama verimliliği nedir? Üçünün hesaplama verimliliğini karşılaştıran bazı deneysel sonuçlar veriyoruz.

"Evrişimli Sıradan Sıralı Öğrenmeye" başlıklı makale, ConvS2S ve RNN'nin hesaplama verimliliğini karşılaştırıyor ve CNN'nin RNN ile karşılaştırıldığında bariz hız avantajları olduğunu kanıtlıyor Eğitim ve çevrimiçi muhakeme açısından CNN, RNN'den 9,3 ila 21 kat daha hızlıdır. "Bağlamsal Kelime Gömmelerinin Kesilmesi: Mimari ve Temsil" makalesi, Transformer ve CNN'in eğitim hızının çift yönlü LSTM'den 3 ila 5 kat daha hızlı olduğundan bahsetti. "Her İki Dünyanın En İyisi: Nöral Makine Çevirisinde Son Gelişmeleri Birleştirme" adlı kağıt bir RNN / CNN / Transformer hız karşılaştırma deneyi veriyor ve sonuç şu: Transformer Base en hızlısı; CNN ikinci en hızlı, ancak neredeyse Transformer Base'den daha yavaş Çift; Transformatör Yine büyük hız, esas olarak en fazla parametreye sahip olması ve arkada en yavaş asılı olan RNN yapısıdır.

Sonuç olarak, üçünün hız karşılaştırmasıyla ilgili olarak, mevcut ana akım ampirik sonuçlar temelde yukarıda belirtildiği gibidir: Transformer Base en hızlısı, ardından CNN ve yine Transformer Big ve en yavaş olanı RNN'dir. RNN, önceki ikisinden 3 kat ile onlarca kat daha yavaştır.

Kapsamlı sıralama durumu

Yukarıdaki giriş, RNN / CNN / Transformer'ı birkaç farklı açıdan karşılaştırmaktır.Bu yönlerin deneysel verilerini birleştirdiğimde, benim sonucum şudur: Genel görev etkisi açısından, Transformer açıkça üstündür. CNN ile karşılaştırıldığında, CNN, RNN'den biraz daha iyidir. Hız açısından, Transformatör ve CNN bariz avantajlara sahiptir ve RNN bu konuda bariz dezavantajlara sahiptir. İkisini birleştirmek, eğer verdiğim sıralama sonucu Transformer ise > CNN > RNN, sanırım sorun yok, değil mi? Bu dezavantajlı durum hakkında ne düşünüyorsun ...

Hız ve etki arasındaki uzlaşma açısından, endüstrideki pratik uygulamalar için, özellik çıkarıcı seçiminde Transformer tabanını yapılandırmanın daha iyi bir seçim olduğunu düşünüyorum.

Üçünün birleşmesi: Transformer'a yaklaşmak

Yukarıda bahsedildiği gibi, Transformer'in etkisi, doğal RNN ve CNN'ye göre bariz avantajlara sahiptir.Bu, RNN ve CNN'den vazgeçebileceğimiz anlamına mı geliyor? Gerçek öyle değil. Akıllı araştırmacılarımız, benim "münzevi yengeç" stratejisi (yukarıda bahsedilen "transseksüel", deniz uygarlığı atmosferi ile yumuşak bir terim) olarak adlandırdığım ustaca bir dönüşüm yöntemi düşündüler. Bu ne anlama geliyor? Transformer Bloğunun sadece bir bileşen değil, çok başlı dikkat / atlama bağlantısı / Katman Normu / İleri beslemeli ağ gibi birkaç bileşenden oluşan küçük bir sistem olduğunu biliyoruz.RNN veya CNN'yi Transformer Bloğuna takarsak bu gerçekleşecektir. Sorun ne? Bu keşiş yengeç stratejisinin temel fikridir.

Peki, RNN ve CNN'yi Transformer Block'un göbeğine nasıl doldurursunuz ve ikamet stratejisini gerçekleştirebilmeleri için onları sırtlarına nasıl koyarsınız?

Aslında bu çok basit.Yukarıdaki iki PPT'ye bakın Kısacası, genel yön öz dikkat modülünü iki yönlü RNN veya CNN ile değiştirmektir ve Transformer Bloğunun diğer bileşenleri hala canlıdır. Elbette bu sadece genel bir yön gösteriyor, belirli stratejiler biraz farklı olabilir, ancak temel fikirler birbirinden ayrılamaz.

Öyleyse, RNN ve CNN bu tür bir ikamet stratejisi benimserse, bunun etkisi nedir? Hala sürünüyorlar mı? Aslında, bu dönüştürme yönteminin mucizevi etkileri vardır ve RNN ve CNN'nin etkilerini büyük ölçüde iyileştirebilir. Ve şu anda, RNN veya CNN, Transformer'in etkisini yakalamak istiyorsa, gerçekten sadece bu yol olabilir.

Transformer'da bulunduktan sonra RNN'nin etkisine bir göz atalım. Yukarıdaki şekil, sürekli kozmetik cerrahinin doğal RNN üzerindeki etkisini ve Transformer'in çeşitli bileşenlerini kademeli olarak eklemeyi göstermektedir. Yukarıdaki aşamalı dönüşüm sürecinden görebileceğimiz gibi, doğal RNN'nin etkisi sürekli olarak gelişiyor. Ancak yerel Transformer ile karşılaştırıldığında, performansta hala bir boşluk var.

Benzer şekilde, yukarıdaki şekil CNN'nin sürekli dönüşümünü ve karşılık gelen etkilerini göstermektedir. Benzer şekilde, performans da farklı aralıklarda geliştirildi. Ancak, Tujia Transformer'in performansında bazı boşluklar var.

Bu ne gösteriyor? Kişisel görüşüm şudur: Bu, Transformer'in çok etkili olabileceğini, sadece çok başlı dikkatin işe yaradığını değil, neredeyse tüm bileşenlerin birlikte çalıştığını gösteriyor ki bu küçük bir sistematik proje.

Ancak yukarıdaki sonuçlardan yola çıkarak, CNN'in değiştirilmiş versiyonunun performansının hala Transformer'in gerçek vücut performansı kadar iyi olmadığı ve bazı veri toplamalarının çok geride kaldığı görülüyor.Bu, bu yolun mümkün olamayacağı anlamına mı geliyor? Hafif evrişim ve Dinamik evrişimler insanlara bir ışık parıltısı getirir Yukarıdaki iki yöntem "Hafif I ve Dinamik Evrişimlerle Daha Az Dikkat Edin" başlıklı makalede önerilmiştir ve etki temelde Transformer ile eşdeğerdir. Peki bunu başarmak için ne yaptı? Aynı zamanda yabancı bir stratejidir. Transformer'daki Multi-head dikkat modülünü Lightweight evrişim ve Dinamik evrişimler ile değiştirmek ve diğer bileşenler Transformer'in eşyalarını yeniden kullanmaktır. Yerel CNN'den temel fark, Derinlik açısından ayrılabilir CNN ve softmax-normalleştirme gibi optimize edilmiş CNN modellerinin kullanılmasıdır.

Ve bu ne gösteriyor? Sanırım bu bir noktayı gösteriyor: RNN ve CNN için büyük çıkış yolu Transformer Bloğuna parazit yapmaktır Bu prensip iyi ve görünüşe göre onlar için tek çıkış yolu bu. Ancak, etki yeterince iyi olacaksa, eklenen RNN ve CNN üzerinde biraz çaba sarf etmek faydalı olacaktır.Transformatörün diğer bileşenleriyle işbirliği yapmak ve birlikte çalışmak için bazı yeni RNN ve CNN modellerine ihtiyaç vardır. Bu tarafa giderseniz, RNN ve CNN'in ayağa kalktığı gün yine gelebilir.

Yine de, RNN'nin hala zor bir yol olduğunu düşünüyorum. Neden? RNN'nin zayıf paralel hesaplama gücünün doğasında olan kusurunu hatırlamanız gerekiyor.Transformer Bloğuna koysanız bile, bir gün değişse bile mevcut etki iyi değil. İyi bir etki, ancak paralel yeteneği nedeniyle, bir bütün olarak Transformer'in çalışma verimliliğini yavaşlatacaktır. Bu nedenle, kapsamlı bir şekilde RNN'nin gelecekte iyi çalışmayacağına karar veriyorum.

Gelecekten Haberler 2019: Özet

Yıllar önce, ilkokul Çince ders kitabında şöyle bir cümle vardı: "Zhang Hua, Pekin Üniversitesine kabul edildi; Li Ping bir orta teknik okula kabul edildi; bir mağazada satış elemanı olarak çalıştım: hepimizin parlak bir geleceği var." Biz gençken bu cümleyi gördük ve inandık ama 2019 itibariyle hiçbir ebeveynin çocuklarına bu cümleyi söylemeye istekli olmadığı tahmin ediliyor Sonuçta çocukları aldatmak çok kötü bir şey. Bu cümleyi NLP'nin üç büyük özellik çıkarıcısının geleceğini göstermek için uygularsanız, şu şekilde olmalıdır: "Transformer Pekin Üniversitesine kabul edildi; CNN bir orta teknik okula kabul edildi ve umarım bir gün Pekin Üniversitesine kabul edileceğim; RNN burada Mağaza satış elemanı: Hepimizin parlak bir geleceği var. "

Mantıksal akıl yürütme için yukarıdaki tüm kanıtları topladık ve Öğretmen Xueqin Cao'yu taklit edip üç NLP güzelliğinin gelecekteki kaderi için bir cümle yazabilirdik. Tabii ki, bir kez daha, bu benim kişisel yargım.

İkilemde RNN

RNN neden ikilemde? Birkaç sebep var.

Her şeyden önce, orijinal RNN'ye güveniyorsanız (LSTM, GRU ve Dikkat ve istifleme seviyelerinin ve aklınıza gelebilecek diğer iyileştirme yöntemlerinin tanıtımı dahil, bunları birlikte kullanabilirsiniz), birçok deney, etkinin Transformer'in çok gerisinde olduğunu kanıtlamıştır. Şimdi temellere bakın. Yakalama olasılığı yoktur, bu nedenle doğal RNN, etki açısından önemli bir dezavantaja sahiptir.

İkincisi, yerel RNN'nin ölümcül bir sorunu vardır: paralel hesaplama gücü çok ciddi şekilde kısıtlanmıştır. Büyük ölçekli pratik uygulamalar mı istiyorsunuz? Şu anda umut zayıf. Daha önce de söylediğimiz gibi, RNN'nin kendisini belirleyen temel özellik şudur: Gizli katman düğümünün ileri girişe sıralı bağımlılığı ve T zamanında ara hesaplama sonuçları, çünkü önceki bilgileri doğrusal bir sırayla toplaması gerekir.Bu, RNN'nin RNN'nin en önemli olmasının sebebidir. ana özellik. RNN'nin paralel hesaplama yeteneklerini temelde bir ikileme düşüren bu temel özelliktir: Ya RNN sekans bağımlılığının temel özelliklerini korur, yani nasıl değiştirilirse değiştirilsin, çünkü bu hala oradadır, yani RNN Hala RNN, sözde "Ben benim, bu farklı bir tür havai fişek", ancak durum buysa, paralel yeteneği temelde etkili bir şekilde uygulanamıyor ve tavan çok düşük; tabii ki, bunu kullanmak için başka bir yol var. Sekans bağımlılığı kaldırılır. Öyleyse, sekans bağımlılığını ortadan kaldıran model, yeniden şekillendirmeden önce RNN'nin görünümünün bir kısmını hala koruyor gibi görünüyor. Aslında, kemiklerinde zaten başka bir kişidir. Bu hatırladığınız şey değil RNN yükseldi. Yani RNN için ya yavaş gerçeklerin kaderini kabul edin, küçük binada saklanın ve ilkbahar, yaz, sonbahar ve kış fark etmeksizin birleştirin, akademinin sadece gazete yayınlamak için kullandığı bir tür taşıyıcıdır ve büyük ölçekli pratik uygulamaları dikkate almaz. sorun. Veya kafanızı tamamen değiştirebilir ve başka bir kişi olabilirsiniz Gerçekten bu noktaya gelirseniz, sormak istediğim şu: Başkaları tarafından size RNN'nin verimli bir versiyonu deniyor, kabul etmekten utanıyor musunuz? Bu, RNN'nin karşılaştığı ikilemdir.

Yine, biraz daha iyimser olduğumuzu ve RNN'yi Transformer benzeri bir yapıya dönüştürme fikrinin dahil olduğunu varsayalım: Bu, Transformatör Bloğu'ndan başka bir şey değil, elbette, bazı bileşenler, en uygun olanı Multi -kafa öz ilgi bölümü RNN ile değiştirilir. Bir adım geri gidelim ve büyük yapısal dönüşümü olan bu modeli bir RNN modeli olarak ele alalım. Öyle olsa bile, kendimi bir Transformer'a çok benzeyen bir Transformer'a dönüştürdüm.RNN hala yukarıda belirtilen yerli RNN'nin karşılaştığı aynı iki ikilemle karşı karşıya: Bir yandan, RNN'nin bu büyük ölçekli plastik cerrahi versiyonu bile dejenerasyona uğramış bile etkiye sahip olacak. Önemli gelişme, ancak yine de Transformer ile karşılaştırılamaz; Ek olarak, RNN bileşeni tanıtıldığında, Transformer yapısının paralel hesaplama özelliğini de tetikleyecektir. Bu nedenle, mevcut Transformer motoru, RNN takım arkadaşını sürecek gibi görünmüyor.

Yukarıdaki faktörlerden yola çıkarak RNN'nin şu anda bir ikilem içinde olduğunu görebiliyoruz, başka modellerle değiştirilmesinin an meselesi olduğunu düşünüyorum ve bunun için fazla zaman kalmamış gibi görünüyor. Tabii ki, bu benim kişisel görüşüm. Bunu söylediğimde yine su sesini duydun mu?

İnternetteki birçok insanın hala RNN'yi zorladığını gördüm ve şöyle dedi: Aslında, RNN'nin kullanımı hala kolay. Bunun aslında bir illüzyon olduğunu düşünüyorum. Bu yanılsamanın nedeni iki yönden kaynaklanmaktadır: Bir yandan, RNN gelişiminin uzun geçmişi nedeniyle, çok sayıda optimize edilmiş RNN çerçevesi mevcuttur.Bu, zor teknik seçim ve seçime sahip hastalar için bir nimettir, çünkü istediğiniz zaman seçim yapabilirsiniz Bazı veri kümelerinin öncülleri tarafından keşfedilen hiper parametreler veya ayarlama deneyimi dahil olmak üzere iyi bilinen bir tahmin etkisi iyidir; ve kısa geçmişi nedeniyle Transformer, bu nedenle çeşitli verimli dil sürümleri için birkaç mükemmel çerçeve vardır, bu nedenle birçok. Ek olarak, aslında, ayarlama deneyimiyle ilgili çeşitli veri kümeleri de dahil olmak üzere, Transformer'in şu anda neden etkili olduğu konusunda özellikle net değiliz, bu nedenle ayarlama yapmak daha zor olacak. Giderek daha fazla çerçeve ve daha fazla deneyim paylaşımı ile bu artık bir sorun olmayacak. Bu bir yönüdür. Öte yandan, birçok kişi RNN'nin küçük veri kümeleri için daha iyi olduğunu bildirdi.Bu kesinlikle Transformatör parametrelerinin sayısı ile ilgilidir, ancak bir çözümden yoksun değildir.Bir yol blok sayısını azaltmak ve parametre sayısını azaltmaktır; ikinci Bunun bir yolu, küçük veri kümeleri için efekt sorununu büyük ölçüde azaltacak olan Bert iki aşamalı eğitim modelini tanıtmaktır. Bu nedenle, bu iki yönü birleştirdiğinde, RNN bazı durumlarda avantajlara sahip gibi görünse de, bu sözde avantajlar çok kırılgandır.Bu aslında Transformer ile bir bütün olarak yetersiz deneyime sahip olduğumuz gerçeğini yansıtır. Deneyim gittikçe bollaştıkça, RNN Temelde Transformer ile değiştirilme konusunda hiçbir şüphe yok.

Hayatta kalan bir CNN

CNN, yaklaşık 14 yıl içinde NLP endüstrisine giriş yaptığında, RNN'ye kıyasla çok iyi performans göstermediği ve geri öğrenci olarak görüldüğü anlaşılıyordu, ancak gelişim açısından bakıldığında gelecekteki durum RNN'den daha iyi görünüyor. biraz. Bu tuhaf fenomenin iki ana nedeni vardır: Birincisi, canlılığını artırmada büyük bir rol oynayan CNN'in doğasında bulunan yüksek paralel hesaplama kapasitesidir. Bu, Transformer ile karşılaştırıldığında, aşılmaz zorlukları olmadığını, dolayısıyla hala umut olduğunu belirler; ikincisi, erken CNN'in NLP'de iyi sonuç vermemesinin büyük bir nedeni, görüntülerden öğrenmeye devam ettiğimiz için ağ derinliğinin yapılamamasıydı. İşlenen yeni CNN modelinin inşaat deneyimi ve bazı derin ağ optimizasyonu püf noktaları, NLP alanındaki CNN derinliği kademeli olarak yapılabilir. Derinlik yapılabildiğinden, CNN'nin NLP olarak doğal bir kusuru: Uzun mesafe özelliklerini etkili bir şekilde yakalayamama sorunu büyük ölçüde hafifletildi. Şu anda bu problem bir dereceye kadar yığın derinliğine güvenilerek ya da genişlemiş CNN ile birleştirilerek çözülebiliyor gibi görünüyor ... Yeterince iyi olmasa da yine aynı cümle ... Umut hala var.

Bununla birlikte, yukarıda söylediğim şey, rasyonel analiz açısından yalnızca CNN'in umudu. İki nokta var. Geri dönelim, yerel CNN'nin hala birçok yönden Transformer'dan daha düşük olduğunu kanıtlayan birçok deney var. Tipik özellik uzun mesafedir. Yakalama yetenekleri açısından, yerel CNN sürüm modeli, NLP dünyasında ciddi bir kusur olan RNN ve Transformer'dan hala önemli ölçüde daha zayıf. Öyleyse şunu diyebilirsiniz: O zaman Transformer yapısına örneğin Öz dikkat yerine CNN ekliyoruz, yani hala Transformer ile bir savaş var, değil mi? Evet, öyle görünüyor ki gitmenin tek yolu bu. Derinlikten ayrı CNN'nin tanıtımı Transformer'a yakın bir etki sağlayabilir. Ancak, sormak istediğim şey şu: Böyle bir CNN'ye dönüştüğünü doğrularsanız, CNN'yi Transformer Block'un göbeğine doldurursunuz.Akrabalarının ve arkadaşlarının bunu tanıyabildiğini onaylayabilir misiniz?

Elbette CNN yazmamın sebebi hala bir umut çünkü bölüm seviyesinde NLP görevleri için CNN'i Transformer'in karnına doldurma çözümünün, motor olarak öz ilgiyi kullanan Transformer çözümü ile karşılaştırıldığını düşünüyorum. En büyük avantaj alanı da buna uygun savaş alanı ... Bu alandaki bazı makalelerin daha sonra çıkmasını bekliyorum. Neden öyle diyorsun? Nedeni aşağıda açıklanacaktır.

Kazanan bileti tutan transformatör

Gelecekte NLP'nin üç büyük özellik çıkarıcıdan hangisinin kazanacağını analiz ediyoruz. Bence en azından mevcut bilgilere dayanarak, Transformer zaten birçok savaş alanında kazandı.Bu mekanlarda, gelecekte de kazanmaya devam edecek. neden? Yerel RNN ve CNN'nin bazı yönlerden her zaman Transformer'dan önemli ölçüde daha zayıf olduğunu söylememiş miydim (paralel hesaplama gücü veya etkisi veya her ikisi de aynı anda Transformer'dan daha zayıftır). Yani gelecek için umutları, şu anda herkes RNN ve CNN'i Transformer Block'a sabitliyor. Söylemeye gerek yok, RNN zor bir durumda. Sadece CNN veya önceki bölümdeki cümle hakkında konuşalım.Sormak istediğim şu: Böyle bir CNN'e dönüştüğünüzü doğrularsanız, sadece CNN'yi Transformer Block'un göbeğine doldurursunuz.Akrabalarının ve arkadaşlarının bunu tanıyabildiğini onaylayabilir misiniz?

Transformer ile rekabet edebilen mevcut CNN modelleri temelde Transformers gibi görünecek şekilde büyümüştür. Ve bu ne gösteriyor? Bu, CNN'in Transformer'ı yenebileceğinin bir işareti mi? Bu sizin için bir soru ve tartışmadır. Tabii ki tartışmaya katılmıyorum.

Yeni bir model olarak Transformer mükemmel değil. Aynı zamanda bariz eksiklikleri de vardır: Öncelikle, metin düzeyinde görevler (metin özetleri gibi) gibi uzun girişli görevler için, görev girdisi çok uzun olduğu için, Transformer büyük bir hesaplama karmaşıklığına sahip olacak ve bu da keskin bir yavaşlamaya neden olacaktır. Bu nedenle, kısa vadede bu bölgelerin hala Transformers'a dönüşen RNN'lerin veya CNN'lerin dünyası olabileceği tahmin ediliyor (aslında, şu anda iyi durumda değiller) Bu aynı zamanda her ikisinin, özellikle de CNN modelinin umudu. biraz. Ancak Transformer uzun giriş için kayıp mı ve çözüm yok mu? Aslında olduğunu sanmıyorum Örneğin, sadece kafanızı okşarsanız, biraz çirkin görünse de bazı yöntemler düşünebilirsiniz. Örneğin, uzun giriş K parçalarına kesilebilir, uzun giriş kısa kesilmeye zorlanabilir ve ardından Transformer bir özellik çıkarıcı olarak kullanılabilir.Yüksek seviye, bir Transformatör hiyerarşik yapısı oluşturmak için röle için RNN veya başka bir Transformatör katmanını kullanabilir, böylece n kare Hesaplama miktarı büyük ölçüde azaltılır. Tabii ki, bu şema zarif değil, kabul ediyorum. Ama hatırlatmama izin verin: Bu yön, yatırım yapmaya değer iyi bir yön. Sözlerime dikkat edin, beklenmedik kazançlar olabilir. (Not: Yukarıdaki paragrafı uzun zaman önce yazmıştım, ancak bugün (12 Ocak) medya hesabının hipingini gördüm: "Transforme-XL, hız 1800 kat arttı." Haberleri okuduktan sonra Transformer'ı buldum. XL kağıdına baktım ve çok uzun girdi sorununu çözdüğünü gördüm. Yöntem aslında yukarıda bahsedilen içerikten pek farklı değil. Bu kadar çok söylemek demek: Göndermekten kaçınmak için yukarıdaki içeriği silmek istemiyorum Daha sonra "seçmeyi ve dikmeyi seven" öğrenci, başkalarının fikirlerini kopyaladığımı ve alıntı yapmadığımı söyledi. Yukarıdaki ifadeyi değiştirmemeye karar verdim, çünkü bu fikri düşünmek çok kolay, düşünebileceğine inanıyorum.) Bu eksikliğe ek olarak, Transformer Genel yapı gerçekten biraz daha karmaşık. Mekanizmasını daha derinlemesine anlamak ve sonra onu daha da basitleştirmek keşif için iyi bir yöndür. Lütfen bu cümleye dikkat edin. Ek olarak, yukarıdaki anlamsal öznitelik çıkarma yeteneklerini karşılaştırırken, 13 ve 13 mesafeli uzun mesafeli özellikler için, Transformer performansının RNN'den daha zayıf olduğu sonucuna varılır.Dürüst olmak gerekirse, bu daha beklenmedik bir durum çünkü Transformer bunu kendi kendine yapıyor. Uzun mesafe özellikleri doğrudan ilişkilidir, mesafenin sorunu olmaması gerektiğini ancak etkisinin RNN kadar iyi olmadığını söylemek mantıklıdır, bunun arkasındaki sebep nedir? Bu aynı zamanda değerli bir keşif noktasıdır.

Çok fazla konuşmuş olabileceğime dair bir önsezim var ve sonunda yukarıdaki paragrafların sabırlı öğrenciler için bir hediye olarak görülebileceğini görmek kolay değil. Diğerleri hakkında çok fazla konuşmayacağım, bu yüzden geçmeyin, lütfen duyduğunuz gürültüyü dikkate almayın. Suyun sesi.

(Bitiş)

Bu makalenin önceki içeriğini görüntüleyin

Lei Feng.com AI Technology Review yazarın izniyle yeniden basılmıştır.

Nisan ayından itibaren rüyalardan uyandım, aşk yok, geçmiş bir duman gibidir ve selefimle uyum içindeyim

2018 Tokyo Film Festivali ileriye dönük bir film ve ilgiye değer filmler sizin için burada!