Academia ImageNet tarafından getirilen ön eğitim modellerinin rüzgarı NLP alanına esmek üzere

AI Technology Review Press : Bilgisayar görüşü alanındaki araştırmacılar ve ürün geliştiriciler için, modeli ImageNet üzerinde önceden eğitmek ve ardından modeli kendi göreve özel verilerinizle eğitmek yaygın bir uygulama haline geldi. Ancak doğal dil işleme alanındaki araştırmacılar ve geliştiriciler bunu yapıyor gibi görünmüyor - bekleyin, belki NLP alanındaki "ImageNet dönemi" yakında geliyor.

Bu makalenin yazarı, ana odağı doğal dil işleme ve derin öğrenmeye odaklanan Sebastian Ruder, Insight Veri Analizi Araştırma Merkezi'nde doktora öğrencisi ve Dublinin doğal dil işleme şirketi AYLIEN'de bilim insanı. Doğal dil işlemeyle ilgili en önemli konferanslarda yer alıyor. Birçok makale yayınladı ve aynı zamanda ULMFiT'nin ortak yazarıdır; kişisel blogu AI Technology Review orijinal metinden derlenmiştir.

Doğal dil işleme (NLP) alanında, sessizce bazı büyük değişiklikler oluyor.

Doğal dil işlemenin temel özellik temsil teknolojisi olarak, kelime vektörleri doğal dil işleme alanına uzun süredir hakim oldu, ancak son zamanlarda bir dizi güçlü zorlukla karşılaştı: ELMo (https://arxiv.org/abs/1802.05365 ), ULMFiT (https://arxiv.org/abs/1801.06146) ve OpenAI Transformer (https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper. pdf). İstisnasız, bu çalışmalar haber başlıkları haline geldi, çünkü önceden eğitilmiş dil modellerinin çeşitli doğal dil işleme görevlerinde en iyi sonuçları elde edebileceğini kanıtladılar. Bu yöntemlerin ortaya çıkışı bir dönüm noktası anının gelişini müjdeliyor: tıpkı ImageNet'in önceden eğitilmiş modelinin bilgisayar vizyonunda aynı etkiye sahip olması gibi, bu önceden eğitilmiş dil modelleri doğal dil işleme alanında büyük ve yaygın bir etkiye sahip olabilir.

Sığdan derine ön eğitim

Önceden eğitilmiş kelime vektörleri, uzun süredir doğal dil işleme alanına hakim olmuştur. Word2vec, 2013 yılında dil modellemesinin bir yaklaşımı olarak önerildi. O zamanlar, donanım hızı şu anda olduğundan daha yavaştı ve derin öğrenme modeli yaygın olarak kullanılmıyordu.Bu sırada Word2vec, verimliliği ve kullanım kolaylığı nedeniyle öne çıktı. O zamandan beri, doğal dil işleme araştırmalarının standart yöntemleri temelde değişmeden kaldı: Word2vec ve GloVe, kelime gömme vektörleri elde etmek için büyük miktarda etiketlenmemiş veriyi önceden eğitmek için kullanılır ve daha sonra kelime gömme vektörleri sinir ağını başlatmak için kullanılır. İlk katman ve ağın diğer bölümleri, eğitim için verilerin geri kalanını kullanarak belirli görevlere dayanır. Eğitim verisi sınırlı olan çoğu görevde, bu yaklaşım doğruluğu yüzde 2 ila 3 puan artırabilir ( Bununla birlikte, bu önceden eğitilmiş kelime gömme vektörlerinin büyük etkisi olmasına rağmen, büyük bir sınırlamaları vardır: sadece önceki bilgileri modelin ilk katmanına dahil ederken, ağın geri kalanının yine de sıfırdan eğitilmesi gerekir.

Word2vec tarafından yakalanan ilişki (kaynak: TensorFlow eğiticisi)

Word2vec ve diğer ilgili yöntemler yüzeysel yöntemlerdir ve İfade için değişim verimliliği Yapmanın yolu. Kelime gömme vektörlerini kullanmak, bilgisayar görüntü modelini başlatmak için görüntünün yalnızca kenar bilgilerini kodlayan önceden eğitilmiş özellik temsil vektörlerini kullanmaya benzer. Bu yaklaşım birçok görev için yararlı olsa da, daha yararlı olabilecekleri yakalayamaz. Üst düzey bilgiler. Kelime gömme vektörleri ile başlatılan bir modelin sıfırdan öğrenilmesi gerekir.Modelin sadece kelimeleri netleştirmeyi öğrenmesi değil, aynı zamanda kelime dizilerinin anlamını da anlaması gerekir. Dil anlayışının temel içeriği budur ve anlamsal kompozisyon, belirsizlik, referans, uzun vadeli bağımlılık, tutarlılık ve olumsuzlama gibi karmaşık dil fenomenlerini modellemesi gerekir. Bu nedenle, bu sığ temsillerle başlatılan doğal dil işleme modeli, iyi performans elde etmek için hala çok sayıda eğitim örneği gerektirir.

Yeni meydan okuyan ULMFiT, ELMo ve OpenAI Transformer'ın özü, temel paradigma değişiminde yatmaktadır: modelin yalnızca ilk katmanını başlatmaktan kullanmaya kadar Hiyerarşik temsiller Tüm modeli önceden eğitin . Kelime vektörlerini öğrenmek, bilgisayarla görmedeki görüntü kenarlarını öğrenmekle karşılaştırılırsa, bu yeni yöntemler, kenarlardan şekillere ve gelişmiş anlamsal kavramlara kadar görüntü özelliklerinin tüm hiyerarşik yapısını öğrenmek gibidir.

İlginç bir şekilde, bilgisayarla görme topluluğu yıllarca ön eğitim modelleri kullandı.Bu ön eğitimler ilk olarak tüm model için ve ikinci olarak hem düşük hem de üst düzey özellikleri öğrendiler. Çoğu durumda ön eğitim, büyük bir ImageNet veri tabanında görüntü sınıflandırması öğrenilerek gerçekleştirilir. Artık ULMFiT, ELMo ve OpenAI Transformer, doğal dil işleme topluluğunu getirmeye eşdeğerdir "Dil Görevleri için ImageNet" , Modelin metindeki daha üst düzey nüansları öğrenmesini sağlayan; bu, ImageNet üzerindeki ön eğitime benzer ve bilgisayarla görme modelinin görüntünün ortak özelliklerini öğrenmesini sağlar. Bu makalenin geri kalanında, ImageNet benzetmesini genişleterek ve inşa ederek bu yeni yöntemlerin neden bu kadar umut verici göründüğünü açıklayacağız.

ImageNet

ImageNet, büyük ölçekli bir görüntü tanıma sorunudur

ImageNet'in makine öğrenimi araştırma süreci üzerindeki etkisinin çok büyük olduğunu söylemek abartı olmaz. Veri seti ilk olarak 2009'da yayınlandı ve hızla ImageNet Büyük Ölçekli Görsel Tanıma Mücadelesine (ILSVRC) dönüştü. 2012 yılında, Alex Krizhevsky, Ilya Sutskever ve Geoffrey Hinton tarafından sunulan derin sinir ağı modelinin tahmin sonuçları ikinci sıraya göre% 41 daha yüksekti, bu da derin öğrenmenin uygulanabilir bir makine öğrenimi stratejisi olduğunu gösteriyor ve makine öğrenimi araştırması anlamına geliyor Derin öğrenme, patlayıcı büyümeyi müjdelemek üzere.

ImageNet'in başarısı, derin öğrenme çağında veri ve algoritmaların eşit derecede önemli olduğunu göstermektedir. Sadece ImageNet derin öğrenmeye 2012'de kendini kanıtlama fırsatı verdiği için değil, aynı zamanda transfer öğrenmede de benzer önemli bir atılım gerçekleştirdi: araştırmacılar kısa süre sonra ImageNet'in en iyi modeli tarafından öğrenilen ağırlıkların diğerlerini başlatmak için kullanılabileceğini fark ettiler. Görevin modeli ve veri seti farklı olmasına rağmen, bu yine de modelin performansını artırmak için çok yararlıdır. Bu "ince ayar" yöntemi çok iyi sonuçlar sağlayabilir ve her kategori için pozitif bir örnek bile yeterlidir (https://arxiv.org/abs/1310.1531).

ILSVRC-2012 üzerine eğitilen özellikler SUN-397 veri setine genellenebilir.

Önceden eğitilmiş ImageNet modeli, nesne algılama, anlamsal bölümleme, insan pozu tahmini ve video tanıma gibi görevlerde kullanılmış ve en iyi sonuçları elde etmiştir. Aynı zamanda, bu eğitim öncesi modeller, derin öğrenmenin az sayıda eğitim örneği ve pahalı etiketlemenin olduğu alanlara uygulanmasını sağlar. ImageNet üzerinde ön eğitim yoluyla transfer öğrenimi o kadar etkilidir ki, bugün bilgisayar görüşü alanında, bunu yapmazsanız, acımasız kabul edilir (https://arxiv.org/abs/1805.00932).

ImageNet'i keşfedin

ImageNet'in dil görevlerinde nasıl görüneceğini belirlemek için, öncelikle hangi özelliklerin ImageNet'i transfer öğrenimi için bu kadar uygun kıldığını doğrulamamız gerekir. Erken araştırmalar (https://arxiv.org/abs/1608.08614) buzdağının yalnızca görünen kısmıdır: kategori sayısının veya kategori başına örnek sayısının azaltılması performansta yalnızca küçük bir düşüşe yol açacaktır. İnce taneli sınıflar ve daha fazla veri, model için her zaman yararlı değildir.

ImageNet'i keşfetmek için, doğrudan veri setine göz atmayacağız, bunun yerine ImageNet üzerinde eğitilen modelin ne öğrendiğini araştıracağız. Hepimizin bildiği gibi, ImageNet üzerinde eğitilen derin sinir ağlarının özelliklerinin bir özelliği var, yani ağın ilk katmanından son katmanına kadar özellikler kademeli olarak genelden özele doğru değişiyor (göreve bağlı olarak, https://arxiv.org/abs/1411.1792 ). Ağın alt katmanı, kenarlar gibi düşük düzeyli özellikleri modellemeyi öğrenirken, daha yüksek katman, örüntüler veya nesneler gibi görüntünün daha yüksek düzeyli kavramlarını modellemektedir (bkz. CNN özellik görselleştirme makalesi ),Aşağıda gösterildiği gibi. Daha da önemlisi, nesnelerin kenarları, yapıları ve görsel bileşimi hakkındaki bilgiler, birçok bilgisayarla görme görevinde ortaktır ve bu, bu ağ katmanlarının aktarım öğrenimi için neden kullanılabileceğini ortaya çıkarır. Bu nedenle, ImageNet benzeri bir veri kümesinin temel niteliği, modelin problem alanındaki diğer görevlere genelleştirilebilecek özellikleri öğrenmesini sağlamaktır.

Yukarıdaki şekil, ImageNet üzerinde eğitilmiş GooLeNet'ten farklı GoogLeNet katmanlarının özellikleriyle elde edilen bilgileri görselleştirir.

Ek olarak, ImageNet'in geçiş yeteneklerinin neden bu kadar güçlü olduğunu daha fazla özetlemek zordur. ImageNet veri setinin diğer bir avantajı, yüksek kaliteli veri açıklamalarıdır. ImageNet'in yaratıcıları, açıklamaların doğruluğunu, güvenilirliğini ve tutarlılığını sağlamak için her türlü çabayı gösterdi. Bununla birlikte, tersi olduğu için, uzaktan denetim alanındaki çalışma, büyük miktarda zayıf etiketlenmiş verinin genellikle yeterli olduğunu göstermektedir. Aslında Facebook araştırmacıları, geçtiğimiz günlerde milyarlarca sosyal medya görselinin hashtag'lerini tahmin ederek modeli önceden eğitebileceklerini ve ardından modelin ImageNet'te en iyi doğruluğa ulaşabileceğini belirtti.

Bu nedenle, iki temel gereksinimi özetledik:

  • ImageNet benzeri bir veri seti, yeterince büyük Milyonlarca eğitim örneği olması gibi.

  • Konunun sorun alanını temsil etmelidir.

  • Dil görevleri için ImageNet

    Doğal dil işleme görevlerinde, model modelleme derinliği genellikle karşılık gelen bilgisayarla görme modelinden daha sığdır. Bu nedenle, özelliklerin analizi esas olarak ilk gömme düzeyine odaklanmıştır ve üst düzey aktarım öğrenmenin doğası üzerine çok az araştırma vardır. Az önce bahsedilen talep noktası 1'i karşılamak için yeterli bir veri kümemiz olduğunu varsayalım. Daha sonra, doğal dil işlemenin statükosu göz önüne alındığında, aşağıdaki rekabet eden veri kümeleri olacaktır.

    Okuduğunu anlama, algoritmaların belirli bir metin için doğal dil sorularını yanıtlamasını gerektiren bir görevdir. Bu görev için en popüler veri seti, 100.000'den fazla soru-cevap çifti içeren ve modelin aşağıdaki şekilde gösterildiği gibi metindeki cevapları vurgulamasını gerektiren Stanford Soru Cevaplama Veri Kümesidir (SQuAD). Göstermek.

    SQuAD veri kümesinden örnek soru ve cevap çiftleri

    Doğal dil çıkarım görevleri, bir metin parçası ile bir hipotez arasındaki ilişkiyi (ima, çelişki ve tarafsızlık) tanımlamak için algoritmalar gerektirir. Stanford Natural Language Inference (SNLI) corpus, bu görev için en popüler veri kümelerinden biridir ve insanlar tarafından yazılmış 570.000 çift İngilizce cümle içerir. Veri setinin bir örneği aşağıda gösterilmiştir.

    SNLI veri kümesinden örnek

    Makine çevirisi, bir dildeki metnin başka bir dildeki metne çevrilmesidir ve doğal dil işleme alanında en çok araştırılan görevlerden biridir. Ve yıllar geçtikçe, WMT 2014'teki 40 milyon İngilizce-Fransızca cümle çifti gibi yaygın diller için çok sayıda eğitim örneği çifti toplandı. Aşağıdaki şekil iki çeviri örneğini göstermektedir.

    Newstest2014'ten Fransızca'dan İngilizce'ye çeviri

    Bileşen ayrıştırma görevi, aşağıdaki şekilde gösterildiği gibi, cümlelerin sözdizimsel yapısını doğrusallaştırılmış bileşen analiz ağacı biçiminde çıkarmaya çalışır. Geçmişte, bu görev için diziden diziye modelleri eğitmek için milyonlarca zayıf etiketin analizi kullanılmıştır.

    Ayrıştırma ağacı ve doğrusal gösterimi

    Dil modelleme (LM), algoritmanın mevcut kelimeye göre bir sonraki kelimeyi tahmin etmesine izin vermeyi amaçlar. Mevcut kıyaslama veri seti 1 milyar kelimeye kadar içerir, ancak görev denetlenmediği için eğitim için herhangi bir sayıda kelime kullanılabilir. Aşağıdaki şekil Wikipedia makalelerinden oluşan örnek bir WikiText-2 veri setini göstermektedir.

    WikiText-2 dil modelleme veri kümesinden örnek

    Yukarıda belirtilen tüm görevler yeterli eğitim örnekleri sağlar. Aslında, yukarıdaki görevler (ve duygu analizi, bileşen sözdizimsel analizi, atlama düşünceleri ve otomatik kodlama gibi diğer birçok görev) son aylarda önceden eğitilmiş özellik temsiline uygulanmıştır.

    Herhangi bir veri kümesinde belirli sapmalar olsa da, insan açıklayıcılar yanlışlıkla modelin kullanabileceği bazı başka sinyaller verebilir. Son araştırmalar (https://arxiv.org/abs/1803.02324), okuduğunu anlama ve doğal dil muhakemesi gibi görevler için en iyi modellerin, doğal dili derinlemesine anlamadığını, ancak bu sinyalleri yalnızca başarmak için kullandığını göstermektedir. Sığ desen eşleştirme. Örneğin, https://arxiv.org/abs/1803.02324 makalesi, açıklayıcıların yalnızca cinsiyet veya dijital bilgileri silerek zımni örnekler oluşturma eğiliminde olduğunu ve olumsuzlama getirerek çelişkili örnekler oluşturduğunu göstermektedir. Bu sinyalleri basitçe kullanan modeller, SNLI veri setinin yaklaşık% 67'sinde binalara bakmadan hipotezleri doğru bir şekilde sınıflandırabilir.

    Bu nedenle, daha zor olan soru şudur: Hangi görev doğal dil işlemenin problem alanını en iyi temsil eder? Başka bir deyişle, hangi görev doğal dili anlamak için gereken bilgi veya ilişkilerin çoğunu öğrenmemize izin verir?

    Dil modelleme örneği

    Bir cümledeki en olası sonraki kelimeyi tahmin etmek için, modelin yalnızca dilbilgisini ifade edebilmesi (öngörülen kelimenin dilbilgisel biçimi, değiştiricisi veya fiiliyle eşleşmelidir), aynı zamanda modelin anlambilimini de ifade edebilmesi gerekir. Daha da önemlisi, en doğru model dünya bilgisini veya sağduyuyu içermelidir. Eksik bir cümle düşünün, "Servis kötü, ama yemek ...". "Lezzetli" veya "lezzetli" gibi sonraki kelimeleri tahmin etmek için, model yalnızca yiyeceğin özelliklerini tanımlamak için kullanılan kelimeleri hatırlamamalı, aynı zamanda "Ama" bağlacığını tanımak, orijinal cümlede bir dönüm noktası getirir, böylece öngörülen yeni nitelikler zıt duygulara sahip olur.

    Dil modellemenin, uzun vadeli bağımlılık, hiyerarşik ilişkiler ve duygular gibi aşağı yönlü görevlerle ilgili birçok bilgiyi yakaladığı kanıtlanmıştır. İlgili denetimsiz görevlerle (atlama düşünceleri ve otomatik kodlama gibi) karşılaştırıldığında, dil modelleme, daha az eğitim verisi kullanılsa bile dil bilgisi görevlerinde daha iyi performans gösterir (https://openreview.net/forum? id = BJeYYeaVJ7).

    Dil modellemenin en büyük avantajlarından biri, eğitim verilerinin herhangi bir metin derlemesinden gelebilmesi ve bu da sınırsız miktarda eğitim verisinin elde edilebileceği anlamına gelir. Bu özellikle önemlidir çünkü doğal dil anlayışı sadece İngilizce'yi içermez, dünyada başka birçok dil vardır. Bir ön eğitim görevi olarak dil modellemesi, küçük dillerdeki dil uygulamalarının geliştirilmesi için bir kapı açar. Kaynakları çok kısıtlı diller için çok az etiketlenmemiş veri olabilir ve çok dilli dil modelleri aynı anda birden fazla ilgili dilde eğitilebilir, bu da diller arası yerleştirme vektörlerine benzer Araştırma çalışması (https://arxiv.org/abs/1706.04902).

    ULMFiT'nin farklı aşamaları (Kaynak: Howard ve Ruder, 2018)

    Şimdiye kadar, eğitim öncesi bir görev olarak dil modelleme konusundaki argümanımız tamamen kavramsaldır. Ancak son aylarda, bazı deneysel kanıtlar da elde ettik: Dil Modellerinden Gömmeler (ELMo), Evrensel Dil Modeli İnce Ayarı (ULMFiT) ve OpenAI Transformer deneysel olarak kanıtladı Ön eğitim için dil modelleme kullanılabilir. Bu üç yöntemin tümü, metin sınıflandırması, soru yanıtlama, doğal dil çıkarımı, öz ayrım ortadan kaldırma, sıra etiketleme vb. Gibi doğal dil işlemede çeşitli görevlerde en iyi sonuçları elde etmek için önceden eğitilmiş dil modellerini kullanır.

    Aşağıdaki şekilde gösterilen ELMo gibi birçok durumda, tümü önceden eğitilmiş bir dil modeli kullanan temel bir yöntem kullanan çeşitli genel araştırma kriterlerindeki en iyi performanstan% 10 ila% 20 daha yüksektir. Ayrıca ELMo, sahadaki en iyi konferanslardan biri olan NAACL-HLT 2018 En İyi Bildiri Ödülü'nü de kazandı. Son olarak, bu modellerin son derece yüksek örnekleme verimliliğine sahip olduğu, iyi performans elde etmek için sadece yüzlerce örnek ve hatta sıfır vuruşlu öğrenme gerektirdiği kanıtlanmıştır.

    Geliştirilmiş ELMo modeli, birden çok doğal dil işleme görevinde başarılıdır

    Bu stratejinin önümüzdeki yıl değiştiği göz önüne alındığında, Doğal dil işleme uygulayıcıları, önceden eğitilmiş kelime gömme vektörlerini kullanmaya devam etmek yerine önceden eğitilmiş dil modellerini kullanma eğilimindedir. . Bu, bugün çoğu bilgisayarla görme görevinin başlangıç noktası olan önceden eğitilmiş ImageNet modeline benzer.

    Bununla birlikte, word2vec'e benzer şekilde, dil modelleme görevinin de kendi sınırlamaları vardır: yalnızca gerçek dili anlamanın bir aracıdır ve tek bir monolitik model, belirli aşağı akış görevlerinin gerektirdiği bilgileri yakalayamaz. Örneğin, hikayedeki karakterlerin büyüme yörüngesine cevap vermek veya izlemek için, modelin göndermeli veya eş-referanslı eleme ile başa çıkmayı öğrenmesi gerekir. Ek olarak, dil modelleri yalnızca gördüklerini yakalayabilir. En sağduyu bilgileri gibi belirli bilgi türlerinin yalnızca metinden öğrenilmesi zordur ve bunların edinilmesinin ek bilgilerle birleştirilmesi gerekir.

    Önemli bir konu, bilgilerin önceden eğitilmiş dil modellerinden aşağı akış görevlerine nasıl aktarılacağıdır. Bu, önceden eğitilmiş bir dil modelini sabit bir özellik çıkarıcı olarak kullanmak ve bir özellik olarak temsilini rastgele başlatılmış bir modelde birleştirmek (ELMo'nun yaptığı şey budur) veya ULMFiT gibi olup olmadığı gibi iki ana paradigmayı içerir. Ayrıca bir dil modelinde ince ayar yapmayı seçin. İkinci ince ayar stratejisi, bilgisayar görüşünde daha klasiktir. Bu strateji, modelin en üst katmanını veya üste yakın birkaç katmanı ince ayarlayacaktır. Bununla birlikte, doğal dil işleme modellerinin derinliği genellikle daha sığdır, bu nedenle vizyondan farklı bir ince ayar stratejisi gereklidir. Son zamanlarda, doğal dil işlemenin ön eğitim modelleri daha da derinleşmektedir. Önümüzdeki birkaç ay, aktarım öğreniminin her bir temel bileşeninin doğal dil işleme üzerindeki etkisini gösterecek: derin BiLSTM veya Transformer modeli gibi ifade edici bir dil modeli kodlayıcı; ön eğitim için kullanılan verilerin miktarı ve kalitesi; Önceden eğitilmiş modele ince ayar yapma yöntemi.

    Teorik destek

    Şimdiye kadar, analizimiz esas olarak kavramsal ve deneyseldir, çünkü insanların ImageNet ve dil modelleme üzerinde eğitilen modellerin neden bu kadar iyi transfer yeteneklerine sahip olduğunu anlamaları hala zordur. Önyargılı öğrenmenin modelleme yöntemi (https://arxiv.org/abs/1106.0245) bize önceden eğitilmiş modellerin genelleme yeteneğini keşfetmenin başka bir yolunu sunar ve bu yöntem daha standart hale getirilmiştir. Sorun alanımızın belirli bir disiplindeki görevlerin tüm permütasyonlarını kapsadığını varsayalım, örneğin, yaşam ortamımız bilgisayar görüşü tarafından oluşturulmuştur. Bir dizi H = H hipotez alanı oluşturmamızı sağlayan çok sayıda veri kümesi elde ettik. Önyargı öğrenmedeki amacımız, bir önyargı, yani tüm (muhtemelen sonsuz) ortamdaki performansı en üst düzeye çıkarabilecek hipotez alanı bulmaktır.

    .

    Çok görevli öğrenmenin deneysel ve teorik sonuçları (Caruana, 1997; Baxter, 2000), yeterli görevde öğrenilen önyargının, aynı ortamdan türetilen diğer bilinmeyen görevlere genelleştirilebileceğini göstermektedir. Çoklu görev öğrenme perspektifinden, ImageNet üzerinde eğitilen model çok sayıda ikili sınıflandırma görevini öğrenir (bir kategori bir ikili sınıflandırma görevine aittir). Bu görevler, doğadan alınan gerçek görüntülerdir ve diğer birçok bilgisayarla görme görevini temsil edebilir. Benzer şekilde, çok sayıda sınıflandırma görevini öğrenen bir dil modeli (bir kelime bir sınıflandırma görevine aittir), doğal dil işleme alanındaki diğer birçok göreve yardımcı olan özellik temsillerini öğrenebilir. Yine de, dil modellemesinin transfer öğrenimi için neden bu kadar etkili olduğunu tam olarak anlamak için, daha iyi bir teorik açıklama elde etmek için daha fazla araştırmaya ihtiyaç vardır.

    "ImageNet" dönemini açın

    Zaman olgunlaştı ve pratik transfer öğrenimi, doğal dil işlemeyi başarıyla işgal etti. ELMo, ULMFiT ve OpenAI'nin son çalışmalarının etkileyici sonuçları göz önüne alındığında, insanların önceden eğitilmiş kelime gömme vektörlerini kullanmaktan vazgeçip önceden eğitilmiş dil modellerine geçmesinin sadece bir zaman meselesi olduğu görülüyor. Bu değişiklik, veri miktarı ile sınırlı doğal dil işleme görevleri için yeni bir dünyanın kapısını açabilir.

    AI Technology Review tarafından derlenen, NLP'nin ImageNet anı ile geldi. Makalenin sonundaki tıklayın Orijinali okuyun AI etki faktörünü görüntüleyin.

    ( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!

    AV'nin yeni çağında, Sora Aoi sabit sürücüde asla güncellenmeyecek
    önceki
    Klasik geri döndü! Hayalinizdeki VANS "Dama Tahtası" yeni bir tasarıma sahip!
    Sonraki
    23.77-28.77 milyon fiyatıyla yeni Brilliance Huasong 7 piyasada
    Zhao Jun, Çin Bilimler Akademisi: Açık Alan Etkinlik Çıkarma CCF-GAIR 2018
    Homecoming Survey KTV'deki "Chengdu" ve bu 18. kademe şehrin müzik tüketimi konsepti
    Envanter | Hibrit bulut savaşı başlamak üzere, devlerin hangi kartları var? En çok kimi seviyorsun?
    Quan Zhilong tarafından kutsanan NIKE Air Max Plus nihayet büyük "Tn" versiyonunun piyasaya sürülmesini bekliyor!
    Gerçekten gözeneksiz bir cep telefonu olan Meizu Zero, şimdi 1.299 $ 'lık bir yardımla kitle fonlaması yapıyor.
    Altın cümleler sık sık ortaya çıktı, 16 büyük tanrı ICML'de bir makine öğrenimi Büyük Tartışmalar başlattı
    Gücü artırırken yakıt tüketimini azaltırken? Bu tür bir motor cennete gidiyor!
    Star Art Test Sendromu: Özel yoldan geçenler, endişeli medya ve halkla ilişkiler hayranları
    23 yıl sonra tekrar Huang Feihong'u canlandıran başrol ve yapımcı Zhao Wenzhuo, on üçüncü teyze bir sürpriz gibi görünüyor!
    Çin'deki en iyi bilgisayar uzmanı kim? İşte en güçlü referansların bir listesi ~
    Xiaomi'nin ilk Android Go giriş makinesi Redmi Redmi Go piyasaya sürüldü, 1GB + 8GB depolama alanı
    To Top