g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Kuru mallar Yalnızca 100 etiketli veri, 4 milyon kullanıcı incelemesi nasıl doğru bir şekilde sınıflandırılır?

Kaynak: Xinzhiyuan

Bu makale var 2200 kelime , Okumanız tavsiye edilir 6 dakika.

Bu makale, NLP görevleri için yeni bir aktarım öğrenme modeli olan ULMFit'i tanıtmaktadır.Sadece az miktarda etiketli veri ile, metin sınıflandırma doğruluğu, etiketli veri eğitiminin binlerce katı kadar aynı seviyeye ulaşabilir. Bu makalede, aktarım öğrenmede doğal dil işlemenin (NLP) en son uygulama trendlerini tanıtacağız ve bir sınıflandırma görevi gerçekleştirmeye çalışacağız: içeriği Amazon.com'da alışveriş incelemeleri olan, olumlu veya olumsuz olarak değerlendirilmiş bir veri kümesi kullanın. sınıflandırma. Ardından buradaki talimatları izleyebilir ve denemeyi kendi verilerinizle yeniden çalıştırabilirsiniz. Yüksek veri etiketleme maliyetleri ve küçük miktarlar söz konusu olduğunda, bu genel dil ince ayar modeli, NLP görev eğitimi sürenizi ve maliyetinizi büyük ölçüde azaltabilir.

Transfer öğrenme modelinin fikri şudur: orta katman genel görüntü bilgisini öğrenmek için kullanılabileceğinden, onu büyük bir karakterizasyon aracı olarak kullanabiliriz. Önceden eğitilmiş bir model indirin (model birkaç haftadır ImageNet görevi için eğitilmiştir), ağın son katmanını silin (tamamen bağlı katman), seçtiğimiz sınıflandırıcıyı ekleyin ve bize uygun görevi gerçekleştirin (görev kediler için ise Bir köpekle sınıflandırmak için bir ikili sınıflandırıcı seçin) ve son olarak sadece sınıflandırma katmanımızı eğitin.

Kullandığımız veriler önceden eğitilmiş model verilerinden farklı olabileceğinden, tüm katmanları nispeten kısa bir sürede eğitmek için yukarıdaki adımlarda ince ayar yapabiliriz.

Daha hızlı eğitime ek olarak, transfer öğrenimi de özellikle ilgi çekicidir.Sadece son katmanda eğitim daha az etiketli veri kullanmamıza izin verirken, tüm modelin uçtan uca eğitimi büyük miktarda veri gerektirir. Ayarlamak. Verileri etiketlemenin maliyeti yüksektir ve büyük veri setlerine ihtiyaç duymadan yüksek kaliteli modeller oluşturmanın iyi bir yoludur.

Transfer öğrenme NLP'nin utancı

Şu anda, doğal dil işlemede derin öğrenmenin uygulanması, bilgisayarla görme alanı kadar olgun değildir. Bilgisayar görüşü alanında, makinelerin kenarları, daireleri, kareleri vb. Tanımayı öğrenebileceğini ve sonra bu bilgiyi başka şeyler yapmak için kullanabileceğini hayal edebiliriz, ancak bu işlem metin verileri için basit değildir.

NLP görevlerinde transfer öğrenmeye girişmenin ilk eğilimi "gömülü model" terimiyle ortaya çıktı.

Deneyler, modele önceden eğitilmiş kelime vektörlerinin eklenmesinin çoğu NLP görevinde sonuçları iyileştirebileceğini kanıtlamıştır.Bu nedenle, NLP topluluğu tarafından yaygın olarak benimsenmiştir ve daha yüksek kaliteli kelime / karakter / belge temsilleri aramaya devam etmektedir. Bilgisayarla görme alanında olduğu gibi, önceden eğitilmiş kelime vektörleri, her bir kelimeyi bir dizi özelliğe dönüştüren bir özellik işlevi olarak kabul edilebilir.

Ancak, kelime gömme, çoğu NLP modelinin yalnızca ilk katmanını temsil eder. Bundan sonra, tüm RNN / CNN / özel katmanları sıfırdan eğitmemiz gerekiyor.

Üst düzey yöntem: Dil modelinde ince ayar yapın ve üzerine bir sınıflandırıcı katmanı ekleyin

Bu yılın başlarında Howard ve Ruder, ULMFit modelini NLP transfer öğrenmede kullanılan daha gelişmiş bir yöntem olarak önerdiler.

Kağıt adresi: https://arxiv.org/pdf/1801.06146.pdf

Fikirleri dil modeline (Dil Modeli) dayanmaktadır. Dil modeli, önceden görülen kelimelere göre bir sonraki kelimeyi tahmin edebilen bir modeldir (örneğin, akıllı telefonunuz bir metin mesajı gönderdiğinizde sizin için bir sonraki kelimeyi tahmin edebilir). Tıpkı görüntü sınıflandırıcının görüntüyü sınıflandırarak görüntünün içsel bilgisini elde etmesi gibi, NLP modeli bir sonraki sözcüğü doğru bir şekilde tahmin edebiliyorsa, doğal dilin yapısı hakkında çok şey öğrenmiş gibi görünüyor. Bu bilgi, yüksek kaliteli bir başlatma durumu sağlayabilir ve ardından özel görevler için eğitim sağlayabilir.

ULMFit modeli genellikle çok büyük bir metin külliyatı (Wikipedia gibi) üzerinde bir dil modeli eğitmek ve bunu herhangi bir sınıflandırıcı oluşturmak için altyapı olarak kullanmak için kullanılır. Metin verileriniz Wikipedia'dan farklı yazılabileceğinden, dil modelinin parametrelerinde ince ayar yapabilirsiniz. Ardından bu dil modelinin üstüne bir sınıflandırıcı katmanı ekleyin ve yalnızca bu katmanı eğitin.

Howard ve Ruder adım adım istifa etmeyi öneriyor "çözülme" , Ve her katmanı yavaş yavaş eğitin. Ayrıca, öğrenme hızı (döngüsel öğrenme) ile ilgili önceki araştırma sonuçlarına dayanarak kendi üçgen öğrenme oranlarını (üçgen öğrenme oranları) önerdiler.

20.000 etiketli veriyle sıfırdan eğitimin sonucunu elde etmek için 100 etiketli veriyi kullanın

Bu makaleden çıkan sihirli sonuç, bu önceden eğitilmiş dil modelini kullanmanın sınıflandırıcıyı daha az etiketli verilerle eğitmemize olanak sağlamasıdır. Web'deki etiketlenmemiş veriler neredeyse sonsuz olsa da, verileri etiketlemenin maliyeti çok yüksektir ve çok zaman alır.

Aşağıdaki resim, IMDb duyarlılık analizi görevinden bildirdikleri sonuçtur:

Model, eğitim için yalnızca 100 örnek kullanır ve hata oranı, 20.000 örnekle baştan sona tamamen eğitilmiş bir modele benzer.

Ek olarak, makaledeki kodu da sağlarlar ve okuyucular istedikleri dili seçebilir ve dil modelini önceden eğitebilirler. Wikipedia'da çok fazla dil olduğundan, dil dönüşümünü hızlı bir şekilde tamamlamak için Wikipedia verilerini kullanabiliriz. Hepimizin bildiği gibi, genel etiket veri setlerine İngilizce dışındaki dillerde erişmek daha zordur. Burada, etiketlenmemiş veriler üzerindeki dil modelini hassas bir şekilde ayarlayabilir, yüzler ila binlerce veri noktasını manuel olarak etiketlemek için birkaç saat harcayabilir ve sınıflandırıcı başlığını önceden eğitilmiş dil modelinize uyarlayarak kendinizinkini tamamlayabilirsiniz. Özelleştirilmiş görevler.

Bu yönteme ilişkin anlayışımızı derinleştirmek için, onu halka açık bir veri seti üzerinde denedik. Kaggle'da bir veri kümesi bulduk. Amazon ürünleri hakkında 4 milyon yorum içerir ve olumlu / olumsuz duygularla (yani iyi ve kötü yorumlar) işaretlenir. Bu incelemeleri olumlu / olumsuz incelemeler olarak sınıflandırmak için ULMfit modelini kullanıyoruz. sonuçlanmak, Model 1000 örnek kullanır ve sınıflandırma doğruluğu, tüm veri setinde sıfırdan eğitilen FastText modeli düzeyine ulaşmıştır. Yalnızca 100 etiketli örnek kullanıldığında bile, model yine de iyi performans sağlayabilir.

Öyleyse, dil modeli sözdizimini veya anlambilimini anlıyor mu?

ULMFit modelini denetimli ve denetimsiz öğrenme için kullanıyoruz. Denetimsiz bir dil modelini eğitmenin maliyeti düşüktür, çünkü çevrimiçi olarak neredeyse sınırsız miktarda metin verisine erişebilirsiniz. Bununla birlikte, denetimli bir model kullanmak, verileri etiketleme ihtiyacı nedeniyle pahalıdır.

Dil modeli, doğal dilin yapısından büyük miktarda ilgili bilgiyi yakalayabilmesine rağmen, metnin anlamını, yani "gönderenin iletmeyi amaçladığı bilgi veya kavramı" yakalayıp yakalayamayacağı veya "bilgi alıcısı ile etkileşim" sağlayıp sağlayamayacağı açık değildir. ile iletişim kur.

Dil modellerinin anlambilimden çok sözdizimi hakkında daha fazla şey öğrendiğini düşünebiliriz. Bununla birlikte, dil modelleri, yalnızca dilbilgisini öngören modellerden daha iyi performans gösterir. Örneğin, "Bu bilgisayarı yiyorum" (bu bilgisayarı yerim) ve "Bu bilgisayardan nefret ediyorum" (bu bilgisayardan nefret ediyorum), her iki cümle de dilbilgisi açısından doğrudur, ancak daha iyi performans gösteren bir dil modeli, İkinci cümlenin ilk cümleden daha "doğru" olduğunu anlayın. Dil modeli, basit gramer / yapısal anlayışın ötesine geçer. Bu nedenle, dil modellerini doğal dilin cümle yapısını öğrenmek ve cümlelerin anlamını anlamamıza yardımcı olmak olarak düşünebiliriz.

Alan sınırlamaları nedeniyle, burada anlambilim kavramını keşfetmeyeceğiz (bu sonsuz ve büyüleyici bir konu olmasına rağmen). İlgileniyorsanız, bu konuyu derinlemesine tartışmak için Yejin Choi'nin ACL 2018'deki konuşmasını izlemenizi öneririz.

Transfer öğrenme dil modelinin ince ayarı, umut verici

ULMFit modelinin kaydettiği ilerleme, doğal dil işleme için transfer öğrenimi araştırmasını teşvik etmiştir. NLP görevleri için bu heyecan verici bir şeydir ve diğer ince ayarlı dil modelleri, özellikle ince ayarlı geçiş dili modeli (FineTuneTransformer LM) ortaya çıkmaya başlamıştır.

Daha iyi dil modellerinin ortaya çıkmasıyla bu bilgi transferini bile geliştirebileceğimizi fark ettik. Etkili bir NLP çerçevesi, özellikle Almanca gibi ortak alt kelime yapılarına sahip diller için transfer öğrenme problemini çözmek için çok umut vericidir Kelime seviyesinde eğitilen dil modellerinin performans beklentileri çok iyidir.

buna ne dersin? Şimdi dene ~

Referans bağlantısı:

https://blog.feedly.com/transfer-learning-in-nlp/

Github ile ilgili kaynaklar:

https://github.com/feedly/ml-demos/blob/master/source/TransferLearningNLP.ipynb

İlgili makaleler:

Evrensel Dil Modeli Metin Sınıflandırması için İnce Ayar (ULMFiT)

https://arxiv.org/pdf/1801.06146.pdf

Tianjin trafik polisi, Zhang Xiuwei'ye sarhoşken araba kullandığını ve 6 araca çarptığını ve 7 arabaya hasar verdiğini bildirdi.

[Bir Haftada Finansman Havale] Toplam 102 finansman, yapay zeka alanı çiçek açıyor