Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:
Bunlar, Doğal Dil İşlemede aklınıza gelebilecek En Kolay Veri Arttırma Teknikleridir ve işe yararlar.
Yazar | Jason Wei
Tercüme | AI Hill
Düzeltme | Sos Armut İnceleme | Johnson Lee'nin Maaş Artışı Sıralama | Daimi Balık Kralı
Orijinal bağlantı:
https://towardsdatascience.com/these-are-the-easiest-data-augmentation-techniques-in-natural-language-processing-you-can-think-of-88e393fd610
Veri artırma genellikle bilgisayarla görmede kullanılır. Görsel alanda, bir resmi işaretlerinin değişmesinden endişe etmeden neredeyse kesinlikle katlayabilir, döndürebilir veya yansıtabilirsiniz. O halde, doğal dil işleme (NLP) alanında durum tamamen farklıdır. Bir kelimeyi değiştirmek tüm cümlenin anlamını değiştirebilir. Bu nedenle, veri artırmaya ulaşmanın kolay bir yolu yoktur. Gerçekten mi?
Size EDA'yı tanıtacağım: Metin sınıflandırma görevlerinin performansını büyük ölçüde artırabilen basit veri büyütme teknolojisi (EDA Github deposunda basit bir uygulama kodu vardır). EDA, fazla takmayı önleyebilen ve daha sağlam bir model oluşturabilen dört basit işlem içerir. Bunlar:
Eşanlamlı değiştirme: cümlede rastgele n sayıda durmayan kelime seçin. Seçilen her kelime için, rastgele seçilen eşanlamlıları ile değiştirin.
Rastgele ekleme: Cümle içinde rastgele durmayan bir kelime bulun, rastgele eş anlamlılarından birini seçin ve cümlenin herhangi bir yerine ekleyin. N kez tekrarlayın.
Rastgele değişim: cümlede rastgele iki kelime seçin ve pozisyonları değiştirin. N kez tekrarlayın.
Rastgele silme: cümlede p olasılığı olan her kelimeyi rastgele silin.
Bu teknikler gerçekten etkili mi? Beklenmedik bir şekilde, cevap evet. Üretilen cümlelerin bazıları biraz tuhaf olsa da, veri setine biraz gürültü eklemek, özellikle veri seti nispeten küçük olduğunda, sağlam bir model eğitmek için son derece faydalıdır. Bu makale, 5 metin sınıflandırma görevinin karşılaştırmalı testinde, EDA kullanımının hemen hemen tüm veri setlerine dayanan geleneksel eğitim yöntemini yendiğini ve eğitim veri seti küçük olduğunda performansın özellikle olağanüstü olduğunu belirtmiştir. Ortalama olarak, tekrarlayan bir sinir ağını (RNN) eğitmek için EDA kullanmak, geleneksel yöntemle aynı doğruluğu elde etmek için eğitim verilerinin yalnızca% 50'sini gerektirir.
Kullanılan eğitim setinin yüzdesine göre metin sınıflandırma görevinin performansı. EDA (Basit Veri Artırma) kullanmak, küçük veri kümeleri kullanıldığında geleneksel yöntemlerden çok daha iyidir.
Sınava girdiğini biliyorum. Gerçek işaretini korurken büyütme operasyonları gerçekleştirmek gerçekten mümkün mü? Doğrulamak için grafik çizme yöntemini kullanıyoruz.
Ürünün olumlu ve olumsuz incelemeleri için bir RNN eğittiğinizi, hem normal hem de artırılmış cümleler çalıştırdığınızı, sinir ağının son katmanını çıkardığınızı ve sTNE ile gizli bir uzay haritası çizdiğinizi varsayalım:
ProCon veri kümesinin yerel ve artırılmış cümlelerinin gizli uzay haritası
Artırılmış cümlenin gizli uzay grafiğinin orijinal cümleyi yakından çevrelediğini görebilirsiniz! Bu, oluşturulan artırılmış cümlenin büyük olasılıkla orijinal cümlenin işaretini koruduğunu gösterir. Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı
Şimdi, her bir işlemin veri artırma teknolojisindeki etkisine bir göz atalım. Eşanlamlı değiştirmeyi anlamak kolaydır, ancak diğer üç işlem gerçekten işe yarıyor mu? Bir deney yapabilir, bu işlemlerden birini ayrı ayrı yapabilir ve farklı değerlerini değiştirebiliriz. parametresi kabaca "cümlede değiştirilen kelimelerin yüzdesi" olarak anlaşılabilir:
Farklı boyutlardaki veri kümelerinde, diğer beş metin sınıflandırma yöntemini karşılaştırarak, EDA işlemlerinin ortalama performans kazancı. A parametresi kabaca "cümledeki her bir büyütme işlemi ile değiştirilen kelimelerin yüzdesi" olarak anlaşılabilir. SR: Eşanlamlı değiştirme. RI: Rastgele ekleyin. RS: Rastgele değişim. RD: Rastgele silin.
Veri seti küçük olduğunda, performans kazancının çok büyük olduğunu, yaklaşık% 2-3'e ulaştığını ve veri seti büyük olduğunda kazancın azaldığını (~% 1) görebilirsiniz. Bununla birlikte, tüm işlemler birleştirilirse, büyütme parametreleri makul bir şekilde ayarlanırsa (cümledeki kelimeler bir çeyrekten fazla değiştirilmez), eğitilen model daha sağlam hale getirilebilir.
Son olarak, gerçek bir cümle için kaç cümleyi artırmalıyız? Cevap, veri kümenizin boyutuna bağlıdır. Veri kümeniz küçükse, aşırı uyum olasıdır ve daha fazla artırılmış cümleler oluşturmalısınız. Veri seti nispeten büyükse, çok fazla artırılmış cümle eklemek çok az önem taşır çünkü orijinal veriler zaten iyi bir model eğitebilir. Bu grafik, her yerel cümle tarafından oluşturulan artırılmış cümlelerin sayısına göre performans kazanımını gösterir:
Farklı büyüklükteki veri kümeleri altında beş metin sınıflandırma görevinin tümü için EDA'nın ortalama performans kazancı. n_aug, yerel cümle başına üretilen artırılmış cümlelerin sayısını temsil eder.
Basit veri artırmanın metin sınıflandırmasında performansı önemli ölçüde artırabileceğini gösterdik. Küçük bir veri kümesine sahip bir metin sınıflandırıcı eğitiyorsanız ve daha iyi sonuçlar elde etmek istiyorsanız, lütfen bu işlemleri modelde programlı olarak uygulayın veya EDA kodunu Github'dan indirin. Daha fazla ayrıntı için lütfen orijinal metni kontrol edin.
Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?
Tıklamak EDA: En basit doğal dil işleme veri artırma yöntemi] Şunlara erişebilirsiniz:
https://ai.yanxishe.com/page/TextTranslation/1644
AI Araştırma Enstitüsü bugün şunları tavsiye ediyor: 2019 Yeni Stanford CS224nNLP Kursu
Doğal dil işleme (NLP), bilgi çağındaki en önemli teknolojilerden biridir ve yapay zekanın önemli bir parçasıdır. NLP uygulamaları her yerde bulunur, çünkü insanlar neredeyse dilde iletişim kurar: İnternet araması, reklamcılık, e-posta, müşteri hizmetleri, dil çevirisi, tıbbi raporlar vb. Son yıllarda, derin öğrenme yöntemleri, geleneksel, göreve özgü özellik mühendisliğine ihtiyaç duymadan tek bir uçtan-uca sinir modeli kullanarak birçok farklı NLP görevinde çok yüksek performans elde etti. Bu derste öğrenciler, NLP derin öğrenmenin en son araştırmaları hakkında derinlemesine bir anlayışa sahip olacaklar.
Kurs bağlantısı: https://ai.yanxishe.com/page/groupDetail/59