ACL2019 | Çince kelime segmentasyonuna ihtiyaç duyar mı?

AI Technology Review Press , Bu makale, WeChat "Shannon Technology" hesabından çoğaltılmıştır ve AI Technology Review, onu çoğaltma yetkisine sahiptir.

Yakın zamanda Shannon Technology, Çince Temsillerin Derin Öğrenilmesi İçin Kelime Bölümleme Gerekli mi? Çince doğal dil işlemenin en temel sorununu tartışan bir makale yayınladı: Çince NLP'nin kelime bölümlemesine ihtiyaç duyup duymadığı ve sonuç, derin öğrenme çerçevesinde "kelimelerin" performansıdır. Neredeyse her zaman "kelime" performansından daha iyidir. Bu makale, doğal dil işleme konusundaki en büyük konferans olan ACL19'a seçildi. Yuxian Meng ve Xiaoya Li ilk yazarlar olarak listelenmiştir.

Kağıt bağlantısı:

https://arxiv.org/pdf/1905.05526.pdf

Genel Bakış

Uzun zamandır, Çince Kelime Bölümleme (CWS) NLP araştırmalarıyla büyük ölçüde ilgilenmiştir.Derin öğrenmenin yükselişinden önce veya derin öğrenmenin yükselişinden bu yana, CWS ile ilgili araştırma hiç durmadı.

Çince "karakter" biçimsel bakış açısından ses ve anlamın en küçük birleşimi olmasına rağmen, modern Çince'de "sözcükler" tam anlambilim ifade etme işlevine sahiptir ve "sözcüklerin" çoğu birden çok "karakter" kombinasyonudur. Olmak. Bu nedenle, Çince kelime segmentasyonu, birçok Çince NLP görevinin ilk adımı haline geldi.

Bununla birlikte, derin öğrenmenin gelişmesi ve bilgisayar hesaplama gücünün iyileştirilmesiyle, birçok Çince NLP görevi için, Çince kelime segmentasyonunun gerekliliği giderek azalmaktadır.

Sonra, derin öğrenme sinir ağı çerçevesine dayanan NLP görevinde "kelime" mi yoksa "kelime" mi olmak daha iyi diye soracağız. Katılımcılara ihtiyaç var mı? Sadece "karakter" e mi ihtiyacımız var, yoksa "karakter" ve "kelime" yi birlikte mi kullanıyoruz? Nedeni ne? Şu anda, bu sorunlar sistematik araştırmadan yoksundur.

Dört Çin NLP görevi üzerinde deneyler ve analizler yoluyla, bu makale yukarıdaki konularla ilgili ön sonuçlara varmaktadır:

  • Sinir ağı çerçevesi altında Çin NLP görevlerini yerine getirirken, "karakter" seviyesinin performansı, "kelime" seviyesinin performansından neredeyse her zaman daha iyidir.

  • Çoğu Çince NLP görevi için, ek kelime segmentasyonu gerçekleştirmemize gerek yoktur (segmentlere ayrılması gereken bazı görevler hariç).

  • Bazı görevler için, "karakter" tek başına en iyi performansı sağlayabilir ancak "sözcük" eklemenin olumsuz etkileri olabilir.

  • Bunun nedeni, kısmen "kelime" düzeyinde veri seyrek problemi, OOV (kelime dağarcığı) problemi ve aşırı uyum problemine bağlanabilir.

Araştırmamızı, Çince kelime segmentasyonu ve gerekliliği ve en iyi Çince temsil birimi üzerine gelecekteki araştırmalar için referans ve ilham sağlamak için kullanabileceğimizi umuyoruz.

"Kelime" düzeyi birimlerinin yetersizliği

"Kelime" seviyesi modeli birçok görevde yaygın olarak kullanılmasına rağmen, "kelime" seviyesi birimi aşağıdaki önemli eksikliklere sahiptir:

1. Her şeyden önce, kelime verilerinin seyrekliği problemi kaçınılmaz olarak aşırı uyuma yol açar ve büyük miktarda OOV, modelin öğrenme yeteneğini sınırlar. Zipf yasasına göre, Çince kelimelerin çoğunun sıklığı çok küçüktür ve veri setindeki oranları çok sınırlıdır, bu da modelin verilerdeki gramer ve anlamsal bilgiyi tam olarak elde edememesine neden olur.

Örneğin, CTB veri setinde Jieba kelime segmentasyonundan sonra 50.266 farklı kelime vardır, bunlardan 24458 kelime yalnızca bir kez görünür, ancak bunlar yalnızca tüm veri setinin% 4.0'ını oluşturur; 38889 kelime dört defadan fazla görünmez. Ancak veri setinin yalnızca% 10,1'ini oluşturdular.

Bu, kelime seviyesi verilerinin çok seyrek olduğunu ve bu durumun kolayca aşırı uyuma yol açtığını gösterir. Öte yandan, çok fazla kelime çok fazla OOV'yi artıracak ve bu da modelin öğrenme yeteneğini sınırlayacaktır.

2. Kelime bölütleme yöntemi tek tip değildir ve sözcük bölümlemesinin etkisi iyi değildir. Aslında, Çince kelime segmentasyonu dilbilimde de zor bir şeydir Kelime segmentasyonu için farklı standartlar vardır. NLP'deki Çince kelime segmentasyonu için, farklı veri setlerinin farklı kelime segmentasyon standartları da vardır.

Örneğin, aynı cümle için "Yao Ming finale giriyor", CTB veri seti onu "Yao Ming finale giriyor" olarak bölerken, PKU veri seti onu "Yao Ming finallere giriyor" olarak ikiye ayırıyor. Bildiğimiz kadarıyla "Yao Ming" "Açıkçası ayrılamaz.

Sonuç olarak, bu tür bir yanlış kelime bölümlemesi, aşağı akış görevlerini yanlış yönlendirebilir ve dolayısıyla modelin etkisini etkileyebilir.

3. Kelime segmentasyonunun faydaları henüz net değil. Her ne kadar sezgisel olarak konuşulsa da, "kelimeler" tarafından taşınan anlamsal bilgi "karakterlerden" daha zengindir, ancak bu sadece insan bakış açısıyla, yani sinir ağları ne olacak?

Kelimelerin performans açısından bilgisayarlar için mutlaka yararlı olup olmadığını hâlâ bilmiyoruz.

Yukarıdaki noktalara dayanarak, dört Çince NLP görevinde "kelime" seviyesi ve "karakter" seviyesinin performansını keşfedeceğiz.

Deney

Bu bölüm, dört Çince NLP görevinde (dil modelleme, makine çevirisi, metin sınıflandırması ve cümle eşleştirme) "kelime" düzeyinde ve "kelime" düzeyinde modeller üzerinde deneyler gerçekleştirir.

Dil Modelleme (Dil Modelleme)

Önce dil modelleme üzerinde deneyler yapıyoruz. CTB6 veri setini kullanıyoruz ve veri setini standart 8-1-1'e göre bölüyoruz.

Kelime segmentasyonu için Jieba kullanıyoruz. Model temel LSTM modelidir.Aynı model için, ppl'yi optimum hale getirmek için öğrenme hızı, bırakma ve parti boyutu üzerinde ızgara araması yaptık.

Deneysel sonuçlar aşağıdaki gibidir:

Dil modelleme sonuçları: kelime düzeyinde model, kelime düzeyinde modelden önemli ölçüde daha iyidir

Tablodan görülebileceği gibi, aynı boyutta (512d ve 2048d), kelime düzeyinde model, kelime düzeyinde modelden önemli ölçüde daha iyidir. Ve boyut 2048 olduğunda, ppl büyük bir boşluk sunar.

Ayrıca "karakter" + "kelime" nin hibrit modeli üzerinde de deneyler yaptık. Hibrit model için, sadece "kelime" temsilini değil, aynı zamanda her kelimenin içindeki "kelime" temsilini de kullanıyoruz, CNN aracılığıyla kapsamlı bir "kelime" gösterimi elde ediyoruz ve sonra ikisini birleştiriyoruz. Tablodaki "yalnızca karakter", yalnızca ikincisini kullandığımız anlamına gelir.

"Sadece karakter" modelinin "kelime" temsiline sahip diğer modellerden daha iyi olduğu ve "kelime + karakter" modelinin tek "kelime" modelinden daha iyi olduğu görülmektedir.

Bu, "kelime" seviyesi modelinin dil modelleme görevinin gerektirdiği dil bilgisini zaten kodladığını ve performansa gerçekten zarar vereceğini belirtmek için "kelimeler" eklediğini gösterir.

Makine Çevirisi (Makine Çevirisi)

MT için standart Çince-İngilizce çeviri ayarlarını kullanıyoruz. LDC külliyatında 1.25 milyon cümle seçtik, bunları NIST2002'de doğruladık ve NIST2003 / 2004/2005/2006 / 2008'de değerlendirdik.

Model standart seq2seq + care'i kullanır.Aynı zamanda, karşılaştırma için Karışık RNN, Bi-Tree-LSTM ve PKI modellerinin sonuçlarını da listeliyoruz.

Ek olarak, BOW yöntemini de (Ma ve diğerleri 2018) 'de kullandık. Kelimelerin ve karakterlerin temsil boyutları 512'ye ayarlanmıştır. Belirli parametreler ve diğer ayarlar için kağıda bakın.

Deneysel sonuçlar aşağıdaki gibidir:

Gördüğünüz gibi, > İngilizce çevirisinde, basit seq2seq + dikkat modeli olan "kelime" seviyesi, 0.83 BLEU değerinde ortalama bir artışla "kelime" seviyesini önemli ölçüde aşmıştır.

BOW yöntemi (Ma ve ark. 2018) ile birleştiğinde, "kelime" seviyesi modeli, ortalama olarak "kelime" seviyesi modelinden 0,63 daha yüksektir ve aynı zamanda en iyi sonuçtur.

İngiltere'de- > Çeviride, "karakter" modeli, ortalama 3,13 ile "kelime" modelinden daha büyük bir gelişmeye sahiptir. Bunun sebebi olduğunu düşünüyoruz:

  • İçinde- > İngilizce çeviride, "karakter" ve "kelime" arasındaki fark yalnızca kodlama sonunda yansıtılır; > Çince çeviride, hem kodlama tarafı hem de kod çözme tarafı performanslıdır.

  • İngiltere'de- > Çince çeviride, kod çözme tarafındaki UNK, kelimeler üzerinde daha büyük bir etkiye sahiptir.

Bu amaçla, Birleşik Krallık'tayız- > Çince tercümenin kod çözme sonu BPE yöntemini kullanır. Seq2seq + att için 41.44 ve seq2seq + att + bow için 44.35 alır, bu "word" seviyesi modelinden önemli ölçüde daha yüksek, ancak yine de "word" seviyesi modelinden daha düşüktür. .

Cümle Eşleştirme

Cümle eşleştirme görevleri için, BQ ve LCQMC olmak üzere iki veri seti kullanıyoruz. Bu veri setlerinin her ikisine de bir çift cümle verilmiştir ve benzerliklerini bazı yönlerden değerlendirmemiz gerekir (iki kategori, aynı veya farklı).

BQ'nun anlamsal denkliği yargılaması gerekir ve LCQMC'nin niyet eşdeğerliğini yargılaması gerekir. Bu veri setlerinin her ikisi de modelin anlamsal yakalama yeteneklerini test etmek için çok uygundur.

Bu iki veri setinde mevcut SOTA modelini kullanıyoruz: BiMPM, parametre ayarları değişmeden kalır, yani 200 boyutlu karakter ve kelime gösterimi.

Deneysel sonuçlar aşağıdaki gibidir:

"Kelime" seviye modelinin hem doğrulama seti hem de test setinde "kelime" seviyesi modelinden önemli ölçüde daha iyi olduğu görülebilir. Bu, "kelime" seviyesi modelinin birimler arasındaki anlamsal bağlantıları daha iyi yakalayabildiğini gösterir.

Metin Sınıflandırması

Metin sınıflandırması için aşağıdaki veri setini kullanıyoruz (Zhang ve LeCun 2017):

  • ChinaNews: Çin haber makaleleri, yedi kategori.

  • Ifeng: Bir Çin haber makalesinin ilk paragrafı, beş kategori.

  • JD_full: Jingdong, beş kategori hakkında ürün incelemeleri.

  • JD_binary: JD'de ürün incelemeleri İki kategori.JD_full'da 1 ve 2 yıldızlar negatif, 4 ve 5 yıldızlar pozitif olarak sınıflandırılır ve 3 yıldız yok sayılır.

  • Dianping: Dianping'in değerlendirmesi, ikinci kategori olarak beş kategori, 1 yıldız, 2 yıldız ve 3 yıldız negatif, 4 yıldız ve 5 yıldız pozitif olarak sınıflandırılır.

BiLSTM modelini kullanıyoruz ve sonuçlar aşağıdaki gibidir:

Sadece Chinanews veri setinde, "kelime" seviyesi modelinin "kelime" seviyesi modelinden biraz daha yüksek olduğu ve diğer veri setlerinde "kelime" nin "kelime" den daha iyi olduğu görülebilir.

Ayrıca, Dianping ve JD olmak üzere iki veri kümesi üzerinde Alan Uyarlama deneyleri gerçekleştirdik.

Önce Dianping üzerinde çalışıyoruz, sonra JD_binary üzerinde test ediyoruz; sonra ters yönde test ediyoruz. Sonuçlar aşağıdaki gibidir:

Görülebileceği gibi "kelime" her iki yönde de "kelime" den daha iyidir ve OOV'nin de önemli avantajları vardır.

analiz

Bu bölümde, "kelime" nin "kelime" den daha iyi olmasının nedenlerini üç açıdan analiz edeceğiz: veri seyrekliği, OOV ve aşırı uyum.

Veri seyrek

Yer kısıtlamaları nedeniyle, sözlükte görünen tüm kelimeleri / kelimeleri dahil etmemiz imkansızdır.Genel yöntem bir "frekans sınırı" belirlemektir ve bu sınırın altında olanlar özel bir UNK işareti olarak belirlenir.

Aşağıdaki şekil, farklı sıklık sınırlarını ve sözlük boyutlarını gösteren bir grafiktir ve "kelime" düzeyinde ve "kelime" düzeyinde performans modelidir:

Bar = 0 olduğunda, her iki modelin de çok kötü performans gösterdiği görülebilir. "Kelime" seviyesi modeli için, artan çubuğun performans üzerinde çok az etkisi vardır ve en iyi performans, "kelime" seviyesi modeli için, çubuk = 5 olduğunda, artan çubuk performansı önemli ölçüde artırabilir.

Bu, dil bilgisini tam olarak öğrenmek için, modelin sözlükteki birimlerle yeterli "temas" (veya yeterli veri hacmine) sahip olması gerektiğini gösterir ki bu "kelime" seviyesi modeli için karşılanması daha zordur.

OOV sorunu

Öte yandan, "kelime" modelinde de daha fazla OOV var. OOV problemi nedeniyle "kelime" modeli etkili değilse, "kelime" modeli ile farkı daraltmak için OOV'yi azaltmayı umuyoruz.

Ancak yukarıda belirtildiği gibi, OOV'nin azaltılması, frekans sınırının düşürülmesi anlamına gelir ve bu, veri seyrekliği sorununu daha da kötüleştirir. Bu nedenle, başka bir yöntem kullanıyoruz: farklı kelime frekans limitleri için, veri setinde OOV kelimelerini içeren cümleleri kaldırıyoruz (doğrulama makinesi ve test seti dahil). Aşağıda gösterildiği gibi:

Açıkçası, "karakter" ve "ci" arasındaki boşluk, çubuğun artmasıyla giderek daralmakta, "karakter" modelinin performansı düşmekte ve "ci" modelinin performansı artmaktadır.

Bu, "kelime" modeli için OOV'nin belirgin bir problem olmadığını ve veri setinin küçültülmesinin etkide bir azalmaya yol açacağını göstermektedir; "kelime" modeli için OOV, gerçekten de modelin performansını ciddi şekilde engelleyecektir ve veri setindeki OOV'nin azaltılması etkiyi iyileştirmeye elverişli olacaktır. Bu, gelecekteki çalışmamızda OOV'yi nasıl çözeceğimizi düşünebileceğimizi gösteriyor.

Aşırı uyum gösterme

Veri seyrekliği sorunu, model parametrelerini arttırır ve bu da fazla uydurmayı kolaylaştırır. BQ üzerinde deneyler yaptık ve "kelime" modeli için etkinin, bırakma 0,5 olduğunda en iyi olduğunu ve "kelime" modeli için, bırakma 0,3 olduğunda en iyi etkinin olduğunu bulduk.

Bu, aşırı uyumun "kelime" modelinde meydana gelme olasılığının daha yüksek olduğunu göstermektedir. Öte yandan, daha büyük bir bırakma belirlememize rağmen, "kelime" modeli, bırakmanın tek başına aşırı uydurma sorununu çözemeyeceğini gösteren "kelime" modelinden hala daha düşüktür.

Görselleştirme

BQ veri setinde "faiz maliyeti ne kadar" ve "önümüzdeki ay geri ödeme için ne kadar faiz düşürülecek" cümle çiftlerini seçip ısı haritasını çiziyoruz:

Görülebileceği gibi "kelime" modeli için, "faiz maliyeti" "faiz" ile eşleşemez, ancak "kelime" modeli bunu yapabilir.

özet

Bu makalede, dört Çince NLP görev deneyi aracılığıyla, "karakter" düzeyi modelinin genellikle etki açısından "sözcük" düzeyi modelinden daha iyi olduğunu doğruladık. Analiz yoluyla, "kelime" seviyesi modelinin düşük performansının veri seyrekliği, OOV sorunları, aşırı uyum ve veri seti taşıma yeteneklerinin eksikliğine bağlanabileceğine inanıyoruz.

Bu makale aracılığıyla, Çince kelime segmentasyonu ve gelecekte en iyi Çince temsil birimi hakkında daha fazla ve daha ayrıntılı araştırmalara ilham verebileceğimizi umuyoruz.

2019 Küresel Yapay Zeka ve Robotik Zirvesi

Çin Bilgisayar Derneği'nin ev sahipliği yaptığı ve Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019) düzenlenecek 12-14 Temmuz 2019 Shenzhen'de düzenlendi.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Tıklamak Orijinali okuyun , NLP kağıt tartışma grubuna katılın ~

Antik Çin-Shaanxi Halk Güzel Sanatlar Yayınevi'nde Vakaların İşlenmesi Hikayesinde Üç Parça Kumaş 1981 Gu Guojian Tarafından Boyanmış
önceki
Antik Çin'deki davaları ele alma hikayesinin başbaşkanı Lai Niu
Sonraki
Donanımın yedek lastik yazılımı da var! Huawei Hongmeng işletim sistemi maruziyeti: veya Android Win'in yerini alabilir
Antik Çin'de Vakaların İşlenmesinin Öyküsü: Bal-Shaanxi Halk Sanatı Baskısında Fare Gübresi 1981 Zhao Jun tarafından boyanmıştır.
RNN gözden düşüyor, pekiştirmeli öğrenme ivme kazanıyor, ICLR 2019'un sekiz maddelik toplantı özeti
Huawei'in en son siyah teknolojisi, ZINK mürekkepsiz baskı, fotoğrafları canlandırıyor!
Antik Çin'de Vakaların İşlenmesinin Öyküsü: Tırpan-Shaanxi Halk Sanatı Sürümü 1981 Zhao Jun
Academia | Pengcheng Laboratuvarı, üç büyük AI akademik sınır araştırma raporunu başlattı ve ilk "AI Scientist" salon serisi başarıyla sona erdi
Bu yıl getiri açısından ilk 10 endeks fonu hangileri?
Antik Çin-Shaanxi Halk Güzel Sanatlar Yayınevi Davaları Davası 1981 Zhao Jun
6000 "aşk zongzisi" şimdi askeri şehitlere ve diğer özel bakım nesnelerine, yetimlere ve engelli ailelere gönderiliyor
Qianjin Doğaüstü Güç Kralı-Jiangxi Halk Yayınevi 1987 Zhan Min Tarafından Boyanmış [2. Bölüm]
Kuru ürünler | Alibaba Machine Intelligence Lab'in çevrimdışı akıllı ekibinin üç yıllık çalışma özeti
Henan Erkek Bebek Kayıp Davasında şüpheliden bahsedilmedi Çocuğu çalan var mı?
To Top