"Academic Paper" Weibo metni için adlandırılmış bir varlık tanıma yöntemi

Adlandırılmış Varlık Tanıma (Adlandırılmış Varlık Tanıma), metindeki kişi, yer, kuruluş veya diğer benzersiz tanımlayıcıların adları gibi çeşitli varlıkların tanınması anlamına gelir. Doğal Dil İşlemede (NLP) çok önemli bir temel teknolojidir. . Son yıllarda, Twitter ve Sina Weibo gibi yeni sosyal platformlar hızla gelişerek adlandırılmış varlık tanıma için yeni bir yön haline geldi. RITTER A ve diğerleri, Twitter'a uygulanan bir T-NER sistemi tasarladı ve adlandırılmış varlık tanıma sürecini yeniden yapılandırdı. TURIAN J ve diğerleri, tanıma maliyetini büyük ölçüde azaltan adlandırılmış varlık tanıma için yarı denetimli bir sistem kullandı. Liu Xiaohua ve diğerleri, Twitter'da adlandırılmış varlıkları tanımlamak için K-en yakın komşu sınıflandırıcıyı CRF modeliyle yarı denetimli bir çerçeve altında birleştirdi ve iyi sonuçlar elde etti.

Yukarıdaki çalışma, Çince'nin derin anlamını dikkate almadan ve manuel etiketlemenin maliyeti ve eksiklikleri dikkate alınmadan, çoğunlukla kendi kendine oluşturulmuş sınırlı veri kümeleri kullanılarak Twitter'a dayanmaktadır, bu nedenle iyileştirilmesi gerekmektedir. Bu makale, Çin mikro blogları için adlı varlık tanımayı inceliyor, tanımayı bir dizi etiketleme problemi olarak görüyor ve olasılık modellerine dayalı gelişmiş algoritmalar yoluyla tanıma etkisini optimize ediyor. Weibo'nun kısa metnini hedefleyen, daha az bilgi, düzensiz stil ve belirsizlik, derin anlamsal özellikleri çıkarmak için harici veri kaynakları tanıtıldı; Weibo veri setlerinin yüksek manuel işlenmesi sorunu için, el emeğini azaltmak için aktif öğrenme algoritmaları tanıtıldı. Maliyet, tanıma etkisini iyileştirmektir.

1 Weibo odaklı adlandırılmış varlık tanıma yöntemi

Bir Weibo verilen CoNLL2003 standardına göre, kişilerin, yerlerin, kuruluşların ve diğer kuruluşların adları dahil olmak üzere dört tür adlandırılmış varlığın tanımlanması gerekir.

Araştırmanın temel modeli CRF modelini kullanmaktadır.

1.1 Özellik seçimi

Temel özellikler, mevcut sözcüğün sözcük türü ve konuşma bölümü özelliklerini ve aynı zamanda çoğu CRF modelinin kullanacağı özellikler olan önceki ve sonraki konum sözcüklerini kullanır. Ortaya çıkan model temel model olarak kullanılır ve ilgili deneysel sonuçlar temel olarak kullanılır.

1.1.1 Tema Özellikleri

(Latent Dirichlet Allocation, LDA) modeli, denetimsiz bir olasılıksal konu modelidir. Her konunun altında, oluşma olasılığı yüksek kelimeler vardır.Bu kelimelerin konuyla güçlü bir ilişkisi vardır.Bu korelasyon performansını, bir kelimenin çok anlamlı ve eş anlamlı problemini çözmek için kullanın. Modelin eğitimi harici bir veri kaynağı kullanır ve konu sayısı k önceden belirlenebilir.

LDA modeli elde edildikten sonra, belirli bir k konu için p (w | t) aracılığıyla her konu bir özellik olarak kabul edilir ve eğitim setindeki her kelime k özellikleriyle temsil edilen K boyutlu bir vektör olarak kabul edilir, ardından Her kelime k-boyutlu bir vektör olarak temsil edilebilir, yani:

Bunlar arasında vi i-inci kelimenin vektörünü, k k-inci konudaki kelimenin ağırlığını ve N kelime haznesinin boyutunu temsil eder.

1.1.2 Kelime vektör özellikleri

Kelime vektörü, HINTON GE tarafından önerilen Dağıtılmış Temsilden türetilmiştir. Popüler bir kelime vektörü eğitim aracı, 2013 yılında MIKOLOV T tarafından önerilen word2vec'dir. word2vec, kelimeleri d boyutlu bir vektör uzayına eşleyebilir ve Weibo anlambilimindeki belirsizlik sorununu çözmeye yardımcı olan metnin anlamsal benzerliğini ifade etmek için vektör uzayının benzerliğini kullanabilir.

Kelime vektörü genellikle 200-500 boyuta sahiptir Kelime vektörü bir özellik olarak doğrudan CRF modeline dahil edilirse, hesaplama miktarı çok büyük olacaktır. Burada kullanılması gereken şey benzerliktir, bu nedenle kümeleme ile basitleştirilebilir. Deneyde, kelimeleri 200-500 boyutlu kelime vektörleri olarak temsil etmeyi seçiyoruz ve ardından kümeleme için k-araçlarını ve özellik girdi modeli olarak kategoriyi kullanıyoruz. Özellikle, tek bir kümeleme sonucu kullanmak yerine, çok katmanlı kümeleme daha iyi bir yaklaşım olduğu belirtilmelidir.

1.2 Model geliştirme

Weibo corpus'un manuel olarak işlenmesi pahalıdır, minimum manuel maliyetle maksimum sistem performansı iyileştirmesi elde etmek için, araştırma aktif öğrenme algoritmasını kullanır. Aktif öğrenme algoritması, biri sınıflandırıcı ve diğeri örnekleme stratejisi olmak üzere iki bölümden oluşmaktadır. Sınıflandırıcı, yukarıda açıklanan geliştirilmiş CRF modelini kullanır. Örnekleme stratejisi aşağıdaki yöntemleri kullanabilir.

Örnekleme belirsizliği, bir örneğin bilgi içeriğini ölçmek için yaygın bir yöntemdir.Sıra etiketleme modelinde, örnekleme belirsizliği En Az Güven LC (x) 'e göre belirlenebilir.

Bunlar arasında, x bir örneği temsil eder ve y * karşılık gelen en yüksek olasılığa sahip işarettir. Eğitimli bir CRF modeli için, her bir mikro bloğu işaretlerken karşılık gelen P olasılığını verebilir. Şimdi tüm algoritma çerçevesini verin.

Algoritma 1: Güvene dayalı aktif öğrenme algoritması

Girdi: işaretli topluluk DL, işaretlenmemiş topluluk DU

Çıktı: Sınıflandırıcı C

C sınıflandırıcısını eğitmek için DL kullanın (CRF sınıflandırıcı)

tekrar et:

2 deney

Deneyde eğitim seti, genişletilmiş set ve test seti olmak üzere 3 veri seti kullanılmıştır. Bunlardan eğitim seti olarak 3.000 etiketli külliyat, test seti olarak 2.000 etiketli külliyat kullanılmıştır. Diğer 2.000 öğe, aktif öğrenme için genişletilmiş bir set olarak kullanılır ve etiketlenmesine gerek yoktur. Kopyaları kaldırılan ve denoize edilen diğer 5 milyon mikroblog, LDA model eğitimi için harici kaynaklar olarak ve harici özellikleri çıkarmak için kelime vektör modeli eğitimi olarak kullanılır.

2.1 Değerlendirme kriterleri

Bu makalede kullanılan değerlendirme kriterleri, doğruluk oranı P (Kesinlik), geri çağırma oranı R (Geri Çağırma) ve F1 değeri (F1-ölçüsü) 3 göstergelerini içerir. F1, doğruluk ve geri çağırmanın harmonik ortalamasıdır ve kapsamlı bir göstergedir.

2.2 Deneysel veriler ve analiz

(1) Temel özellikleri çıkarmak, temel bir model oluşturmak ve test setini değerlendirmek için eğitim setini kullanın. Sonuçlar Tablo 1'de gösterilmektedir. Bu sonuç, sonraki deneysel sonuçlarla karşılaştırma için bir temel olarak kullanılacaktır.

(2) Dış özellikleri tanıtmak ve birden çok deney yapmak. Şekil 1'in sol tarafı, etkili olmasına rağmen açık olmasa da tema özelliğini tanıttıktan sonraki iyileştirme etkisini göstermektedir. Şekil 1'in sağ tarafı, 400 boyutlu kelime vektörlerinin özellik olarak modele kümelenmesinin etkisini göstermektedir. Küme sayısı 400 olduğunda F1 değeri% 63,96'ya ulaştı, bu da taban çizgisine göre önemli bir gelişmeydi. Bunun ana nedeni, kelime vektörünün bileşeninin zengin bağlamsal dilbilgisi ve anlamsal bilgiyi ima etmesidir, LDA modeli ise bağlam ilişkisini dikkate almadan yalnızca kelimelerin birlikte oluşma ilişkisini dikkate alan ve modeli basitleştiren bir kelime torbası modeli kullanır. , Ama kaçınılmaz olarak bilgi kaybına neden olur.

Çok katmanlı kümelemenin deneysel etkisi Şekil 2'de gösterilmektedir. Her boyuttaki ilk 4 çubuk, tek katmanlı kümelemenin (sırasıyla 200, 300, 400, 500 küme) etkisini temsil eder ve sonuncusu, İlk 4 kümeleme sonucunu aynı anda çok katmanlı kümelemenin etkisi olarak kullandığınızda, etki açıkça tek katmanlı kümelemeden daha iyidir.

Aynı zamanda deneyler için temel modele tüm dış özellikler eklenmiş ve F1 değeri% 65,41'e çıkarılmıştır.

(3) Modeli daha da güçlendirmek için aktif öğrenme yöntemini benimseyin. Kaldırma etkisi Şekil 3'te gösterilmiştir. Ayrıntılı veriler için Tablo 2'ye bakın. Model_ba eğrisi, aktif öğrenme olmadan yalnızca harici özellikleri kullanmanın model etkisini temsil eder. Model_la eğrisi, eğitim seti DL ve genişletilmiş set DU dahil olmak üzere tüm kurumların etiketlendiğini (tümünü etiketle) ve bir seferde model eğitimi için kullanıldığını gösterir. Model_al1, Model_al2 ve model_al3, aktif öğrenme stratejileri kullanan ancak farklı eşiklere sahip modellerdir. Genel olarak konuşursak, hangi eşik alınırsa alınsın, aktif öğrenme ile karşılaştırıldığında aktif öğrenme F1 değerini artırabilir ve yakınsama hızı çok hızlıdır.

Tablo 2 ayrıca aktif öğrenmenin avantajlarını göstermektedir. Model_la'nın 2080 Weibo gönderisini, yaklaşık 90.000 kelimeyi işaretlemesi gerekiyor ki bu çok maliyetli. Bunun aksine, üç aktif öğrenme modeli, manuel etiketleme miktarını önemli ölçüde azaltabilir. Model_al2'nin F1 değeri, Model_al3'ünkinden% 0,25 daha yüksektir ve işaretleme miktarı yalnızca% 12,9 artar. Model_al2 ile karşılaştırıldığında, Model_al1'in F1 değeri yalnızca% 0,1 artar, ancak maliyet, işaretleme miktarının% 17 ve iki yineleme daha artmasıdır. Zamanlar. Kapsamlı bir şekilde düşünürsek, Model_al2'yi nihai deneysel sonuç olarak alın. Şu anda sadece 457 mikro bloğun yaklaşık 37.000 işaret ile işaretlenmesi gerekiyor ve F1 değeri orijinal modele göre% 4,54 artışla% 67,23'e ulaştı.

3 Sonuç

Bu makale, Çin mikro blogları için, önce CRF modelini eğitmek için harici özellikleri tanıtan ve ardından eğitim sonuçlarını güçlendirmek için aktif öğrenme algoritmalarını kullanan adlandırılmış bir varlık tanıma yöntemi önermektedir. Gerçek çalışmada, zayıf Çince kelime bölümleme etkisinin takip çalışmasını etkilediği bulunmuştur Aktif öğrenme, büyük ölçekli tanıma görevlerine elverişli olmayan ikincil etiketlemeyi hala getirmektedir. Bunların gelecekteki çalışmalarda iyileştirilmesi gerekiyor.

İlkokul öğrencileri kötü sözler söylerse ne yapmalı? Öğretmenin başı ağrıyor, ebeveynler utanıyor
önceki
Bekarlar Günü'nün geleceğinde, "Dong Nationality Big Song" size gerçek aşkın ne olduğunu söyler
Sonraki
"Yao Shen" in "Dallas Buyers Club" ın Çince versiyonu olduğunu söylemeyi bırakın
Alayın tabandan çalışması nasıl yapılmalı ve üniversite öğrencilerinin ideolojik ve politik çalışmalarını nasıl yönetmeli? Bu araştırma bilgisi size şunu söylüyor:
Cortex-M işlemcide yüksek hassasiyetli anahtar kelime tanıma nasıl gerçekleştirilir?
SF Express, Çin'deki ilk drone lojistik uçuşu ödülüne layık görüldü; Sanayi ve Bilgi Teknolojisi Bakanlığı: mobil önceden yüklenmiş uygulamalar bugünden kaldırılabilir olmalıdır | Lei Feng Morning Po
Mikroblog metni için adlandırılmış bir varlık tanıma yöntemi
Gaodegu Xiaofeng: Yüksek hassasiyetli harita, otonom sürüşün tek yoludur | Future Car Konferans Salonu
"Istakoz Dedektifi" Yuan Shanshan, baharatlı bir polis çiçeğine dönüşür ve ilk ortağı Wang Qianyuan, baharatlı ortağı oynar.
Qt tabanlı PLC Board-Level Tooling Test Metodunun Araştırılması ve Uygulanması
Gao Wen ve diğer altı akademisyenin bir araya geldiği AI 2.0 sempozyumunda akademik uzmanlar ne dedi? | 2017 Dünya İstihbarat Konferansı
Sıradan bir kızın romantizmi, standart cevap o
Jack Ma'nın insansız perakende mağazası çıktı! Bunu bilmelisin
Feng Xiaogang, Çin-Amerikan Film Yaşam Boyu Başarı Ödülü'nü kazandı ve Yan Geling, "Fang Hua" hakkında konuşacak.
To Top