Metin madenciliğinde öznel ve nesnel faktörlerin etkisi üzerine göz izleme araştırması

Guo Nan

(Elektronik ve Bilgi Mühendisliği Okulu, Tongji Üniversitesi, Şangay 201800)

: Metin konu modeli ve göz izleme teknolojisine dayalı olarak, konu madenciliğinin nesnel perspektifinden ve okuma ilgisinin öznel perspektifinden araştırma metni içeriği çıkarma teknolojisi. Geleneksel metin madenciliği çoğunlukla metnin içeriği gibi nesnel faktörlere dayanırken, öznel yönelimin önemli faktörleri metin madenciliğinde nadiren rol oynar. Makale, göz hareketi verilerini önce okuma ilgisi gibi öznel sonuçlara dönüştürmek için göz izleme teknolojisini kullanıyor ve metinden nesnel konuları çıkarmak için LDA (Gizli Dirichlet Tahsisi) modelini kullanıyor ve ardından göz verilerini konu modelleme sonuçlarıyla karşılaştırıyor. Öznel ve nesnel faktörlerin metin madenciliği üzerindeki etkisini çıkarın ve analiz edin. Haber veri setinin göz izleme deneyi ve konu çıkarma deneyi, öznel ve nesnel faktörlerin sonuçlar üzerindeki etkisinin belirli farklılığını ve benzerliğini göstermektedir.Gelecekte, ikisinin kombinasyonu ve düzenleme oranı, metin madenciliğinin etkisini iyileştirmek için temel yön olarak kullanılabilir.

: Metin konusu modelleme; göz izleme teknolojisi; metin madenciliği; konu modeli

: TP391 Belge tanımlama kodu: ADII: 10.19358 / j.issn.1674-7720.2017.03.023

Alıntı biçimi Guo Nan. Metin madenciliğinde öznel ve nesnel faktörlerin etkisi üzerine göz izleme araştırması J. Mikrobilgisayar ve Uygulama, 2017,36 (3): 79-81.

0 Önsöz

Metin konu modellemesi, son yıllarda metin madenciliği alanında popüler bir araştırma yönü olan LDA (Latent Dirichlet Allocation) modeli [1] ile temsil edilmektedir. Konu modeliyle çıkarılan konular, metnin arkasındaki gizli anlambilimin anlaşılmasına yardımcı olabilir ve ayrıca metin sınıflandırması, konu algılama ve diğer metin madenciliği görevlerini tamamlamak için diğer metin madenciliği yöntemlerine girdi olarak kullanılabilir. Bununla birlikte, son yıllarda, LDA modelini temsil eden konu modelleme modelinin iyileştirilmesi ve genişletilmesi metodolojik bir darboğazla karşı karşıyadır.Sonsuz model iyileştirme algoritmaları çoğunlukla parametre ayarlama ve modelleme katmanı optimizasyonu gibi temel yöntemleri kullanır [2]. Konu modellerinin verimliliği ve etkinliği sınırlıdır; Öte yandan, konu madenciliği araştırması metnin içeriği gibi nesnel faktörlere odaklanırken, insan öznel faktörleri metin madenciliğinde nadiren önemli bir rol oynar. Aslında, okuma ilgisi gibi öznel faktörler Metin madenciliği için çok önemli bir referans değerine sahiptir ve konu modelinin kendisi için büyük önemi vardır [3].

Bu nedenle, metin madenciliği ve konu modelleme alanındaki ilgili araştırmalar için, çözmeyi umduğum ilgili sorun, mevcut konu modelleme modeline göre farklı içerik alanlarında metnin nesnel faktörlerinin nasıl analiz edilip çıkarılacağıdır. Aynı zamanda, kişilerin öznel okuma kurallarının ve ilgi odaklılık faktörlerinin etkisi dikkate alındığında, metinden çıkarılan bilgi ve bilgiler daha değerli ve anlamlıdır.

Eye tracker teknolojisi, görsel bilgi çıkarma sürecinde fizyolojik ve davranışsal performansı elde edebilir.İnsanların psikolojik aktiviteleri ile doğrudan veya dolaylı bir ilişkisi vardır ve konu çıkarma ve metin madenciliği için insanların öznel ilgi yönelim bilgilerini sağlayabilir [4]. Bu makale, kullanıcının göz takipçisi ve konu çıkarma modeli LDA tarafından yakalanan metin okuma verilerini analiz eder, öznel göz hareketi veri sonuçlarını ve konu modeli madenciliği sonuçlarını karşılaştırır ve analiz eder ve öznel yasa ve nesnel modelden metin madenciliği etkisini yürütür. Sonuç analizi, gelecekteki metin madenciliği alanı modelleme ve uygulama yöntemlerinin ilerlemesini desteklemek ve metin madenciliği modellerinin etkisini iyileştirmek için belirli bir referans önemine ve uygulama değerine sahiptir.

1 Metin konusu çıkarma algoritması

1.1LDA modeli

LDA modeli, her belgeyi, belgeyi oluşturan kelime dağarcığının bir vektörü olarak ele almak için bir "kelime torbası" hipotezi kullanır Bu şekilde, belge birden çok konunun olasılık dağılımı ile temsil edilir ve konu, kelimelerin olasılık dağılımı ile açıklanır.

Her belge için tema oluşturma süreci şu şekildedir: Şekil 1'de gösterilen olasılık modelinde gösterildiği gibi, dikdörtgen tekrarlanan süreci temsil eder, dıştaki dikdörtgen bir belgeyi temsil eder ve içteki dikdörtgen her kelime için konunun tekrar tekrar seçilmesi sürecini temsil eder. Tekrarların sayısı belgedir İçindeki kelimelerin sayısı. ve , külliyat düzeyindeki parametreleri temsil eder ve her bir külliyat üretimi için örnekleme gereklidir. belge düzeyinde bir parametredir ve örnekleme her belge alındığında gerçekleştirilir ve z ve w sözcük düzeyinde parametrelerdir ve her belgedeki her sözcük bir kez örneklenir.

1.2 Metin konusu çıkarma işlemi

Her belge seti M, T konusundaki bir polinom dağılımına uyar ve katsayı 'dir. Her konu, oluşturulan kelimeler için bir polinom dağılımına uyuyorsa, parametre olarak kaydedilir. ve Dirichlet dağılımına uyar. Hiperparametreler sırasıyla ve şeklindedir. Her belgedeki kelimeler için, z konusu, parametre olarak çok terimli dağılım ile belgeden örneklenir ve w kelimesi, çok terimli dağılıma dayanır Parametreler, konu z'den örneklenmiştir. Bu oluşturma işleminin tekrar sayısı, belge D'yi oluşturan d belgesindeki toplam sözcük sayısı olan N'dir.

Bu nedenle, bu modeli kullanarak, verilerden çıkarılması gereken iki parametre vardır, yani belgenin konu dağılımı ve konu kelime dağılımı Çıkarım yöntemi, modelin parametrelerini tahmin etmek için Gibbs örneklemesini kullanmaktır. ve parametreleri sırasıyla kullanıcının makalesindeki konuların dağılımını ve konuyu tanımlayabilecek kelimelerin dağılımını temsil edebilir.

LDA modelinin uygulanması yoluyla, girdi belge düzeyindeki veriler konu dağıtımı biçimine dönüştürülebilir Konuların sayısı önceden ayarlanmış N parametresi tarafından belirlenir ve son olarak kullanıcı ilgi derecesine (konu dağılımının oranı) bağlıdır. N tema çıktıdır ve belge, tema düzeyinde verilerle açıklanmıştır. Ve her konu, kurucu kelimelerinin dağılımı ile temsil edilir ve kelimeler ayrıca dağılımdaki oranın parametrelerine karşılık gelir. Bu nedenle, LDA aracılığıyla, kullanıcı belgelerinde açıklanan birden fazla konu elde edilebilir ve konuyu açıklayan kelimeler çıkarılabilir.

2 Göz izleyiciye dayalı okuma ilgi çıkarma yöntemi

Göz takipçisi tarafından yakalanan denek tarafından okunan metnin görsel izleme verileri ve sonuç kullanıcının metni okuduğu izine ve her kelimeyi izlerken geçirdiği sürenin uzunluğuna yansır.Görüntü sonucu Şekil 2'de gösterilmiştir. Kelimeler (konum), gözbebeklerinin odaklanma süresinin uzunluğu, süre ne kadar uzunsa, çap o kadar büyük olur; düz çizgi, göz küresinin yörüngesini temsil eder.

Göz izleyicinin sezgisel olmayan veri formu, gözlem metni sırasında yakalanan her görsel noktanın koordinatları ve karşılık gelen zaman noktaları şeklinde verilir. Örneğin: (x, y), t: 0908. Bu nedenle, bu tür veriler için form dönüştürme işlemi, nihai dönüştürme sonucu kelimeler ve karşılık gelen konsantrasyon süresi olmalıdır.

2.1 Kelime bölgesi istatistikleri

Göz izleme deneyi, tek tip bir resim formatı kullanır, yani, txt formatındaki metin, ilk satır girintisi ve satır aralığı dahil olmak üzere aynı metin dağıtımıyla bir resim formatına dönüştürülür. Tutarlı dağıtım formuna göre, her makaledeki her kelimenin kapladığı alanın koordinat aralığını (x0x1y0 y1) sayın. Formül (1) ~ (4) 'te gösterildiği gibi.

Bunlar arasında, d0 ve D0, her satır ve sütundaki ilk karakterin ilk x ve y koordinat değerleridir; wi ve Wi, i-inci kelimenin yatay ve dikey yönlerdeki kelime uzunluğu ve kelimeden kelimeye boşluk uzunluğunun toplamıdır; Q0, sırasıyla yatay ve dikey yönlerdeki kelimeler arasındaki uzun mesafedir.

2.2 Kelime Konsantrasyonunun Zaman Sayımı

Her bir kelimenin koordinat alanının bölünmesine göre, göz izleme veri sonuç dosyasındaki koordinatlar ve karşılık gelen zaman noktası verileri sayılır ve bir kelime koordinat alanındaki koordinata karşılık gelen kelimenin yoğunlaştırılmış zaman sayısı bir artar. Tüm gözlem zaman aralığındaki tüm koordinatlar ve zaman noktaları, dönüşüm ilişkisi ile, yani öznenin okuma metninin göz izleyici aracılığıyla yakaladığı konsantrasyon ve ilgi yasası aracılığıyla kelimelerin sonuç formuna ve kelime konsantrasyon süresine dönüştürülebilir.

Her bir kelimenin konsantrasyon süresi sayılarak, metinde gözlenen tüm kelimelerin konsantrasyon süresi sıralaması sonuçları elde edilebilir.

3 deneysel sonuç

Veri seti BBC haberlerinden 20 konu içeren 20 makale kullandı.Her denek 20 haber makalesi okudu ve SMI göz takip cihazlarını kullanarak göz verilerini takip etti ve yakaladı. Metin konusu modelleme algoritması aynı veri setine uygulanır. Şekil 3, göz hareketi verilerindeki deneysel kelimelerin sayım dağılım sonuçlarını gösterir (yatay eksen her kelimeyi temsil eder, spesifik içerik çıkarılır); Şekil 4, her kelime için tüm deneysel konuların ortalamasının ve varyansının değişimini gösterir ve varyansın temelde olduğunu gösterir. 0.1 civarında kararlı.

LDA modeli öznesi çıkarma sonuçları sıralanır ve göz izleme veri sonuçlarıyla karşılaştırılır Her makaledeki aynı kelimenin sayım değeri Şekil 5'te gösterildiği gibi karşılaştırılır. Şekil 6, belirli öznel ve nesnel metin madenciliği yöntemlerinin farklılıklarını ve benzerliklerini göstermektedir. İlk 30 kelimeyi bir örnek olarak alırsak, ortalamanın çakışması temelde yaklaşık 0.6'da tutulur. Sonuçları analiz edip karşılaştırırken, bu örnekte, LDA modeli, metin içeriğinin nesnelliğini çıkarmak için 0.6'lık bir orana sahiptir; bu, insanların öznel ilgi yönelimleriyle tutarlıdır; 0.4 oranı ise, konu içeriğinin nesnel içeriğini saptırmak için kelime sıklığı ve diğer içerik faktörleri gibi içerik faktörlerine dayanmaktadır.

Deneysel verilerin sonuçlarına göre, metin konu modelinin metin çıkarma sonuçlarının tutarlı ve insanların ilgi davranış yönelimlerinden farklı olduğu görülmektedir.

Konu çıkarma sonuçlarında alınan kelimelerin oranını, göz izleme veri sonuçlarının ilgi bölümündeki kelimelerin oranıyla birlikte ayarlayarak, ikisinin kombinasyonu, gerçek metin sınıflandırması, belge özeti ve diğer metinler için konu içeriğinin ve okuma ilgisinin iki metin madenciliği faktörünü aynı anda yansıtabilir. Madencilik uygulamasının etkisi büyük ölçüde geliştirilecektir.

4. Sonuç

Bu makale, belgenin nesnel konusunu soyutlamak için LDA modelini kullanır ve öznel ilgi yönelim faktörlerinin sonuçlarını çıkarmak için bir göz izleyici kullanır. Haber veri setindeki karşılaştırmalı analiz deneyi, öznel faktörlerin ve nesnel sonuçların, öznel ve nesnel faktörleri birleştiren gelecekteki metin madenciliği algoritmaları için belirli bir referans ve uygulama değeri sağlayabilen metin madenciliği üzerinde farklı spesifik etkilere sahip olduğunu göstermektedir.

Referanslar

1 BLEI D M, NG A Y, JORDAN M I. Gizli dirichlet tahsisi J. Journal of Machine Learning Research, 2003 (3): 993-1022.

2 DU L, BUNTINE W, JIN H. Sıralı metni uyarlanabilir bir konu modeli ile modelleme C 2012 Doğal Dil İşleme ve Hesaplamalı Doğal Dil Öğreniminde Ampirik Yöntemler Ortak Konferansı Bildirileri, 2012: 535-545.

3 MICHELSON M, MACSKASSY S A. Twitter'da kullanıcıların ilgi alanlarını keşfetmek: ilk bakış C Gürültülü Yapılandırılmamış Metin Verileri için Analitik Üzerine Dördüncü Çalıştayın Bildirileri, 2010: 73-80.

4 DUCHOWSKI A T.Göz izleme metodolojisi: teori ve pratik M. SpringerVerlag: 2003.

Orta yaşlı Yeni Doğulu, kaygı Yu Minhong
önceki
"Dunkirk" gişesinde neden sürpriz olmadı? Erkek ve kadın izleyiciler arasındaki uçurum anahtar
Sonraki
Ekran başında kalma zamanı | Söylemek isteyip de söylemeye cesaret edemediğiniz şeyler, filmler ve diziler sizin için söylediler!
Bugün Dünya AIDS Günü AIDS'i gerçekten anlıyor musunuz?
Güvenlik Öznitelik Şeması ile Programlama Bileşeninin Tasarımı ve Araştırılması
4.19'da geçen "Harikalar Diyarında Maceralar" eğlenceli macerayı resmen başlatıyor
Yeni "Blue Wings" oyunu çevrimiçi testi başlatır, ön sipariş veren oyuncular bunu önceden deneyimleyebilir
Bu pragmatik ve aktif gençler
Üç Krallık'tan gelen kaderi ve hatta yürüyen oyunculuk ders kitabıdır.
ARM ve MATLAB GUI'ye Dayalı Sun Görüntü Veri Toplama Sisteminin Tasarımı
Katlanır ekran çağı resmen burada! Rouyu Teknolojisi, dünyanın ilk katlanabilir esnek ekranlı cep telefonunu piyasaya sürdü
Süper ilham verici! Paket servis çocuk, Sichuan'ın dışına kabul edildi ve lisansüstü giriş sınavına hazırlanıyordu.
"Köpek Gözü İnsan Kalbini Görüyor" Yaratıcı Kontrastı Sergiliyor Posterler Angie, evcil köpeğine onunla büyüdüğü için teşekkür etti
FBMC-OQAM sisteminin PAPR'sini azaltmak için bir ön kodlama algoritması
To Top