g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

PositionRank - akademik belgelerin anahtar kelime öbeğinin çıkarılması için denetimsiz bir yöntem

Siz ve "AI'yı Anlamak" arasında yalnızca bir kağıt var

Pek çok okuyucu, nispeten basit AI bilimi ve AI metodolojisi hakkında daha fazla şey okuduklarını ve derinlik, kalınlık, vizyon ve ağır zevk içeren profesyonel makaleler okumak istediklerini söyleyerek Xinjun'un sahne arkasına mesajlar bıraktı.

Bu amaçla, AI alanındaki birçok uzman ve akademisyenin yardımıyla, bir dizi en iyi konferans belgesini yorumladık ve tercüme ettik. Her makalenin tercümesi ve redaksiyonu tamamlandıktan sonra Xinjun ve yazı işleri bölümündeki öğretmenler birlikte gülüp çökecekler, tabii bazı kağıtlar için ağlamalıyız.

Öğrencilerin şimdi okuyup anlayamaması önemli değil, ancak Xinjun bir gün yeni bir AI dünyasına aşık olacağınızı garanti edebilir.

Çekirdek okuyucuların tez değişim grubu için lütfen WeChat hesabımızı ekleyin: zhizhizhuji . Senin için bekleniyor.

Bu, temel okumanın ilk yorumu 9 Bildiriler

ACL 2017 Uzun Bildiriler

PositionRank: akademik belgelerden anahtar kelime öbeği çıkarımı için denetimsiz bir yöntem

PositionRank: Akademik Belgelerden Anahtar Kelime Çıkarımı için Denetimsiz Bir Yaklaşım

Kuzey Teksas Üniversitesi

Özet Devasa ve artan miktardaki çevrimiçi akademik veriler, bilgi keşfini geliştirmek için yeni zorluklar ve fırsatlar sağlar. Zorluklardan biri, belgenin içeriğini doğru bir şekilde tanımlamak ve hızlı bilgi işlemeyi kolaylaştırmak için bir belgeden bir dizi anahtar ifadeyi otomatik olarak çıkarmaktır. Bu makalede, akademik belgeler için denetimsiz bir anahtar kelime öbeği çıkarma modeli olan PositionRank'i öneriyoruz; burada görünen kelimelerin tüm konum bilgileri önyargılı PageRank'e dahil edilmiştir. PageRank modeli ve kelime konumunu dikkate almayan güçlü kıyaslama yöntemleriyle karşılaştırıldığında, modelimiz önemli iyileştirmeler elde etti. Spesifik olarak, araştırma belgesinde yer alan çeşitli veri kümelerinde, PositionRank% 29.09'a varan bir artış elde etti.

1. Giriş

Mevcut akademik web sitesi milyonlarca bilimsel belge içermektedir. Örneğin, Google Scholar 100 milyondan fazla belge olduğunu tahmin ediyor. Bir yandan, hızla gelişen bu akademik literatür koleksiyonları bilgi keşfi için yararlıdır, diğer yandan yararlı bilgiler bulmak çok zor hale gelir. Belgeyle ilişkili anahtar ifadeler genellikle belgenin üst düzey bir konu açıklamasını sağlar ve verimli bilgi işlemeye izin verebilir. Buna ek olarak, birçok doğal dil işleme ve bilgi erişim görevinde (bilimsel makale özetleri, sınıflandırma, öneri, kümeleme ve arama gibi), anahtar ifadelerin zengin bilgi kaynakları olduğu kanıtlanmıştır (Abu-Jbara ve Radev, 2011; Qazvinian ve diğerleri, 2010 ; Jones ve Staveley, 1999; Zha, 2002; Zhang ve diğerleri, 2004; Hammouda ve diğerleri, 2005). Öneminden dolayı, literatürde temel olarak iki araştırma yönü de dahil olmak üzere birçok anahtar kelime çıkarma yöntemi önerilmiştir: denetimli ve denetimsiz yöntemler (Hasan ve Ng, 2014, 2010).

Denetimli yöntemlerin araştırılmasında, anahtar kelime öbeği çıkarma, aday kelimelerin pozitif (anahtar kelime öbekleri) veya hayır (anahtar olmayan tümceler) olarak sınıflandırıldığı ikili bir sınıflandırma problemi olarak tanımlanmaktadır (Frank ve diğerleri, 1999; Hulth, 2003). Çeşitli özellik setleri ve sınıflandırma algoritmaları farklı ekstraksiyon sistemleri üretir. Örneğin, Frank ve diğerleri (1999), her bir aday cümle için iki özellik, yani cümlenin tf-idf'si ve hedef belgenin başlangıcından uzaklığı çıkarmak için bir sistem geliştirdi ve bunu Naive Bayesian sınıflandırmasına girdi olarak kullandı. Cihaz. Denetimli yöntemler genellikle denetimsiz yöntemlerden daha iyi performans gösterse de (Kim ve diğerleri, 2013), her araştırma alanında elle etiketlenmiş büyük bir külliyat gereksinimi, denetimsiz yöntemlerin tasarımına dikkat çekmiştir.

Denetimsiz araştırma konularında, anahtar kelime öbeği çıkarma, grafik sıralamasına dayalı en gelişmiş sıralama problemi olarak kabul edilir (Hasan ve Ng, 2014). Bu grafiğe dayalı teknikler, her hedef belgeden bir kelime grafiği oluşturur, böylece düğümler kelimelere karşılık gelir ve kenarlar kelime ilişkilendirme modellerine karşılık gelir. Daha sonra, düğümleri sıralamak ve en iyi ifadeleri anahtar ifadeler olarak döndürmek için grafik sıralama algoritmalarını (örneğin PageRank (Mihalcea ve Tarau, 2004; Liu ve diğerleri, 2010)) veya HITS (Litvak ve Last, 2008) kullanın. Girişinden bu yana, çeşitli bilgi türlerini modellemek amacıyla birçok grafik tabanlı uzantı önerilmiştir. Örneğin Wan ve Xiao (2008), metin benzeri belgelere karşılık gelen hedef belgenin yerel komşularının belgelerin tf-idf vektörleri arasındaki kosinüs benzerliği kullanılarak hesaplandığı bir model önermiştir. Liu ve diğerleri (2010) belgedeki konuları varsaydılar ve tüm konulardan anahtar cümleleri seçmek için bu konuları ayrıştırmak için konu modellerini kullanmayı önerdiler. Anahtar sözcükler daha sonra çeşitli konu tercihlerinin PageRank'inden elde edilen konuya özgü puanların toplanmasıyla sıralanır. Diğer bilgilerin denetimsiz anahtar kelime öbeği çıkarımını iyileştirmek için kullanılabileceğini varsayıyoruz.

Şekil 1 Rendle ve diğerleri (2010) tarafından hazırlanan WWW makalesinin başlığı ve özeti ve yazar tarafından girilen bildiri cümle. Kalın kırmızı renkli sözcükler, belgenin altın standart anahtar sözcüklerini belirtir.

Örneğin akademik alanda, anahtar ifadeler genellikle belgenin başlangıcına çok yakın bir yerde ortaya çıkar ve sık sık ortaya çıkar. Şekil 1, 2010 Uluslararası Dünya Çapında Web Konferansı'nda en iyi kağıt ödülü kazananların belirli bir örneğini göstermektedir. Yazar tarafından girilen anahtar ifadeler şekilde koyu kırmızı ile işaretlenmiştir. Bu örnekte, belgenin çok erken dönemlerinde ortaya çıkan "Markovchain" anahtar ifadesinin yüksek bir frekansı olduğuna dikkat edin (başlığından bile). Bu nedenle, belgedeki sözcüğün konum bilgisi ve sıklığı birlikte kullanarak etkili bir denetimsiz anahtar kelime öbeği çıkarma yöntemi tasarlayabilir miyiz? Araştırma makalelerini, bu konuyu özellikle tartışmak için vaka çalışmaları olarak kullanıyoruz. Bu çıkarma görevinin sonuçları, dijital kütüphanenin belge indeksine yardımcı olacak, böylece bilimsel literatürün organizasyonunu, aranmasını, geri çağrılmasını ve önerilmesini geliştirecektir. Araştırma makalelerinden anahtar kelime çıkarmanın önemi ile ilgili olarak, SemEval 2017 ve 2010 yıllarında paylaşılan görevler de bu temayı vurgulamıştır (Kim ve diğerleri, 2010). Katkılarımız aşağıdaki gibidir:

Daha sonra araştırma makalelerindeki anahtar cümleleri puanlamak ve sıralamak için kullanılacak anahtar kelimeleri puanlamak için bir kelimeden alınan tüm konum bilgilerini önyargılı bir PageRank'e entegre eden PositionRank adlı denetimsiz bir grafik modeli öneriyoruz.
Kelimenin göründüğü tüm konum bilgilerini toplayan PositionRank'in, kelimenin yalnızca ilk konumunu kullanan modelden daha iyi performans gösterdiğini gösteriyoruz.
PositionRank'i üç araştırma makalesi veri seti üzerinde deneysel olarak değerlendirdik ve kelime konumunu ve anahtar kelime öbeği çıkarımı için güçlü kıyaslama yöntemini dikkate almayan PageRank modeline göre önemli bir gelişme gösterdik.

Bu makalenin geri kalanı aşağıdaki şekilde düzenlenmiştir. Sonraki bölümde ilgili çalışmaları özetliyoruz. PositionRank Bölüm 3'te açıklanmaktadır. Ardından, araştırma makalesinin veri setini ve ayrıca 4. Bölümdeki deneylerimizi ve sonuçlarımızı tanıtacağız. Son olarak, 5. Bölümdeki makaleyi sonuçlandırıyoruz.

2. İlgili çalışma

Literatürde birçok denetimli ve denetimsiz anahtar kelime öbeği çıkarma yöntemi önerilmiştir (Hasan ve Ng, 2014).

Denetlenen yöntemler, anahtar olmayan tümcecikleri belgelerden ayırt etmek üzere bir sınıflandırıcıyı eğitmek için "doğru" anahtar sözcükleri içeren etiketli belgeleri kullanır. KEA (Frank ve diğerleri, 1999) ve GenEx (Turney, 2000) iki temsili denetim yöntemidir ve bunların en önemli özelliği, hedef dosyadaki ifadelerin sıklığı ve konumudur. Hulth (2003), kelime torbası bağlantısındaki ifadenin kolektif frekansı ve konuşma bölümü etiketleri gibi sözcüksel ve sözdizimsel özelliklerin bir kombinasyonunu kullanır. Nguyen ve Kan (2007), KEA'yı araştırma makalesinin farklı bölümlerinde aday kelimelerin dağıtımı ve kelime öbeği kısaltmaları gibi özellikleri içerecek şekilde genişletti. Başka bir çalışmada Medelyan ve diğerleri (2009), Wikipedia bilgilerini entegre etmek için KEA'yı genişletti. Lopez ve Romany (2010), yapısal özellikler (bir cümlenin bir belgenin belirli bir bölümünde görünüp görünmediği gibi) ve sözcüksel özellikler (WordNet veya Wikipedia'da aday cümlelerin olup olmadığı gibi) dahil olmak üzere birleşik özelliklere dayalı bir kelime torbası karar ağacı kullanır. Chuang ve diğerleri (2012), metindeki açıklayıcı kelimeleri tanımlamak için bir dizi istatistiksel ve dil özelliği (örneğin, tf-idf, BM25, konuşma bölümü filtresi) içeren bir model önermiştir. Caragea ve diğerleri (2014a), belge ağlarında (atıf ağları gibi) mevcut bilgilere dayanarak özellikler tasarladı ve bunları bir denetim çerçevesinde geleneksel özelliklerle kullandı.

Denetimsiz yöntemlerde, sözcükleri puanlamak için tf-idf ve konu dağılımı gibi çeşitli ölçüler kullanılır ve bunlar daha sonra ifade puanları elde etmek için toplanır (Barker ve Cornacchia, 2000; Zhang ve diğerleri, 2007; Liuet al., 2009). Tf-idf'ye dayalı sıralama, basitliğine rağmen uygulamada iyi performans göstermektedir (Hasan ve Ng, 2014, 2010). Grafik tabanlı sıralama yöntemleri ve merkezilik ölçümleri, denetimsiz anahtar kelime öbeği çıkarma için en gelişmiş teknikler olarak kabul edilir. Mihalcea ve Tarau (2004), bir belgedeki bitişik kelimelerden oluşan bir kelime grafiğine PageRank uygulayarak anahtar cümleleri puanlayan TextRank'i önermişlerdir. Wan ve Xiao (2008), w size2 değişken boyutlu bir pencerede birlikte görünen sözcükler arasına ağırlıklı kenarlar ekleyerek TextRank'i SingleRank'e genişletti. ExpandRank (Wan ve Xiao, 2008), daha doğru kelime birlikte oluşum bilgilerini hesaplamak için benzer metnin bitişik belgelerini içerir. Gollapalli ve Caragea (2014), ExpandRank'i alıntı ağı bilgilerini içerecek şekilde genişletti.

Lahiri vd. (2014), literatürden anahtar ifadeleri çıkardı ve düğüm derecesi, kümeleme katsayısı ve yakınlık gibi çeşitli merkezilik ölçüm yöntemlerini kullandı. Martinez-Romo ve diğerleri (2016), grafikteki kelimeler arasındaki anlamsal ilişkiyi zenginleştirmek için WordNet'teki bilgileri kullanır.

Birkaç denetimsiz yöntem, önce aday kelimeleri birden çok konuya sınıflandırmak ve ardından her konudan temsili bir anahtar kelime öbeği çıkarmak gibi kelime kümeleme tekniklerini kullanır (Liu ve diğerleri, 2009; Bougouin ve diğerleri, 2013). Liu ve diğerleri (2010) konuya dayalı PageRank'i (Haveliwala, 2003) anahtar kelime öbeğine genişletti. Özellikle, belgeleri birden çok konuya ayırmak ve her konu için ayrı bir konu PageRank uygulamak için bir konu modeli kullanırlar. Ardından, belge için konu modelinin döndürdüğü konu oranını ağırlık olarak kullanın ve her konunun PageRank puanını benzersiz bir puanla birleştirin.

SemEval 2010'daki en iyi performans gösteren anahtar kelime çıkarma sistemi (El-Beltagy ve Rafea, 2010), anahtar kelime grupları olma olasılığı düşük olan cümleleri filtrelemek için terim sıklığı gibi istatistiksel gözlemleri kullanır. Daha kesin olarak, verilerden tahmin edilen eşik değerinin frekansı kullanılır. Ardından, aday cümleleri sıralamak için terfi faktörleriyle birleştirilen tf-idf modelini kullanın; amacı tek kelimelere yönelik tercihi azaltmaktır. Danesh ve diğerleri (2015), tf-idf puanı ve ifadenin belgedeki ilk konumu gibi istatistiksel buluşsal yöntemlerin bir kombinasyonuna dayalı olarak her bir ifadenin başlangıç ağırlığını hesaplar. İfade ve başlangıç ağırlığı daha sonra, anahtar kelime öbeği adaylarının son bir sıralamasını oluşturan grafik tabanlı bir algoritmada birleştirilir. Le ve diğerleri (2016), belgelerden anahtar cümlelerin çıkarılmasının, adlar veya sıfatlar dışındaki konuşma etiketlerinin bölümlerine aday cümleleri dikkate alma perspektifinden bakabileceğini göstermiştir. Adar ve Datta (2015), bilimsel literatürdeki kısaltmaları inceleyerek anahtar cümleleri çıkardı ve anlamsal olarak hiyerarşik bir anahtar kelime öbeği veritabanı oluşturdu. Kelime vektörleri, grafik tabanlı modellerde kelimeler arasındaki korelasyonu ölçmek için de kullanılır (Wang ve diğerleri, 2014). Yukarıdaki denetimli ve denetimsiz yöntemlerin çoğu, Hasan ve Ng (2014) tarafından yapılan ACL araştırmasında temel ifade çıkarımı araştırmasında karşılaştırılmış ve analiz edilmiştir.

Yukarıdaki yöntemin aksine, yüksek frekanslı kelimeleri veya cümleleri ve bunların belgelerdeki konumlarını yakalamayı amaçlayan PositionRank'i öneriyoruz. Bir belgedeki bir kelimenin göreceli konumunun, denetimli anahtar kelime öbeği çıkarımında çok etkili bir özellik olduğu kanıtlanmış olsa da (Hulth, 2003; Zhang ve diğerleri, 2007), bildiğimiz kadarıyla, konum bilgisi daha önce denetimsiz yöntemlerde kullanılmamıştır . Bu makalenin önemli katkısı, bir sözcüğün göründüğü tüm konumları başarılı bir şekilde içeren, yalnızca sözcüğün ilk konumunu kullanan denetimli modelden farklı olan bir PageRank konum tercihi modeli tasarlamaktır. Modelimiz, kelimeler için tek tip bir dağılım kullanmak yerine, belgenin başlarında bulunan kelimelere daha yüksek olasılık atar.

3 Bir model önerin

Bu bölümde, her aday kelime için taraflı PageRank puanını hesaplamak için kelimenin konumunu ve belgedeki sıklığını da içeren, tamamen denetimsiz, grafik tabanlı modelimizin PositionRank'ini açıklıyoruz. Grafik tabanlı sıralama algoritmaları (PageRank (Page ve diğerleri, 1998) gibi), tüm grafikten özyinelemeli olarak hesaplanan global bilgileri dikkate alarak bir grafikteki köşelerin önemini ölçer. Her kelime için, kelimenin göründüğü tüm konumların bilgilerini toplayarak ağırlığı hesaplarız. Bu ağırlık daha sonra her kelimeye farklı bir "tercih" atamak için önyargılı PageRank algoritmasına dahil edilir.

3.1 Pozisyon Sıralaması

PositionRank algoritması üç temel adımı içerir: (1) kelime düzeyinde grafik oluşturma; (2) Konum tercihinin PageRank tasarımı; ve (3) aday ifade oluşturma. Bu adımlar aşağıda ayrıntılı olarak açıklanmaktadır.

3.1.1 Grafik yapısı

D'nin anahtar kelime öbeği çıkarımı için hedef dosya olduğunu varsayalım. İlk olarak NLP Stanford araç setinin konuşma parçası etiketleyicisini kullanıyoruz ve daha sonra aday sözcükler olarak önceki çalışmaya (Mihalcea ve Tarau, 2004; Wan ve Xiao, 2008) benzer isimler ve sıfatlar seçiyoruz. D için bir kelime grafiği G = (V, E) oluşturuyoruz ve konuşma bölümü etiketleyici aracılığıyla her benzersiz kelime, G grafiğindeki bir düğüme karşılık geliyor. İki düğüme karşılık gelen sözcükler, belge d'deki sürekli sözcük bölümlemesinin sabit penceresi w'de ise, iki düğüm vi ve vj bir kenar (vi, vj) olarak bağlanır. Grafiklerin yönlendirilmiş ve yönlendirilmemiş grafikler olarak oluşturulabileceğini unutmayın. Ancak Mihalcea ve Tarau (2004), metni temsil etmek için kullanılan grafik türünün anahtar kelime öbeği çıkarma performansını önemli ölçüde etkilemediğini göstermiştir. Bu nedenle, bu çalışmada yönsüz grafikler oluşturuyoruz.

3.1.2 Pozisyona Dayalı Sayfa Sıralaması

Resmi olarak, G yönsüz bir grafik olarak oluşturulur ve M, bitişik matrisi olarak alınır. Vi ve vj düğümleri arasında bir kenar varsa, mijM öğesini kenar ağırlığı (vi, vj) olarak ayarlayın, aksi takdirde 0 olarak ayarlayın. Vi düğümünün PageRank puanı, vi ile ilişkili normalleştirilmiş düğüm vj puanları eklenerek yinelemeli olarak hesaplanır (aşağıda açıklanmıştır).

S, tüm vi V için PageRank skorlarının vektörünü göstersin. S'nin başlangıç değeri şu şekilde ayarlanmıştır:

. Daha sonra, t + 1 adımındaki her düğümün PageRank puanı aşağıdaki şekilde özyinelemeli olarak hesaplanabilir:

onların arasında

M matrisinin normalleştirilmiş formu,

şu şekilde tanımlanır:

PageRank hesaplaması, düğümlerin durumları temsil ettiği ve aralarındaki bağlantıların geçişler olduğu bir Markov süreci olarak kabul edilebilir. Denklemi (1) yinelemeli olarak uygulayarak, her bir durumun sabit olasılık dağılımını temsil eden her düğümün altındaki ana özellik vektörünü elde ederiz (Manning ve diğerleri, 2008).

PageRank'in (veya rastgele yürüyüşün) grafik döngüsüne girmemesini sağlamak için, grafikteki başka bir düğüme "taşıma" işlemine izin vermek için bir sönümleme faktörü eklenir. Bu nedenle, S'nin hesaplanması şöyle olur:

S ana özellik vektörü olduğunda,

Uzunluk vektörü | V |, her boyutun değeri

. vektör

Bu, vi düğümünde rastgele yürüyüşün grafikteki diğer herhangi bir düğüme eşit olasılıkla atlayabileceği anlamına gelir.

Önyargıyla

, Rastgele yürüyüş ilk olarak grafikte daha yüksek olasılıkla düğüm noktalarına yürüyecektir (Haveliwala, 2003).

PositionRank fikri, belgede erken bulunan ve sıklıkla görünen kelimelere daha büyük bir ağırlık (veya olasılık) atamaktır. Özellikle, ikinci pozisyonda bulunan kelimeye ve aynı belgedeki 50. pozisyonda bulunan kelimeye daha yüksek bir olasılık atamak istiyoruz. Herhangi bir filtre uygulamadan önce, her bir aday kelimenin ağırlığını belgedeki görünümünün tersine ayarlıyoruz. Aynı kelime hedef belgede birden çok kez görünüyorsa, tüm konum ağırlıklarını toplarız. Örneğin, aşağıdaki konumlarda bir kelime bulunursa: 2., 5. ve 10., ağırlığı:

. Belirli bir kelimenin tüm konumlarının ağırlıklarının eklenmesi, her bir oluşumun konum ağırlığını hesaba katarak sık geçen kelimelere daha fazla güven vermeyi amaçlamaktadır. Daha sonra vektör, aşağıdaki gibi her bir aday kelimenin normalleştirilmiş ağırlığına ayarlanır:

Vi düğümünün PageRank puanı S (vi), aşağıdaki formül kullanılarak özyinelemeli olarak hesaplanır:

onların arasında

ile

Vektördeki vi düğümü mü

Ağırlıkta.

Deneyimizde, "PageRank puanı" art arda iki yineleme arasındaki fark 0,001'den az olana veya 100 yinelemeye ulaşana kadar yinelemeli olarak hesaplanır.

3.1.3 Aday kelime öbeği oluşumu

Belgedeki ardışık konumları olan aday sözcükler ifadelere bağlanır. Uzunluğu 3'e kadar olan "(sıfat) * (isim) +" düzenli ifade ile eşleşen isim cümlelerini (yani, tek karakterler, çift sayılar ve üçlüler) dikkate alıyoruz.

Son olarak, ifadeyi oluşturan tek tek kelimelerin puanlarının toplamı kullanılarak ifade puanlandırılır (Wan ve Xiao, 2008). En yüksek puanlama cümlesi, tahmin çıktısı olarak kullanılır (yani, belgenin tahmin edilen anahtar cümlesi).

4 Deneyler ve sonuçlar

4.1 Veri seti ve değerlendirme kriterleri

PositionRank'in performansını değerlendirmek için üç veri seti üzerinde deneyler yaptık. Birinci ve ikinci veri setleri Gollapalli ve Caragea (2014) tarafından sağlanmıştır. Bu veri setleri, CiteSeerX dijital kitaplığından (Giles ve diğerleri, 1998), ACM Bilgi Keşfi Konferansı ve Veri Madenciliği (KDD) ve Uluslararası Dünya Çapında Web Konferansı (WWW) tarafından derlenmiştir. Üçüncü veri seti Nguyen ve Kan (2007) tarafından sağlanmıştır ve çeşitli disiplinlerdeki araştırma makalelerinden oluşmaktadır. Deneyde, anahtar cümleleri çıkarmak için her makalenin başlığını ve özetini kullandık. Yazar tarafından girilen anahtar kelime, değerlendirme için altın standart olarak kullanılır. Her üç veri seti de, her bir veri setindeki makale sayısını, toplam anahtar kelime öbeği sayısını (Kp), belge başına ortalama anahtar kelime öbeği sayısını (OrtKp) ve mevcut anahtar kelimelerin uzunluğunu ve sayısını gösteren Tablo 1'de özetlenmiştir. Kısa bir açıklama.

Tablo 1 Veri kümesine genel bakış

Değerlendirme göstergeleri. Deneysel sonuçlarımızı göstermek için ortalama göreli sıra (MRR) eğrisini kullanıyoruz. MRR, ilk doğru tahminin ortalama konumunu verir ve şu şekilde tanımlanır:

D belgelerin setidir ve rd, belge d'de bulunan ilk doğru anahtar ifadenin sıralamasıdır. Ayrıca PositionRank'i önceki modellerle karşılaştırdık ve Precision, Recall ve F1 skorunun sonuçlarını özetledik, çünkü bu göstergeler önceki çalışmalarda yaygın olarak kullanılmaktadır (Hulth, 2003; Wan ve Xiao, 2008 ; Mihalcea ve Tarau, 2004; Hasan ve Ng, 2014). "Performans @k" (MRR @ k gibi) hesaplamak için, ilk k tahminlerini kontrol ediyoruz (k, 1'den 10'a kadar). Tablo 1'de listelendiği gibi, belirli bir veri setinin ortalama sayısını temsil etmek için ortalama k'yi kullanırız. Örneğin, WWW veri kümesinin ortalama değeri k = 5. Karşılaştırma amacıyla, tahminleri ve altın anahtar cümleleri temel bir forma indirmek için PorterStemmer kullanıyoruz.

4.2 Sonuçlar ve tartışma

Deneyimiz, aşağıda tartışılacak olan birkaç soru etrafında düzenlenmiştir.

PositionRank parametrelerine ne kadar duyarlı? Modelimizdeki performansı etkileyen bir parametre, grafikteki aday kelimeler arasına nasıl kenar ekleneceğini belirleyen pencere boyutudur w. Adım olarak 1'i alıyoruz, 2'den 10'a kadar değerleri deniyoruz ve açıklama için birkaç konfigürasyon seçiyoruz. Şekil 2, üç veri setinin tümünde farklı w değerleri ile PositionRank'in MRR eğrilerini göstermektedir. Şekilden, w değiştikçe model performansımızın önemli ölçüde değişmediği görülmektedir.

Şekil 2 Farklı pencere boyutu değerleri kullanan PositionRank MRR eğrisi

Pencere boyutuna ek olarak, modelimizin başka bir parametresi vardır, sönümleme faktörü . PositionRank'in performansı üzerindeki etkisini anlamak için, 0.75, 0.8, 0.85, 0.9 gibi birkaç değerini denedik ve PositionRank performansında önemli bir fark bulamadık (sonuçlar, yüksek örtüşme nedeniyle bir eğri göstermedi). Bu nedenle Denklem 2'de = 0.85 ayarladık (Haveliwala, 2003).

Kelimenin sadece ilk konumunu kullanmak yerine, kelimenin tüm konum bilgilerini bir araya getirmenin etkisi nedir? Bu deneyde, belgedeki konum ağırlıklı sıklık kelimelerinin PositionRank performansı üzerindeki etkisini analiz ettik. Spesifik olarak, kelimenin göründüğü tüm konumların bilgilerini (tam PositionRank modeli olarak adlandırılır), kelimenin yalnızca ilk konumunu kullanan bir modelle (PositionRank fp olarak adlandırılır) karşılaştıran modelin performansını karşılaştırırız. Önceki bölümdeki örnekte, 2, 5 ve 10. konumlarda görünen bir kelimede

İlk konum modelinin (fp) ağırlığı

. Lütfen önyargılı PageRank'te kullanılan kelimelerin ağırlığının önce normalleştirilmesi gerektiğini unutmayın.

Şekil 3 Bir sözcüğün göründüğü tüm konumların bilgilerinin (PositionRank fullmodel) ve PositionRank sonucunun sözcüğün yalnızca ilk konumu (fp) kullanılarak karşılaştırılması.

Şekil 3, tüm veri kümeleri, KDD, WWW ve Nguyen için ilk k tahmin edilen anahtar ifadeler için k'nin 1'den 10'a kadar olan deneysel sonuçlarını göstermektedir. Şekilden de görülebileceği gibi, tüm veri setlerinde, PositionRank kapsamlı modelinin performansı her zaman yalnızca ilk konumu kullanma durumundan daha iyidir. Bu deneyden, bir kelimeden tüm geçtiği bilgileri bir araya getirmenin PositionRank'in önemli bir parçası olarak kullanılabileceği sonucuna varabiliriz. Bu nedenle, daha fazla karşılaştırma için tam PositionRank modelini kullanıyoruz.

Konum bilgisi, kağıtta denetimsiz anahtar kelime öbeği çıkarılmasına yardımcı oluyor mu? Bu deneyde, pozisyona dayalı PageRank modelini (PositionRank), pozisyon bilgilerini kullanmayan iki PageRank tabanlı TextRank ve SingleRank modeliyle karşılaştırıyoruz. TextRank'te, her hedef kağıt için yönlendirilmemiş bir grafik oluşturulur, böylece düğümler kelimelere karşılık gelir ve metinde birbirine bitişik iki kelime arasında kenarlar çizilir, yani pencere boyutu w 2'dir. SingleRank, metinde w2 ardışık sözcükten oluşan bir pencerede birlikte bulunan iki sözcük arasına kenarlar ekleyerek TextRank'i genişletir.

Şekil 4 PositionRank MRR eğrileri ve konum bilgilerini dikkate almayan iki PageRank tabanlı tarafsız model.

Şekil 4, PositionRank'i TextRank ve SingleRank ile karşılaştıran MRR eğrisini gösterir. Şekilden, PositionRank'in temelde TextRank ve SingleRank'i üç veri setinin hepsinde geride bıraktığı ve "konum" bilgisinin anahtar kelime öbeği çıkarma görevlerine yardımcı olan önemli bilgiler içerdiğini gösterdiği görülebilir. PositionRank, iyi bir ekstraksiyon performansı elde etmek için bu bilgileri denetimsiz ayarlar altında başarıyla kullanabilir. Örneğin, kelimelerin göründüğü tüm konum bilgilerinden PositionRank kullanmak KDD'nin MRR'sini iyileştirebilir @ortage k% 17.46, WWW% 20.18 ve Nangyen için tek Rank% 17.03'tür.

Şekil 5 PositionRank'in MRR eğrisi ve diğer üç veri setinin taban çizgisi.

PositionRank diğer modern yöntemlerle karşılaştırıldığında nasıldır? Şekil 5'te, PositionRank'i birkaç kıyaslama yöntemiyle karşılaştırıyoruz: TF-IDF, ExpandRank ve TopicalPageRank (TPR) (Hasan ve Ng, 2014; Wan ve Xiao, 2008; Liu ve diğerleri, 2010). Bu temelleri, Hasan ve Ng'nin anahtar ifadelerinden çıkarılan ACL anketine (2014) dayanarak seçtik. TF-IDF'de, hedef belgedeki her bir aday kelimenin tf puanını hesaplıyoruz ve üç veri setinden idf bileşenini tahmin ediyoruz. ExpandRank'te, her kağıt ve yerel metin komşularından yönsüz bir grafik oluşturuyoruz ve aday kelimelerin önem puanını hesaplamak için PageRank'i kullanıyoruz. Benzer metne sahip farklı sayıdaki komşularla deneyler yapıyoruz ve her veri kümesi için en iyi sonuçları sunuyoruz. TPR'de, yönlendirilmemiş bir grafik oluşturmak için hedef dosyadaki bilgileri kullanırız. Ardından, belgenin konu dağılımını çıkarmak ve bu konulardaki kelimelerin olasılığını hesaplamak için hedef belgenin konu ayrıştırmasını gerçekleştirmek için konu modelini kullanırız. Son olarak, çeşitli konu tercihlerinden PageRanks (konu başına bir PageRank) puanlarını toplayarak aday kelimelerin önem puanlarını hesaplıyoruz. Mallet'in tema modelinin bir uygulamasını kullandık. Konu modelini eğitmek için, Caragea ve diğerleri (2014B) tarafından sunulan CiteSeerx akademik veri setinden çıkarılan yaklaşık 45.000 özetin bir alt kümesini kullandık. Tüm modeller için, cümlenin puanı, cümle içindeki kurucu kelimelerin puanlarının toplanmasıyla elde edilir.

Şekil 5'den de görülebileceği gibi, tüm veri setlerinde, PositionRank temelde MRR'de önemli bir artış sağlamıştır. Örneğin, bu deneyin MRR @ ortalama k değeri Nguyen setinde% 29.09 arttı. Şekil 5'te karşılaştırılan tüm modeller arasında, ExpandRank açıkça en iyi performans gösteren modeldir ve TPR, tüm veri setlerinde en düşük MRR değerine ulaşır.

4.3 Genel performans

Daha önce bahsedildiği gibi, önceki çalışma da doğruluk (P), geri çağırma (R) ve F1 skoru (F1) gösterdi (Hulth, 2003; Hasan ve Ng, 2010; Liu ve diğerleri, 2010; Wan ve Xiao , 2008). Bu çalışmalarla tutarlı olarak, Tablo 2'de, anahtar ifadeleri tahmin etmek için k = 2, 4, 6, 8 köşeleri olarak P, R ve F1 ile, tüm üç veri setindeki tüm taban çizgileri ile PositionRank'in karşılaştırma sonuçlarını gösteriyoruz. Tablodan da görülebileceği gibi, tüm veri setlerinde PositionRank tüm temellerden daha iyidir. Örneğin, WWW'nin tahmin edilen ilk 6 anahtar ifadesinde, PositionRank F1 puanının% 12.1'ine ulaşırken, ExpandRank% 11.2'ye, TFIDF ve TPR'nin her ikisi de% 10.7'ye ulaştı. Tablodan da görülebileceği gibi, ExpandRank genellikle tüm veri kümelerinde en iyi performans karşılaştırmasıdır. Bununla birlikte, ilginç olan, yalnızca hedef kağıttaki bilgileri kullanan PositionRank'ten farklı olarak, ExpandRank'in hedef kağıt metnine benzer komşulardan harici bilgileri eklediği için, hesaplama açısından daha pahalıdır.

PositionRank'in ilk konumu (fp) genellikle PositionRank-full modelinden daha kötüdür, ancak tüm veri kümeleri için, yine de en iyi k anahtar ifadelerini tahmin etmek için çoğu temel yöntemden daha iyidir. Örneğin, ilk 4 Nguyen'de, PositionRank-fp en iyi taban çizgisine (bu durumda TF-IDF) kıyasla F1 puanlarının% 10,5'ine ulaştı ve% 9,6'ya ulaştı.

Tablo 2 PositionRank temel doğruluğu, geri çağırma ve F1 skoru. En iyi sonuçlar kalın harflerle gösterilmiştir.

PositionRank'in tüm veri setlerinde TPR'den daha iyi performans gösterdiğini belirtmek gerekir. Bizim modelimizle karşılaştırıldığında, TPR çok karmaşık bir modeldir, kelimelerin konularını öğrenmek ve belgelerin konu oranlarını çıkarmak için konu modellerini kullanır. Ek olarak, TPR'nin her veri seti için parametreleri (örneğin konu sayısı) ayarlaması gerekir. PositionRank o kadar karmaşık değildir, ek veri setleri gerektirmez (örneğin, eğitim konu modelleri) ve performansı TPR'den daha iyidir. TF-IDF ve ExpandRank, KDD, WWW ve Nguyen veri kümelerinin tümünde en iyi performans ölçütleridir. Örneğin, k = 4 olan KDD'de, TF-IDF ve ExpandRank'in F1 puanları sırasıyla% 9,4 ve% 10,1 iken TextRank, SingleRank ve TPR sırasıyla% 8,4,% 9,0 ve% 8,9'dur.

Sonuçlarımız üzerinde eşleştirilmiş bir t-testi testi gerçekleştirerek, PositionRank'in MRR, doğruluk, geri çağırma ve F1 puanının önemli ölçüde iyileştirildiğini gördük (p değeri < 0.05).

Şekil 6 Gao ve diğerleri (2006) tarafından hazırlanan WWW makalesinin başlığı ve özeti ve yazar tarafından makale için girilen anahtar sözcükler. Koyu kırmızı kalın ifade, belgenin tahmin edilen anahtar ifadesini temsil eder.

4.4 Gerçek kanıt

Gerçek doğrulama için Gao ve diğerleri (2006) belgesini kullanıyoruz. Nguyen veri kümesinin bir parçasıdır. Şekil 6, bu makalenin başlığını ve özetini ve yazar tarafından girilen anahtar cümleleri göstermektedir. Önerilen modelimiz (PositionRank) tarafından tahmin edilen aday cümleleri, koyu siyah, seçili kelimeler aday kelime öbekleri olarak ve gri ile temsil edilen kelimeler, konuşma bölümlerine göre filtrelenmiş anahtar ifadeler olarak işaretledik (PositionRank). Her bir aday kelimenin olasılığını (veya ağırlığını) sağ üst köşesinde görüntüleriz. Bu ağırlıklar metindeki kelimenin konumuna ve sıklığına göre hesaplanır. Modelimizin, PageRank algoritmasını tercih grafiğindeki belirli düğümlere yönlendirmek için bu ağırlıkları kullandığını unutmayın.

Şekilden de görülebileceği gibi, yazarın "ortak çalışma", "tarama", "odaklanma" ve "coğrafi olarak" gibi anahtar ifadelerine en yüksek puanlar verilirken, "performans", "dayanak" veya "özellikler" gibi adaylar "Çok düşük bir ağırlık veriliyor, bu da onları anahtar kelime öbekleri olarak seçilmelerini zorlaştırıyor.

5 Sonuçlar ve gelecekteki çalışma

Ön yargılı PageRank'te belgedeki hem sözcüğün konumunu hem de sıklığı içeren PositionRank adlı yeni bir denetimsiz grafik algoritması öneriyoruz. Bildiğimiz kadarıyla, konum bilgisini tamamen yeni bir şekilde denetimsiz anahtar kelime öbeği çıkarımına entegre eden ilk çalışmayız. Spesifik olarak, yalnızca ilk konum bilgisini kullanan denetimli yöntemin aksine, kelime konumlarının tüm dağılımını modellemenin, yalnızca ilk konumu kullanan bir modelden daha iyi olduğunu gösteriyoruz.

Araştırma makalesinin üç veri seti üzerinde yaptığımız deneyler, önerilen modelimizin% 29.09'a varan nispi bir iyileşme ile olgun kıyaslama modelinden daha iyi sonuçlar elde edebileceğini göstermektedir. Gelecekte, PositionRank'in web sayfaları ve e-postalar gibi diğer belge türlerindeki performansını keşfetmek ilginç olacaktır.

Kağıt indirme bağlantısı: