AAAI 2017 Doktora Konsorsiyumu
Ağ olay çıkarımında yapı ve metin özelliklerinin ortak öğrenimi
Web Ölçekli Etkinlik Çıkarma için Yapısal ve Metinsel Özelliklerin Ortak Öğrenimi
Oxford Üniversitesi
Oxford Üniversitesi
[Giriş] İnternet, etkinlik organizasyonu, dağıtım ve bilet satışları için ana platform haline geldi. Bu faaliyetler arasında konserler, seminerler, spor etkinlikleri, profesyonel etkinlikler ve küçük yerel etkinlikler yer almaktadır. Bireysel aktivite seçenekleri tercihlere ve yaşam tarzına göre değişir. Çevrimiçi kullanıcılar, yakındaki konumlardaki yeni olayları kendilerine bildirmek için ağı kullanır ve siteyi bilet satın almak veya rezervasyon yapmak için kullanabilir. Ağdan olayları ayıklamak, özellikle zor bir bilgi çıkarma türüdür. Belirli olay türlerini ve bunların özniteliklerini kaynak dil verilerinden algılar. Geleneksel olay çıkarma araştırması, metinlerden politik, kültürel veya diğer temel temaları çıkarmaya odaklanır. Bu tür metinler genellikle (Kuzey, Vreeken ve Weikum 2014) gibi editoryal haberler veya Twitter gibi sosyal medyadan (Ritter, Etzioni ve Clark 2012) en son haberlerdir. Ancak bu makale, tablolar, listeler veya tek bir sayfanın önemli kısımları şeklindeki olayları kapsar. Bu makale, "tek olay sayfasının" keşfine ve çıkarılmasına odaklanmaktadır.
Bu araştırmanın ilham kaynağı, web'den belirli belge türlerini çıkarmak için yapılan bir dizi çalışmadan geldi. Örneğin, (Wang ve diğerleri, 2009) çok küçük bir eğitim külliyatından haber makalelerini ve temel niteliklerini çıkarmak için bir öğrenme yöntemi önerdi. Bu çalışmadan ilham almasına rağmen, burada sunulan yöntemler kullanılan kapsam ve teknoloji açısından büyük farklılıklar göstermektedir. Araştırma kapsamı açısından amacım, yukarıdaki çalışmadaki belge türlerinden daha fazla özniteliğe sahip olaylardır ve öznitelikler şablon yapılarda (Wang ve diğerleri, 2009 gibi) veya olay açıklamalarında görünebilir. Ek olarak, benim yöntemim eğitim verilerini elde etmek için yarı denetimli bir yöntem kullanıyor ve bu, daha karmaşık alanların daha fazla eğitim verisi gerektirmesi sorununu dengeleyebilir.
1 Sorun ifadesi ve çözümü
Olay keşfi ve ayıklama problemi çok yönlüdür: olaylar ve öznitelikleri olay toplayıcının derinliklerinde gizlidir ve ağa yayılır, bu yüzden bulmak zordur. Her web sitesi, tek bir olayın sayfa açıklamasını ("tek olay sayfası") elde etmek için farklı erişim modelleri gerektirebilir. Belirli bir tek olay sayfası içinde, olay öznitelikleri sayfa şablonunun yapısı içinde ve olay açıklamasında yer almalıdır.
Bu tür tek bir olay sayfası genellikle metinsel bir olay açıklamasına ve belirli bir kaynağın tüm olayları için aynı şablonda vurgulanan ve sunulan başlık, konum veya zaman gibi bir dizi temel olay özniteliğine bölünür. Bu çalışmada amacım, olay açıklamaları ve şablonlarından olay özniteliklerini çıkarmak için ortak bir model öğrenmektir.
Tek bir etkinlik sayfasının keşfi, web sitesindeki ilgili olayları elde etmek için form doldurma gibi web sitesiyle otomatik etkileşim gerektirir. Organizatörler tarafından bilet satmak için farklı etkinlik web siteleri kullanılır, bireysel kullanıcılar biletleri yeniden satar ve genellikle etkinlik hakkında bilgi verir. Ancak, yalnızca Ticketweb.com, Eventbrite.com ve Ticketmaster gibi büyük etkinlik web siteleri değil, aynı zamanda küçük ve yerel etkinliklere ev sahipliği yapan bir dizi küçük etkinlik web sitesi de vardır. Bu nedenle, olay özniteliklerini çıkarmaya ek olarak, olay kaynağını ve olay kaynağında tek bir olay sayfasının otomatik keşfini de araştırdım. Her üç sorunu bir bütün olarak ele alarak, her bir alt problemden türetilen modeli birbirini güçlendirmek için kullanabilirim.
Bu sorunu çözmek için, minimum denetimle tek bir olay sayfasından yapı ve metin olay özniteliklerini çıkarmak için ortak bir öğrenme modeli için bir çerçeve tasarladım. Ne yazık ki, bu işlem için etiket eğitimi verilerinin elde edilmesi zordur ve oluşturulması maliyetlidir. Bu nedenle, çerçeve, etiket örnek sayfaları edinme maliyetini düşürmek için yarı denetimli bir süreçle desteklenir. Bu süreç, yapısal olay özniteliklerine açıklama eklemek için her olay özniteliğinin çekirdek değerini kullanan ve denetimsiz şablon keşif tekniklerini kullanarak gürültüyü ortadan kaldıran bir önyükleme yöntemidir (Crescenzi, Mecca ve Merialdo 2001).
2 Etkinlik sayfası bulundu
Olay sayfası keşif aşaması, olayın ilgili web sitelerini ("kaynak") bulmayı ve bu web siteleri içindeki ayrı olay sayfalarını bulmayı içerir. Bu adımda, denetimi en aza indirmek için birden çok yöntem birleştirilir.
İlk olarak, ilgili bilgi tabanlarını birleştirerek ve az sayıda temsili veri kaynağı için manuel olarak tarayıcılar oluşturarak, olayların ve olay öznitelik örneklerinin bir çekirdek koleksiyonu oluşturulur. Bu tarayıcılar, XPath üzerinde form doldurma eylemini, yinelemeyi ve veri çıkarma işaretlemesini genişleten OXPath (Furche ve diğerleri, 2013) kullanılarak oluşturuldu. İkinci genişletme adımında, çekirdek veri kümesi, Ortak Tarama'da tek bir etkinlik sayfası tanımlanarak otomatik olarak genişletilir (çekirdek verilerden türetilen Mikro veri ek açıklamalarına ve ek açıklamalarına göre taranan web sayfası verileri). Olay keşif aşamasının ilk çalıştırması, OXPath Taramasından 800.000'den fazla bireysel olay sayfasından ve Ortak Tarama'dan yaklaşık 2 milyon sayfadan oluşan bir veri kümesi üretti.
Şekil 1 Genel mimari
3 Web sayfası açıklaması
Daha sonra, tek bir olay sayfasının keşfi için, bu projenin açıklama aşamasında iki farklı teknik kullanılmıştır. İlk olarak, sayfa şablonu yapısında ilgili olay özniteliklerini bulmak için Schema.org gibi Mikro verileri kullanın. Bu ek açıklamalar, olay kaynağının sahibi tarafından yapılır ve olayın başlığı, konumu, başlangıç zamanı ve konumu gibi olaya özgü öznitelikleri ve türleri içerir. Bu öznitelikler, çekirdek veri kümesindeki bilgilerle daha da doğrulanabilir. Mikro verilerin mevcut olmadığı durumlarda, web sitesine GATE (Cunningham ve diğerleri, 2002) NER çerçevesi aracılığıyla açıklama eklemek için çekirdek verilerini kullanıyorum. Bu yorumlar katı kısıtlamaları aşarsa, örneğin, HTML düğümünün tamamı yorumlanır ve çakışan yorumlar yoksa, bu yorumlar doğrulanır ve kabul edilir. Doğrulamada başarısız olurlarsa, gerekirse eğitim veri setini artırmak için sınırlı denetim kullanmayı planlıyorum. Ek açıklama işlemi, ek açıklama katmanına benzer şekilde NER, sezgisel kurallar ve yer adı sözlükleri gibi birçok farklı doğal dil işleme (NLP) aracını birleştirir (Furche ve diğerleri, 2012).
Makine öğrenimi modeli aynı anda hem yapı hem de metin özelliklerini öğrendiğinden, bu özelliklerin her ikisi de ek açıklamalar gerektirir. Mikro Veri durumunda, web sitesindeki konum verilir ve bu nedenle düğümün yapısal göstergesi verilir. Mikro Verinin mevcut olmaması ve tek bir olay sayfasındaki özniteliklerin OXPath tarafından çıkarılması durumunda, OXPath ifadesi ve düğüm içindeki aralık, metne açıklama eklemek için kullanılabilir.
4 Özellik mühendisliği ve makine öğrenimi
Yukarıdaki ek açıklamalar eğitim ve değerlendirme külliyatının bir parçasını oluşturur ve makine öğrenimi algoritmasının eğitim aşaması için girdi olarak kullanılır. Bu ayrıca, açıklamalı özellik modelinin özelliklerinin, algoritmada ince ayar yapmak için zaman içinde ayarlanması gerektiği anlamına gelir.
Kesin özellik modeli hala revize edilmektedir, ancak ön testler, metin ve yapısal özellikleri birleştirme potansiyelini göstermiştir. Ek olarak, bu testler ilk adım olarak sınıflandırma veya yapı tahmin yöntemlerinin bir kombinasyonunu önermektedir. Makine öğrenimi aşamasının çıktısı, üç farklı kategori sınıflandırıcıyı destekleyen bir sınıflandırma modelidir: sayfa şablonunu belirleyen bir sayfa düzeyinde sınıflandırıcı, belirli bir sitedeki özniteliklerin konumunu belirleyen bir düğüm düzeyinde sınıflandırıcı ve düğümü belirleyen bir metin düzeyinde sınıflandırıcı Metnin hangi bölümü aradığımız olay bilgilerini içerir.
5 Sınıflandırma ve çıkarma
Eğitimli makine öğrenimi modelinin uygulanmasının ilk aşamasında, her şablonda görünmeyen web sayfaları kümelenir. Bu, düğüm düzeyinde ve metin sınıflandırıcıların her şablon kümesine göre site benzeri yinelemeli bir şekilde uygulanmasına izin verir. Sistemin çıktısı, çıkarılan olaydır ve öznitelikleri ayrıca olay veritabanında işlenir.
6. Sonuç
Bu olay keşfi ve tek bir varlık sayfasından ayıklama, şablondan bağımsız web verisi çıkarmanın genel çalışmasına katkıda bulunur. Gelecekteki çalışmalar, bu uçtan uca yaklaşımın uygulanabilirliğini diğer alanlara (ürün sayfaları gibi) uygulayarak kanıtlamayı amaçlamaktadır, çünkü ilk göstergeler çerçevenin diğer alanlara nispeten kolay bir şekilde uygulanabileceğini göstermektedir.
Kağıt indirme bağlantısı:
https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14520/14016