AAAI 2017 Oxford Üniversitesi: Ağ olay çıkarımında yapı ve metin özelliklerinin ortak öğrenimi

AAAI 2017 Doktora Konsorsiyumu

Ağ olay çıkarımında yapı ve metin özelliklerinin ortak öğrenimi

Web Ölçekli Etkinlik Çıkarma için Yapısal ve Metinsel Özelliklerin Ortak Öğrenimi

Oxford Üniversitesi

Oxford Üniversitesi

[Giriş] İnternet, etkinlik organizasyonu, dağıtım ve bilet satışları için ana platform haline geldi. Bu faaliyetler arasında konserler, seminerler, spor etkinlikleri, profesyonel etkinlikler ve küçük yerel etkinlikler yer almaktadır. Bireysel aktivite seçenekleri tercihlere ve yaşam tarzına göre değişir. Çevrimiçi kullanıcılar, yakındaki konumlardaki yeni olayları kendilerine bildirmek için ağı kullanır ve siteyi bilet satın almak veya rezervasyon yapmak için kullanabilir. Ağdan olayları ayıklamak, özellikle zor bir bilgi çıkarma türüdür. Belirli olay türlerini ve bunların özniteliklerini kaynak dil verilerinden algılar. Geleneksel olay çıkarma araştırması, metinlerden politik, kültürel veya diğer temel temaları çıkarmaya odaklanır. Bu tür metinler genellikle (Kuzey, Vreeken ve Weikum 2014) gibi editoryal haberler veya Twitter gibi sosyal medyadan (Ritter, Etzioni ve Clark 2012) en son haberlerdir. Ancak bu makale, tablolar, listeler veya tek bir sayfanın önemli kısımları şeklindeki olayları kapsar. Bu makale, "tek olay sayfasının" keşfine ve çıkarılmasına odaklanmaktadır.

Bu araştırmanın ilham kaynağı, web'den belirli belge türlerini çıkarmak için yapılan bir dizi çalışmadan geldi. Örneğin, (Wang ve diğerleri, 2009) çok küçük bir eğitim külliyatından haber makalelerini ve temel niteliklerini çıkarmak için bir öğrenme yöntemi önerdi. Bu çalışmadan ilham almasına rağmen, burada sunulan yöntemler kullanılan kapsam ve teknoloji açısından büyük farklılıklar göstermektedir. Araştırma kapsamı açısından amacım, yukarıdaki çalışmadaki belge türlerinden daha fazla özniteliğe sahip olaylardır ve öznitelikler şablon yapılarda (Wang ve diğerleri, 2009 gibi) veya olay açıklamalarında görünebilir. Ek olarak, benim yöntemim eğitim verilerini elde etmek için yarı denetimli bir yöntem kullanıyor ve bu, daha karmaşık alanların daha fazla eğitim verisi gerektirmesi sorununu dengeleyebilir.

1 Sorun ifadesi ve çözümü

Olay keşfi ve ayıklama problemi çok yönlüdür: olaylar ve öznitelikleri olay toplayıcının derinliklerinde gizlidir ve ağa yayılır, bu yüzden bulmak zordur. Her web sitesi, tek bir olayın sayfa açıklamasını ("tek olay sayfası") elde etmek için farklı erişim modelleri gerektirebilir. Belirli bir tek olay sayfası içinde, olay öznitelikleri sayfa şablonunun yapısı içinde ve olay açıklamasında yer almalıdır.

Bu tür tek bir olay sayfası genellikle metinsel bir olay açıklamasına ve belirli bir kaynağın tüm olayları için aynı şablonda vurgulanan ve sunulan başlık, konum veya zaman gibi bir dizi temel olay özniteliğine bölünür. Bu çalışmada amacım, olay açıklamaları ve şablonlarından olay özniteliklerini çıkarmak için ortak bir model öğrenmektir.

Tek bir etkinlik sayfasının keşfi, web sitesindeki ilgili olayları elde etmek için form doldurma gibi web sitesiyle otomatik etkileşim gerektirir. Organizatörler tarafından bilet satmak için farklı etkinlik web siteleri kullanılır, bireysel kullanıcılar biletleri yeniden satar ve genellikle etkinlik hakkında bilgi verir. Ancak, yalnızca Ticketweb.com, Eventbrite.com ve Ticketmaster gibi büyük etkinlik web siteleri değil, aynı zamanda küçük ve yerel etkinliklere ev sahipliği yapan bir dizi küçük etkinlik web sitesi de vardır. Bu nedenle, olay özniteliklerini çıkarmaya ek olarak, olay kaynağını ve olay kaynağında tek bir olay sayfasının otomatik keşfini de araştırdım. Her üç sorunu bir bütün olarak ele alarak, her bir alt problemden türetilen modeli birbirini güçlendirmek için kullanabilirim.

Bu sorunu çözmek için, minimum denetimle tek bir olay sayfasından yapı ve metin olay özniteliklerini çıkarmak için ortak bir öğrenme modeli için bir çerçeve tasarladım. Ne yazık ki, bu işlem için etiket eğitimi verilerinin elde edilmesi zordur ve oluşturulması maliyetlidir. Bu nedenle, çerçeve, etiket örnek sayfaları edinme maliyetini düşürmek için yarı denetimli bir süreçle desteklenir. Bu süreç, yapısal olay özniteliklerine açıklama eklemek için her olay özniteliğinin çekirdek değerini kullanan ve denetimsiz şablon keşif tekniklerini kullanarak gürültüyü ortadan kaldıran bir önyükleme yöntemidir (Crescenzi, Mecca ve Merialdo 2001).

2 Etkinlik sayfası bulundu

Olay sayfası keşif aşaması, olayın ilgili web sitelerini ("kaynak") bulmayı ve bu web siteleri içindeki ayrı olay sayfalarını bulmayı içerir. Bu adımda, denetimi en aza indirmek için birden çok yöntem birleştirilir.

İlk olarak, ilgili bilgi tabanlarını birleştirerek ve az sayıda temsili veri kaynağı için manuel olarak tarayıcılar oluşturarak, olayların ve olay öznitelik örneklerinin bir çekirdek koleksiyonu oluşturulur. Bu tarayıcılar, XPath üzerinde form doldurma eylemini, yinelemeyi ve veri çıkarma işaretlemesini genişleten OXPath (Furche ve diğerleri, 2013) kullanılarak oluşturuldu. İkinci genişletme adımında, çekirdek veri kümesi, Ortak Tarama'da tek bir etkinlik sayfası tanımlanarak otomatik olarak genişletilir (çekirdek verilerden türetilen Mikro veri ek açıklamalarına ve ek açıklamalarına göre taranan web sayfası verileri). Olay keşif aşamasının ilk çalıştırması, OXPath Taramasından 800.000'den fazla bireysel olay sayfasından ve Ortak Tarama'dan yaklaşık 2 milyon sayfadan oluşan bir veri kümesi üretti.

Şekil 1 Genel mimari

3 Web sayfası açıklaması

Daha sonra, tek bir olay sayfasının keşfi için, bu projenin açıklama aşamasında iki farklı teknik kullanılmıştır. İlk olarak, sayfa şablonu yapısında ilgili olay özniteliklerini bulmak için Schema.org gibi Mikro verileri kullanın. Bu ek açıklamalar, olay kaynağının sahibi tarafından yapılır ve olayın başlığı, konumu, başlangıç zamanı ve konumu gibi olaya özgü öznitelikleri ve türleri içerir. Bu öznitelikler, çekirdek veri kümesindeki bilgilerle daha da doğrulanabilir. Mikro verilerin mevcut olmadığı durumlarda, web sitesine GATE (Cunningham ve diğerleri, 2002) NER çerçevesi aracılığıyla açıklama eklemek için çekirdek verilerini kullanıyorum. Bu yorumlar katı kısıtlamaları aşarsa, örneğin, HTML düğümünün tamamı yorumlanır ve çakışan yorumlar yoksa, bu yorumlar doğrulanır ve kabul edilir. Doğrulamada başarısız olurlarsa, gerekirse eğitim veri setini artırmak için sınırlı denetim kullanmayı planlıyorum. Ek açıklama işlemi, ek açıklama katmanına benzer şekilde NER, sezgisel kurallar ve yer adı sözlükleri gibi birçok farklı doğal dil işleme (NLP) aracını birleştirir (Furche ve diğerleri, 2012).

Makine öğrenimi modeli aynı anda hem yapı hem de metin özelliklerini öğrendiğinden, bu özelliklerin her ikisi de ek açıklamalar gerektirir. Mikro Veri durumunda, web sitesindeki konum verilir ve bu nedenle düğümün yapısal göstergesi verilir. Mikro Verinin mevcut olmaması ve tek bir olay sayfasındaki özniteliklerin OXPath tarafından çıkarılması durumunda, OXPath ifadesi ve düğüm içindeki aralık, metne açıklama eklemek için kullanılabilir.

4 Özellik mühendisliği ve makine öğrenimi

Yukarıdaki ek açıklamalar eğitim ve değerlendirme külliyatının bir parçasını oluşturur ve makine öğrenimi algoritmasının eğitim aşaması için girdi olarak kullanılır. Bu ayrıca, açıklamalı özellik modelinin özelliklerinin, algoritmada ince ayar yapmak için zaman içinde ayarlanması gerektiği anlamına gelir.

Kesin özellik modeli hala revize edilmektedir, ancak ön testler, metin ve yapısal özellikleri birleştirme potansiyelini göstermiştir. Ek olarak, bu testler ilk adım olarak sınıflandırma veya yapı tahmin yöntemlerinin bir kombinasyonunu önermektedir. Makine öğrenimi aşamasının çıktısı, üç farklı kategori sınıflandırıcıyı destekleyen bir sınıflandırma modelidir: sayfa şablonunu belirleyen bir sayfa düzeyinde sınıflandırıcı, belirli bir sitedeki özniteliklerin konumunu belirleyen bir düğüm düzeyinde sınıflandırıcı ve düğümü belirleyen bir metin düzeyinde sınıflandırıcı Metnin hangi bölümü aradığımız olay bilgilerini içerir.

5 Sınıflandırma ve çıkarma

Eğitimli makine öğrenimi modelinin uygulanmasının ilk aşamasında, her şablonda görünmeyen web sayfaları kümelenir. Bu, düğüm düzeyinde ve metin sınıflandırıcıların her şablon kümesine göre site benzeri yinelemeli bir şekilde uygulanmasına izin verir. Sistemin çıktısı, çıkarılan olaydır ve öznitelikleri ayrıca olay veritabanında işlenir.

6. Sonuç

Bu olay keşfi ve tek bir varlık sayfasından ayıklama, şablondan bağımsız web verisi çıkarmanın genel çalışmasına katkıda bulunur. Gelecekteki çalışmalar, bu uçtan uca yaklaşımın uygulanabilirliğini diğer alanlara (ürün sayfaları gibi) uygulayarak kanıtlamayı amaçlamaktadır, çünkü ilk göstergeler çerçevenin diğer alanlara nispeten kolay bir şekilde uygulanabileceğini göstermektedir.

Kağıt indirme bağlantısı:

https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14520/14016

Mercedes-Benz saf elektrikli otomobil EQ B yol testi casus fotoğrafları veya GLB ile aynı platform ortaya çıktı
önceki
Cep telefonu benzin istasyonu mahremiyeti mi çalıyor? Birkaç numara ile kolayca yapabilirsin
Sonraki
Audi'nin 300 kilometreden fazla pil ömrüne sahip saf elektrikli arabası nihayet burada
AI inişinin üç ana acı noktasını bilmiyor musunuz? Gelecekte işten çıkarılmaya dikkat edin!
Süper yüksek maliyet performansının mükemmel yorumu? Geely Xingyue Şüpheli Ön Satış Fiyatı Açıklandı
Bugünün Temel Sesi | Tembel Siyah Teknolojisi Yeniden Ortaya Çıkıyor! Ellerinizi şemsiye oynamak için kullanmazsınız!
Zhejiang Tüccarlarını Tanıyın 3. Dünya Hangzhou Tüccarlar Konferansı açılıyor
Bahar Şenliği Ulaşım Festivali resmi olarak açıldı: Bu yıl bu "anahtar kelimeleri" ve yıllar boyunca harika anları bilmelisiniz
BMW Motor Kutsaması Karma Revero'nun Yeni Fragmanı Açıklandı
Şok! CCTV 3.15 dijital çemberin "büyük iç hikayesini" ortaya çıkardı, gerçek şu ki ...
Mayın tarlalarından kaçınmak için bir kariyer seçin ve size güvenilir yapay zeka girişimlerini belirlemeyi öğretin
Bugünün Temel Sesi En güzel dört robot, hangi bayanı seçiyorsun?
Yeni enerji sübvansiyonları için endişelenmenize gerek yok, bu arabaları satın almak için indirim hala çok büyük
AAAI 2017 University of Georgia: Extreme Gradient Arttırma ve Davranışsal Biyometri
To Top