g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

ACL2017 | İbrani Üniversitesi: Anlamsal Temsil Araştırmalarının Gelişim Durumuna Genel Bakış

Siz ve "AI'yı Anlamak" arasında yalnızca bir kağıt var

Pek çok okuyucu, nispeten basit AI bilimi ve AI metodolojisi hakkında daha fazla şey okuduklarını ve derinlik, kalınlık, vizyon ve ağır zevk içeren profesyonel makaleler okumak istediklerini söyleyerek Xinjun'un sahne arkasına mesajlar bıraktı.

Bu amaçla, AI alanındaki birçok uzman ve akademisyenin yardımıyla, bir dizi en iyi konferans belgesini yorumladık ve tercüme ettik. Her makalenin tercümesi ve redaksiyonu tamamlandıktan sonra Xinjun ve yazı işleri bölümündeki öğretmenler birlikte gülüp çökecekler, tabii bazı kağıtlar için ağlamalıyız.

Öğrencilerin şimdi okuyup anlayamaması önemli değil, ancak Xinjun bir gün yeni bir AI dünyasına aşık olacağınızı garanti edebilir.

Çekirdek okuyucuların tez değişim grubu için lütfen WeChat hesabımızı ekleyin: zhizhizhuji . Senin için bekleniyor.

Bu, temel okumanın ilk yorumu 6 Bildiriler

ACL 2017 Uzun Bildiriler

Anlamsal Temsil Araştırmasının Mevcut Durumunun Özeti

Anlamsal Temsilde Sanatın Durumu

İbrani Üniversitesi

Kudüs İbrani Üniversitesi

[Özet] Son yıllarda, anlamsal temsil, doğal dil işleme alanında giderek daha fazla ilgi gördü. Araştırmacılar ayrıca AMR, UCCA, GMB ve UDS gibi birçok anlamsal temsil yöntemi önerdiler. Bununla birlikte, bu yöntemlerin avantaj ve dezavantajlarını değerlendirmek ve karşılaştırmak ve anlamsal temsil araştırmasının genel amacını açıklamak için çok az çalışma yapılmıştır. Bu makale, bu alandaki boşlukları son araştırmaların ayrıntılı incelemeleri ile doldurmaktadır.

1. Giriş

Metin anlamsal temsil yöntemi (SRT), cümle ve metinlerin anlamını açık ve öz bir şekilde yansıtmayı amaçlamaktadır. Son zamanlarda, GMB (Basile vd., 2012), AMR (Banarescu vd., 2013), UCCA (Abend and Rappoport, 2013b) Decompositional Semantics (UDS; White vd., 2016) gibi semantik temsil ve korpus için çok sayıda yöntem ortaya çıkmıştır. . Bununla birlikte, farklı yöntemlerin avantajları ve dezavantajları hala ayrıntılı karşılaştırmalı değerlendirmeden yoksundur ve ayrıca yeni yöntem ile eski anlamsal analiz yöntemi, özellikle sözdizimsel analiz yöntemi arasında bir karşılaştırma eksikliği vardır. Doğal dil işleme alanında anlambilimsel analizin araştırma durumunun başarıları ve eksikliklerinin kapsamlı bir şekilde anlaşılması ve kontrolü, gelecekteki gelişimi için hayati önem taşımaktadır.

Bu yazımızda farklı anlamsal çözümlerle desteklenen içeriğe göre çeşitli çözümler kaydetmeye başladık. Metindeki anlamsal sorular için, bir bilgisayarın manuel açıklama kullanmadan bir insan gibi güvenilir bir cevap vermesi zordur, bu nedenle bu makale, anlamsal ayrımı net bir şekilde ifade etme çözümüne odaklanmaktadır.

Bu makale ilk olarak metin anlamsal temsil yöntemlerinin amaçlarını ikinci bölümde tartışmaktadır. Daha sonra üçüncü bölümde, yüklemenin argümantasyon ilişkisi, söylem ilişkisi ve mantıksal yapı dahil olmak üzere cümlenin temel anlamlı bileşenlerini tanıtıyoruz. Daha sonra dördüncü bölümde, metin anlamsal temsil yöntemlerinin bazı spesifik örnekleri ve açıklama kaynakları ayrıntılı olarak açıklanmıştır. Son olarak, Bölüm 5 ve Bölüm 6'da, değerlendirme kriterlerini ve sözdizimi ile ilişkilerini tartışıyoruz.

Sözdizimsel biçim ve arayüzde büyük farklılıklar olmasına rağmen, içerik açısından farklı metin anlamsal temsil yöntemleri arasında birçok benzerlik olduğunu bulduk. Yöntemler arasındaki en önemli fark, temelde anlambilimin biçim ve sözdiziminin dönüşümünden, yani benzer özelliklerin benzer anlamlara sahip farklı yapılardan ve benzer görünmelerine rağmen farklı anlamlara sahip olanlardan çıkarılabilmesiyle ilgilidir. Yapıdan farklı özellikler çıkarılır. Diğer önemli farklılıklar, farklı açıklayıcıların gerektirdiği farklı eğitim düzeyleri ve diller arası çok yönlülüğü içerir (örneğin, uzman açıklamacılara karşı kitle kaynak kullananlar). Farklı seçeneklerin artılarını ve eksilerini tartıştık ve gelecekte entegre etmenin yollarını önerdik.

2 Anlamsal temsilin tanımı

Anlambilim terimi, farklı bağlamlarda farklı kullanımlara sahiptir. Bu makalede, anlamsal temsili, konuşmacının anlamını yansıtabilecek bir temsil olarak tanımlıyoruz. Bu nedenle, anlamsal temsil, metinden bilgi çıkarma yöntemiyle işbirliği yapmalıdır ve doğrudan insanlar tarafından değerlendirilebilir. Çıkarma işlemi güvenilir ve hesaplama açısından verimli olmalıdır.

SRT'lerin aktardığı içeriğin temel unsurlarından birinin argüman yapısı olduğunu, kimin kime neyi, nerede, ne zaman ve neden yaptığını yani olay olduğunu, katılımcılar ile onlar arasındaki ilişkiyi şart koşuyoruz. Aslında, argüman yapısının temel ilkeleri semantik dilbilimde (Levin ve Hovav, 2005) ve NLP'deki semantik rol etiketleme (SRL; Gildea ve Jurafsky, 2002), biçimsel semantik analiz (ör. , Bos, 2008) ve soyut anlamsal temsil (AMR; Banarescu vd., 2013). Ek olarak, araştırmacılar, Bölüm 3'te derinlemesine tartışılacak olan birçok yararlı anlamsal bileşen önermişlerdir.

Anlamsal gösterimi tanımlamanın başka bir yolu, harici (hiper metin) standartlar veya uygulamalar yoluyla yapılır. Örneğin, anlamsal temsiller, metinsel ima (Daganet diğerleri, 2006) veya doğal mantık (Angeliand Manning, 2014) gibi muhakemeyi desteklemek için tanımlanabilir. Diğer örnekler, bilgi temeli sorgularını destekleme açısından anlamsal temsillerin tanımlanmasını (Zelle ve Mooney, 1996; Zettlemoyer ve Collins, 2005) ve ona karşılık gelen görüntülere dayalı olarak metni yorumlamak gibi farklı modlar aracılığıyla anlambilimin tanımlanmasını içerir (Kiroset diğerleri, 2014 ) veya belirli hareket ve algılama kalıplarına göre (Feldman ve diğerleri, 2010).

Vektör Uzay Modeli (VSM) farklı bir anlamsal temsil yöntemi kullanır.Sembolik yapıların kullanımından kaçınır.Bunun yerine, tüm dil öğelerini kelime seviyesinden kalıplara ve cümlelere vektörler olarak modeller. Bu yöntemin kullanıcıları, diller arası kelime benzerliği (Ammar ve diğerleri, 2016), makine çevirisi (Bahdanau ve diğerleri, 2015) ve bağımlılık çözümü (Andor ve diğerleri, 2016) gibi sözcüksel görevler dahil olmak üzere genellikle sinir ağı yöntemlerini kullanır. Çeşitli görevlerde üstün performansını göstermiştir. VSM ayrıca yerel olmayan ve gradyan fenomenlerini simüle edecek kadar esnektir (örneğin, Socher ve diğerleri, 2013). Bu modellerin anlamsal fenomeni güvenilir bir şekilde yakalayabilme derecesini göstermek için hala daha fazla araştırmaya ihtiyaç var. Bu nedenle, bu ankette sadece yüzeysel bir VSM anlayışına sahibiz.

Son olarak, anlamsal analizin ana düşüncelerinden biri ve önemli potansiyel avantajlarından biri, diller arası evrenselliğidir. Diller, biçimlerinde farklılık gösterse de (örneğin, fonetik, kelime bilgisi ve dilbilgisi), anlamsal içeriklerinde benzerdirler (Bar Hillel, 1960; Fodor, 1975). Daha fazla tartışma için Bölüm 5'e bakın.

Bir terminoloji notu: Biçimsel dilbilimde, anlambilim genellikle semboller (sözcükler, sözdizimsel yapı gibi) ve anlamları arasındaki ilişkinin incelenmesidir. Bu anlamda anlambilim, bir dilin kelime bilgisi ve grameri tarafından ifade edilen anlamların bir çalışmasıdır, bu nedenle dilbilgisi-anlamsal ilişkiler teorisi ile yakından ilgilidir. Bu anlambilimin tanımının bu makaledeki tanımdan biraz farklı olduğunu fark ettik, anlamsal yöntemi bir anlam teorisi olarak tanımlar.

3 Anlamsal içerik

Daha sonra makale, anlamsal temsil şemalarıyla kodlanmış ana metin içeriği türlerini tartışacaktır. Alan kısıtlamaları nedeniyle, sözcüksel öğelerin kendilerinin anlamından ziyade yalnızca sözcüksel öğeler arasındaki anlam ilişkisini inceleyen metin semantiğine odaklanıyoruz. Gelecekteki çalışmalarda, duygular gibi daha hedefli anlamsal ayrımları da tartışacağız.

Aşağıdaki cümleyi açıklayıcı bir örnek olarak kullanıyoruz:

(1) Ann gitmesine rağmen hediyeyi John'a verdi.

Etkinlikler : Olaylar (bazen çerçeveler, önermeler veya sahneler olarak adlandırılır), argüman yapısının temel bileşenleridir. Olaylar, olayların ana belirleyicileri olan yüklemleri (birincil ilişkiler, çerçeve uyanış öğeleri) içerir. Aynı zamanda argümanlar (katılımcılar, temel öğeler) ve ikincil ilişkiler (değiştiriciler, temel olmayan öğeler) içerir. Örnek 1'de, genellikle sırasıyla "ayrılmak" ve "vermek" ile uyandırılan iki olay içerdiği kabul edilir.

Anlamsal temsil yöntemleri genellikle, farklı sözcüksel öğeler tarafından uyandırılan anlamsal olarak benzer olayların sınıflandırıldığı olay türlerinin bir ontolojisini veya sözlüğünü (aynı zamanda bir yüklemler sözlüğü) sağlar. Örneğin, FrameNet bir çerçeveyi kavramsal olarak benzer bir dizi yüklemin neden olduğu sistematik bir hikaye bölümü olarak tanımlar. (1) 'de, "ayrılmak" ve "vermek" için çerçeveler KALKIŞ ve VERİLMEKTEDİR, ancak "ayrılma" ve "çıkış" da KALKIŞI uyandırabilir ve "bağış" ve "hediye" de VERİLMEYİ uyandırabilir.

Burada tartışılan olaylar, politik veya finansal olaylar gibi günlük olay kavramına daha yakından karşılık gelen ve genellikle aşağıdakiler tarafından belirlenen bilgi çıkarımında (Humphreyset diğerleri, 1997) tanımlanan olaylar ve olay ilişkilendirmeleri gibi ilgili görevlerle karıştırılmamalıdır. Bu tartışma anlamında birden fazla olaydan oluşur. Bu tür bir olay temsili, son zamanlarda, Richer Olay Açıklamaları çerçevesi (RED; Ikuta ve diğerleri, 2014) gibi doğal dil işleme alanında çok dikkat çekmiştir.

Önemler ve Argümanlar : Yüklem-bağımsız değişken ilişkisi genellikle anlamsal temsilin temeli olarak görülse de, terimlerin yorumlanması farklı şekillerde farklıdır. Anlamsal rol etiketleme yöntemlerinin çoğu, çeşitli fiil yüklemlerini kapsar, ancak fark isimlerde ve sıfat yüklemlerinde yatmaktadır. Örneğin, anlamsal rol ek açıklamasının ana gövdelerinden biri olan PropBank (Palmer ve diğerleri, 2005) fiilleri kapsar ve en son sürüm ayrıca olay isimlerini ve çoklu argüman sıfatlarını da ekler. FrameNet (Ruppenhofer ve diğerleri, 2016) yukarıdakilerin tümünü ve "başkan" gibi uyanmayan olaylarla ilgili isimleri kapsar. Diğer işçi dizileri, cümle sınırının dışında görünen veya metnin hiçbir yerinde açıkça görünmeyen anlamsal argümanları çözer (Gerberand Chai, 2010; Roth ve Frank, 2015).

Çekirdek ve Çekirdek Olmayan Argümanlar : Argüman türleri arasındaki en yaygın fark, temel ve temel olmayan argümanlar arasındadır (Dowty, 2003). Bu ayrım, zorunlu ve isteğe bağlı argümanlar arasındaki fark olarak tanımlanabilse de, burada anlamsal boyuta odaklanıyoruz. Argümanları iki kategoriye ayırırız; biri, anlamın belirli bir yüklemle ilgili olduğu ve olayı (çekirdek) açıklamanın gerekli bir parçası olduğu, diğeri ise belirli bir yüklemle (çekirdek olmayan) ilgili olmadığıdır. Örneğin FrameNet, temel argümanı bir çerçevenin kavramsal olarak gerekli bir bileşeni olarak tanımlar ve çerçeveyi diğer çerçevelerden farklı ve benzersiz kılar. Çevresel argümanlar, zaman, yer, yöntem, yöntem ve seviye gibi diğer çerçevelerden çerçeveyle ilgili ek, bağımsız veya farklı ilişkiler ortaya çıkarır (Ruppenhofer ve diğerleri, 2016, s. 23-24).

Anlamsal Roller : Anlamsal roller, argüman kategorileridir. Yıllar boyunca, birçok farklı anlamsal rol kitaplığı önerilmiş ve doğal dil işleme alanında kullanılmıştır. En belirgin olanları FrameNet (karakterler "ayrılma" ve "ayrılma" gibi yüklemler arasında uyanan aynı çerçeve türlerini paylaşır) ve PropBank'tır (burada roller fiillere göre belirlenir). PropBank'ın rol seti, AMR gibi sonraki çalışmalarla genişletildi. Bir diğer önemli anlamsal rol kitaplığı VerbNet (Kipper ve diğerleri, 2008) ve bir dizi kapalı soyut anlamsal rol (AGENT, HASTA gibi) tanımlayan takip çalışmasıdır (Bonialet diğerleri, 2011; Schneider ve diğerleri, 2015). Ve INSTRUMENT), tüm yüklem argümanlarına uygulanabilir.

Ortak referans ve Anaphora : Karşılıklı referans, genellikle anlamsal kaynaklarda bulunan, aynı varlığa atıfta bulunarak farklı yollardan soyutlamaya izin verir. Karşılıklı referans ve argüman yapısı açıklama birbirini etkiler.Karşılıklı referansın yokluğunda, her argüman rastgele bir şekilde metin örneklerinden biriyle ilişkilendirilecektir. Çoğu semantik temsil yöntemi (1) 'de "Ann" i "ayrılmak" için bir argüman olarak işaretler ve "she" yi "verdi" için bir argüman olarak işaretler, ancak semantiğe dayalı olsa da "Ann" her ikisi için de bir argümandır. .

Bazı SRT'ler, dilbilgisi kodlayan askerlerin açıkça paylaşılan argümanlar olduğu durumları ayırt edebilir (örneğin, "John eve gitti ve duş aldı", "John" hem "wenthome" hem de "duş aldı" argümanıdır) ve çıkarım Out, argüman paylaşımı durumudur ((1) gibi)). Bu ayrım, metnin anlaşılması için çok önemli olabilir, çünkü çıkarsanan durum genellikle daha belirsizdir ((1) 'deki "o", "Ann" e atıfta bulunmayabilir). AMR gibi diğer yöntemler, bu iki durum arasında ayrım yapmazlar, tüm karşılıklı referans durumlarını belirtmek için aynı terminolojiyi kullanırlar.

Zamansal İlişkiler. : Doğal dil işleme alanındaki çoğu zamansal anlamsal çalışma, olaylar arasındaki zamansal ilişkiye odaklanır. Bazı yöntemler, olaylara zaman damgası eklemek için metinde bulunan zamanla ilgili ifadeleri kullanırken, diğerleri bunların zaman içindeki göreceli sıralarını tahmin eder. Önemli kaynaklar arasında TimeML (bir zamansal ilişki belirleme dili (Pustejovsky ve diğerleri, 2003)) ve TempEval serisi paylaşılan görevler ve açıklamalı yapı (Verhagenet diğerleri, 2009, 2010; UzZaman ve diğerleri, 2013) bulunmaktadır. Diğer çalışmalar senaryo çalışmalarına odaklanır: belirli senaryolarla ilgili olayların kısa kronolojik sekansları (Chambers ve Jurafsky, 2008, 2009; Regneri ve diğerleri, 2010). Örneğin, genellikle sırayla, bir restorana gitmek, bir masada oturmayı, sipariş vermeyi, yemek yemeyi ve ödemeyi içerir.

Zamansal ilişki ile ilgili olarak, dilde her yerde bulunan olaylar arasındaki nedensel ilişkidir ve aynı zamanda planlama ve uygulama dahil olmak üzere çeşitli uygulamaların temel faktörüdür. (Mirzaet diğerleri, 2014) ve (Dunietz ve diğerleri, 2015) son zamanlarda önerilen Nedenselliğin ve alt türlerinin etiketleme şeması. Mostafazadehet al. (2016) nedensellik ve TimeML tarzı zamansal ilişkileri birleşik bir temsille bütünleştirir.

Olayların iç zamanlama yapısı son yıllarda azalmıştır. Moens ve Steedman (1988), hazırlık süreci ("dağa tırmanma" gibi) veya nihai sonucu ("zirve") gibi bir olayın zamansal bileşenlerinin ontolojisini tanımladılar. Bununla birlikte, bu konuda çok az istatistiksel çalışma vardır ve esas olarak görünüş kategorileri gibi kelime kategorilerine odaklanır (Siegel ve McKeown, 2000; Palmer ve diğerleri, 2007; Friedrich ve diğerleri, 2016; White ve diğerleri, 2016) ve Gerginlik farkı (Elsonand McKeown, 2010). Bununla birlikte, olayları zaman unsurlarına göre tahsis etmek, böyle bir etiketleme şeması oluşturmak ve teorik temelde kök salmak doğal dil işleme alanında açık bir zorluktur.

Mekansal ilişkiler : Uzamsal ilişkilerin temsili, bilişsel teoriler (örn. Langacker, 2008) ve coğrafi bilgi sistemleri veya robot navigasyonu gibi uygulama alanları için büyük önem taşır. Bu alandaki önemli görevler arasında uzay rolü etiketleme (Kordjamshidi ve diğerleri, 2012) ve daha yakın zamanda SpaceEval (Pustejovsky ve diğerleri, 2015) bulunmaktadır. Bu görevler, mekansal unsurların ve bunların yerler, yollar, yönler ve hareketler ve bunların ilgili konfigürasyonları gibi ilişkilerinin tanımlanmasını ve sınıflandırılmasını içerir.

Söylem İlişkileri : Metinsel ilişki, olaylar veya daha büyük anlamsal birimler arasındaki herhangi bir anlamsal ilişkiyi kapsar. Örneğin, (1) 'de, ayrılma ve verme olayları bazen "rağmen" nin neden olduğu CONCESSION tipi söylem ilişkisi ile ilgilidir. Bu bilgiler genellikle çeşitli doğal dil işleme görevleri (özetleme, makine çevirisi ve bilgi çıkarma gibi) için kritiktir, ancak genellikle bu tür sistemlerin geliştirilmesinde göz ardı edilir (Webberand Joshi, 2012).

Penn söylem ağacı grubu (PeDT; Miltsakaki vd., 2004) söylem birimlerini etiketler ve aralarındaki ilişkiyi, GEÇİCİ, KARŞILAŞTIRMA ve KESİNLİK gibi üst düzey ilişki türleri ve daha ayrıntılı dahil olmak üzere hiyerarşik, kapalı kategori kümeleri olarak sınıflandırır. JUSTIFICATION ve EXCEPTION gibi ayrıntılı ilişki türleri. Yaygın olarak kullanılan diğer bir kaynak RST dilbilgisi ilişkisi ağaç kitaplığıdır (Carlson ve diğerleri, 2003), daha üst düzey söylem yapısına odaklanır, bu nedenle yerel söylem yapısına odaklanan PeDT'den daha derin bir yapıya sahiptir.

Doğal dil işleme alanında incelenen bir başka söylem bilgisi türü söylem bölümlemesidir. Metindeki temasına veya işlevine göre metin, sığ bir söylem birimleri yapısına bölünmüştür. Bir örnek, bilimsel makaleleri işlevlerine göre bölümlere ayırmak, "arka plan" ve "tartışma" gibi kategorileri etiketlemektir (Liakata ve diğerleri, 2010). Bkz. (Webber ve diğerleri, 2011) Doğal dil işlemede söylem yapısı araştırması.

Tek bir cümlenin kapsamının ötesindeki söylem ilişkileri, aralarında net bir sınır olmamasına rağmen, genellikle genel anlamsal kaynaklardan ziyade uzmanlaşmış anlamsal kaynaklarla temsil edilir. Bununla birlikte, bazı programlar (GMB ve UCCA gibi) cümle arası anlamsal ilişkileri zaten desteklediğinden, bu durum değişmeye başladı.

Mantıksal Yapı : Niceleme, olumsuzlama, koordinasyon ve bunların göreceli farklılıkları dahil mantıksal yapı, çoğu teorik dilbilimde anlambilimsel analizin temel taşıdır ve ayrıca doğal dil işleme alanında yaygın bir ilgi görmüştür. Olağan temsiller, yüklem analizinin varyantlarına ve metni dışarıya eşleme ihtiyacına dayanmaktadır, genellikle çalıştırılabilir biçimsel diller (örneğin sorgu dili (Zelle ve Mooney, 1996; Zettlemoyer ve Collins, 2005)) veya robot talimatları) Benzer uygulamalar için kullanışlıdır (Artziand Zettlemoyer, 2013). Mantıksal yapı, cümleler arasındaki ima ilişkilerini belirlemede de yararlıdır, çünkü metnin mantıksal yapısından bazı çıkarım ilişkileri hesaplanabilir (Bosand Markert, 2005; Lewis ve Steedman, 2013).

Çıkarım ve Girişim : Pek çok semantik yöntemin temel amaçlarından biri akıl yürütme ve akıl yürütme yeteneğini desteklemektir. Aslında, mantıksal anlamı tahmin etme yöntemleri birçok anlamsal temsil biçiminde inşa edilmiştir. Metinsel karmaşıklığı (Daganet ark., 2013) ve doğal mantığı (vanEijck, 2005) tanımlama görevlerinde farklı bir yaklaşım kullanılır. Bu yöntemde, makul bir açıklamacı, hipotezin verilen önermeyi destekleme olasılığının yüksek olduğunu tespit ederse, çıkarım ondan çıkarılamasa bile, çıkarım geçerli kabul edilir. Bu noktanın tartışması için bkz. (Manning, 2006). Bu tür bir çıkarım ilişkisi genellikle anlamsal ağaçta yer almaz, ancak özel kaynaklarda belirtilecektir (örneğin, Daganet diğerleri, 2006; Bowman ve diğerleri, 2015).

4 Anlamsal yöntemler ve kaynaklar

Bu bölüm kısaca farklı anlamsal temsil yöntemlerini ve anlamsal kaynakları tanıtacaktır. Spesifik özelliklerden ziyade temel olarak farklı yöntemlerin tasarım ilkelerine odaklanacağız, çünkü ikincisi bu yöntemlerin daha da geliştirilmesiyle değişebilir. Ek olarak, Bölüm 3'te tartışılan yöntemler bu bölümde tekrarlanmayacaktır.

Anlamsal rol açıklaması : Anlamsal rol etiketleme yöntemlerinin farkı, olayın türü, kapsadığı yüklem türü, ayrıntı düzeyi, diller arası uygulanabilirliği, organizasyon ilkesi ve dilbilgisi ile olan ilişkisidir. Çoğu anlamsal rol etiketleme yöntemi, etiketlemelerini tanımlamak için belirli sözdizimsel yapılara dayanır. Örneğin, ağaç kümesinin (PropBank) sözdizimsel yapısı için karşılık gelen etiketleme yöntemi, PTB'deki (Pennsylvania Ağaç Bankası) ayrıştırma ağacıdır ve anlamsal rol etiketleme için tanımlanan özel gramer kategorisi olan FrameNet (FrameNet) kullanılır. Yukarıda tartışılan PropBank, FrameNet ve VerbNet'e ek olarak, diğer kayda değer kaynaklar, farklı kaynaklardaki (PropBank, FrameNet, VerbNet ve WordNet gibi) ilgili öğelere ve "edat üst sınıf" projesine (Schneideret ve diğerleri, 2015) bağlantılar içerir. Semlink (Loper ve diğerleri, 2007), araştırması edat uyarılmasının rolüne odaklanır. Rol etiketleme yöntemlerine ve kaynaklarına genel bir bakış için bkz. (Palmer ve diğerleri, 2010, 2013). Argüman yapısının vurgulanması nedeniyle, rol etiketleme yöntemine genellikle söylem olayları gibi diğer ilişkileri veya tahminlerin ve argümanların dahili olarak nasıl yapılandırıldığını dışlayan "sığ anlamsal analiz" adı verilir.

AMR (Soyut Anlamsal Temsil) : AMR, çeşitli yüklemler (fiiller, isimler ve sıfat yüklemleri dahil), değiştiriciler, karşılıklı referans, adlandırılmış varlıklar ve bazı geçici olarak ifade edilen anlamsal roller (PropBank'tan uyarlanmıştır) dahil olmak üzere yüklem-bağımsız değişken ilişkisini kapsar.

AMR şu anda cümle seviyesinin üzerindeki ilişkileri desteklemiyor ve İngilizce merkezlidir. Bu, anlamsal birleşme olgusuna yol açabilir, yani İngilizce'de benzer anlamlara sahip kısımlar tek bir kategoriye ayrılır. Bu nedenle AMR, çeviri yapısı değişmezliği açısından bazı eksikliklere sahiptir (Xue ve diğerleri, 2014). Aşağıdaki, bu sorunu bir örnekle açıklayacaktır. "Jack ile ofiste buluşmaya geldim" ve "Jack ile ofiste buluşmak istedim" cümlelerini düşünün. İkisinin benzer sözdizimsel biçimleri olmasına rağmen, ilki tek bir "buluşma" olayını tanımlar, burada "meydana geldi" bir değiştiricidir. İkincisi iki farklı olayı tanımlar: "sorma" ve "buluşma". AMR, İngilizce'de geçerli olabilecek yukarıdaki iki durumu etiketlemek için aynı terminolojiyi kullanır. İngilizce zamanlar esas olarak alt fiillerle ifade edilir (örneğin, "başla", "istemek") ve dilbilgisi olarak mastar tamamlayıcıları olan etkin kelimelere benzer ("tanışmak" veya "yüzmeyi öğrenmek" gibi). Bununla birlikte, bu yöntem çapraz dilbilim için çok uygun değildir. Örneğin, bir cümle Almancaya çevrildiğinde, iki cümle arasındaki anlamsal fark çok açıktır: ilk cümlede, "oldu" bir zarfa çevrilir: "Ichhabe Jack im Bürozufälliggetroffen" (lit. "Jack'e sahibim ofiste tesadüfen karşılaşıldı ). İkinci cümlede, "soruldu" fiiline çevrilir: "Ichhabe gebeten, Jackim Bürozu treffen" (lafzen "Jack'in ofiste buluşmasını istedim").

UCCA (Evrensel Kavram Bilişsel Açıklama) : UCCA (Abend and Rappoport, 2013a, b) diller arası uygulanabilir bir anlamsal açıklama yöntemidir, temel temel dil teorisidir (Dixon, 2010). UCCA'nın sınıflandırma temel katmanı, çeşitli argüman türlerine ve bunların ilişkilerine odaklanır. Şu anda, UCCA yukarıda belirtilen yöntemlerden çok daha kabadır (örneğin, anlamsal rol bilgilerini içermez). Ancak avantajı, diller arası performansında yatmaktadır. Örneğin, AMR'den farklı olarak, UCCA ana fiiller ile gergin fiilleri birbirinden ayırt edebilir, bu nedenle "karşılaşmak için oldu" ve "tesadüfen karşılaşıldı" aynı şekilde etiketlenir, ancak "tanışmak istendi" den farklıdır.

UCCA tarafından belirtilen bir diğer tasarım ilkesi, uzman olmayan etiketlemeyi desteklemektir. Bunu yapmak için, yöntem daha zor olan bazı farklılıkları daha sezgisel olarak yeniden tanımlar. Örneğin, UCCA'daki çekirdek / çekirdek olmayan ayrımı, açıklayıcıların uygulaması için daha kolay olduğu kanıtlanmış olan saf bir ilişki (zarf) ve bir neden nesnesi (katılımcı) arasındaki bir ayrımla değiştirildi.

UDS (Evrensel Ayrıştırma Semantiği) : UDS (White vd., 2016) şu anda anlamsal rol etiketleme, kelime anlamı ve gergin kategorileri (örneğin, gerçekçi / gerçekçi olmayan) içeren çok seviyeli bir yöntemdir. UDS, kitle kaynak kullanımı yoluyla elde edilebilecek erişilebilirlik farkını vurgular. Bununla birlikte, UDS tarafından temsil edilen iskelet yapısı, sözdizimsel bağımlılık ilişkisinden gelir ve bu yöntemle yalnızca fiil argüman yapısı çıkarılabilir. UDS'deki birçok farklılığın, birbirini dışlayan kategoriler yerine özellik yapıları kullanılarak tanımlandığına dikkat etmek önemlidir. Örneğin, anlamsal bir rol, AJAN kategorisine sahip olmak yerine + VOLITION ve + FARKINDALIK özelliklerine sahip olarak temsil edilebilir.

ThePrague Dependency Treebank (PDT) Tectogrammatical Layer (PDT-TL) (Prague Dependency Treebank-deep syntax layer) : PDT-DL (Sgall, 1992; Bo hmova vd., 2003) argüman yapısı (anlamsal roller dahil), zaman, ihmal, tema / odak, karşılıklı referans gibi zengin işlev türleri ve anlamsal ayrımları kapsar. Kelime anlamındaki belirsizlik ve yerel söylem bilgisi. PDT-TL, PDT sözdizimi katmanının soyutlamasından türetilmiştir ve sözdizimi ile yakın ilişkisi açıktır. Örneğin, PDT-TL, esas olarak sözdizimsel bir farklılık olan ana cümle ile cümle arasındaki farkı kodlar. Yani iki cümlede "John tam biz çıkarken geldi" ve "Aynen John geldiği gibi gidiyorduk", anlambilimlerinin aynı olmasına rağmen, ana cümle ve cümle değiş tokuş edilir ve farklı anlamsal temsiller elde edilir.

CCG tabanlı yaklaşım . CCG (steedman, 2000) sözcüksel bir gramerdir (yani neredeyse tüm anlamsal içerik bir sözlükte kodlanmıştır). Kelime öbekleri ve cümlelerin anlamlarını ifade etmek için sözcük bilgisinin bileşimini kullanan bir teoriyi tanımlar (bkz.Bölüm 6.2. Bu teorinin çeşitli anlamsal görevlerde etkili olduğu kanıtlanmıştır (Zettlemoyer ve Collins, 2005, 2007; Kwiatkowski ve diğerleri, 2010; Artzi ve Zettlemoyer, 2013, vb.) Bazı araştırma projeleri, CCG'yi anlamsal formlarla ilişkilendirerek (yapraklara mantıksal formlar atayarak) mantıksal temsiller oluşturur.Örneğin, Boxer (Bos, 2008) ve Boxer kullanımına dayalı GMB Söylem temsil yapısı (Kampand Reyle, 1993), Lewis ve Steedman (2013) Davidson tarzı lambda ifadelerini ve ardından yüklemli kelime sınıflandırmasını kullanırken, bu yöntemler, iyileştirilmiş olaylar da dahil olmak üzere olayları kodlamak için argüman yapılarını kullanır. Mantıksal yapı ve kelime bilgisi ve söylem bilgisi.

HPSG tabanlı çözüm . CCG temelli yöntemle ilgili olarak, kafa güdümlü kalıp yapısı gramerine dayanan anlamsal temsil yöntemidir (HPSG; Pollard ve Sag, 1994). Bu yöntemde sözdizimsel ve anlamsal özellikler, özellik yapıları olarak ifade edilir. Özellik yapısı, bileşik birimler oluşturmak için tek tip kurallar aracılığıyla yinelemeli olarak düzenlenir. HPSG'ye dayalı anlamsal temsil yöntemi genellikle en az özyinelemeli anlamsal kuralı kullanır (Copestake ve diğerleri, 2005). Açıklamalı külliyat ve yapay olarak tanımlanmış gramerler birçok dilde mevcuttur (Flickinger, 2002; Oepen ve diğerleri, 2004; Bender ve Flickinger, 2005, vb.), Genellikle argüman yapısı ve mantıksal anlamsal fenomenlere odaklanır. PDT-TL ve HPSG dilbilgisi Enju (Miyao, 2006) ve LinGO İngilizce referans grameri (ERG; Flickinger) ile açıklamalı külliyat dahil olmak üzere anlamsal bağımlılık analizi paylaşılan görevler ve külliyatın (Oepenet diğerleri, 2014, 2015) genelleştirilmiş kapsamı 2002) Çıkarılan bağımlılıklar.

PDT-TL gibi, CCG, HPSG ve LTAG (Joshi ve Vijay-Shanker, 1999) ve LFG (Kaplan ve Bresnan, 1982) (GlueTag (Frank ve vanGenabith, 2001)) gibi diğer dilbilgisi projelerine dayalı olarak Sözdizimi ile birleştirilmiş anlamsal temsil. Bu yöntem çıkarım, yazım denetimi ve harici biçimsel dillere eşleme için güçlü araçlar sağlasa da, bazı sözdizimsel ayrıntılardan temsilleri soyutlamada da sık sık zorluklarla karşılaşır. Örneğin, SDP külliyatındaki ERG'den türetilen bağımlılık ilişkisi, sahiplenmeye karşılık gelip gelmediklerine ("John'sdog" gibi) veya isim yüklemleri gibi farklı anlamlara sahip olup olmadıklarına bakılmaksızın, İngilizce sahiplik yapısının farklı ifadeleri için aynı etiketi kullanır. Argüman (ör. "John'skick"). Ayrıntılar için bölüm VI'ya bakın.

OntoNotes Birden çok birbiriyle ilişkili etiket katmanına sahip etkili bir kaynaktır. Bu etiketleme katmanları, sözdizimi, anlamsal rol etiketleme, karşılıklı referans ve kelime anlamındaki belirsizliği giderme gibi farklı yöntemlerden elde edilir. Yüklemin belirli öznitelikleri de kodlanmıştır, örneğin hangi isimlerin nihai olduğu.

Sonuç olarak, anlamsal temsil yöntemleri destekledikleri içerik türlerinde farklılık gösterse de, yöntemler gelişmeye devam ettikçe ve sürekli olarak yeni içerik türleri eklendikçe, bu farklılıklar giderek azalacaktır. Yöntemler arasındaki temel fark, gramer soyutlama derecelerinde yatmaktadır. Örneğin, AMR ve UCCA tasarımlarının bir parçası olarak sözdizimini soyutlarken diğer yöntemlerin çoğunda sözdizimi ve anlambilim daha yakından bağlantılıdır. Beşinci ve altıncı bölümlerde, anlamsal temsilin diğer yönlerindeki farklılıkları tartışacağız.

5 Değerlendirme

Anlambilimini konuşmacılar tarafından anlaşılabilecek anlamlar olarak tanımladığımıza göre, insan değerlendirmesi anlamsal temsil yöntemlerini doğrulamak için nihai kriterdir. Bir metnin anlamsal temsil yöntemi ile insan yorumu arasındaki yazışma derecesini ölçmenin ideal yolu, açıklayıcıdan önceden tanımlanmış kılavuzlara göre bazı anlamsal tahminler ve açıklamalar yapmasını istemek ve bu tahminleri ve ek açıklamaları SRT tarafından çıkarılan bilgilerle karşılaştırmaktır. . Anlamsal rol etiketlemesini yanıtlayan soru (QASRL; He ve diğerleri, 2015), uzman olmayanların wh sorusunu yanıtlamasını ve çıktısını SRL etiketlemesine dönüştürmesini gerektiren anlamsal bir rol etiketleme yöntemidir. Hartshorne ve diğerleri (2013) ve Reisinger ve diğerleri (2015), anlamsal rol setlerini değerlendirmek için açıklanan olaydaki argümanların anlamlı olup olmadığı gibi anlamsal rol özelliklerini elde etmek için kitle kaynak yöntemlerini kullanır.

Diğer bir değerlendirme yöntemi görev temelli değerlendirmedir. Doğal dil işlemede birçok anlamsal temsil, uygulamaya göre tanımlanır, bu nedenle bu değerlendirme yöntemini kullanmak doğaldır. Örneğin, AMR'nin ana tasarım amacı makine çevirisine uygulanmaktır ve makine çevirisi doğal olarak AMR değerlendirmesi için bir test platformu haline gelir (şimdiye kadar geliştirilmemiş olmasına rağmen). Başka bir örnek, bilgi tabanı sorgu görevlerinde anlamsal ayrıştırmayı değerlendirmek için soru ve cevabın kullanılmasıdır.

Anlamsal analiz yöntemlerini değerlendirmek için bir başka yaygın kriter, değişmezliktir. Başka bir deyişle, yeniden yazma veya çevirinin anlamsal analizi ile orijinal metin aynı olmalıdır (Xue vd., 2014; Sulem vd., 2015). Örneğin, çoğu yöntem aynı anlambilimini sözdizimsel olarak farklı iki cümleden soyutlar (1) "John'a bir hediye verdi" ve (2) "Hediye verilen John'du" (her ne kadar eksiksiz bir analiz yansıtacak olsa da Aralarındaki odak farkının dışında).

Daha da önemlisi, bu değerlendirme kriterleri, insan tanımından ziyade otomatik üretimi temsil eden durumlar için de geçerlidir. Örneğin, vektör uzayı gösterimleri genellikle göreve dayalı değerlendirme yöntemleriyle değerlendirilir veya anlamsal özelliklere göre hesaplanır ve bunların etkililik değerlendirme kriterleri, insan açıklamaları tarafından belirlenir (örneğin, Agirre vd., 2013, 2014).

Son olarak, manüel açıklama yoluyla (otomatikleştirilmiş prosedürel açıklama yoluyla değil) anlamsal yöntemler kullanılırken, açıklama kriterlerinin yeterince açık olup olmadığını ve kategorilerin açıkça tanımlanıp tanımlanmadığını belirlemek için ortak bir değerlendirme kriteri, farklı açıklamalar arasındaki tutarlılıktır. Başka bir deyişle, aynı metni açıklama için farklı ek açıklamalara atayın ve ek açıklama sonuçlarının tutarlı olup olmadığını gözlemleyin. Bu tür değerlendirme yöntemleri, AMR için SMATCH değerlendirmesini (Caiand Knight, 2013) ve UCCA'da DAG için geçerli PARSEVALF değer puanlama yöntemini (Black ve diğerleri, 1991) içerir.

Anlamsal temsil yöntemi, arka planda ve açıklamacıların gerektirdiği eğitim açısından da farklılık gösterir. Bazı yöntemler daha yüksek düzeyde bir eğitim gerektirir (örneğin, AMR), diğer yöntemler ise kitle kaynak kullanımı yoluyla (en azından kısmen) toplanabilir (örneğin, UDS). FrameNet gibi diğer yöntemler, yeni çerçeveler oluşturmak için uzman ek açıklamaları gerektirir, ancak mevcut çerçeveleri metne uygulamak için daha az eğitimli dahili ek açıklamalar kullanır; QASRL toplu ek açıklamalar kullanır ve dahili uzman olmayan ek açıklamaların UCCA sertifikasyonunu kullanır İlk eğitim döneminden sonra, uzman ek açıklamasının uzman olmayan notlara göre hiçbir avantajı yoktur. GMB, uzman işbirlikçilerin otomatik olarak oluşturulan anlamsal gösterimi manuel olarak düzeltmesini gerektiren başka bir yaklaşımı, yani çevrimiçi işbirliğini benimser. Ek olarak, ek açıklamaların belirli yönlerini toplamak için oyunlaştırma stratejileri kullanırlar.

Çok yönlülük . Anlamsal analizin en önemli avantajlarından biri (yüzeysel biçiminin ötesinde analiz), diller arası potansiyelidir. Bununla birlikte, araştırmacılar anlambilimde evrenselliğin teori ve uygulama önemini uzun zamandır kabul etseler de (Goddard, 2011), evrensel anlambilimin doğası hala bilinmemektedir. Son zamanlarda, BabelNet (Ehrmannet diğerleri, 2014), UBY (Gurevychet diğerleri, 2012) ve OpenMultilingual Wordnet gibi projeler Wikipedia ve WordNet gibi kaynakları birbirine bağlayarak ve bunları işlemek için en son doğal dil işleme yöntemlerini kullanarak devasa yapılar inşa etti. Çok Dilli Anlamsal Web. Bununla birlikte, bu projeler şu anda sözlüksel anlambilim ve ansiklopedi bilgilerine odaklanmaktadır ve metin anlambiliminde hala eksiklikler vardır.

Sembolik SRT yöntemlerinin (anlamsal rol etiketleme yöntemleri ve AMR gibi) diller arası uygulanabilirliği de araştırmacılar tarafından değerlendirilmiş (Pado ve Lapata, 2009; Sun ve diğerleri, 2010; Xue ve diğerleri, 2014) ve araştırmalar, diller arası uygulanabilirliğini göstermiştir. Dilin kısmi taşınabilirliği. PropBank ve FrameNet'in birden çok dilde çevrilmiş sürümleri oluşturulmuştur (örneğin, Akbiket diğerleri, 2016; Hartmann ve Gurevych, 2013). Bununla birlikte, hem PropBank hem de FrameNet sözcüksel yöntemler olduğundan ve diller arası sözlüklerdeki farklılıklara eşlik ettiğinden, bu yöntemler, diller arası transplantasyonda güçlü bir uyarlanabilirlik gerektirir (Kozhevnikov ve Titov, 2013). Devam eden araştırmalar, VerbNet'in sözcüksel olmayan rollerini evrensel olarak uygulanabilir bir gruba genişletir (örneğin, Schneidere ve diğerleri, 2015). Bazı semantik temsil yöntemleri, her ikisi de tipolojik teorileri kullanan UCCA ve LinGO gramer matrisi (Bender ve Flickinger, 2005) dahil olmak üzere ana standartlarından biri olarak diller arası uygulanabilirliği kullanır.

Kelimeleri ve cümleleri vektör uzayına yerleştiren vektör uzayı modeli, ortak bir diller arası alan oluşturmak için de uygulanır (Klementievet diğerleri, 2012; Rajendran ve diğerleri, 2015; Wu ve diğerleri, 2016). Bununla birlikte, anlamın hangi yönlerinin bu şekilde güvenilir bir şekilde yansıtılabileceğini belirlemek için daha fazla değerlendirmeye ihtiyaç vardır.

6 Sözdizimi ve anlambilim

6.1 Sözdizimsel ve anlamsal genelleme

Dilbilgisel farklılıklar genellikle anlambilim ve dağıtım yasalarından etkilenir ve farklı şemaların farklı odak noktaları vardır.

İfade temelli sözdizimsel yapıyı düşünün: İngilizce için Penn Treebank (Marcus ve diğerleri, 1993) ve Penn Chinese Treebank (Xue ve diğerleri, 2005) gibi yaygın örnekler X - Bar teorisinin adaptasyonu. Bileşenler genellikle, pasifleştirilip çıkarılamayacakları, göz ardı edilebilecekleri veya başlarına eklenebilecekleri, bağlayıcı zarflar olarak kullanılıp kullanılamayacakları gibi dağıtım yasasına göre tanımlanır (Carnie, 2002, s.50-53). Ek olarak, kelime öbeği kategorisi, isim cümlesi, fiil cümlesi veya edat cümlesi gibi baş kelimenin POS kategorisine göre tanımlanabilir. Benzer morfolojik ve sözdizimsel dağılımlarından dolayı, bu kelime öbeği kategorileri en azından kısmen dağıtılmıştır. Buna karşılık, anlamsal temsil yöntemleri, bu gerçek farklılıklardan soyutlama eğilimindedir ve yüklemin POS'unu veya argümanın durum etiketini önemsemeden aynı kategoriler kümesini kullanan cümlelerin argüman yapısını doğrudan yansıtır.

İşlevsel dilbilgisi yaklaşımı (doğal dil işlemede en yaygın kullanılan biçim, sözcüksel bağımlılık yapısıdır), aynı zamanda, önemli bir konuma sahip olmasa da, açık bağlam dağılımı hususlarına sahiptir. Öne çıkan bir örnek, tutarlı diller arası bağımlılık etiketlemesi üretmeyi amaçlayan Evrensel Bağımlılıklardır (UD; Nivre ve diğerleri, 2016). Etiketleme kategorisi, anlambilim ve dağıtımın kapsamlı bir şekilde ele alınmasıyla belirlenir. Örneğin, "John, kardeşim geldi" ve "kardeşim olan John geldi" aynı anlamlara sahip olsa da, UD hala "John" ve "erkek kardeş" arasındaki bağımlılık türünü ayırt etmektedir. Bunun nedeni, ilkinin apposition kullanması ve ikincisinin atıf cümlelerini kullanması, dağılımlarının farklı olmasıdır.

Aşağıdaki örnekler, UD tarafından kullanılan farklı sınıflandırma yöntemlerini AMR ve UCCA gibi saf anlamsal yöntemlerle karşılaştırmaktadır. (1) "Okulun kuruluşunu" (2) "Birleşik Devletler başkanı" ve (3) "Birleşik Devletler başkanı" nı düşünün. UD sözdizimsel yapıya sadıktır, bu nedenle (1) ve (2) benzer özellik temsillerine sahipken (3) 'e farklı bir yapı atanacaktır.AMRUCCA231

6.2

- Montague1970

CCGHPSGBenet al.2015hesneezed the napkin off the tablesneezedoffFillmoreet al.1988; Goldberg1995Fillmoreet al.2012Feldmanet al.2010Steelsand de Beules, 2006

AMRUCCA

UCCAAMRAMRReddyet al.2016

Kağıt indirme bağlantısı: