g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Stony Brook'taki New York Eyalet Üniversitesi: Sosyal medya metinlerine dayanan karşı-olgusal düşüncenin tanınması

ACL 2017 Kısa Bildiriler

Sosyal Medya Metnine Dayalı Karşı-Olgusal Düşünme Tanıma

Sosyal Medya Metinlerinde Karşı-Olgusal Düşünmeyi Tanıma

New York Eyalet Üniversitesi, Stony Brook

Stony Brook Üniversitesi

Özet Karşı-olgusal ifadeler esas olarak meydana gelmeyen olayları ve sonuçlarını açıklar ve olay çözümü, duygusal yönetim ve davranış normları alanlarında kapsamlı bir şekilde incelenmiştir. Daha fazla karşı-olgusal düşünceye sahip insanlar, yaşam olaylarının daha kişisel olduğunu düşünme eğilimindedir. Ancak, karşı olgular henüz hesaplamalı dilbilimde incelenmemiştir. Karşı olgusal tweet'lerden oluşan bir veri kümesi oluşturuyor ve kural tabanlı ve denetimli istatistiksel yöntemler kullanarak karşı olguları tespit etmenin yollarını araştırıyoruz. Kural ve istatistik kombinasyonuna dayalı bir yöntem, en iyi sonuçları verir (F1 = 0.77), bu, tek başına kuralları veya istatistikleri kullanan bir yöntemden daha iyidir.

1. Giriş

Karşı olgular, gerçekleşmemiş olayların yanı sıra meydana gelebilecek (veya olmayabilecek) olayları ve gerçekleşirse (örneğin, "Kolumu kırmadıysam, onu hiç görmedim") tanımlar. Daha doğrusu, karşı olgusal koşul "Eğer A durumundaysa (veya A değilse), o zaman B (veya B değil)" dir.

Karşı olgular birçok farklı alanda incelenmiştir. Mantıkçıların ve filozofların odak noktası, öncül ile bunun sonucu olan karşı olgusal biçim ve sonuç arasındaki mantıksal ilişkidir (Goodman, 1947). Bunun aksine, siyaset bilimciler genellikle tarihsel olaylar, politikalar veya toplumun diğer yönleri hakkında varsayımsal testler yaparlar ve karşı-olgusal düşünme deneyleri yaparlar (Tetlock, 1996).

Özellikle psikolojide, karşı-olgusal düşünme, geçmiş olayların, davranışların veya durumların yerine geçen zihinsel bir temsil olarak tanımlanır. Kullanımlarının birçok farklı demografi (yaş, cinsiyet) ve psikolojik değişken (depresyon, dini inançlar) ile ilişkisi araştırılmıştır (Kray vd., 2010; Markman ve Miller, 2006). Karşı-olgusal düşünme, hayattaki olayların daha anlamlı, kader belirlendiğini ve hatta kutsaldan (Kray vd., 2010; Buffone vd., 2016) ve problem çözmeden etkilendiğini düşünmekle ilişkilidir, çünkü hayal edilen alternatif sonuçlar ihtiyacı kolayca düşünebilir İyileştirme adımları (Epstude ve Roese, 2008; Roese, 1994). Ayrıca, özellikle hayal gücü gerçekte olduğundan daha kötü olduğunda, duygusal yönetim ile ilişkili olduğu gösterilmiştir (Epstude ve Roese, 2008; Roese, 1994)

Karşı-olgusal düşünme diğer alanlarda geniş çapta incelenmesine rağmen, karşı-olgusal dil formları hesaplamalı dilbilimde çalışılmamıştır. Sosyal medyada dil modellerine dayalı karşı-olgusal düşüncenin tanınması, kullanıcıların günlük dillerine dayalı olarak psikolojik analiz yapmalarına ve karşı-olgusal düşünceyi büyük ölçekte yakalamak için geleneksel psikolojik değerlendirmeyi kullanmanın yüksek maliyetinden kaçınmalarına olanak tanır.

Bu nedenle, bu makalede, Twitter ve Facebook sosyal medya metinlerindeki karşı olgusal formları belirlemek için dil temelli bir model oluşturuyoruz. Bu görevde birçok zorluk var. İlk olarak, karşı olgusal ifadeler için taban oran çok düşük; Facebook'taki durum güncellemelerinin yalnızca% 2'sinin ve tweetlerin% 1'inin karşı olgusal ifadeler içerdiğini gördük. İkinci olarak, karşı-olgusal ifadeler birçok doğal dil biçimini alabilir. Örneğin, açık if veya then cümleleri kullanabilirler veya kullanmayabilirler (örneğin, "Onunla tanışmamış olsaydım, o zaman daha iyi durumda olurdum" Onunla tanışmadım ").

Sosyal medya metinlerindeki doğal dildeki karşı olgusalların düşük kıyaslama oranı ve yüksek değişkenliği, basit dilbilimsel veya istatistiksel özellikler kullanarak karşı-olgusal düşünceyi tanımlamayı zorlaştırır. Bu zorlukları, birleşik kurallar ve istatistiksel yöntemler kullanarak aşıyoruz. Başarımızın anahtarı, yedi alt türün karşı olgularını daha iyi kapsama sahip olacak şekilde belirlemektir.

2. İlgili çalışma

Karşı olguyu tanımak, birçok yönden metinsel ilişkileri tanımaya benzer. İlişki sınıflandırması açısından, karşı olgusal koşullar, Penn Discourse Tree Bank (PDTB) (Prasad ve diğerleri, 2008) veya Retorik Yapı Teorisi (RST) koşullu ilişkilerinin (Mann) koşullu türlerinin bir alt kümesi olarak kabul edilebilir. ve Thompson, 1987). Ek olarak, PDTB'deki tüm bölüm ilişkileri gibi, karşı olgusallar iki biçime sahiptir, örtük ve açık ve bu nedenle belirli sözcüklerin varlığıyla benzersiz bir şekilde tanımlanamaz.

Birçok araştırmacı, uçtan uca metin ilişkisi analizi için PDTB ve RST'yi kullanmaya çalışmıştır (Biran ve McKeown, 2015; Lin vd., 2009; Ji ve Eisenstein, 2014). Birçoğu, aralarındaki ilişkiyi anlamak için bağımsız değişken algılama veya temel metin birimi (EDU) segmentasyonu için bağımlılık analizi veya kelime öbeği yapısı analizi kullanır. Bununla birlikte, sosyal medya metninin kısa uzunluğu ve kalitesizliği, bağımlılık analizi ve cümle yapısı analizinin yapısını güvenilmez hale getiriyor. Örneğin, posterler genellikle cümlenin konusunu gözden çıkarır.

Diğer çalışmalar, belirli bir ilişkinin argümanlarının belirlendiği varsayıldığında ilişkilerin sınıflandırılmasına odaklanmaktadır (Park ve Cardie, 2012; Pitler ve diğerleri, 2009). Metinsel ilişkiler için verilen bir argümanda çeşitli öğrenme algoritmalarını ve özellik türlerini keşfederler. Sonra, hangi kombinasyonların her bölüm ilişkisinde en iyi performansı verdiğini gösterdiler.

Çalışmamız, metinsel ilişkilerin sınıflandırılmasında, ilişkinin her bir argümanını doğru bir şekilde bölmek yerine, karşı olgusalların temel özelliklerine odaklanan bir görev olarak kullanılabilir. Psikoloji araştırmaları gibi aşağı akış uygulamalarının çoğu, kesin derecesinden ziyade bir karşı olgunun olup olmadığını bilmeye ihtiyaç duyar.

3 yöntem

Twitter'dan karşı olgusal ifadeleri yakalamak için kural tabanlı bir yaklaşım ve denetimli bir sınıflandırıcı kombinasyonu kullanıyoruz.

3.1 Veri seti

Mevcut bir karşı olgusal ifade külliyatı bulunmadığından, Mayıs 2014 ve Temmuz 2014 tarihleri arasında rastgele tweet'lerden kendi veri setimizi topladık. Daha önce de belirtildiği gibi, karşı olgusal ifadeler nadirdir, bu nedenle ilk önce karşı olguyu temsil eden anahtar kelimeleri içeren 1.637 rastgele tweet'leri belirledik (Tablo 1'deki Eğitim ve Test satırlarından). Anahtar kelime seçimi kısmen, en azından, sadece ya da bir dahaki sefere olması gerektiği gibi, kendiliğinden karşı-olgusal üretime ilişkin mevcut literatüre dayanmaktadır (Sanna ve Turley, 1996). Verilerin görsel incelemesine dayanarak, başka karşı olgusal formlar (istek gibi) belirledik. Daha sonra, daha fazla inceleme için 500 tweetlik bir örnek seçmek için genel anahtar kelime listesini kullanırız. Makul olmayan derecede yüksek yanlış pozitif oranlara sahip kelimeleri veya cümleleri ortadan kaldırır. Daha sonra, iyi eğitimli bir yorumlayıcı, 1.637 tweet'i% 10 pozitif yönde manuel olarak etiketledi ve sonuçta 166 karşı olgusal ve 1.471 negatif örnek elde edildi. Eğitimde rastgele oluşturulmuş 500 örnek kümesi kullanılır ve geri kalanı test için ayrılmıştır. Eğitim setimizi her tür karşı olguyu yakalayacak şekilde oluşturmak için, Brown kümeleri ve PTB etiketleme modelleriyle (aşağıda açıklanmıştır) normal ifadeler kullanan bir tamamlayıcı olarak 2012 rastgele tweet'lerden bir eğitim veri seti ekledik. İstatistiksel model için tanımladığımız yedi karşı olgusal formun her birinden en az otuz tweet çıkarın. Bu süreç boyunca, modeli yalnızca karşı olgusal ipucu cümleleri kullanılarak toplanan veri örnekleri için daha az önyargılı hale getiriyoruz. Ek olarak, bu model önceki çalışmadan farklı karşı olgusal formları tanır. Karşı olgusal ek açıklama biçimini değerlendirmek için, 1,637. tweet arasında bir etiketler arası anlaşma oluşturuldu ve ikinci değerlendirici = 0.774 ve manuel açıklama F10.791'i elde etti.

Tablo 1 Veri seti. "CF" bir karşı olgudur ve "CF Olmayan", karşı olgusal değildir.

3.2 Sınıflandırma

Sosyal medya metninden karşı olgusal kalıpları yakalamak için ilk önce kural tabanlı bir model kullanıyoruz. Ardından, aldatıcı yanlış pozitif formları (örneğin, "size en iyisini diliyorum") karşı olgusal benzeri bir biçimde tanımlayarak doğruluğu artırmak için istatistiksel bir model (doğrusal SVM) kullanırız.

Kural tabanlı sınıflandırma. Kurala dayalı yaklaşımımız yedi karşıt olgusal şekle dayanmaktadır (Tablo 2). Bu makaledeki yöntemin özü, özellikle literatürü okumaya dayanan (Kray ve diğerleri, 2010) ve birçok karşı olgusal örnek üzerinde çalışmış olan teorimizdir.Tablo 2'de gösterildiği gibi karşı olgusalların yedi farklı formu vardır. İlk olarak, Twitter konuşma bölümü (POS) etiketi (Gimpel ve diğerleri, 2011) tarafından tahmin edilen soru işaretiyle biten cümleyi "cümle sonu" olarak siliyoruz. Ardından, bilgi istemi cümleleri (kalın), POS etiketleri ve kelime kümelerinin bir kombinasyonunu temel alan normal ifadelere dayalı kalıp eşleştirmeyi kullanırız. Bir dizi Twitter Brown kümesine dayanan bir kelime kümesi, sosyal medya metnindeki birçok kelime değişikliğini yakalamak için kullanılır (örneğin, "shuldve" "olmalıdır"). Bu yöntemin kelime segmentasyonu ve konuşma kısmıyla eşleşmesi gerekir, çünkü her kelime segmentasyonunun POS etiketi karşı olgusal form için önemlidir.

Kurala dayalı yaklaşım, karşı-olgusal ilişkilerin argümanlarını tespit etmemize izin verdiği için de yararlıdır; Konjonktif Normal / Ters formlardan ve Fiil Tersine çevirme formlarından koşullu ifadeler ve sonsöz ifadeleri, Wish Fiil ve Olabilir / Yapabilir / Olmalıydı Beyan. İlk fiil cümlesini veya birleşimini sınır olarak, Biran'ın sınırlandırma yöntemini bildirim cümlesinde daha fazla argüman yakalamak için özelleştirmek için kullanıyoruz: bir argüman tespiti için, gramer cümlesini cümlenin sonuyla hizalıyoruz (örneğin, olacak). İki parametre için, koşul kelimesini (örneğin, olmadığı sürece) ve bildirimin sonunu veya ikinci fiil dizisinin başlangıcını böleriz.

Konuşma etiketlemesinin bir parçası. Tweet POS etiketleri (Gimpel ve diğerleri, 2011) yerine Penn Treebank (PTB) Tweet POS etiketlerini kullanıyoruz çünkü daha ayrıntılı kategoriler içeriyor ve daha yüksek desen eşleştirme doğruluğu sağlıyor. Örneğin, Tweet POS etiketi yardımcı fiiller, geçmiş zaman fiilleri ve diğer fiil türleri arasında ayrım yapmaz, ancak hepsini "V" olarak sınıflandırır. Bununla birlikte, karşı-olgusalların birçok biçiminde, diğer fiil türlerinden gelen yardımcı fiiller ile geçmiş zaman arasındaki ayrım çok önemlidir (örneğin, Should / Could / Would Have formu). Son olarak, daha doğru tahminler elde etmek için Tweet POS analiz sonuçlarını sonradan işleriz. İlk olarak, RT etiketini ve kelime segmentasyonunu siliyoruz çünkü bu bizim görev bilgimiz değil. Ardından, "USR" kelimesini bir isme dönüştürüyoruz, çünkü "USR" olarak işaretlenen kelimeler genellikle metinsel ilişkiler için ortak isimler olarak kullanılıyor. Ek olarak, POS etiketini geliştirmek için, modal fiillerin değişikliklerini "MD" olarak işaretlemek için Brown kümeleme kullanıyoruz ve diğer koşullu bağlaç türlerini (yani Brown sınıfı "if") ayırt etmek için kullanılan yeni bir etiket olan "CCJ" yi tanımlıyoruz. .

İstatistiksel modelleme. Her karşı-olgusal form, her ilişki için farklı sayıda argümana sahiptir ve en çok hataya neden olan özellikler de farklı türdendir. Bu nedenle, her bir hata biçimini ayrı ayrı analiz ediyor ve en iyi performansı sağlamak için farklı yöntemler kullanıyoruz.

Tweet, karşı olgusal tablo 1, 2, 3, 4 veya 5'in kurallarına uyuyorsa, sürekli kelime (n-gram) özellikleriyle eğitilmiş bir istatistiksel model ve kelime dağarcığının POS etiketleri ve tüm cümle daha fazla sınıflandırma için kullanılır.

İstatistiksel modelin, parametreler ve kelime dağarcığı ve konuşma parçası örüntüleri arasındaki bazı örtük ilişkileri yakalaması beklenir, ancak kurala dayalı yöntem yüksek doğruluk elde ettiğinde performansı da etkileyebilir. Bu nedenle, yüzey desenleriyle kolayca ayırt edilemeyen karşı olgusal formlara istatistiksel yöntemler uyguluyoruz. Bu formlar teorik ve ampirik analiz yoluyla seçilir; bu formları değerlendirme bölümünde daha ayrıntılı olarak tartışıyoruz.

Tablo 2 Karşı olgusal formlar

4 Değerlendirme

Tartışıldığı gibi, karşı olgular, kurallar veya belirli kelimelerle kolayca tanınmaz. Düşük kıyaslama oranı ve çeşitli formları göz önüne alındığında, geleneksel makine öğrenimi yöntemleri, genellikle tüm tweetleri en yaygın kategori (karşı olgusal olmayan) olarak işaretleyerek rastgele tweet örnekleri üzerinde eğitilir. Zengin bir karşı olgusal eğitim seti kullanmak doğruluğu artırdı, ancak yine de dengesiz test setinde düşük bir F1 değeri verdi.

Bu nedenle, sınıflandırıcıyı dengesiz veri setlerine karşı sağlam kılmak için, istatistiksel modelin yanlış negatif oranında önemli bir azalmaya yol açan karşı olgusal biçime sahip kural tabanlı bir model tasarlıyoruz. Ek olarak, eğitim setinde bu tür örneklerin olmamasına rağmen, kurala dayalı model, daha doğru örneklerin tüm olası formlarını yakalar. Bu, F1'in genel performansında önemli bir artışa yol açtı. Bununla birlikte, doğruluk oranı çok düşüktür çünkü ince farklılıklara sahip modellerde negatif numuneleri tespit edemez.

Tablo 3 Sınıflandırıcı performansı

Kombinasyon yöntemi en iyi sonuçları verir. Tablo 3'te gösterildiği gibi, istatistiksel model en yüksek doğruluk oranına ulaşırken, kurala dayalı model en yüksek hatırlama oranına ulaştı. Ancak, tüm sürecimiz (Tablo 3'teki "CF ayrıştırıcı") iki yöntemi birleştirerek en iyi genel performansı elde etti.

Wish Fiil tahminleri için istatistiksel modelden büyük bir performans artışı elde edilir, çünkü yüksek frekanslı yanlış pozitifler doğum günü dilekleri veya Yeni Yıl selamları gibi karşı olgusal formlara sahiptir. Dilek Fiili olarak sınıflandırılan örnekte, karşı-olgusal tahmin F1 istatistiksel modelin nihai tahmininden sonra 0.82'den 0.90'a yükselmiştir.

Tablo 4 Her işlemin ablasyon testi

Son olarak, boru hattının her bir sürecinin sınıflandırıcının genel performansını nasıl etkilediğini analiz etmek için bir ablasyon testi yaptık (Tablo 4). Normal tweet'lerin yapısı nispeten basit ve öz olduğundan (Tablo 4'te Arg), algılama etkisi beklediğimizden daha düşüktür (F1.01).

İstatistiksel modelin özelliği olarak yalnızca n-gram kullanan ve PTB tarzı Tweet POS etiketini kullanmayan F1, nispeten büyük bir düşüş (0,02) gösterdi. Dilbilgisi açısından bakıldığında, n-gram, karşı olgusal POS etiketlerinden daha az bilgiye sahiptir, özellikle de sosyal medyada her kelime segmentasyonunun çok fazla varyasyonu olduğu düşünüldüğünde (örneğin, "clda", "coulda", "canve" " olabilir").

İstatistiksel modellerin her karşı olgusal formun nihai performansını nasıl etkilediğini inceledik. Dilek Fiili biçiminde (doğum günü istekleri gibi) sık yanlış pozitifleri filtrelemek için kullandığımız model, kaldırıldığında 0,03 F1 düşüşüne neden olacaktır. Ayrıca sınıflandırıcı, argümanlar arasındaki ince ilişkiler üzerine karşı olgusal tahminler yapamadığı için, iki boyutlu argüman ilişki formu (Conjunctive Normal / Converse, Modal Normal, Fiil Ters Çevirme) ile eğitilen model yöntemden çıkarıldığında, F1'in 0,04 düşmesine neden olur.

5. Sonuç

Bu, sosyal medyadaki karşı olgusalları belirleyen ilk çalışmadır ve umarız daha fazla insan bu sorunu çözebilir. En iyi sonucumuz, zorlu formları yeniden sınıflandırmak için farklı karşı-olgusal teoriler ve anahtar istatistiksel yöntemler kullanan, kurala dayalı yöntemlerin bir kombinasyonudur. Karşı-olgusal tahmincimiz artık, karşı-olgusal kullanımını daha fazla incelemek için iyi bilinen eğitim, dini inançlar, siyasi yönelim, sağlık vb. İle ilgilenen psikolog ve siyaset bilimcilerinin çok sayıda Twitter ve Facebook gönderilerinin koleksiyonuna uygulanabilir. teori.

Kağıt indirme bağlantısı:

Köy ortamını iyileştirmek için Pekin, Fangshan, Liangxiang Kasabasında 130.000 metrekare arazi boşaltıldı

Çocuğu bırakma! Size bir dizi "Yabancı Çöp Alışveriş Rehberi" veriyorum!