g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

EMNLP 2017 University of Rennes: Siyasi kampanya konuşmasının konu imzası

EMNLP 2017 Düzenli Bildiriler

Siyasi kampanya konuşmalarında konu imzaları

Siyasi Kampanya Konuşmalarında Konu İmzaları

Rennes Üniversitesi

Rennes Üniversitesi 1

[Özet] Aday konuşmalarında öne çıkan temaların tekrar tekrar kullanılması, siyasi kampanyalarda her adayın ana noktalarını belirleyen anahtar bir özelliktir. Bu makalede, 2016 ABD başkanlık kampanyası sırasında Clinton ve Trump tarafından yeniden üretilen konuşma temalarını analiz etmek için standart konu modelleme ve imza madenciliğini birleştiren bir yöntem sunuyoruz. Sonuçlar, yöntemin her adayın ana fikirlerini otomatik olarak çıkarabileceğini ve kampanya sırasında bu konuların gelişimi hakkında bilgi sağlayabileceğini göstermektedir.

1. Giriş

Siyasi söylem analizi (Van Dijk, 1998), amacı konuşmalarda veya tartışmalarda siyasi söylemin göze çarpan özelliklerini açıklığa kavuşturmak olan bir söylem analizi dalıdır. Bu açıdan bakıldığında, başkanlık seçimi incelemek için ilginç bir veri seti sunuyor. Aslında bu, bir ülkede önemli bir siyasi olaydır ve adayların kişisel olarak seçtikleri sosyal sorunları tartıştıkları ve kendi çözümlerini detaylandırdıkları birçok siyasi toplantıyı tetiklemiştir. Bu durumda, adayların favori konularını ve kampanya boyunca nasıl gelişeceklerini belirlemek çok önemli bir görevdir.

Literatürde (Savoy, 2010) yazar, Obama ve McCain arasındaki 2008 ABD başkanlık seçimleri sırasında gereğinden fazla veya az kullanılan kelimeleri karşılaştırarak siyasi konuşmalardaki konuların gelişimini analiz ediyor. Aylık olarak, kampanya temasındaki olası değişiklikleri belirlemek için bu belirli kelimelerin kullanım dinamikleri analiz edilir. Bu yöntemin sınırlaması, döngünün sabit (aylar) olması ve öngörülebilir (oylama, tartışma) veya öngörülemez (skandal) olayların genellikle siyasi faaliyetlere ritim getirmesidir. Diğer çalışmalar, gizli Dirichlet tahsisi (LDA) (Bleiet ark., 2003), gizli anlamsal Anlayis (LSA) (Seung ve diğerleri, 1998) veya negatif olmayan matris çarpanlara ayırma (NMF) gibi konu modelleme yöntemlerini kullanmıştır. (Leeand Landauer, 1999), araştırma siyasi teorisi (Prabhakaranet diğerleri, 2014; Quinn ve diğerleri, 2010). Örneğin (Quinnet ve ark., 2010), yasama konuşmaları için bir konu modeli tanımlar. Bununla birlikte, bu çalışmaların her biri her seferinde bir konuyu inceler ve yaygın olarak alıntılanan bir grup konu, adayın siyasi programının çekirdeğini oluşturduğu için daha uygundur. Siyasi analiz üzerine başka çalışmalar da var (Calvet ve Veronis, 2008), ancak konuşmalarda önceden tanımlanmış tek kelimelerin kullanılmasıyla ilgileniyorlar ve amacımız, tekrar eden (hangi konunun tekrarlandığını bilmiyorum) keşfetmektir. Konu (birden çok konu).

Bu yazıda, her adayın siyasi konuşmalarda dikkate aldığı en popüler konuları ve bunların kampanya boyunca nasıl ve ne zaman geliştiğini bulmayı öneriyoruz. Bize göre bu, her adayın ana fikirlerini ve evrimlerini tanımlamak ve açıklamak için önemli ipuçları sağlar. Bu nedenle, adayın belirli bir süre boyunca tartıştığı konulardan oluşan bir koleksiyon olan, adayın siyasi konuşmasından konu imzasını çıkarma yöntemini açıklıyoruz. Bu yöntem, 2016 ABD başkanlık seçimleri sırasında Hillary Clinton ve Donald Tron'u analiz etmek için standart bir konu modelleme tekniği olan NMF (Lee ve Seung, 1999) ve imza madenciliğini (gautraa ve diğerleri, 2017) birleştiriyor. Pu'nun konuşması. Bu yöntemin iki avantajı vardır. Her şeyden önce, kampanya konuşmalarının toplanması konu imzalarına göre modellenmiştir, yani kampanya faaliyetlerinde tekrar eden konular, sabit bir döngüde görünen belirli sözcükler koleksiyonundan ziyade esnek bir döngüde görünür. Konu imzası, her adayın ana fikirleri ve önerileri hakkında daha soyut bir görünüm sağlar. İkinci olarak, imza madenciliği teknolojisi, kampanyanın dinamiklerini daha iyi anlamak için otomatik olarak kampanya ritminin dönemselliğine uyum sağlayabilir.

2 Tema imza modeli

Politik faaliyetlerde yinelenen temaları modellemek için bir imza modeli kullanıyoruz (Gautraa ve diğerleri, 2017). Model başlangıçta perakende müşterilerin tekrarlanan satın alma davranışlarını yakalamak için geliştirildi. Politika ve perakende arasındaki benzerlik, tüketicilerin satın aldıkları malların düzenli olarak aldıkları malları da içermesidir, aynı şekilde politikacıların konuşmaları da tekrarlanan konuları içerir.

Bir dizi konuyu (W) ve bir dizi dersi (), örneğin = < (t1, S1), (t2, S2) ... (tn, Sn) > ,

, ti, Si'nin zaman damgasını verir. Örneğin, Şekil 1'de, W = {a, b, c, d, e}, a, kronolojik sıraya göre düzenlenmiş 7 konuşma dizisidir. S3 konuşmasında b ve d'den bahseden iki konu olduğunu görüyoruz.

Şekil 1 Bir konuşma dizisi ve 4 bölüm, yinelenen tema {a, b}

Konuşma dizisinin k'inci bölümü

, 'nın k üst üste binmeyen sürekli alt dizilerinden oluşan bir dizidir, Ei bir parça olarak adlandırılır ve her biri sürekli bir konuşma içerir. Şekil 1, 4 bölümün bir örneğini göstermektedir İlk bölüm E13 ders (S1, S2, S3), E22 ders (S4, S5), E3 S6 içerir ve E4 S7 içerir. Bu bölüm, konuşma sayısı ve zaman aralığı bakımından farklı boyutlarda parçalar içerir. Bu modun esnekliği, kliplerin boyutunun dizinin ritmine göre ayarlanmasına izin verir.

Bir k-imzası konusu olan Rec (, k), 'nın k-segmentinde görünen en büyük tekrarlanan konu grubu olarak tanımlanır. Kabaca konuşursak, 'nın k segmenti verildiğinde

,Sahibiz

. Başka bir deyişle, Rec (, k), her dilimde tekrar tekrar görünen tüm P (, k) konu setlerini içerir. Rec (, k) en büyüğüdür, yani 'nın k-segmentinde elde edilen en büyük tekrar eden konu grubudur:

,onların arasında

. k, dizisindeki özne imzasının yinelenme sayısını verir. Bu nedenle, k tekrar sayısı göz önüne alındığında, konu k-imzasını bulmak, her bölümde görünen konu kümesinin boyutunu en üst düzeye çıkaran k-segmentini bulmaya bağlıdır. Örneğin, Şekil 1'de, {a, b} konu 4-imzadır, Rec (, 4) = E1 E2 E3 E4 = (S1 S2 S3) (S4 S5) (S6 ) (S7) = {a, b, c, d} {a, b} {a, b} {a, b, c, e} = {a, b}. 4 bölümlü her bölümde, tekrarlanan temaların geniş bir koleksiyonu yoktur. Bu örnekte gördüğümüz gibi, parçaların boyutu farklı olabilir Konuşmaları parçalara ayırmak konu imzasını maksimize eder.

İmza modeli iki tür bilgi içerir. Birincisi, Ej'de bulunan tüm yinelenen temaların kesişimi. Bizim durumumuzda bu, bir adayın kampanya konuşmasında daha önce bahsettiği bir konuyu ortaya çıkardı. İkinci bilgi, parça zaman damgası yoluyla zamandadır. Bu zaman damgaları, temanın kullandığı ritmi ortaya çıkarır. İmza aslında temayı ve dinamiklerini yeniden üretmeyi sağlamak için bu iki bilgiyi birbirine bağlar.

K'nin değerini değiştirerek, ana temaları (k çok büyükse) veya ikincil temaları keşfedebilirsiniz - bu temalar yine de tekrarlanacaktır (k çok küçük olduğunda). Bu nedenle, tekrar eden temalar ve dinamikleri farklı zaman ölçeklerinde analiz edilebilir. Önceki bazı yöntemlerden (Savoy, 2010) farkı, her bir bölüm Ej'nin boyutunun önceden tanımlanmamasıdır. Bunun yerine imza, temanın ritmini ortaya çıkarmak için segment ve parça boyutunu ayarlar.

3 Örnek olay: 2016 ABD başkanlık seçimi

Bu bölümde, 2016 ABD başkanlık seçimi sırasında Clinton ve Trump'ın tematik imzaları analiz ediliyor.

3.1 Veri seti

Bu veri seti, iki başkan adayı Clinton ve Trump'ın Nisan 2015'ten Kasım 2016'ya kadar yaptığı kampanya konuşmalarının dökümlerini içermektedir. Bu konuşmaların tamamı ABD Başkanlık Projesi'nden (APP) alınmıştır. Toplam 164 konuşma yapıldı: Clinton'ın 93'ü ve Trump'ın 71'i.

3.2 Ön İşlem

Veri seti aşağıdaki şekilde ön işlenir. Öncelikle adayın sözlerine uymayan cümleler (muhabirin sorusu, başka bir konuşmacının tanıtımı, ...) kaldırıldı. Daha sonra bu cümleler işaretlenir ve belirli parça (POS) etiketleriyle ilişkili katılımcılar korunur. Kesin olmak gerekirse, fiiller ve kişisel isimler silinirken isimler, sıfatlar ve alıntı kelimeler korunur. Fiili silmek anlamsal bilginin kaybolmasına neden olsa da, daha yorumlanabilir bir tema oluşturduğunu gördük. Fiilleri silme seçeneği, daha önce siyaset teorisinde konu modellemesi için kullanılmıştır (Zirn ve Stuckenschmidt, 2014). Kişisel isimlerin atılması, görüşmecilere veya diğer politikacılara yapılan tüm atıfları silmek için kullanılır. Bazı uygun terimleri (aktivistlerin ve diğer bazı politikacılarınki dahil) tutmayı düşündük, ancak konu modelleme adımına gürültü ekledi ve ilgili ek bilgi sağlamadı. Son olarak, kalan katılımcıları sınıflandırın ve durdurma sözcüklerini silin. WordNet lemmatizer (Miller ve Fellbaum, 1998) ve nltklibrary3 (Bird ve diğerleri, 2009) durdurma sözcük listesini kullanıyoruz. Nihai veri seti 6240 farklı token içerir.

3.3 konu modelleme

Kelimeleri doğrudan analiz etmek mümkün olsa da (Savoy, 2010) konuyu incelemeye karar verdik. Bu seçimin ana nedeni, temaları yeniden üretmeye çalışmamızdır ve kelimeleri doğrudan kullanmak ilginç olmayan sonuçlar verecektir, çünkü kelimeleri yeniden üretmek her adayın fikirlerini doğrudan temsil etmez. Farklı konu modelleme tekniklerini (Stevens ve diğerleri, 2012) (LDA (Blei ve diğerleri, 2003) ve NMF (Lee ve Seung, 1999)) farklı parametreler, konu sayısı ve ayarlarla (örneğin, Bir fiil var mı). Sonuç olarak, NMF'nin 15 konudan oluşan istatistiksel bir vektörde en anlamlı, çeşitli, ancak gereksiz konuları ürettiği sonucuna vardık. Bu temalardan bazıları ve üst düzey lemaları Tablo 1'de gösterilmektedir. Bununla birlikte, diğer konu modelleme tekniklerinin (Greeneand Cross, 2017) gibi) da kullanılabileceği ve anlamlı sonuçlar getirebileceği unutulmamalıdır. Aslında, yöntemimiz temalara dayandığından, yeterince iyi bir tema sağlayan herhangi bir teknik kullanılabilir. Konu modelindeki herhangi bir iyileştirme, daha kesin sonuçlar çıkarmaya yardımcı olabilir (daha net bir konu varsa). Bu cümle aynı zamanda fiillerin ve kişisel isimlerin kaldırılması için de geçerlidir.

Tablo 1 NMF tarafından keşfedilen konular ve ana lemleri

NMF'de konuşmalar, tüm konuları kapsayan bir dijital ağırlık vektörü ile temsil edilir. Bununla birlikte, imza modeli sembolik veriler üzerinde çalışır, bu da her konuşmanın bir dizi temsili konu seçmesi gerektiği anlamına gelir. Ana konuşma konularını ayırt etmek istediğimizde, her bir konuşmanın ağırlık vektörlerini kümelendiriyoruz. Birincisi en yüksek ağırlığı, yani ana konunun kümesini ve ikincisi en düşük ağırlıklı ikincil veya var olmayan konuyu içeren iki küme bulmanız gerekir. Scikitlearn kitaplığından4 spektral kümeleme tekniğini (Shi ve Malik, 2000) kullandık (Pedregosa ve diğerleri, 2011). Ana konuyu ikincil konudan ayırmak için uygun olmadığı için Öklid mesafesine dayalı teknikler (k-aracı (MacQueen ve diğerleri, 1967) gibi) kullanmadık. Ortalama olarak, her konuşmanın üç konusu vardır.

3.4 Özne imza çıkarma

Ana konuları farklı zaman ölçekleri altında incelemek için farklı k değerlerine sahip imzaları hesapladık.Tablo 2 sonuçları göstermektedir.

Tablo 2 Clinton'un (en yüksek) ve Trump'ın (en düşük) bazı k değerlerinde imza konuları

3.5 Tartışma

Ekstraksiyon konusu hakkında Şekil 2, tüm ana konuların görselleştirilmesini göstermektedir. Seçimlerin yalnızca son birkaç ayı çekildi, çünkü her iki aday da o dönemde özellikle aktifti ve önceki konuşmalar nispeten azdı. Görselleştirme, özellikle tek bir konuyu analiz etmek için uygundur. Her şeyden önce, çoğu konunun farklı olduğunu görebiliriz, bunlar genellikle bir adayın konuşmasında yer alır, ancak başka bir adayın konuşmasında pek görünmez. Topluluk ve polis gibi bazı konular paylaşılır, ancak aynı zaman çizelgesinde kullanılmaz. Bir başka örnek de iklim değişikliği sorunlarının kullanılmasıdır. Bunun esas olarak Clinton başkanlık kampanyasının sonunda kullanıldığını görebiliriz (Clinton, ilk genel tartışmada (26 Eylül 2016) iklim değişikliğinin bir aldatmaca olduğunu söylediği için Trump'ı eleştirdiğinde ve iklim değişikliği meselesi insan oldu. Endişe konusu.

Şekil 2 Her takipçinin farklı zamanlarda kampanya temaları. Her daire, konuşmadaki konunun yüzdesini temsil eder. Konu ne kadar büyükse, konuşmada o kadar fazla görünecektir. Trump'ın konuşması kırmızı, Clinton'ınki ise mavi.

Konu imzası hakkında Önceki bölüm, her konunun nasıl analiz edileceğini gösterdi ve imza, ana konunun bir bütün olarak analiz edilmesini sağlıyor. Tablo 2'de her aday için tekrarlanan konulara bir göz atalım. Her adayın ana konuları ayrıdır ve her adayın kendi hedef seçmeni olduğunu gösterir. Clinton, topluluk, gençlik, yeni nesil meseleler ve kadın başkanlığı ile ilgili konulara odaklandı. Trump, yeni ekonomi politikalarına, yasadışı göçe, yeni sosyal politikalara ve önceki hükümetin eleştirilerine odaklandı.

Clinton'ın imzası çok basittir, çünkü minimum görünüş sayısını azaltmak sadece imzanın yeni konusunu artıracaktır. Bu, Clinton'ın ana meselelerinde çok kararlı olduğu anlamına geliyor. Bu sonuç kısmen Trump için de geçerli. Nitekim, Trump bazen belirli sayıda olayda farklı imzalara sahiptir. Örneğin, k = 15 durumunda, Trump'ın konuşmasının ana konuları arasında yasadışı göç veya eğitim politikası olabilir, ancak ikisi birden değil. Bu ilginç çünkü Trump'ın defalarca tartıştığı konularda daha çeşitli olduğunu ve bazılarının nadiren birlikte olduğunu gösteriyor.

Eğitim politikası veya yasadışı göç dahil, ancak nadiren ikisine birden sahip olan Trump'ın konuşmasının içeriğini daha fazla analiz etmek için, Şekil 3'te gösterildiği gibi ilgili imza parçalarına bakalım. İlk olarak, Eylül 2016'dan sonra iki imza arasındaki farkların ortaya çıkmaya başladığını fark ettik. Aslında, yasadışı göçmenleri içeren imzalarda yalnızca üç parça (ikinci grup) bulunurken, eğitim politikası imzalarında 11 parça (birinci grup) bulunmaktadır.

Bu büyük fark, Eylül ayında Trump'ın eğitim politikasıyla bağlantılı olarak ana temalarının çoğunu (önceki hükümete yönelik eleştiriler, yeni sosyal politikalar ve yeni ekonomik politikalar) tartıştığını gösteriyor. Ekim 2016'da ana konusunu korurken yasadışı göçe yöneldi.Eğitim politikası olarak üç bölüm (üçüncü grup) ve yedi bölüm yasadışı göç (dördüncü grup) içeriyor. Gerçek, Şekil 2'de gösterilmektedir. Trump, Eylül 2016'nın sonunda eğitim politikasını tartışmayı bıraktı ve imzanın uyguladığı alt bölüm ek bilgiler getiriyor. Aslında, Trump'ın imzası temalardan yalnızca birini değiştirdi, bu nedenle Trump'ın eğitim politikasından yasadışı göçe geçtiğinde diğer ana konularından (sosyal politika, eleştiri ve yeni ekonomi politikası) bahsettiğini biliyoruz.

Şekil 3 İki Trump imzası parçası. T3.1: sosyal politika ve eleştiri + yeni ekonomik politika + yasadışı göç; T3.2: sosyal politika ve eleştiri + yeni ekonomi politikası + eğitim politikası. Her pembe veya mavi dikdörtgen bir segmenti temsil eder ve her siyah nokta o segmente ait bir konuşmayı temsil eder. Numaralandırılmış her elips (elle çizilmiş) bir parça grubunu temsil eder.

Bir diğer önemli nokta ise Ekim ayı başında Trump'ın eğitim politikasını yasadışı göç olarak değiştirmesidir.Bu bölüm diğerlerinden (dördüncü grup) daha uzun sürdü, bu da Trump'ın ana konularının eskisinden daha dağınık olduğu anlamına geliyor. Daha fazla konuşmada bu, stratejisindeki bir değişikliği yansıtıyor. Bu bilgiyi Şekil 2'de görmek kolay değil, ancak Trump'ın imzasının basit bir analizi ile elde edilebilir.

Konu imzalarına dayalı bu vaka çalışması, yöntemimizin her adayın tekrar tekrar bahsettiği konuyu çıkarabildiğini göstermektedir. Parçacıkların ve ilgili imza konularının incelenmesi, Trump'ın konuşmasındaki değişiklikleri ortaya çıkarabilir ve tekrarlanan bazı konularının birbiriyle nasıl ilişkili olduğunu açıklayabilir. Bu hassas analiz, tamamen geleneksel segmentasyon tekniklerinin yeteneklerinin ötesindedir.

4. Sonuç

Siyasi söylemi analiz etmek için yeni bir yöntem önerdik. Standart konu modellemesini imza madenciliği ile birleştirir ve seçim kampanyaları sırasında politikacıların ana konularını ve dinamiklerini belirleyebilir. 2016 ABD başkanlık kampanyası analizi ilginç sonuçlar sağladı: Hillary Clintonın konuşması nispeten istikrarlı olmasına rağmen, Trumpın söylem ve iletişim stratejilerinde önemli değişiklikler tespit edilebildi. Modelin zaman esnekliği sayesinde, kampanya dinamiklerinin belirli sonuçları elde edilebilir.

Gelecekteki çalışmalarda, bu yöntemi siyasi tweetler gibi daha zorlu verilere uygulamayı umuyoruz. 2016 ABD seçim kampanyasının ilk sonuçları, her iki adayın kullandığı konuların konuşmalarından farklı olduğunu gösterdi: Konuşmalardan daha kısa olan tweetler, makul siyasi görüşlerden ziyade rakiplerinin aşırı basit eleştirilerini vurguladı.

Kağıt indirme bağlantısı: