"Game of Thrones" un veri bilimi ile yorumu: Demir Taht'a sonunda kim ulaşacak?

"Buz ve Ateşin Şarkısı", George R. Martin tarafından yazılan ve HBO'dan dünya çapında bir hit haline gelen film ve televizyon dizisi "Game of Thrones" a uyarlanan bir dizi fantastik roman.

"Game of Thrones" dizisi, dizinin orijinal yapıtını dikkatle incelemek için iyi bir zaman olan final sezonuna yayınlandı. Bu makale, kitapların dijital olarak işlenmesi yoluyla "Buz ve Ateşin Şarkısı" nın ardındaki gizemi ortaya çıkaracak.

Bir kitabı objektif olarak nasıl değerlendirebilirim? Bir kitabın veya dizinin olay örgüsünü öngörebilecek bir model var mı? Geleceğin romancıları ve senaryo yazarları, olay örgüsünü tasarlamak ve birkaç hafta içinde bir kitap yazmak için yapay zekayı kullanabilir mi? HBO'nun TV dizisini altıncı sezona ulaştıran yeni çalışması "A Dance with Dragons" u yazmak Martin'in altı yılını aldı ve olay örgüsü romanı aştı. Günümüzde, dizilerin ilerleyişi orijinalinin ulaşamayacağı bir yerde!

Bunun ışığında, bu makale, büyük miktarlarda doğal dil verilerini işlemek için bilgisayar programlamayı kullanmayı amaçlayan disiplinler arası bir alan olan bazı doğal dil işleme kavramlarını tanıtmaktadır.

Şimdiye kadar yayınlanan romanların olay örgüsünün, TV dizisinin ilk ila altı sezonuyla kabaca örtüştüğünü, ancak hikaye geliştirme zaman çizelgesinin biraz farklı olduğunu unutmayın. Quan'ın son sezonunu yakaladıysanız veya yayınlanan beş ciltlik romanı okuduysanız, bu makale sizin için herhangi bir spoiler içermeyecek, böylece okumaya devam edebilirsiniz. Okuyucuların geri kalanı için: İşte bir spoiler hatırlatıcısı!

Kelime bulutu, beş kitaptaki kelime kullanım sıklığını canlı bir şekilde gösterir. Kargaların güçlü bir sayma yeteneğine sahip olduğunu biliyor muydunuz? Son araştırmalar, insanlarla neredeyse hiç ilgisi olmayan bu omurgalı hayvanın, büyük miktarda bilgiyi işlemek için kullanılabilecek, insanlara benzer nöronlara sahip bir terminal beyin geliştirdiğini gösteriyor: https://www.pnas.org/content/112/25 / 7827

Bu makale, "Buz ve Ateşin Şarkısı" nı yorumlamak için veri işlemeyi kullanmanın üç yöntemini tanıtacak. Bunlardan hoşlanıp bir şeyler kazanabileceğinizi umuyorum:

  • Kelime zenginliğini değerlendirmek için kelime çeşitliliğini ölçün
  • Hikayenin Karakter Ayak İzi ve Kelime Frekans Analizi
  • Rollerin önemini hesaplamak için ağ teorisini kullanın
  • Metin işlerken, doğal dil işleme Python'un NLTK'sini kullanır, görselleştirme Seaborn'u kullanır ve hesaplama ağ ölçümleri ve grafikleri Networkx'i kullanır.

    1. Kelime çeşitliliğini ölçme

    Öncelikle, metnin kelime zenginliğini ve çeşitliliğini dikkatlice inceleyin. Ekosistemlerdeki biyolojik çeşitliliği incelemeye benzer şekilde, algılanan zenginliği sayısal terimlerle ifade etmek için hacim, değişim oranı ve yoğunluk gibi göstergeleri de inceliyoruz:

    · Cilt: metnin uzunluğu (kelimelerle ifade edilir)

    · Değişim oranı: farklı kelimelerin sayısının toplam kelime sayısına oranı

    · Yoğunluk: tahmini bilgi yoğunluğu ölçüsü

    Shakespeare'in tam eserleriyle karşılaştırıldığında (yaklaşık 800.000 kelime), "Buz ve Ateşin Şarkısı", tam metninde yaklaşık 1.8 milyon kelimeyle büyük bir kitaptır. (Şimdiye kadar) Martin yazılarında yaklaşık% 1'lik bir kelime değişim oranıyla 22.000 farklı kelime kullandı.

    Burada, değişim oranı, farklı kelimelerin sayısının metindeki toplam kelime sayısına bölünmesiyle elde edilene eşittir, bu aynı zamanda tür-metin oranı (TTR) olarak da bilinir. Metnin karmaşıklığını, kelime hazinesinin zenginliğini ve tekrardan kaçınma derecesini ölçmek için kullanılan bir standarttır. Aynı kelimenin varyantlarını yeni kelimeler olarak iki kez saymaktan kaçınmak için lemmatizasyon tekniğini kullanıyoruz. Örneğin, koşar ve koşar fiilleri (geçmiş zaman koşusu) tek bir kelime olarak sayılmalıdır ve lemmatizasyon her bir kelimenin köküne geri dönmesine yardımcı olur.

    Shakespeare'in dünyanın en geniş kelime dağarcığına sahip yazarlarından biri olduğu söyleniyor. "Hamlet" in 4.200 farklı kelimeyi içeren toplam 30.000 kelimesi ve kelime dağarcığı değişim oranı% 13 gibi şaşırtıcı! Ancak iki kitap arasındaki kelime sayısı farkı karşılaştırmak için yeterince adil değil, çünkü kelime sayısı arttıkça kelime dağarcığının çeşitliliğini sağlamanın zorluğu hayal edilebiliyor.

    Shakespeare'in tüm çalışmalarını inceleyerek, sonunda yaklaşık% 3'lük bir değişim oranı elde ettik. Daha fazla araştırma için, değişim oranının ortalama değişim değerini kullanabilirsiniz (bir seferde 1000 kelimelik bir pencereye bakın) ve son olarak Martin'in TTR'si% 43 iken Shakespeare'in% 41'i. Bay Martin'in romandaki tüm karakterleri, enstrümanları ve yerleri adlandırdığını ve bu adların kelime dağarcığı değişim oranının büyük bir bölümünü oluşturduğunu belirtmek gerekir.

    "Buz ve Ateşin Şarkısı" (ASOIF), J.R.R Tolkien'in "Yüzüklerin Efendisi" (LOTR), Shakespeare'in "Hamlet" ve "The Complete Works of Shakespeare'in" dört eserini karşılaştırın. Değişim oranının ortalama değişimi açısından bakıldığında, üç yazarın eserlerinde kullanılan yeni kelimelerin oranları farklı olsa da, ortalama değişim hemen hemen aynıdır.

    Kelime haznesindeki kelime sayısını toplam kelime sayısına bölerek yoğunluğu hesaplayın. Kelime sözcükleri isimler, sıfatlar, fiiller ve zarfları içerir. Bu tür sözcükler, metni anlamlı kılan anahtar bilgileri taşır. Kalan sözcükler, makaleler (a, the), edatlar (on, at, in) ve bağlaçlar (ve, veya, ve) dahil olmak üzere işlev sözcükleri olarak adlandırılır. İşlev sözcükleri metnin gramer yapısı için çok önemlidir, ancak metnin anlamı ile neredeyse hiçbir ilgisi yoktur. Bu nedenle yoğunluk, metnin kapsadığı bilgi miktarını yansıtabilir.

    Ortalama olarak, yazılı kelime dağarcığının yoğunluğu, konuşulan kelime dağarcığından çok daha yüksektir. Yoğunluğu hesaplamak için, dilbilgisel etiketleme olarak da bilinen ve tüm kelimelerin çeşitli gramer biçimlerini tanımlamamıza yardımcı olabilecek konuşma parçası etiketleme (POS) kullanmamız gerekir. POS etiketlemeyi kullanırken seçilebilecek birkaç farklı teknik vardır ve bunlar doğal dil işlemenin önemli bir parçasıdır. Örneğin, POS algoritması, bağlama bağlı olarak "ördek" kelimesinin bir isim mi yoksa fiil mi olduğu gibi kelimelerin konuşma kısmını ayırt edebilmelidir.

    Aslında, yukarıda bahsedilen tanımlamanın normal çalışması POS etiketlerine dayanır. Gizli Markov Modelleri gibi algoritmalar, komşu kelimelere atıfta bulunarak bir kelimenin doğru biçimini tanır.Bu algoritma tam olarak doğrulanmıştır ve temsilidir. Martin'in kelime yoğunluğu% 58, Shakespeare'in kelime yoğunluğu% 61'dir. Bu, çoğu İngilizce yazılmış kelime yoğunluğunun% 40'ı aştığı, ortalama sözlü kelime yoğunluğu ise% 40'tan az olduğu tahminiyle tutarlıdır. Shakespeare'in oyunlarının ağırlıklı olarak diyaloglar olduğu düşünüldüğünde, bu, eserlerinin olağanüstü kelime dağarcığı yoğunluğunu ve kelime zenginliğini kanıtlıyor.

    Yönetmenliğini ve gerçekleştirdiği "Hamlet" 1948'de Lawrence Oliver

    Aslında, "olmak ya da olmamak" ifadesinin yoğunluğu sadece% 17'dir ve "olmak" bir sözcükten ziyade yardımcı bir fiil olarak kullanılmaktadır. Ancak çoğu insan bu cümleyi unutulmaz buluyor. Kelime zenginliği çalışmasından, farklı göstergelerin dikkatli bir şekilde değerlendirilmesi gerektiği sonucuna varılabilir.Metin derinlemesine incelenmeden, farklılıklar gerçekleştirilemez.

    Guangdong kız öğrenci yanlışlıkla paylaşılan bir arabayı sürdü ve başka bir paylaşılan arabanın ardından bir Mercedes-Benz'e çarptı
    önceki
    İçten yanma! Devrildi! 26 Nisan'da Şangay'da birkaç trafik kazası daha meydana geldi!
    Sonraki
    Tianguan Villasına doğru yürüyün: Jiajiang Lezzetini Tadın ve Tianguan Efsanesini Dinleyin (Fotoğraf)
    Küçük bir işleme alanını araştırın! Zhangmutou Kasabası, yasadışı kanalizasyon boşaltımına karşı yaptırım başlattı
    Zhouzhuang'da drama var: Bai Xianyong hayalini Zhouzhuang'da arıyor ve Kunqu Operası'nın mirasını hayal ediyor
    Chaozhou "Ulusal Sigorta" Guangji Köprüsü vuruldu ve izlendi: Uzmanlar iskelelerin hasarsız olduğunu belirledi ve tüm köprü yeniden açıldı
    Turing Konferansı 2019 | Prelüd: Tsinghua Daniel Liu Yunhao'nun Gözü Her Şeyin İnternetinde
    Bir yağmur fırtınasında, Xinfeng, Shaoguan'da iki kişi nehirdeki "izole adada" mahsur kaldı ve itfaiyeciler "kaderi" teslim etti.
    İmzalamanız gereken bir "tutuklama emriniz" var mı? "Kamu güvenliği, savcı ve hukuk" gibi davranan dolandırıcılara karşı dikkatli olun
    2019 İkinci Çeyrek için Changsheng Fonu Yatırım Stratejisi Raporu
    Dünya Bahçe Turu-Adachi Sanat Müzesi, Shimane, Japonya
    Python 50.000 parça veriyi tarar ve size 1 Mayıs'ta nerede kimsenin olmadığını söyler! (Manzaralı noktalar ile)
    Dünya bahçesini görün ve yeryüzündeki cennetin tadını çıkarın
    Daha heyecanlı bir hafta mı? Emtia piyasası, şiddetli dalgalanmaları önlemek için "tehlikeli topraklara" giriyor
    To Top