Zipf Yasası: Dil İstatistikleri

Konuştuğumuz dil, edebiyat ve bilardo istatistiklerinin tümü matematiksel ilkelere uyar.

İnsanların dili öğrenme, kullanma ve işleme yeteneği bizi diğer hayvanlardan ayırır. Dil, etkili iletişim için kullanılır ve ayrıca yaratıcılığımızı edebiyat, şiir ve şarkılar aracılığıyla ifade etmemize izin verir. Belki hiç fark etmedin, aslında Dil kullanımı da katı kurallara uymaktadır Matematiksel ilkeler En ünlüsü Zipf Yasası (Zipf yasası).

Biraz matematiksel teori arka planı

Uzun bir makaledeki farklı kelimeleri azalan sıklık sırasına göre sıralarsanız, ortalama olarak en sık kullanılan kelimelerin sıklığının ikinci ortak kelimenin yaklaşık iki katı ve üçüncü ortak kelimenin üç katı olduğunu göreceksiniz. ,Vesaire vesaire. Başka bir deyişle, bir f (r) kelimesinin ortaya çıkma sıklığı, frekans tablosundaki r sırası ile ters orantılıdır: f (r) 1 / r .

Harvard Üniversitesi dilbilimci George Zipf (George Zipf) tarafından tanımlanan fenomen, 70 yıldan uzun süredir popüler. Aslında, daha genel bir ilişki önerdi:

denklem (1)

Ve kelimelerin sıklığı için a parametresinin 1'e yaklaşacağını düşünün.

Yukarıdaki ilişki sözde güç yasasının bir örneğidir. Güç yasasının önemli bir özelliği, log-log koordinat sisteminde, aşağıdaki Doğrusal ilişki .

Adından da anlaşılacağı gibi, çift logaritmik grafiğin x ekseni ve y ekseni değerleri, denklemin her iki tarafının logaritmik değerleridir. Güç yasasının doğrusal ilişkisi, denklemin (1) her iki tarafının logaritması alınarak ve hafifçe yeniden yazılarak elde edilebilir.

İlk olarak, denklem (1) 'i uygun bir denkleme yeniden yazıyoruz:

denklem (2)

C'nin sabit olduğu yer. Örneğin, C'nin en sık kullanılan sözcüğün (yani r = 1) f (1) frekansına eşit olduğunu ve a = 1 olduğunu varsayalım, ardından değeri tekrar denklem (2) ile değiştirerek f (1) = C, f dizisini elde edeceksiniz. (2) = f (1) / 2, f (3) = f (1) / 3 vb.

Sonra, denklemin (2) her iki tarafının logaritmasını alıp şunu elde etmek için yeniden yazıyoruz:

denklem (3)

Düz bir çizginin genel denkleminin y = mx + b olduğunu biliyoruz, burada m düz çizginin eğimidir. (3) denkleminden frekans denklemi logunun (f (r)) logaritmasının sıra r logunun (( r)) -a eğimine sahip düz bir çizgidir.

Kelime frekansı Zipf yasasında gözlemlenen bu olguyu diyoruz. Daha da ilginci, aynı fenomeni birçok farklı alanda gözlemlemiş olmamız. Bu yasa sadece görünmez Müzik, bilgisayar kodu gibi yakından ilişkili dil Ve diğer alanlar Ayrıca olabilir Şehrin büyüklüğü, internet ve şebekeye ağ bağlantısı gibi tamamen alakasız Sistemde göründü . Hatta ortaya çıktı Snooker istatistikleri Orta (daha sonra konuşacağız)! Bu farklı sistemler arasındaki temel fark, ilgili güç yasasındaki a parametresinin değerinin (yani doğrusal logaritmik ilişkinin eğiminin) çok farklı olabilmesidir.

Pratik uygulama

Bilimsel ruha sahip bir kişi olarak, en sevdiğiniz makalelerden bazılarını analiz ederek Ziff Yasasını test etmek isteyebilirsiniz! Aslında bunu yapmak zor değil. (Aşağıda örnek olarak İngilizceyi ele alırsak, bazı ilgili çalışmalar Çin külliyatının Zipf yasasını da karşıladığını göstermiştir)

Test için Contemporary American English Corpus (COCA) gibi bir web sitesi kullanabiliriz Web sitesinde en çok kullanılan 5000 İngilizce kelime ve bunların gerçek kullanım sıklıkları listelenmektedir. COCA, birçok farklı edebi kategori ve yazarı kapsayan, çağdaş İngilizcede 450 milyon kelimeden oluşan bir koleksiyondur.

Bu listeden en yaygın 50 kelimeyi seçin ve frekans-sıra ilişkisini çift logaritmik grafikte çizin. Frekans ve sıralamanın logaritmik değerini gerçekleştirebiliriz Doğrusal regresyon analizi Doğrusal ilişkilerini tespit etmek ve güç yasasındaki a parametresinin değerini tahmin etmek.

Resim 1: COCA veritabanının kelime frekans dağılımı. Doğrusal regresyon analizi, R programlama aracılığıyla gerçekleştirilebilir.

Şekil 1'de gösterilen regresyon, Ziff'in orijinal olarak belirttiği gibi, 1'e yakın bir değer olan karşılık gelen güç yasasında -0.922, yani a = 0.922 eğim ile verilere en iyi uyan düz çizgidir. Ayrıca regresyon istatistiklerine göre bu doğrusal ilişki, gözlemlenen frekans dağılımının% 98'ini açıklayabilir.Küçük bir istatistik bilenler, çok iyi bir değer olan R ^ 2 = 0.98 ifadesine aşina olabilir.

Bu sonuç sadece bir tesadüf olabilir mi? Başka bir örnek kullanabiliriz: Şekil 2, Darwin'in Türlerin Kökeni'ndeki kelimelerin frekans verilerini göstermektedir. Doğrusal regresyon analizi yoluyla, güç yasasına karşılık gelen parametre değerinin, COCA veri tabanının parametre değerinden biraz daha düşük olan a = 0.829 olduğu, ancak düz çizginin uydurma kısmı daha iyidir ve R ^ 2 = 0.99'a ulaştığı bulunmuştur.

Şekil 2: "Türlerin Kökeni" kelimesinin kelime frekans dağılımı. Kitabın frekans verilerini görüntülemek için Anlamsal Derinlik Analizörünü kullanabilirsiniz.

Yukarıdaki örnekten, her ikisinin de güç yasasına uymasına rağmen, COCA veri tabanındaki "ortalama" kelime frekansı dağılımı ile bağımsız kitaplar arasında bir fark olduğu görülebilir. Her şeyden önce, ilgili güç yasalarının parametre değerleri farklıdır.Örneğin, COCA veritabanının parametre değeri a = 0.922 ve "Türlerin Kökeni" a = 0.829, ancak, belki daha da önemlisi, belirli kelimelerin gerçek sıralaması r arasında da farklılıklar vardır.

Örneğin, COCA sıralamasındaki ilk beş kelime sırasıyla, be ve, of ve a'dır; Darwin'in Türlerin Kökeni'nde ise ilk beş kelime, of, ve, içinde ve to olarak sıralanır.

[Snooker'da Ziff Yasası]

İşte ilginç bir örnek. Acaba biraz önce biten Dünya Bilardo Şampiyonasını izlediniz mi? Aslında Zipf yasası bilardo istatistiklerinde de var.

Tablo 1: 100'den fazla yatay çubuğa sahip oyuncuların kısmi sıralaması. (Resim kaynağı:

Snooker'a aşina iseniz, "tek vuruşta 100'den fazla" kavramına kesinlikle aşinasınız, bu da tek vuruşta 100'den fazla puan alabileceğiniz anlamına gelir. En yüksek puan 147'dir. Biz buna "tam vuruş" diyoruz. 100'den Fazla Snooker Sıralaması, profesyonel yarışmalarda tek vuruşta 100 puan alan tüm oyuncuları listeler.En iyisi Ronnie "The Rocket" O'Sullivan'dır (Ronnie "The Rocket" O'Sullivan). Kariyerinde, 13'ü tam vuruş olan 100 üzerinden 874 tek vuruş attı.

Şekil 3: Yüz yatay çubuğun üzerindeki bilardo oyuncularının istatistiksel dağılımı.

Bu istatistiksel veriler bir çift logaritmik koordinat grafiğine yerleştirilirse ve güç yasası uydurma gerçekleştirilirse, Şekil 3'te gösterilen sonuç elde edilebilir. Önceki kelime frekansı örneğiyle karşılaştırıldığında, şekilde gösterilen uydurulan çizgi verilerle biraz daha az tutarlıdır, ancak R ^ 2 = 0.95 aynı zamanda bunun hala makul ve uygun bir uyum olduğu anlamına gelir. En yüksek ve en düşük dereceli veriler için, gerçek veriler ile uyum arasındaki fark daha belirgindir ve bu genellikle istatistiksel verilerde görülür. Karşılık gelen güç yasasının parametresi, kelime frekansı parametresinden tamamen farklı olan a = 0.594'tür. Ancak Zipf yasasının bilardo istatistiklerinde var olduğunu keşfetmek gerçekten ilginç bir sürpriz!

[Sözleriniz sayılsın]

Farklı metinler veya farklı yazarlar arasındaki gerçek kelime frekans dağılımı farklı olacaktır, bu da yazar hakkında belirli bir frekans dağılımı yoluyla bazı bilgileri öğrenmenin mümkün olup olmadığını merak etmemize neden olur.

Aslında psikolog James Pennebaker, yazarların fikirlerini ifade etme biçiminin kendi kişiliklerini bir ölçüde ortaya çıkardığına inanıyor. Özellikle, bazı işlevsel kelimelerin (çok az bilgi aktaran zamirler ve makaleler gibi) kullanımı açıkça yazarın sosyal ve psikolojik durumuyla doğrudan ilgilidir. genel konuşma Sözleriniz kişiliğinizi açıklayabilir .

Pennebeck ve meslektaşları ayrıca, yazarın kullandığı farklı kelime kategorileri hakkında istatistiksel bilgi toplamak için onu kullanan karmaşık bir bilgisayar programı geliştirdiler. Bu yazılımı binlerce kitabı, blogu, konuşmayı vb. Analiz etmek için kullandılar ve yazarın belirli dilini kişilikleri, dürüstlükleri, sosyal becerileri ve niyetleriyle ilişkilendirebildiler. Bu bağlantı uzun zaman önce keşfedildi, ancak bu yeni yazılım aracı ile daha detaylı ve daha geniş araştırmalar yürütülebilir ve dilbilim ile psikoloji arasında sağlam bir bağlantı kurulabilir.

İstatistiğin dili her zaman anlaşılması o kadar kolay değildir, ancak istatistiksel analiz yararlı ve çok yönlü bir araç sağlar. Ve matematiksel dili, doğal dili analiz etmek, söylediklerinizi hesaplayarak kelimelerinizi "ölçmek" için de kullanılabilir - bu dil istatistikleri.

Referans kaynağı:

[1] https://plus.maths.org/content/

[2] https://plus.maths.org/content/r-code-linear-regression

[3]

[4] https://liwc.wpengine.com

Lunengin AFC Şampiyonlar Ligi kadrosu ayarlanacak, Yao Junsheng kaldırılacak, olası merkez veya kayıt olacak, Fellaini ön kaydı yapılacak
önceki
Dünya o kadar büyük ki Yunao'ya geldim çok lezzetli ve eğlenceli
Sonraki
Başka bir kutsal araba doğdu, Baojun 730 panikledi, 80.000 patlayıcı model olacak
Dört bin yıl önce atalarımız deniz kabukları topladı ve burada avlandı.
Hepsi aldatıldı! Evergrande, AFC Şampiyonlar Ligi için Feng Xiaoting'e kaydoldu, gerçekten yedek takımı mı devrediyor? var olmayan
Bir karınca büyüklüğünde yerli scooter, otobüsü kalabalıklaştırmanın acısını önlemek için satın alın
Brezilya, Almanya'nın grup aşamasının dışında olmasından en mutsuz olanı ... Kimsenin milli futbol takımına ve Wang Shenchao'ya gülmesine izin verilmiyor.
CBA, NBA Durant'ın "cesaret" sahnesine saygı duruşunda bulunuyor, milli oyuncu bir smaç tamamlamak için yarı yolda
Yaz aylarında su sıcaklığının değişimi ve bunun toplu tatlı su balıklarının yetiştiriciliği üzerindeki etkisi
Einstein'ın imkansız olduğunu düşündüğü şeyi gökbilimciler az önce yaptı
Chaoshan Özel Şarkılarında kaç tane spesiyalite yedin?
Aracın uzunluğu 5 metre 26, standart konfigürasyon 7 saniyedir ve iç konfor süper S sınıfıdır.
Element oluşumu yolculuğu
Bir yıl oldu Geçen yıl hükümetin çalışma raporunda bahsi geçen her şeyi yaptınız mı?
To Top