g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Veri analizi hileleri burada: altı Kaggle yarışmasının en kapsamlı analizi (açık)

Leifeng.

Bu makale, herkesin veri analizi yeteneklerini geliştirmesine yardımcı olmak için üç yaygın veri türü (yapılandırılmış veriler, NLP verileri, görüntü verileri) analiz deneyimini sunmak için örnek olarak Kaggle'da 6 farklı yarışmayı ele alacaktır. Bu makale ilki olup, Titanik rekabeti, konut fiyatı tahmin rekabeti, kötü niyetli yorum sınıflandırması ve korku romancılarının tanımlanması dahil olmak üzere temel olarak yapılandırılmış verileri ve NLP verilerini tanıtmaktadır. Bir sonraki makale, iki farklı görüntü yarışmasını tanıtacak - Yaprak Sınıflandırması ve Akciğer Kanseri Tespit Yarışması (Data Science Bowl 2017).

Metin aşağıdaki gibidir, Leifeng.com AI Araştırma Enstitüsü tarafından derlenmiş ve derlenmiştir:

Doğru bir model oluşturmanın anahtarı, kullanılan verileri tam olarak anlamaktır, ancak veriler genellikle karmaşıktır. Kendime makine öğrenimini öğrettiğim ilk birkaç ayda, verileri nasıl anlayacağım konusunda pek fikrim yoktu. Verilerin iyi organize edilmiş aşağıdan yukarıya bir paketten geldiğini veya en azından izlenecek net bir dizi adım olduğunu varsayıyorum.

Başkalarının kodlarına baktıktan sonra, herkesin aynı veri setini farklı şekillerde anladığını, görselleştirdiğini ve analiz ettiğini fark ettim ki ben şok oldum. Birkaç farklı veri analizi yöntemini okumaya, benzerlikleri ve farklılıkları bulmaya ve veri analizinde daha iyi kullanmak amacıyla veri setlerini anlamak için bir dizi en iyi uygulama veya strateji çıkarmaya karar verdim.

Veri bilimciler, model optimizasyon problemlerine değil, veri ön işlemeye çok zaman harcıyorlar.

Lorinc

Bu makalede, Kaggle'da halka açık olan bazı keşifsel veri analizlerini (EDA) seçtim. Bu analizler, verilerin kuş bakışı görünümünü sağlamaya veya verilerdeki kalıpları düzenlemeye yardımcı olmak için etkileşimli kod parçacıklarını makalelerle birleştirir.

Ayrıca, mevcut verileri alan ve verilere başka anlamlar kazandırmak için bazı yöntemleri dönüştürmek için kullanılan bir teknik olan özellik mühendisliği üzerinde de çalıştım (örneğin, zaman damgasını almak ve mağazadaki satışları tahmin etmek için kullanılabilecek DAY_OF_WEEK sütununu çıkarmak) .

Çeşitli farklı veri kümeleri görmek istiyorum, bu yüzden şunu seçtim:

Yapılandırılmış veriler
NLP (Doğal Dil) Verileri
Görüntü verileri

Yapılandırılmış veriler

Yapılandırılmış veri kümesi, eğitim ve test verilerini içeren bir elektronik tablodur. Elektronik tablo, kategorik değişkenler (yeşil, kırmızı ve mavi gibi renkler), sürekli değişkenler (4, 15 ve 67 gibi yaş) ve sıralı değişkenler (ilkokul, lise, üniversite gibi eğitim seviyesi) içerebilir.

Eğitim verileri tablosu çözmeye çalışılacak bir hedef sütun içerir, bu sütunlar test verilerinde görünmeyecektir. İncelediğim EDA'ların çoğu, hedef değişken ile diğer sütunlar arasındaki potansiyel korelasyonları ortaya çıkarmaya odaklanıyor.

Temel amacımız farklı değişkenler arasındaki ilişkiyi bulmaktır.Verileri bölümlere ayırmanın birçok yolu vardır. Görselleştirme için daha fazla seçenek.

Özellik mühendisliği, hayal gücünüzü tam anlamıyla kullanmanızı sağlar. Farklı yarışmacıların özellikleri sentezlerken veya sınıflandırılmış özellikleri yeni özelliklerle birleştirirken farklı yöntemleri vardır.

Titanic yarışmasına ve Ev Fiyatları yarışmasına daha yakından bakalım.

Titanik

Resim Viaggio Routard'ın izniyle

Titanic yarışması yeni başlayanlar arasında çok popüler ve birçok Kaggle kullanıcısı bu yarışmaya katılmaya devam ediyor. Bu nedenle, bu yarışmanın EDA'sı genellikle iyi yazılmış ve iyi belgelenmiştir, ki bu gördüğüm en açık olanıdır.

Veri seti, yolcunun hayatta kalıp kalmadığını belirten bir "Hayatta Kalmış" sütunu ve yaş, cinsiyet, ücret vb. Gibi diğer tamamlayıcı verileri içeren bir eğitim seti e-tablosunu içerir.

Analiz için seçtiğim EDA, Déjà vu tarafından sağlanan I, Coder, Titanic Survival for Beginners EDA'dan ML'ye ve katerina Kokatjuhha tarafından sağlanan In Deepth Visualisations Simple Methods tarafından sağlanan EDA to Prediction Dietanic.

Her üç EDA türü de orijinal gösterge ile başlar.

I, Coder tarafından tanımlanan veri kümesi

Boş veya eksik değerlerin işlenmesi, veri ön işleme sürecinde önemli bir adımdır. Bu yazıda seçilen üç EDA'dan biri erken aşamada bu problemle, diğer ikisi ise özellik mühendisliği aşamasında ele aldı.

Ben, Coder, eksik yaşı doldurmak için rastgele bir sayı atamaya karşı çıkıyor:

Daha önce gördüğümüz gibi, Age özelliğinin 177 null değeri vardır. Bu NaN değerlerini değiştirmek için, onlar için veri setinin ortalama yaşını belirleyebiliriz. Ancak sorun şu ki, farklı yaşlarda birçok insan var ve 4 yaşındaki bir çocuğun ortalama yaşını 29'a atayamayız. Yolcuların yaş grubunu öğrenmenin bir yolu var mı? İsim özelliklerini kontrol edebiliriz. Bu özellikte Bay ve Bayan gibi adresi görebiliriz Bay ve Bayanların ortalama değerini her yaş grubuna atayabiliriz.

Ben, Coder tarafından girilen yaş

I. Coder, saf veri analizinin bir parçası olarak özellik mühendisliğini kullanır, ancak diğer iki yazar bunun bağımsız bir adım olduğunu düşünür.

Üç çekirdek yazarı, verileri derinlemesine anladıklarında ve veriler arasındaki olası ilişkileri bulduklarında ağırlıklı olarak grafiklere ve görselleştirmelere güveniyor. Kullandıkları grafikler arasında faktör grafikleri, çapraz tablolar, çubuk grafikler, pasta grafikleri ve keman grafikleri (kutu çizimlerinin ve yoğunluk çizimlerinin özelliklerini birleştiren bir grafik) ve benzeri yer alır.

hayatta kalanların cinsiyetine ilişkin deja vu tablosu

Titanik'teki "önce kadınlar ve çocuklar" ifadesine aşina olabilirsiniz. İlk veri analizinde, her yazar için yaş ve cinsiyetin iki özelliği önemlidir. Gelir geçmişi hakkında bazı ayrıntılı testler yapmak da mümkündür (ücrette gösterildiği gibi).

Teknede kadınlardan çok daha fazla erkek var. Bununla birlikte, hayatta kalan kadınlar, hayatta kalanların neredeyse iki katı. Gemideki kadınların hayatta kalma oranı yaklaşık% 75, erkeklerinki ise yaklaşık% 18-19.

I, Coder

Jekaterina ve ben, Coder, Jekaterina'nın yazdığı gibi, çizelgelerin ve verilerin görsel incelemesine dayanarak sonuçlar çıkarır:

Cinsiyet: Kadınların hayatta kalma şansı daha yüksektir.
Kabin Sınıfı: Birinci sınıf bir bilete sahip olmanın hayatta kalma olasılığı daha yüksektir.
Kan ilişkisi ve boyutu: Orta büyüklükteki ailelerin hayatta kalma oranı, yalnız seyahat edenlere veya geniş ailelere göre daha yüksektir. Bunun nedeni, bireylerin başkalarına yardım etmek için kendilerini feda etmek istemeleri olabilir. Büyük aileler için tüm ailenin idaresinin çok zor olduğunu düşünüyorum, bu yüzden aile üyeleri kaçmak için tekneye binmek yerine birbirlerini arıyorlar.
Lifeboat C'nin hayatta kalma oranı daha yüksektir. İlginç bir şekilde, birinci sınıftaki yolcuların çoğu cankurtaran C teknesinde.

Jekaterina tarafından çizilen kabin sınıfı ve filikayı yansıtan grafikler

Deja Vunun EDA'sı, analizin her adımında doğru bir sayı kaydederek, her özelliğin nihai tahminin önemi hakkında iyi bir geri bildirim sağlar.

Özellik mühendisliği

Üç çekirdek yazarının özellik mühendisliğinde birçok değişkenlik vardır.

Her yazar, yaş ve ücret gibi sürekli değişkenler olarak farklı sayıda grup seçer. Aynı zamanda, hepsi aile ilişkileriyle farklı şekillerde ilgileniyor. Ben, Coder bir SibSip (kan ilişkisi) kurdu - ister tek başına ister aileyle (eş veya kardeşler) (aile_boyutu ve tek başına), Jekaterina listelenmiştir Bir kabin kutusu oluşturuldu ve çocuk (çocuk) veya yetişkin (yetişkin) olarak nitelendirilmesi önerildi.

Jekaterina'nın kabin sınıfı mektubu

Ben, Coder ilgisiz sütunları ortadan kaldırmak konusunda özellikle agresiftir:

İsim - > İsim özelliğine ihtiyacımız yok çünkü herhangi bir kategorik değere dönüştürülemiyor.

Yaş - > Age_band özelliğine sahibiz, bu yüzden buna ihtiyacımız yok.

Feribot bileti - > Sınıflandırılamayan rastgele bir dizedir.

Ücret - > Fare_cat özelliğimiz var, bu yüzden buna ihtiyacımız yok.

Kabin - > Birçok eksik değer vardır ve birçok yolcunun birden fazla kabini vardır. Yani bu gereksiz bir özellik.

Ücret aralığı - > Fare_cat özelliğimiz var.

Yolcu durumu - > Sınıflandırılamaz.

Doldurma adımı ile ilgili olarak Jekaterina şunları yazdı:

Gemide cankurtaran botu: bir ana sınıfla doldurun
Kabin sınıfı: Ücrette yalnızca bir eksik değer olduğundan, ilgili kabin sınıfının medyan değerini dolduracağız
Yaş: Birkaç giriş tekniği vardır, doldurmak için ortalamanın üst ve alt aralığı içinde rastgele sayılar kullanacağız

Yeni doldurma verilerinin ortalamayı yok etmeyeceğinden emin oldu ve şu sonuca vardı:

Jekaterina, yeni giriş değerinin ortalamayı yok edip etmediğini kontrol eder

Yorumlar

Üç yazar da verileri kontrol etti ve genel şekli tanımladı.

Ben, Coder tüm eksik değerleri düşündüm ve Jekaterina bunu ancak sonuna doğru değerlendirmeye başladı.

Herkes hayatta kalanların sınıflandırmasına bakar ve ardından hayatta kalanları cinsiyete göre sınıflandırır. Çapraz tablo, faktör grafiği ve keman grafiği yaygın olarak kullanılan grafiklerdir. Jekaterina ayrıca çok ilginç tablolar çizdi.

Özellik mühendisliği söz konusu olduğunda, yazarlar biraz bölünmüş durumda. Yazarlar yeni özellikler oluşturma konusunda farklı görüşlere sahipler.Bazıları bunu bağımsız bir adım olarak ele alırken, diğerleri ön veri analizi sırasında bununla ilgileniyor. Binning ile ilgili seçenekler farklıdır.Farklı yaş, mülkiyet hakları ve ücretlerle, alınan paketlerin sayısı farklıdır ve yalnızca Jekaterina ayrı bir çocuk / yetişkin özelliği oluşturmuştur.

Eksik değerler için doldurma yöntemi de farklıdır. Ben, Coder tahminleri tahmin etmek için mevcut verilere bakmanızı önerir ve Jekaterina tahminlerinin ortalamayı etkilememesini sağlar.

Temelde görselleştirme ve özellik mühendisliği olmak üzere, verileri düşünme ve işlemede bazı belirgin benzerlikleri vardır.

Ev fiyatı

Resim ABD Danışma Grubu tarafından sağlanmıştır

Ev fiyatı tahmini, başka bir yapılandırılmış veri rekabetidir. Sınıflandırma, düzen ve bazı sürekli özellikler dahil olmak üzere yukarıdaki Titanic oyunundan daha fazla değişkene sahiptir.

Analiz için seçtiğim EDA'lar Pedro Marcelino'nun Python ile Kapsamlı Veri Keşfi, Angela'nın Python'da Ayrıntılı Veri Keşfi ve Sangeon Park'ın Adım Adım Eğlenceli Python EDA'sı.

Bu veriler tip olarak Titanic'e benzese de aslında çok daha karmaşıktır.

Iowa'daki Ames Konut Probleminde, bu evlerin tüm yönlerini tanımlamak için 79 açıklayıcı değişken kullanılır. Yarışma, her odanın fiyatını tahmin etmenizi gerektirir.

Pedro satış fiyatını açıklıyor

Angela ve Pedro, Titanic oyunundakilere benzer ham verileri araştırmak için biraz zaman harcadılar. Angela histogramda satış fiyatını çizdi ve bu özelliklerin bir ısı haritasını çıkardı. Pedro ayrıca satış fiyatını açıkladı ve şu sonuçlara vardı:

Normal dağılımdan sapma
Belirgin bir pozitif çarpıklığa sahip
Spiking

Bundan sonra Pedro, seçimi ile satış fiyatı arasındaki ilişkiyi görmek için hangi özelliklerin kendisi için önemli olduğunu tahmin ederek kendisini alıcının perspektifine koyar. Bundan sonra, özellikleri daha objektif bir şekilde gözlemleyebilmesi için bir ısı haritası oluşturdu.

Satış fiyatı ile ilgili karakteristik harita

Buna karşın Angela bunu daha objektif bir şekilde tanımladı, dijital özellikleri korelasyonlarla listeledi ve ayrıca satış fiyatları ile ilgili özellik haritalarını, verilerden modeller ararken tasvir etti.

Sang-eon, eksik değerleri ve aykırı değerleri kesin olarak ortadan kaldırdı (ve kritik çizginin yakınındaki aykırı değerleri tahmin etmek için doğrusal regresyon kullandı) ve ardından satış fiyatı ile ilgili çeşitli özellikleri tanımlamaya başladı.

Pedro, veri kaybı sorunlarını kontrol etmek için her zaman veriler arasındaki korelasyonları arar. teklif ediyor:

Veri kaybı ne kadar yaygındır?
Eksik veriler rastgele mi yoksa desenli mi?

Bu soruların cevapları uygulama için önemlidir ve veri eksikliği, örneklem büyüklüğünde bir azalma anlamına gelebilir. Bu, daha fazla analiz yapmamızı engelleyecektir. Doğruluk açısından, veri kaybının önyargıya yol açmamasını sağlamalıyız.

Pedro, bu sorunları çözmek için eksik hücrelerin toplam sayısını ve yüzdesini çizer ve eksik verileri içeren% 15 veya daha fazla hücrenin silindiği sütunu seçer. Hangi özelliklerin kaldırılacağına karar vermek için yine öznel seçimlere güveniyor:

... Bu verileri özleyecek miyiz? Ben öyle düşünmüyorum. Bu değişkenlerin hiçbiri çok önemli görünmüyor, çünkü çoğu ev satın alırken dikkate almamız gereken hususlar değil. Ayrıca, "PoolQC", "MiscFeature" ve "fireeplacery" gibi değişkenleri ve diğer değişkenleri dikkatli bir şekilde gözlemleyerek, aykırı değerlere neden olma olasılığı yüksektir, bu nedenle onları silmekten mutluluk duyarız.

Pedro'nun eksik verilere yaklaşımı, tüm sütunları (çok sayıda eksik değer içeriyorlarsa) veya yalnızca birkaç eksik değeri olan satırları silmektir. Aykırı değerleri çözmek için sezgisel bir yöntem de geliştirdi:

En önemli şey, gözlemlenen değerin anormal bir değer olup olmadığını tanımlamak için bir eşik belirlemektir. Bu amaçla verileri standartlaştırıyoruz. Bu durumda, veri standardizasyonu, veri değerlerinin ortalama değeri 0 ve standart sapması 1 olan verilere dönüştürülmesi anlamına gelir.

Vardığı sonuç, statik bir bakış açısıyla, endişelenecek bir şey olmadığıdır. Ancak verileri inceledikten sonra şüpheli bulduğu bazı veri noktalarını sildi.

Özellik mühendisliği

Sangeon verilerin çarpıklığını ve basıklığını kontrol etti ve bir wilxocc-rank testi yaptı. Bunu çok güzel bir 3 boyutlu resimle özetledi:

Sang-eon'un 3D özellik haritası

Aynı zamanda Pedro, bu verilerin normalliğini, eş varyansını, doğrusallığını ve ilişkisiz hatalarını tartıştı, verileri normalleştirdi ve diğer üç sorunun da iyi bir şekilde çözüldüğünü buldu.

Yorumlar

Bu üç çekirdeğin yazarları, muhtemelen veri setinde zaten birçok özellik olduğu için çok fazla özellik mühendisliği analizi yapmamışlardır.

Bu verilerle nasıl başa çıkılacağına karar vermek için birçok strateji vardır: Bazı yazarlar öznel stratejiler kullanırken, diğerleri doğrudan daha nesnel ölçümler kullanır. Eksik verilerin veya aykırı değerlerin ne zaman ve nasıl ortadan kaldırılacağı konusunda net bir fikir birliğine varamadılar.

Önceki Titanik yarışmasıyla karşılaştırıldığında, burada istatistiksel yöntemlere ve eksiksizliğe daha fazla odaklanıyoruz. Bunun nedeni, ilgilenilecek daha fazla özelliğin olması veya geçersiz istatistiksel sonuçların bütün üzerinde daha büyük bir etkiye sahip olması olabilir.

Doğal dil işleme

Doğal dil veya NLP veri kümeleri kelimeler veya cümleler içerir. Temel veri türleri yapılandırılmış veri yarışmasındakilerle aynı olsa da, doğal dil analizi için kullanılan araç - metin özeldir ve bu da farklı analiz stratejilerine yol açar.

Orijinal haliyle, dil, makine öğrenimi modelleri tarafından kolayca tanınmaz. Sinir ağlarına uygun bir biçime dönüştürmek için deforme olması gerekiyor. Popüler bir teknik, cümlelerin etkin bir şekilde 0 veya 1 kümesine, yani belirli bir kelimenin görünüp görünmediğine dönüştürüldüğü Bag of Words'dır. (Görünmüyorsa 0, görünen 1'dir)

Verileri dönüştürme ihtiyacından dolayı, Notebook'un ilk birkaç adımının çoğu metni makine tarafından okunabilir içeriğe dönüştürme eğilimindedir ve bu adım benzer olma eğilimindedir. Bundan sonra, herkesin yöntemleri çok farklı olacak ve özellik mühendisliği için çeşitli görselleştirmeler ve teknikler uygulanacak.

Kötü niyetli yorum sınıflandırması

Gördüğüm ilk NLP yarışması, Vikipedi tartışma sayfalarındaki yorumlardan büyük miktarda verinin geldiği bir veri setini içeren Toksik Yorum Sınıflandırma Yarışmasıydı Yorumların derecelendirmeleri hakaret ve müstehcenlik arasında ayrım yapmak için kullanıldı. Veya kötü niyetli yorumlar vb. Katılımcılar için zorluk, belirli bir yorumun kötü niyetli etiketini tahmin etmektir.

Analiz için seçtiğim EDA'lar: Stop the S @ # $ - Toxic Comments EDA by Jagan, Classifying Multi-label Comments by Rhodium Beng ve Don't Mess With My Mothjer by Francisco Mendez.

Üç yazarın hepsi veri setini tanımlayarak başladı ve rastgele bazı yorumları seçtiler. Eksik değerler olmamasına rağmen, yorumlarda çok fazla gürültü var ve bu gürültünün son veri analizinde yararlı olup olmadığı net değil.

Jagan tarafından çizilen kötü amaçlı sınıflandırma dağılım haritası

Kötü niyetli olma derecesi, çeşitli kategoriler arasında eşit olarak dağıtılmamıştır. Bu nedenle, sınıflandırma dengesizliği ile karşılaşabiliriz. Jagan

Francisco, gerçek anlamı olmayan kelimeleri ayıkladı ("ve" veya "bir" gibi). Belirli bir kelime için en uygun kategoriyi çizmek için çift arsa kullandı.

Çift etiketli grafikte kelimelerin çoğu normal bir şekilde dizilmiştir.Bazı istisnalar vardır.Şişmanlık iğrenme ile ilgilidir.Bu şaşırtıcıdır çünkü grafiğin altındaki ırksal olmayan tek kelime bu Grafikte bazı genel suçlar vardır. Kelimeler, ölmek (ölüm) gibi sözler sadece tehditlerle ilgilidir.

Francisco daha sonra yazım hataları ile kötü niyet arasında bir bağlantı olup olmadığını sordu.

Açıkçası var ve şaşırtıcı bir şekilde anne kelimesi yanlış yazıldığında asla tiksinti veya tehditle ilişkilendirilmez, ancak doğru yazıldığında tiksinti ve tehdit hakkında bazı yorumlar olacaktır. İnsanlar, birini tehdit ederken veya tiksinti ifade ederken daha dikkatli mi davranıyor?

Francisco daha da derinleştikçe, kötü niyetli yorumların birçok durumda kopyalanan ve tekrar tekrar yapıştırılan ifadeler içerdiğini gördü. Tekrarlanan kelimeleri silip yeniden analiz ettikten sonra, yeni bir korelasyon seti keşfetti.

Sıradan kötü niyetli yorumlar genellikle anne, cehennem, silah, aptal, aptal ve kapa çeneni gibi hafif kelimeler kullanır. Bazı kötü niyetli ve müstehcen yorumlar f-kelime kullanır. Kötü niyetli olma ve hakaretin benzer, en azından saldırgan ve daha ciddi olduğu çifte olay örgüsünden de anlaşılabilir ki, tiksinti ve tehdit.

Her üç yazar da veri görselleştirmeyi kullanarak iyi sonuçlar elde etti.

Rhodium, karakter uzunluğu histogramı ile sınıflandırma kategorisi arasında bir ısı haritası oluşturdu ve bazı etiketlerin yüksek düzeyde ilişkili olduğunu buldu. Örneğin, aşağılayıcı yorumların müstehcen olma olasılığı% 74'tür.

Jagan bazı kelime bulutları, ısı haritaları ve çapraz tablolar çizdi ve şunları gözlemledi:

Çok kötü niyetli yorumlar kötü niyetli etiketler olarak sınıflandırılabilir

Birkaç istisna dışında, diğer kategoriler kötü niyetli yorumların bir alt kümesi olarak görünür.

Özellik mühendisliği

Rhodium, metni küçük harfe dönüştürür, sözdizimsel yapıyı manuel olarak nesnelere dönüştürür ve noktalama işaretlerini manuel olarak kaldırır.

Jagan, korelasyonu bulmak için çeşitli kötü niyetli özelliklerin haritasını çıkardı. İstenmeyen postanın genellikle kötü amaçlı olduğunu gördü.

Tek kelimeler ve kelime çiftleri için hem Jagan hem de Rhodium en üstteki kelimeyi çizmek için TF-IDF kullanır.

Yorumlar

Hepsi, küçük harfli metin, işleme yapısı ve noktalama işaretlerini temizleme dahil olmak üzere, ilgili alanda birkaç en iyi uygulama adımını izliyor gibi görünüyor. Bununla birlikte, bazıları bunların yalnızca gürültü değil, potansiyel özellik yönlendirmeleri olabileceğine inanıyor (örneğin, Francesco yazım hataları ile kötü niyet arasında bir ilişki buldu).

Korku Romancılarının Kimliği

Ürkütücü Yazar Kimliği yarışması, korku temalı üç yazar Edgar Allan Poe, HP Lovecraft ve Mary Wollstonecraft Shelley'e bazı metin parçaları sağladı. Katılımcılardan, yazarı belirli bir metinle eşleştirebilecek tahmini bir model oluşturmaları istendi. .

Analiz için seçtiğim EDA'lar Anisotropic'ten Spooky NLP ve Topic Modeling Tutorial, Bukun'dan Tutorial Detailed Spooky Fun EDA ve Modeling ve Heads and Tails'den Treemap House of Horror Spooky EDA LDA Özellikleri.

Bu veri seti ile ilgili ilginç olan şey basitliğidir.Yazar dışında metinde neredeyse hiç yapılandırılmamış veri bulunmamaktadır. Bu nedenle, tüm EDA'lar yalnızca dili ayrıştırmak ve analiz etmek için farklı yöntemler kullanmaya odaklanır.

Önce veri kümesini kontrol edersiniz ve ardından her yazar için öykü sayısını çizmek için birkaç satır seçersiniz. Bukun ayrıca her yazarın makalesindeki kelimelerin uzunluğunu da inceledi ve Anisotropic, toplam kelime sayısının bir çubuk grafiğini çizdi.

Anizotropik, bu kelimelerin sadece üç yazarın korku hikayelerinde ve romanlarında değil, aynı zamanda gazetelerde, çocuk kitaplarında, dini metinlerde - neredeyse diğer tüm İngilizce metinlerde de bulunabileceğini söyledi. Bu nedenle, veri kümesini önceden işlemenin bir yolunu bulmalıyız. Öncelikle, genellikle fazla bilgi getirmeyen kelimeleri kaldırın.

Hepsi en sık kullanılan kelimeleri göstermek için bir kelime bulutu grafiği oluşturdu:

En yaygın 50 kelimeye dayalı Heads or Tails kelime bulutu

Heads or Tails ayrıca her yazarın genel cümlesini, bireysel cümlesini ve kelime uzunluğunu da çizer ve yazarlar arasındaki ince farkları keşfeder.

Anizotropik ve Bukun, kelime segmentasyonunu tartıştı ve durdurma kelimelerini kaldırdı. Bu aşamadaki çalışmanın, benzer kelimelerin farklı varyantlarını tek bir terime indirgemeye çalışmak olduğunu söyledi (bir kelimenin farklı dalları tek bir köke indirgenir). Bu nedenle, metinde "koşma", "çalıştırma" ve "çalıştırma" varsa, "çalıştır" olacaktır. (Tabii ki geçmiş, şimdiki zaman veya gelecek zaman kaybolacaktır).

Kelime segmentasyonundan sonra Anisotropic, durdurma kelimelerini sildi, konuşma kısmını geri yükledi ve ilk 50 kelimenin kelime frekansı histogramını yeniden oluşturdu:

Bukun ilk 10 kelimenin bir kelime frekans haritasını çıkardı ve farklı bir küme buldu:

Yazı veya Yazı da aynı şeyi yaptı.Ayrıca yazar, kelime bölütleme ve kökten sonra kelime sıklığı ilk sırada olan kelimelere de baktı.

Hem Bukun hem de Heads veya Tails, belirli bir yazar için en "önemli" kelimeleri bulmak için TF-IDF değerlerini kullanır.

Heads or Tails, yazarın en önemli kelimelerini farklı bir grafikte çizer

Bukun, en sık kullanılan ikili modeli ve üçlü modeli (sırasıyla iki ve üç kelimelik kümeler) gözlemledi.

Heads or Tails, ikili modeller arasındaki kelime ilişkilerini çizer

Hem Bukun hem de Heads or Tails duygu analizi yaptı ve her yazarın genel olumsuz duygularını gözlemledi.

Bukun, her bir metin parçasındaki "korku", "sürpriz" ve "mutluluk" sayısını tespit etmek için "NRC duygusal kelime dağarcığı" adlı bir sözlük kullanır ve yazarların görsellerini görselleştirmek için kelime bulutu grafikleri, tablolar ve çubuk grafikler kullanır. ruh hali.

Bukun tarafından çizilmiş mutlu maçın kelime bulutu

Özellik mühendisliği

Bukun, virgül, noktalı virgül, iki nokta üst üste, boşluk ve büyük harf veya büyük harflerle başlayan kelimeler içeren sözcüklerin sayısı ve her birinin resimlerini çizme gibi bazı olası özellikler eklemeyi önerdi.

Heads or Tails vurgular:

Bu üç yazarın tanınmış şahsiyetler tarafından tanımlanabileceğini fark ettik. Mary Shelley "Raymond" yazdı ve Lovecraft "Herbert West" yazdı. Peki ya genel isimler? Bazı yazarlar belirli durumlarda isim kullanmaya daha istekli mi? Cümlelerin veya karakterlerin uzunluğunu inceledikten sonra dikkat etmemiz gereken kilit nokta budur.

Bu açıdan Heads or Tails, her yıl en popüler isimleri içeren ve verilere ek bir özellik ekleyen babynames paketine güveniyor.

Hem Bukun hem de Heads or Tails, yazarlar arasında cinsiyet zamirlerinin sınıflandırılması sorununa dikkat eder. Heads or Tails ayrıca cümlenin konusuna, yazarın ilk harfine ve son harfine, özel kelimelerin sayısına ve her cümledeki özel kelimelerin oranına da dikkat eder. , Diyalog etiketleri ve tekerlemeler. (Hoş bir fikir)

Yazı veya Yazı tarafından çizilmiş çeşitli ölçümler

Heads or Tails, özelliklerin etkileşimini gösteren bir resim özeti çizdi:

Özellik etkileşimini gösteren Yazı veya Yazı diyagramı

Yorumlar

Bu, çalışmaya değer bir yarışma. Çünkü metin parçası daha uzun ve yapılandırılmış verilere dayanmıyor.

Küçük harfli kelimeler, kökten türetme ve kelime bölümleme gibi yaygın NLP uygulamalarını kullanma eğilimindedirler ve ayrıca duyarlılık analizi ve ikili ve üçlü model analiz teknikleri gibi Toksik'ten daha gelişmiş teknikler kullanma eğilimindedirler.

Bu iki yarışmada ikisi de TF-IDF kullandı.

Özellik mühendisliği aşamasında çeşitli yeni özellikler tasarladılar. Her bir cümledeki ortalama kelime sayısı, noktalama seçimi ve kelimelerin tekrarlanıp tekrarlanmadığı vb. Dahil.

aracılığıyla: thekevinscott.com

Leifeng.com AI Araştırma Enstitüsü tarafından derlenmiş ve derlenmiştir.

"Apex Heroes" ilk savaş geçişi yakında piyasaya sürülecek

ROADM Teknolojisinin Geliştirme ve Uygulama Eğilimi Üzerine Tartışma