Yaygın veri temizleme problemleriyle başa çıkmak için R'yi nasıl kullanacağınızı öğretin (adım analizi, R dil kodu ile)

Yazar: James D. Miller

Çeviri: Wang Yutong

Düzeltme: Wan Wenjing

Bu makale hakkında 5300 kelime, 10 dakikadan fazla okumanız tavsiye edilir.

Bu makale, veri temizleme işleminin ana adımlarını tanıtacak ve vakalar ve kodlar aracılığıyla veri temizliği için R dilinin nasıl kullanılacağını gösterecektir.

R, olasılık istatistikleri hesaplama, temizleme, özetleme ve oluşturma gibi veri işleme için mükemmel bir seçimdir. Ayrıca platformdan bağımsız olduğu ve kısa vadede kaybolmayacağı için oluşturulan program her yerde çalıştırılabilir. Ve harika yardımcı kaynaklara sahiptir.

Bu makale, Packt Publishing tarafından yayınlanan James D. Miller tarafından yazılan "Veri Bilimi İstatistikleri" kitabından bir alıntıdır.

R, kullanımı kolay bir dil ve ortamdır.Esnekdir ve istatistiksel hesaplamalara odaklanır.Bu nedenle, hesaplama, temizleme, özet ve olasılık istatistikleri oluşturma gibi veri işleme için mükemmel bir seçimdir.

Ek olarak, veri temizliği için R'yi kullanmanın diğer nedenleri şunlardır:

  • Çok sayıda veri bilimcisi R'yi kullandığı için kısa sürede yok olmayacak.
  • R, platformdan bağımsızdır, bu nedenle programları her yerde çalıştırabilirsiniz.
  • R mükemmel yardımcı kaynaklara sahiptir - Google it ve bunu görebilirsiniz.

Not: Yazar örnek veriyi "Oyun Verileri" olarak adlandırsa da, bu sadece kodu göstermek için kullanılan kumar verileridir.

Aykırı

Aykırı değerler için en basit açıklama şudur: aykırı değerler, verilerin geri kalanıyla eşleşmeyen veri noktalarıdır. Geleneksel olarak, çok yüksek, çok düşük veya anormal (proje geçmişine göre) herhangi bir veri bir aykırı değerdir. Veri temizliğinin bir parçası olarak, veri bilimcilerin genellikle aykırı değerleri belirlemesi ve bunları çözmek için ortak yöntemler kullanması gerekir:

  • Aykırı değere karşılık gelen gerçek değişkeni bile, aykırı değerin değerini silin.
  • Değişken değerini veya değişkenin kendisini dönüştürün.

Gerçek durumlarda veri aykırı değerlerini belirlemek ve çözmek için R'nin nasıl kullanılacağına bir göz atalım.

Kumar makineleri kumar endüstrisinde çok popülerdir (slot makinelerinin çalışma yöntemi, makineye bozuk para koymak ve ödülü belirlemek için kolu çekmektir). Günümüzde çoğu slot makinesi elektroniktir ve tüm faaliyetlerinin sürekli olarak izlenebilmesi için programlanmıştır. Bu makale söz konusu olduğunda, kumarhane yatırımcıları bu verileri (ve çeşitli ek verileri) kar stratejilerini ayarlamak için kullanmayı umuyorlar. Başka bir deyişle, slot makinelerinin daha fazla para kazanmasını sağlayan nedir? Makinenin konusu mu, türü mü? Yeni makineler eski veya eski makinelerden daha mı karlı? Makinenin konumunun nasıl bir etkisi olacak? Düşük mezhepli bir makine daha fazla para kazandıracak mı? Aykırı değerleri kullanarak cevabı bulmaya çalışıyoruz.

Slot makinesi konumu, para birimi, ay, gün, yıl, makine türü, makine yaşı, promosyonlar, kuponlar, hava durumu gibi verileri içeren bir koleksiyon veya kumar veritabanı (virgülle ayrılmış veya CSV metin dosyası olarak biçimlendirilmiş) verildiğinde Ve jeton miktarı (jeton miktarı, makineye konulan jetonların toplamı eksi ödenen miktardır).

Bir veri bilimcisi olarak ilk adım, verilerin kapsamlı bir incelemesini yapmaktır (bazen genel bakış olarak adlandırılır). Şu anda, aykırı değerler olup olmadığını belirlemeliyiz. İkinci adım, bu aykırı değerleri çözmektir.

1. Adım: Verilere genel bakış

R, bu adımı çok basit hale getirir. Pek çok şekilde programlayarak çözülebilmesine rağmen problemi en az program kodu veya script ile çözmeye çalışmalıyız. CSV dosyasını bir R değişkeni (MyFile olarak adlandırılır) olarak tanımlayın ve dosyayı bir veri çerçevesine (Mydata adında) okuyun:

Dosyam < - "C: /GammingData/SlotsResults.csv"

Benim verim < -read.csv (dosya = MyFile, başlık = TRUE, sep = ",")

İstatistiklerde, kutu grafikleri, bir istatistiksel veri setinin dağılımı, değişkenliği ve merkezi (veya medyan) hakkında bilgi edinmenin basit bir yoludur, bu nedenle ortamı tanımlayıp tanımlayamayacağımızı incelemek için kutu grafiklerini kullanacağız Coin-in sayısı ve aykırı değerlerin bulunup bulunmadığı. Bunu başarmak için, R'nin dosyadaki her slot makinesinin Coin-in değerini çizmesine izin verebiliriz.Bir kutu grafiği çizme işlevi aşağıdaki gibidir:

boxplot (MyData, main = 'GammingData Review', ylab = "Coin-in")

Not: Bozuk para, dosyadaki 11. sütundur, bu nedenle bunu doğrudan kutu grafiği işlevinin parametresi olarak kullanın. Ek olarak, görselleştirmeye bir başlık eklemek için isteğe bağlı bir parametre eklendi (yine, bu makale kodu olabildiğince kısa tutmaya çalıştı).

Önceki kodu yürütmek, medyan (medyan, kutu grafiğinde ortayı geçen çizgidir) ve dört aykırı değer dahil olmak üzere aşağıdaki şeklin etkisini elde edebilir:

Adım 2 - Aykırı Değerlerle Başa Çıkın

Şimdi verilerde aykırı değerler olduğunu görüyoruz, bu araştırmayı olumsuz etkilemeyeceklerinden emin olmak için bu noktaları ele almamız gerekiyor. Her şeyden önce, Coin-in'in negatif bir değere sahip olmasının mantıksız olduğunu biliyoruz, çünkü makine, makineye konulan madeni paralardan daha fazla madeni para çıkarmayacaktır. Bu prensibe dayanarak negatif Coin-in değerlerine sahip kayıtları dosyadan silebiliriz. Ek olarak, R, yeni bir veri çerçevesi oluşturmak için alt kümeyi kullanmamıza yardımcı olabilir.Yeni veri kümesi Coin-in'de yalnızca negatif olmayan değerlere sahiptir.

Alt küme veri çerçevesini noNegs olarak adlandıracağız:

hayır < -subset (MyData, MyData > 0)

Daha sonra, negatif uç değerlerin kaldırıldığından emin olmak için tekrar çizmemiz gerekiyor:

boxplot (noNegs, main = 'GammingData Review', ylab = "Coin-in")

Bu, aşağıdaki şekilde gösterildiği gibi yeni bir kutu grafiği oluşturur:

Coin-in'deki aşırı pozitif değerleri (1500 $ 'dan fazla) kaldırmak için aynı yöntemi kullanarak başka bir veri alt kümesi elde edebilir ve tekrar çizebiliriz:

hayır < -subset (noNegs, noNegs < 1500)

boxplot (noOutliers, main = 'GammingData Review', ylab = "Coin-in")

Verilerin farklı yinelemelerini yaptıktan sonra, verilerin çoğu sürümünü kaydetmeniz önerilir (en önemli değilse). Write.csv R işlevini kullanabilirsiniz:

write.csv (noOutliers, file = "C: /GammingData/MyData_lessOutliers.csv")

Not: Çoğu veri bilimcisi, proje boyunca ortak bir adlandırma kuralı benimser. Gelecekte zaman kazanmanıza yardımcı olmak için dosyanın adı olabildiğince açık olmalıdır. Ek olarak, özellikle büyük miktarda veriyle uğraşırken, bellek alanı sorunlarına dikkat etmeniz gerekir.

Yukarıdaki kodun çıktısı aşağıdaki gibidir:

Alan bilgisi

Daha sonra, başka bir veri temizleme tekniği, verileri alan bilgisine dayalı olarak temizlemektir. Bu karmaşık değildir Bu tekniğin anahtarı, verilerde tespit edilemeyen bilgileri kullanmaktır. Örneğin, Coin-in'in negatif bir değere sahip olamayacağını bildiğimizde, Coin-in negatif değeri durumunu göz ardı ettik. Başka bir vaka da Sandy Kasırgasının Amerika Birleşik Devletleri'nin kuzeydoğusunu vurduğu zamandır. Bu süre boyunca, makinenin Coin-in değeri çok düşüktür (sıfır olmayan). Veri bilimcileri, verilere dayanarak belirli bir zaman diliminden verilerin kaldırılıp kaldırılmayacağını belirlemelidir.

Geçerlilik kontrolü

Çapraz doğrulama, veri bilimcilerinin veritabanlarında kuralları kullanmalarına yardımcı olan bir tekniktir.

Not: Geçerlilik denetimi, istatistiksel veri temizlemenin en yaygın şeklidir ve veri geliştiricilerinin ve veri bilimcilerinin çok aşina olduğu bir süreçtir.

Veri temizleme sırasında herhangi bir sayıda geçerlilik ilkesi belirlenebilir ve bu ilkeler veri bilimcinin niyetine veya amacına uygun olmalıdır. Örneğin, aşağıdaki ilkeler vardır: veri türü (örneğin, bir alan sayısal olmalıdır), aralık kısıtlaması (veri veya tarih, belirli bir aralık içinde olmalıdır), gereksinimler (bir alan boş olamaz veya değer yok), benzersizlik (a Alan veya alanların birleşimi veritabanındaki tek alan olmalıdır), grup üyeleri (bu değer listedeki değer olmalıdır), yabancı anahtarlar (bu durumda açık bir değer olmalı veya özel kuralları karşılamalıdır), normal ifadeler Mod (kısaca, bu değerin formatı önceden ayarlanmış formatı karşılar), alanlar arası doğrulama (vakadaki alanların kombinasyonu belirli standartları karşılamalıdır).

Bir önceki makalede bahsedilen içeriğe göre, veri türünden başlayarak (zorunlu ilke olarak da bilinir) bazı durumlara bakalım. R tarafından sağlanan altı zorunlu işlev aşağıdaki gibidir:

  • as.numeric
  • as.integer
  • as.character
  • as.logical
  • as. faktör
  • as.ordered
  • as.Date

Bazı R bilgisi ile birleştirilen bu işlevler, veri tabanındaki verileri dönüştürmeyi kolaylaştırır. Örneğin, önceki kumar verilerini bir örnek olarak kullanarak, yaş değerinin bir karakter (veya metin değeri) olarak depolandığı yeni bir kumar sonucu dosyası oluşturabiliriz. Temizlemek için onu bir veri türüne dönüştürmemiz gerekiyor. Hızlı bir dönüşümü tamamlamak için aşağıdaki R kodunu kullanabiliriz:

hayır < -as.numeric (noOutliers)

Unutulmaması gereken bir nokta: Bu basit yöntemi kullanırken, Dönüştürülemeyen veriler varsa, NA değerine ayarlanması gerekir . Tür dönüştürmede en büyük iş, hangi verilerin girilmesi gerektiğini ve hangi veri türlerinin yasal olduğunu anlamaktır; R, skaler, vektör (sayısal, karakter ve mantıksal), matris, veri çerçevesi ve dahil olmak üzere çok çeşitli veri türlerine sahiptir. Liste.

Veri temizlemede odaklanmamız gereken bir diğer alan da düzenli ifadelerdir. Uygulamada, özellikle işlenen veriler birçok kaynaktan geldiğinde, veri bilimcileri şu sorunlarla karşı karşıya kalırlar: alan ideal formatta değil (mevcut hedef için) veya alan değerinin formatı tutarsız (yanlış sonuçlara neden olabilir) . Örneğin tarih, sosyal güvenlik numarası (SSN) ve cep telefonu numarası. Verilerin kaynağına bağlı olarak, verileri yeniden girmeniz gerekir (yukarıda açıklandığı gibi), ancak genellikle verileri hedefe göre kullanılabilir bir modelde yeniden tanımlamanız gerekir.

Not: Verileri yeniden girmek önemlidir, böylece R, değerin mevcut veri olduğunu bilir ve çeşitli R veri işlevlerini doğru şekilde kullanabilirsiniz.

Yaygın bir durum, verilerin YYYY / AA / GG biçiminde tarih verilerini içermesidir, haftalık özet biçiminde bir zaman serisi analizi veya tarih değerleri gerektiren ancak tarih biçimini yeniden tanımlamanız gerekebilecek diğer işlemler veya Bunu R tarih türüne değiştirmelisiniz. Öyleyse, yeni bir kumar dosyası varsayalım - sadece iki sütun veri: tarih ve jeton hacmi, bu dosya bir slot makinesinin günlük jeton hacmidir.

Yeni dosya kaydı aşağıdaki ekran görüntüsünde gösterilmektedir:

Veri bilimciler çeşitli veri temizleme durumlarını kullanabilir. Her veri noktasının veri türünü doğrulamaktan başlayarak, belgenin veri türünü doğrulamak için R işlev sınıfını kullanabiliriz. İlk önce (önceki durumda yaptığımız gibi), CSV dosyasını okuyun ve bir veri çerçevesi olarak kaydedin:

Dosyam < - "C: /GammingData/SlotsByMachine.csv"

Benim verim < -read.csv (dosya = MyFile, başlık = TRUE, sep = ",")

Ardından, aşağıdaki ekran görüntüsünde gösterildiği gibi sınıf işlevini kullanabiliriz:

Yukarıdaki şekilden, sınıfın veri türlerini görüntülemek için kullanıldığını görebilirsiniz.

MyData, kumar verilerini depolamak için kullanılan bir veri çerçevesidir, Tarih bir vektör türüdür ve Coinin bir tam sayıdır. Bu nedenle, veri çerçeveleri ve tamsayılar anlamlıdır, ancak R'nin tarihi bir vektör (faktör) türü olarak ayarladığını unutmayın. Vektör, kategorik bir değişkendir, özet istatistiklerde, çizimde ve regresyonda çok kullanışlıdır, ancak tarih türleri için çok uygun değildir. Bu sorunu çözmek için, R fonksiyonlarını kullanarak substr ve aşağıdaki gibi yapıştırabiliriz:

MyData $ Tarih < -paste (substr (MyData $ Date, 6,7), substr (MyData $ Date, 9,10), substr (MyData $ Date, 1,4), sep = "/")

Yukarıdaki kod, tarih alanının formatını yeniden tanımlamaktadır. Veri alanı değerini üç bölüme (ay, gün ve yıl) böler ve ardından bunları aşağıdaki ekran görüntüsünde gösterildiği gibi istenen sırada (/ ayırıcı (sep)) birbirine yapıştırır:

Tarih alanını bir karakter türüne dönüştürmek için bu komut dosyası satırını bulduk ve son olarak değeri bir tarih (Tarih) türüne sıfırlamak için as.Date işlevini kullanabiliriz:

Küçük bir denemeyle ideal dizeyi veya karakter veri noktasını elde etmek için yeniden biçimlendirebilirsiniz.

Verileri iyileştirin

İyileştirme yoluyla veri temizleme, başka bir yaygın tekniktir; ilgili bilgilerin, gerçeklerin veya verilerin eklenmesi verileri eksiksiz hale getirir (muhtemelen daha değerli). Bu ek verilerin kaynağı, verilerdeki mevcut bilgiler kullanılarak veya diğer kaynaklardan bilgiler eklenerek hesaplanabilir. Veri bilimcilerinin verileri mükemmelleştirmek için zaman harcamalarının birçok nedeni vardır.

Mevcut amaç veya hedefe bağlı olarak, veri bilimcisi tarafından desteklenen bilgiler referans, karşılaştırma, karşılaştırma veya trend keşfi için kullanılabilir.

Tipik kullanım durumları şunları içerir:

  • Türetilmiş gerçek hesaplama
  • Takvim ve mali yıl kullanımını karşılaştırın
  • Saat dilimini dönüştür
  • Para birimi dönüştürme
  • Mevcut ve önceki göstergeleri ekle
  • Toplam günlük gönderiler gibi değeri hesaplayın
  • Yavaşça değişen bir boyutu koruyun

Not: Bir veri bilimcisi olarak, verileri iyileştirmek için genellikle komut dosyaları kullanmalısınız.Bu yöntem, veri dosyalarını doğrudan düzenlemekten çok daha iyidir, çünkü hata yapma olasılığı daha düşüktür ve orijinal dosyanın bütünlüğünü koruyabilir. Ek olarak, bir komut dosyasının oluşturulması, aynı işi yeniden yapmak zorunda kalmadan, iyileştirilmiş işlemi birden çok dosyaya veya alınan dosyaların yeni sürümlerine tekrar tekrar uygulamanıza olanak tanır.

Kumar verilerimize geri dönersek, bir slot makinesi jeton hacmi belgesi aldığımızı ve şirketin Amerika Birleşik Devletleri'nin dışında bir kumarhane kurduğunu varsayalım. Bu yeni konumlar bize dosyalar gönderiyor ve veriler istatistiksel analizimize dahil edilecek. Bu uluslararası belgelerin yerel para birimindeki madeni para miktarı olduğunu gördük. Verileri doğru modellemek için verileri dolara çevirmemiz gerekiyor.

Senaryo aşağıdaki gibidir:

Dosya kaynağı: Birleşik Krallık

Para birimi kullan: İngiliz Poundu

İngiliz sterlini ABD dolarına çevirmenin formülü çok basit, miktarı döviz kuru ile çarpmanız yeterli. Yani, R'de:

MyData $ Coinin < -MyData $ Coinin * 1.4

Yukarıdaki kod istediğimiz dönüşümü tamamlayabilir; ancak veri bilimcinin hangi para biriminin (sterlin) dönüştürüleceğine ve döviz kurunun ne olması gerektiğine karar vermesi gerekir. Bu büyük bir sorun değil, ancak aşağıda gösterildiği gibi kullanılacak döviz kurunu belirlemek için kullanıcı tanımlı bir işlev oluşturmayı deneyebiliriz:

Fiyat almak < -function (arg) {

if (arg == "GPB") {

myRate < -1.4

}

if (arg == "CAD") {

myRate < -1,34

}

iade (myRate)

}

Önceki kod daha basit olsa da, yukarıdaki kod, gelecekte tekrar kullanabilmemiz için oluşturma mantığının ana noktalarını göstermektedir:

Son olarak, tüm süreci daha mükemmel hale getirmek için, ileride kullanmak üzere işlevi (R belgesinde) saklayacağız:

kaynak ("C: /GammingData/CurerncyLogic.R")

Sonra:

Dosyam < - "C: /GammingData/SlotsByMachine.csv"

Benim verim < -read.csv (dosya = MyFile, başlık = TRUE, sep = ",")

MyData $ Coin < -MyData $ Coinin * getRate ("CAD")

Not: Elbette en ideal durumda, tablo veya dosyadaki ülke koduna göre döviz kurunu arama fonksiyonunu geliştirebiliriz, böylece döviz kuru anlık değer ile değişebilir ve veriler programdan ayrıştırılabilir.

Veri mutabakatı

Veri bilimcileri, araştırma ve analizin genel amacına bağlı olarak, veri mutabakatı yoluyla veri değerlerini diğer ideal değerlere dönüştürebilir, çevirebilir veya eşleştirebilir. En yaygın durum cinsiyet veya ülke kodudur. Örneğin, belgeniz cinsiyeti 0 ve 1 veya A ve F olarak kodluyorsa, verileri tutarlı ERKEK veya KADIN'a dönüştürmek istersiniz.

Veri bilimcileri, ülke kodlarıyla ilgili olarak, Amerika Birleşik Devletleri, Kanada, Meksika, Brezilya, Şili, Birleşik Krallık, Fransa ve Almanya'yı ayırmak yerine, bölgelerin bir özetini çıkarmak istiyor: Kuzey Amerika, Güney Amerika ve Avrupa. Bu durumda toplam değer aşağıdaki gibi olacaktır:

Kuzey Amerika = ABD + Kanada + Meksika

Güney Amerika = Brezilya + Şili

Avrupa = İngiltere + Fransa + Almanya

Veri bilimcinin cinsiyet dahil olmak üzere tüm anket dokümanlarını bir araya getirebileceği, cinsiyet.txt olarak adlandırılabileceği ancak dokümanlardaki cinsiyet kodlarının farklı olduğu (1, 0, E, K, Erkek ve Kadın) vurgulanmalıdır. R fonksiyon tablosunu kullanmaya çalışırsak, aşağıdaki anlaşılabilir sonuçları göreceğiz:

Görsel analiz en ideal durumda yapılırsa:

lbs = c ("Erkek", "Kadın")

pasta (tablo (MyData), main = "Cinsiyete Göre Kumar")

Aşağıdaki ekran görüntüsünü görüyoruz:

Tutarsız cinsiyet veri kodlaması sorununu çözmek için, önceki vakadaki kavramları ödünç aldım ve yeniden kodlamamıza yardımcı olacak basit bir işlev oluşturdum:

setGender < -function (arg) {

if (substr (arg, 1,1) == "0" | toupper (substr (arg, 1,1)) == "M") {Cinsiyet < -"ERKEK"}

if (substr (arg, 1,1) == "1" | toupper (substr (arg, 1,1)) == "F") {Cinsiyet < -"KADIN"}

dönüş (Cinsiyet)

}

Bu sefer toupper işlevini ekledim, böylece büyük harf kullanımı konusunda endişelenmemize gerek kalmayacak ve bir karakterden daha uzun değerleri kontrol etmek için substr var.

Not: Parametrenin değerinin 0, 1, m, E, f, F, Erkek veya Kadın olduğunu varsayın, aksi takdirde bir hata raporlanacaktır.

R bir vektör türü olarak cinsiyeti kullandığından, basit işlevleri uygulamakta zorlandım, bu yüzden mutabık kılınan verileri içerecek yeni bir R veri çerçevesi oluşturmaya karar verdim. Ve belgedeki kayıtları okumak ve bunları Erkek veya Kadın'a dönüştürmek için bir döngü kullanın:

Dosyam < - "C: /GammingData/Gender.txt"

Benim verim < -read.csv (dosya = MyFile, başlık = TRUE, sep = ",")

Cinsiyet Verisi < -data.frame (nrow (MyData))

for (iin 2: nrow (MyData))

{

x < -as.character (Verilerim)

Cinsiyet Verisi < -setGender (x)

}

Şimdi aşağıdaki ifadelerle daha uygun görselleştirme sonuçları elde edeceğiz:

lbls = c ("Erkek", "Kadın")

pasta (tablo (GenderData), etiketler = lbls, main = "Cinsiyete Göre Kumar")

Yukarıdaki kodun çıktısı aşağıdaki gibidir:

standardizasyon

Çoğu ana akım veri bilimcisi, istatistiksel bir araştırma veya analiz projesine başlamadan önce veri temizleme sürecinin bir parçası olarak verileri standartlaştırmanın önemini fark etti. Bu çok önemli, standardizasyon yoksa farklı boyutlardaki veri noktalarının analize katkısı eşit olmayacaktır.

0 ile 100 arasındaki veri noktalarının, 0 ile 1 aralığındaki değişkenlerden daha fazla etkiye sahip olduğunu düşünüyorsanız, veri standardizasyonunun önemini anlayabilirsiniz. Bu standartlaştırılmamış değişkenlerin kullanılması, analizde daha geniş bir değişken yelpazesine aslında daha fazla ağırlık verir. Veri bilimcileri, bu sorunu çözmek ve bu değişkenleri dengelemek için verileri karşılaştırılabilir boyutlara dönüştürmeye çalışırlar.

Veri noktalarının merkezileştirilmesi, veri standardizasyonunun en yaygın örneğidir (çok daha fazlası olmasına rağmen). Veri bilimcisi, veri noktalarını merkezileştirmek için, dosyadaki her veri noktasından tüm verilerin ortalamasını çıkarır.

R hesaplama yapmaz, bir ölçekleme işlevi sağlar ve varsayılan yöntemi dosyadaki değeri bir kod satırıyla ortalayabilir veya azaltabilir. Basit bir örneğe bakalım.

Slot makinesi kasasına geri dön! Kumarla ilgili belgelerimizde makinenin karlılığının bir göstergesi olarak kabul edilen, makineye yatırılan toplam dolar miktarını temsil eden bir değer olan Coinin adlı bir alan olduğunu hatırlayabilirsiniz. Bu, karlılık analizimizde kullanılan önemli bir veri noktası gibi görünüyor . Ancak, bu miktarlar yanıltıcı olabilir çünkü farklı makinelerin farklı mezhepleri vardır. (Başka bir deyişle, bazı makineler kuruş kabul ederken, diğerleri on sent veya dolar kabul eder). Belki de makinenin yüz değerindeki farklılık farklı boyutlara neden olmuştur.Bu durumu çözmek için ölçek işlevini kullanabiliriz. Öncelikle, aşağıdaki ekran görüntüsünde Coin.in değerini görebiliriz:

Coin.in veri noktasının işlenmesini aşağıdaki ifade ile merkezileştirebiliriz:

ölçek (Verim, merkez = DOĞRU, ölçek = DOĞRU)

Merkezin değeri, çizginin nasıl ortalanacağını belirler. Merkez DOĞRU ise, Coin.in'nin ortalama değerini karşılık gelen satırdan çıkarmanız gerekir (NA'yı atlayın). Ölçeğin değeri nasıl ölçekleneceğini belirler (merkezlemeden sonra). Ölçeğin değeri DOĞRU ve merkez değeri DOĞRU ise, ölçekleme Coin.in'deki standart sapmaya bölünerek yapılır (ortalamadan sonra). Merkez değer False ise, kök ortalama kare değeri elde edilecektir.

Farkı aşağıdaki ekran görüntüsünde görebilirsiniz:

Orijinal başlık: R'de yaygın veri anlama sorunları nasıl çözülür?

Orijinal bağlantı: https://www.kdnuggets.com/2018/05/ packt-tackle-common-data-cleaning-issues-r.html

Çevirmen Profili

Wang Yutong , İstatistik okumak, veri bilimi alanında yüksek lisans yapmak, aralıksız koşmak, piyano çalmaktan daha fazlası. Veri görselleştirmeyi bir sanat olarak ele almayı hayal ediyorum ve şimdi çeneme dokunarak makine öğrenimini izliyorum.

"Eski sürücü" sürücüsüz araba, evden çıkmadan oyun oynarken araba kullanmayı öğrenin
önceki
GIF-forvetlerin saldırmasını önleyin! Buffon, Eto'o'nun hilelerini gördü, Messi denemekte başarısız oldu
Sonraki
İsveçli kolluk kuvvetleri hamile bir kadına acımasızca muamele etti! Özür dilemeyecekleri ortaya çıktı
Lu Qi'nin katılmasıyla Baidu, "Amazon AI mucizesinden" ne kadar uzakta?
Wuhan Metro, merkezi medyaya defalarca hakim ve ülkenin dört bir yanındaki netizenler bu "erik kırmızısını" övdü
Veri Bilimi Birikimi: Deniz Seviyesi Altındaki Buzdağları | Zheng Fang, Tsinghua Bilgi Teknolojisi Enstitüsü
Bir Pembe Çin Yeni Yılı 17 Yılbaşı malı hazırlayın, göz kamaştırıcı pazarda kaç şey satın aldınız?
Eski yeri tekrar ziyaret edin! İki yıl önce Güney Kore'ye gitti ve buraya milli futbol takımı için bir anıt dikildi.
Endüstri | Veri ekibi şirketin yapay zeka dönüşümünden sorumlu olmalı mı? (Ekli 2017 panorama raporu)
Şampiyonlar Ligi'nin utancı çıktıktan sonra, Paris paraya çevirmek için 6 yıldız satacak, 2 yıldız satılık değil!
İtalya'daki yüzlerce lüks Maserati arabası bu şekilde yakıldı
Kayıt "Youmeng +" sitesini ziyaret edin: Veriler Yeni Perakende Deneyiminin Yükseltilmesini Nasıl Sağlar
Bir İtalyan limanında çıkan yangında yüzlerce yeni Maserati yandı
Özel Hu Qingyong: Durum Farkındalığı Altında Akıllı Komuta (PPT ile)
To Top