Veri temizliği için en iyi R paketi (kaynaklarla)

Yazar: Anna Kayfitz, StrategicDB Corp CEO'su

Çeviri: Gu Yuhua

Redaksiyon: Yang Guang

Bu makale hakkında 1700 Word, önerilen okuma 5 dakika.

Verilerin temiz ve düzenli olmasını sağlamak, veri bilimi iş akışının her zaman ilk ve en önemli parçası olmalıdır.

Veri temizleme, veri bilimcileri için en önemli ve zaman alan görevlerden biridir. Aşağıdakiler, veri temizliği için en iyi R paketleridir.

Milyonlarca veya milyarlarca veri öğesi her gün işletmenize giriyor. Kaçınılmaz olarak, verimli bir iş modeli oluşturmak için gerekli kaliteden yoksun bazı veri unsurları vardır. Ancak, verilerin temiz ve düzenli olmasını sağlamak her zaman veri bilimi iş akışının ilk ve en önemli parçası olmalıdır. Çünkü onsuz, önemli içeriği görmede zorluk yaşarsınız ve veri kopyası, veri anormallikleri veya bilgi eksikliği nedeniyle yanlış kararlar verebilirsiniz.

İstatistiksel hesaplamalara ve grafiklere uygulanabilen açık kaynaklı bir dil olan R, en yaygın kullanılan ve güçlü veri programlama araçlarından biridir. R, bir veri bilimi projesi oluşturmak için gereken tüm araçları sağlar, ancak hangi araç kullanılırsa kullanılsın, yalnızca aldığı verilere eşdeğer bilgiler sağlayabilir. Ancak bu araçlarla, R ortamında, herhangi bir proje başlamadan önce veri işleme ve manipülasyon için kullanılabilecek birçok kitaplık vardır.

Verileri keşfedin

Veri serilerini keşfetmek için içe aktardığınız araçların çoğu R platformunda zaten mevcuttur.

Özet (veriler)

Bu kullanışlı komut, her özellik için minimum, maksimum, medyan, ortalama ve kategori ayrımını göstererek tüm veri özelliklerini özetlemektedir. Bu, olası veri anormalliklerini hızla tespit etmenin harika bir yoludur.

Ardından, verilerin dağılımını daha iyi anlamak için histogramı kullanabilirsiniz. Bu, veri kümesindeki veya özellikle gözlemlemek istediğiniz herhangi bir sayısal sütundaki aykırı değerleri görselleştirecektir.

plyr paketi

Histogramlar oluşturmak için plyr paketini kurmanız ve kitaplığı kurmak için standart R işlevlerini kullanmanız gerekir.

Install.packages ("plyr") Kütüphane (plyr) Geçmiş (YOUR_DATASET_NAME)

Bu, herhangi bir anormalliği hızlı bir şekilde tespit etmek için verilerin görselleştirilmesini sağlayabilir. Kutu çizimi görselleştirme aynı paketi kullanır, ancak aykırı değer tespiti için çeyreklere bölünmüştür. Bu iki kombinasyon, veri setini sınırlamanız mı yoksa herhangi bir algoritma veya istatistiksel modellemede sadece bölümlerini kullanmanız mı gerektiğini size hızlı bir şekilde söyleyecektir.

Hatayı düzeltin

R, sütunları dizelere dönüştürmek için .charater () gibi basit mantık kullanarak değerleri dönüştürmek gibi veri hatalarını düzeltmek için önceden oluşturulmuş birçok yönteme sahiptir.

Bununla birlikte, histogramda veya kutu grafiğinde görülen hataları düzeltmeye başlamak istiyorsanız, bunu yapmak için başka bir yazılım paketi seçebilirsiniz.

stringr paketi

Stringr, boşlukları kesmek ve bazı gereksiz kelimeleri değiştirmek dahil olmak üzere verileri birkaç farklı şekilde temizlemeye yardımcı olabilir. Bunlar çok standart kodlardır, yapı str_trim'dir (YOUR_DATA_FIELD), sadece boşlukları kaldırır.

Ancak histogramımızın bize anlattığı anormalliği nasıl ortadan kaldırabiliriz? Bundan daha karmaşık olması gerekiyor, ancak temel bir örnek olarak, R'ye alanımızdaki tüm aykırı değerleri alanın medyan değeri ile değiştirmesini söyleyebiliriz. Bu, her şeyi bir araya getirecek ve olağandışı önyargıları ortadan kaldıracaktır.

Eksik değer

R'deki eksik verileri kontrol etmek ve sahada gerçekleştirmek ve çalıştırmak çok basittir. Örneğin, bu işlev, seçilen veri sütunundaki eksik değerleri tamamen ortadan kaldıracaktır.

Na.omit (YOUR_DATA_COLUMN)

Alan türüne bağlı olarak boş değerleri 0 veya N / A ile değiştirmek ve veri kümesinin tutarlılığını geliştirmek için benzer seçenekler vardır.

düzenli çanta

Tidyr paketi verilerinizi düzenlemek için tasarlanmıştır. Veri kümesindeki değişkenleri tanımlayarak ve bunları üç ana işlevi olan sütunlara taşımak için sağlanan araçları kullanarak çalışır veya toplama (), ayrı () ve spread ().

Collect () işlevi birden çok sütunu alır ve bunları anahtar / değer çiftleri halinde toplar. Örneğin, test puanı verileriniz olduğunu varsayalım.

Toplama işlevi, kullanılabilir sütunlara dönüştürülerek tamamlanır.

Artık test sonuçlarını gerçekten analiz edebiliriz. Ayrı olarak ve yayılma işlevi benzer şeyler yapar, paketi aldıktan sonra keşfedebilirsiniz, ancak sonunda verilerinizi gerektiği gibi keşfedebilirsiniz.

Aşağıda, R'de veri temizliği için yararlı olabilecek diğer bazı yorum paketleri verilmiştir:

  • Purr çantası

Purr paketi, veri organizasyonu için tasarlanmıştır. Plyr paketine çok benziyor, daha eski olmasına rağmen, bazı kullanıcılar kullanımının daha kolay olduğunu ve işlevlerde daha standart hale geldiğini düşünüyor.

  • sqldf paketi

Çoğu R kullanıcısı, R kodlaması yerine SQL dilini kullanmaya daha alışkındır. Bu işlev, veri öğelerinizi seçmek için R stüdyosunda SQL kodu yazmanıza olanak tanır

  • Kapıcı çantası

Yazılım paketi, birden çok sütun aracılığıyla kopyaları bulabilir ve veri çerçevenizden kolayca uygun sütunlar oluşturabilir. Birden çok veri satırında yinelenen değerleri bulmak için get_dupes () işlevi bile vardır. Verileri daha gelişmiş bir şekilde tekilleştirmek istiyorsanız, örneğin farklı kombinasyonlar bulmak veya bulanık mantık kullanmak istiyorsanız, bir tekilleştirme aracına göz atmak isteyebilirsiniz.

  • splitstackshape paketi

Bu daha eski bir pakettir ve veri çerçevesi sütunlarında virgülle ayrılmış değerler kullanabilirsiniz. Araştırma veya metin analizi hazırlığı için kullanılır.

R'nin çok sayıda yazılım paketi var ve bu makale, yapabileceklerinin sadece yüzeyini çizdi. Yeni kütüphaneler ortaya çıkmaya devam ettikçe, yeni bir projeye başlamadan önce doğru kütüphaneyi araştırmak ve elde etmek çok önemlidir.

Öğrenme Kaynakları:

  • Çevrimiçi ve web tabanlı: analitik, veri madenciliği, veri bilimi, makine öğrenimi eğitimi
  • https://www.kdnuggets.com/education/online.html
  • Analiz, veri bilimi, veri madenciliği ve makine öğrenimi yazılımı
  • https://www.kdnuggets.com/software/index.html

İlgili Makaleler:

  • Vakumda analiz etmeyin
  • https://www.kdnuggets.com/2019/02/mode-dont-do-analysis-vacuum.html
  • Jupyter'de R ve Python'u çalıştırın
  • https://www.kdnuggets.com/2019/02/running-r-and-python-in-jupyter.html
  • 2018'de veri bilimi ve yapay zeka için ilk yedi R paketi
  • https://www.kdnuggets.com/2019/01/vazquez-2018-top-7-r-packages.html

Yazar hakkında:

Anna Kayfitz , Bir veri temizleme ve analiz şirketi olan StrategicDB Corp İcra Kurulu Başkanı. Schulich School of Business'tan MBA derecesi var ve StrategicDB'yi kurmadan önce 10 yıldan fazla bir süre veri analizi ve pazarlamada çalıştı.

Orjinal başlık:

Veri Temizleme için En İyi R Paketleri

Orijinal bağlantı:

https://www.kdnuggets.com/2019/03/top-r-packages-data-cleaning.html

Çevirmen Profili

Imperial College ve IE Business School mezunu olan Gu Yuhua, şu anda bir SxGroup danışmanlık stajyeridir. Veri bilimi konusunda hevesli, iyimser ve tutkulu.

- Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Bu güzel çiçekler! Qingshan'a gelmediğim için üzgünüm ~
önceki
GitHub Wanxing'in Çin makine öğrenimi kaynakları: yol haritası, videolar, e-kitaplar, öğrenme önerileri
Sonraki
Yürüyüşe erken kalkın! James bugün yalnız başına yavaş bir yürüyüşün videosunu yayınladı
Hubei'nin en zengin kadının kimliği ortaya çıktı!
Haomai kamu fonu haftalık veri raporu: 30 yeni fon 13.369 milyar toplandı
Özel sermayede en son pozisyon değişiklikleri Bu sektör "rekor bir yükselişle satın aldı"
ST hisselerinin büyük ölçekli bir alt limiti var! Sıkı denetim ve şehir yönetişim sinyali yayınlandı, aldın mı?
İngiliz rahip, kraliyet ailesine ve kiliseye 20 yıl içinde yüz çocuğa cinsel saldırıda bulunma konusunda güvendi ve bir buçuk yıl hapis yattıktan sonra serbest bırakıldı.
Yöresel zorbalara özel, yarısı su altında yarısı suda yüzen villa
37 yaşındaki Hong Kong yıldızı Chen Fara, Fransız kocasıyla yeniden evlendi, kariyerinde ve aşkta çifte hasat
Tayland'da meyve satma peri operasyonu, meyve standında Çin sloganını gördüm netizenler: Kendin yap!
Avrupa ve Amerika Mezunlar Derneğinin Geri Dönen İade Uzman Hizmet Ekibi, yoksulluğu azaltma araştırma faaliyetlerini yürütmek için Guizhou Eyaleti, Wangmo İlçesi, Dayi Kasabasına gitti.
Boo Hava Durumu | Vay canına! Bir hafta için yağmur kiralama? Onu besle! 100 günlük + sıcak yaz çok yakında
"Patlayıcı fonların" ortaya çıkışı = Bir geri arama sinyali mi?
To Top