Veri bilimcileri için R neden gerekli bir kurs?

Yazar: Liuai Zi, Zhang Hanqing, Palladio jali Gal Gary

Çeviri: Chen Zhiyan

Düzeltme: Wu Jindi

Bu makale hakkında 3200 kelime, Önerilen Okuma 10 dakika.

R dili, birçok şirketin işe alırken ihtiyaç duyduğu bir beceridir ve veri biliminde R diline hakim olmanın ana nedenidir.

Python, mühendislik ve veri anlaşmazlıkları gibi birçok görevi yerine getirebilmesine rağmen, endüstride giderek daha popüler hale geliyor, ancak R dili ile istatistik / istatistiksel makine öğrenimi arasındaki yakın ilişki, onu veri bilimi alanında önemli bir dil haline getiriyor. R dili, birçok şirketin işe alırken ihtiyaç duyduğu bir beceridir. Veri biliminde R diline hakim olmanın ana nedeni budur:

Veri analizi için tasarlanmış dil

R, Python'dan farklıdır.Python, bir veri analiz aracı olmadan önce her zaman genel bir üst düzey programlama dili olmuştur. R dili, en başından beri bir veri analiz aracı olarak tasarlanmıştır. Python dilinin kodlayıcıları genellikle programcı olarak eğitilir, ancak R tasarımcıları, veriyle ilgili birçok görevde değerli veri içgörüsü elde etmenin katı kodlama uygulamalarını takip etmekten daha önemli olduğunu keşfettiler. Bu bakış açısına göre, R dili kodlamayı öğrenmek nispeten daha kolaydır çünkü daha sezgiseldir. Bir analist / veri bilimcinin, işi / araştırmayı etkileyen içgörülere ulaşmadan önce bir veri mühendisi gibi programlama konusunda her zaman yetkin olması gerekmez.

Şimdiye kadar, R kodu deposunda https://cran.r-project.org/web/packages/ 15.000'den fazla R açık kaynak veri ile ilgili paket var. Dünyanın her yerindeki R kullanıcıları, araştırma ve endüstriyel kullanım için kod kitaplıklarını ücretsiz olarak kurabilir ve değiştirebilir. Bu yazılım paketleri, en iyi araştırma üniversiteleri veya özel şirketler tarafından geliştirilir veya bağışlanır. Bu nedenle, R kullanıcıları R-studio IDE'lerine yeni bir paket indirdiklerinde, tüm R topluluğunun kolektif bilgeliğini zaten almışlardır.

Python'daki ünlü veri analizi yazılım paketi pandaları, R veri çerçevesi yapısında oluşturuldu. Ek olarak, bu teknolojinin popülaritesiyle, istatistiki ilişkili birçok yazılım paketi de R'den Python'a taşınmıştır.

Kullanımı kolay

R dili, insan düşüncesinin hesaplamalı koda dönüştürülmesi arasındaki boşluğu ortadan kaldırmaya çalışır. Python veya javascript gibi genel amaçlı diller için pek olası olmayan veri analistleri için kolaylık ilk sırada yer almaktadır. Bu tasarım felsefesi, özellikle mühendislikten çok veri içgörülerine odaklananlar için önemlidir. R'deki dplyr adlı daha popüler paket bir boru operatörü% içerir > %, veri nesnesini fonksiyondaki ilk parametreye iletir. Örneğin, verilerin önizlemesini almak için CARS% yazabilirsiniz. > Kafa (arabalar) yerine% HEAD (). Çok adımlı işlev kombinasyonlarını içeren veri nesneleriyle uğraşırken,% > % Pipes kod okumayı daha zarif ve basit hale getirebilir.

Bu tasarım, veri analistlerinin birden çok işlevi işlemesi için iç içe geçmiş parantezleri ortadan kaldırarak kodu daha sezgisel, bakımı ve hata ayıklaması daha kolay hale getirir ve üçüncü tarafların okumasını kolaylaştırır. Bu tasarımın avantajları zamandan ve verimlilikten tasarruf ederek üretkenliği artırabilir.

İstatistiksel analizi kolaylaştırın

Bildiğiniz gibi R, istatistikle ilgili alanlarda da yaygın olarak kullanılmaktadır. İstatistiksel test ve modellemedeki süper rahatlığı, araştırmacıları sürekli kullanmaya yöneltti. Araştırmacılar yeni fikirleri olduğunda, genellikle yeni R paketleri oluştururlar ve bunları R topluluğunda dolaştırırlar. Onlarca yıldır bu çok güçlü bir ekosistem oluşturmuştur.Veri analizi problemleriyle karşılaşıldığında, bu problemler sektördeki öncüler tarafından kapsamlı bir şekilde incelenmiştir. Kullanıcılar için geliştirme süresini ve insan gücünü büyük ölçüde azaltabilir. Bu şekilde, veri analistleri teknik sorunları atlayabilir ve üst düzey içgörülere odaklanabilir.

Konuşan grafikler

Ünlü R veri görselleştirme yazılım paketinde, ggplot2'yi duymuş olabilirsiniz, bu paket aşağıdaki gibi mükemmel grafikler oluşturabilir:

Daha iyi içgörüler elde etmek için grafikler oluşturmaya da çalışır:

Ek olarak, grafikler arka plana ve temaya, etiketlere ve efsanelere ve diğer estetik türlerine göre özelleştirilebilir Eşsiz grafik gramerine dayalı olarak, R dili en büyük esnekliği sağlar.

Etkileşimli web uygulaması

Veri analizi gerçekleştirmenin yaşam döngüsünde, veri analizi yoluyla elde edilen içgörülerin genellikle teknik olmayan personele, iş liderlerine veya sıradan vatandaşlara iletilmesi gerekir. En önemli şey, görsel olarak üst düzey içgörüleri gösterebilmektir, böylece veri biliminde geçmişi olmayan tipik kullanıcılar bu içgörüleri yorumlayabilir Bu görev Web uygulamasına düşer.

Shiny, yalnızca etkileşimli web sayfaları oluşturmayı destekleyen bir R paketi değil, aynı zamanda sıradan analistlerin, javascript gibi dillerde veri analistlerinin önceden herhangi bir bilgisi olmasa bile, web geliştiricileri gibi web uygulamaları oluşturmasına da olanak tanır. Parlak bir uygulama, uygulama tasarımcılarının tıklanabilir düğmeleri, açılır menüleri, kaydırıcıları vb. Tamamen özelleştirilmiş sayfalara bağlamasına olanak tanır. Uygulama çerçevesi Shiny'de oluşturulduktan sonra, veri analizi ve veri görselleştirme görevleri sorunsuz bir şekilde temel R, ggplot 2, broşür, googleVis, haritalar vb. İçin atanabilir. Daha fazla ayrıntı ve ilginç parlak uygulama örnekleri için lütfen galeriyi kontrol edin.

Python ile karşılaştırıldığında R makine öğreniminin avantajları

Python, scikit-learn gibi birçok genel amaçlı makine öğrenimi paketi sağlasa da, R'den çok daha az ekosistem sağlar. Scikit-learn paketinin odak noktası tahmin görevleridir ve çıkarım görevleri gibi makine öğreniminin diğer önemli yönlerini küçümseme eğilimindedir. Örneğin: Risk modeli (sigorta), hayatta kalma modeli (sağlık hizmeti), ürün güvenilirliği modeli (üretim), kredi temerrüt modeli (kredi) gibi pazarlama / satışta müşteri analizinin birçok ilkesi diğer sektörlerde de geçerlidir. Bekle. Bu kullanım durumlarında, tahminin doğruluğu, modelin yorumlanması ve modelin iç işleyişini anlama olasılığı önemlidir. Veri analizi / makine öğrenimi kaynakları bu kadar önemli bir konuyla ilgili olduğunda, R ekosistemi hayatta kalma analizine adanmış 50'den fazla yazılım paketi sağlar, ancak Python'da pek çok karşılık gelen kaynak yoktur.

Bu, belirli bir ilgi alanına makine öğrenimi tekniklerini uygulayan bir kişi için, yalnızca Python'da yetkin olan bir veri bilimcinin Scikit-Learning'i sıfırdan kullanması gerekebileceği anlamına gelir. Bununla birlikte, R veri bilimcileri, hepsi onlarca yıllık araştırmalardan sonra belirli kullanım durumlarına göre uyarlanmış algoritmalar olan birden çok yazılım paketinden örtük destek alabilirler.

Etkileşimli belge-R işareti

Bahsedilmesi gereken son bir şey, R markdown dosya formatının teknik olmayan kullanıcılara da yardımcı olmasıdır. İyi fikirler ortaya çıkmaya devam edecek .. .rmd dosyası biçimlendirme görevini devralır ve Word çalışanlarının içeriğe daha fazla odaklanmasına yardımcı olur. Bilimsel araştırmacılar ve operatörler için, .rmd dosyası ayrıca bilimsel formülleri kolayca yazmanıza, bağlantıları ve resimleri kolayca eklemenize ve farklı belge türlerini, makaleleri, haber raporlarını ve diğer el yazması stillerini esnek bir şekilde düzenlemenize olanak tanıyan LaTeX formatını da destekler. İnan ya da inanma? Bu PDF belgesi aslında Rmarkdown dosyasından oluşturulmuştur.

Kod okunabilirliği ve GitHub arayüzü, R diline değer katacaktır. R, hız / performans merkezli bir dil olarak tasarlanmamıştır, bu nedenle R, büyük veri kümelerini işlemede veya kaynak yoğun görevleri işlemede Python kadar güçlü değildir. Python ve R konusunda yetkin olan veri bilimcileri, iş ihtiyaçlarında farklı kullanım durumlarını desteklemek için her dilin benzersiz avantajlarını ve ilgili paketleri kullanabilir.

Kısacası, R seçimi, istatistiksel analiz ve dağıtım arasındaki görev amacına ve zaman yatırım miktarına bağlıdır. R ve Python'da uzmanlaşan akıllı veri bilimcileri, güçlü yönlerini daha verimli bir şekilde birleştirmek için her dilin gücünü kullanacak.

yazar hakkında

Aiko Liu

Liu Aizi

Liu Aizi, Tayvan'da doğdu ve büyüdü. Üniversiteden mezun olduktan sonra okumak için Amerika'ya geldi ve Harvard Üniversitesi'nden geometri dalında doktora derecesi aldı. En iyi araştırma üniversitelerinde yıllarca süren araştırmalardan sonra fikrini değiştirdi ...

Hanqing Zhang

Zhang Hanqing

New York School of Data Science'ta R veri analizi öğretim görevlisi, Indiana University Bloomington'dan yüksek lisans derecesi ve Purdue Üniversitesi'nden eğitim alanında yüksek lisans derecesi aldı.

Pranjali Galgali

Palanjali Galgari

Pranjali Galgali, New York'taki Veri Bilimi Okulu'nda pazarlama ve iletişim asistanıdır.Rutgers Üniversitesi'nden dijital medya ve stratejik iletişim alanında yüksek lisans derecesine sahiptir.Veri bilimi ile ilgili okuma ve yazmayı sever, gelecekte yeni teknolojilere büyük ilgi duyar ve röportajlardan hoşlanır. ..

Editör: Wang Jing

Redaksiyon: Lin Yilin

Çevirmen Profili

Chen Zhiyan, Pekin Jiaotong Üniversitesi'nden iletişim ve kontrol mühendisliği alanında yüksek lisans derecesi ile mezun olmuştur. Great Wall Computer Software and System Company'de mühendis ve Datang Microelectronics'te mühendis olarak hizmet vermiştir. Şu anda Beijing Wuyichaoqun Technology Co., Ltd.'nin teknik destekçisidir. Şu anda akıllı çeviri öğretim sistemlerinin işletimi ve bakımı ile uğraşmaktadır ve yapay zeka derin öğrenme ve doğal dil işleme (NLP) konusunda belirli deneyimler edinmiştir. Boş zamanlarımda çeviri yaratmayı seviyorum. Başlıca çeviri çalışmaları arasında şunlar yer alıyor: IEC-ISO 7816, Irak Petrol Mühendisliği Projesi, Yeni Mali İşler Beyannamesi, vb. Çince-İngilizce "New Fiscalism Declaration" adlı eser resmi olarak GLOBAL TIMES'te yayınlandı. Boş zamanımı, sizinle iletişim kurmak, paylaşmak ve birlikte ilerleme kaydetmek umuduyla THU Data Pie platformundaki çeviri gönüllüleri grubuna katılmak için kullanabilirim.

-Bitiş-

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Zhou Zhihua'nın 3 umudu var, Wu Enda ve 9 AI lideri 2020'yi tahmin ediyor
önceki
Huawei'in yeni derin öğrenme modeli DeepShift: Çarpma yerine kayma ve olumsuzlama
Sonraki
Python veri görselleştirme: Dağılım grafikleri çizmek ve kullanmak için 5 parça kod, toplamaya değer
Ulusal Bilim ve Teknoloji Ödülleri açıklandı! Tsinghua Üniversitesi, tamamlanan ilk birim olarak ödül sayısında ülkede birinci sırada yer alıyor
0108 Morning Post Jiangsunun yoksulluğu azaltma oranı% 99.99'un üzerinde, sadece 17 kişi kaldı
Sabit bir elektrik ısı kaynağı akışı var ve 20 enerji projesi ay sonundan önce çalışmaya devam edecek
Seyirciler! CSI'da ilk doktora "bulut" savunması için uygun mu? mümkün!
ABD Hastalık Kontrol ve Önleme Merkezlerinin resmi web sitesinde, her eyaletteki tanıların sayısı evet ve hayır oldu
Dünyanın en iyi on bilimsel araştırma kurumunun 2019 Nature Index listesi açıklandı: Çin Bilimler Akademisi, Harvard'ı birinci olmak için geride bıraktı
Büyük veri! 2020 Bahar Şenliği Yolcu Akışı Tahmini ve Analizi burada
"Sarı fırtına" videosu psikolojik gölgeyi gösteriyor, içerik incelemeciler AI tarafından kurtarılabilir mi?
TMD2019: Baytlar radikal bir şekilde atıyor, Meituan sessizlikte bir servet kazanıyor, Didi adını almak için mücadele ediyor
Pekin Üniversitesi'nin 30 yaşındaki kadın doktora danışmanı, dünyada sadece üçü olan 2019 IEEE Gençlik Başarı Ödülü'nü kazandı
2019 WeChat veri raporu yeni yayınlandı
To Top