Bir veri bilimcinin gerekli becerilerinin ayrıntılı açıklaması (öğrenme kaynakları ile)

Yazar: Jeff Hale

Çeviri: Chen Zhiyan

Düzeltme: Feng Yu

Bu makale hakkında 3400 kelime 10 dakika okumanız tavsiye edilir.

Bu makale, veri bilimcilerin uzmanlaşması gereken genel becerilerin ve belirli dil ve araçların özel becerilerinin ayrıntılı bir analizini size sağlayacaktır.

Veri bilimcilerin, makine öğrenimi, bilgisayar bilimi, istatistik, matematik, veri görselleştirme, iletişim ve derin öğrenme dahil olmak üzere çok çeşitli bilgileri kapsaması gerekir. Veri bilimcileri, öğrenim bütçelerini işverenlerin ihtiyaçlarını en iyi şekilde karşılayacak şekilde nasıl formüle etmelidir?

Veri bilimcilerinin en çok ustalaşması gereken becerilerin hangileri olduğunu bulmak için bazı iş arama web sitelerine göz attım ve genel veri bilimi becerileri ve belirli dillerde ve araçlarda belirli beceriler üzerine biraz araştırma yaptım. 10 Ekim 2018'de LinkedIn, Indeed, SimplyHired ve Monster'daki iş ilanlarını aradım.Aşağıdaki grafik, her web sitesinde listelenen veri bilimcisi pozisyonlarının sayısını göstermektedir.

Bu iş listelerini okuduktan ve biraz araştırma yaptıktan sonra, veri bilimcileri için en yaygın kullanılan becerileri öğrendim. "Yönetim" gibi terimler, iş ilanlarında çok fazla bağlamda bahsedildikleri için karşılaştırılmaz.

Tüm aramalar kullanılır "Veri Bilimcisi" Bu anahtar kelime Amerika Birleşik Devletleri'nde gerçekleştirilmektedir ve tam eşlemeli arama, arama sonuçlarının sayısını büyük ölçüde azaltacaktır. Tam eşleme araması, arama sonuçlarının tümünün veri bilimcinin pozisyonuyla alakalı olmasını ve benzer arama kriterlerinden etkilenmesini sağlar.

AngelList, veri bilimci pozisyonlarının sayısını değil, veri bilimcilere ihtiyaç duyan halka açık şirketlerin sayısını listeler. AngelList'i bu iki analizin dışında bıraktım çünkü arama algoritması OR tipi bir mantıksal arama gibi görünüyor ve AND mantığına dönüştürülmemiş.

Arama anahtar kelimeniz ise "Veri Bilimcisi" "TensorFlow" , O zaman sadece veri bilimcilere ihtiyaç duyan şirketler listelenecek.AngelList'in arama sonuçları iyi. Ancak anahtar kelimeniz "Veri Bilimcisi" "react.js" Veri olmayan bilim adamlarına ihtiyaç duyan birçok şirketin bir listesini getirecektir.

Glassdoor da analizimden çıkarıldı. Web sitesi, Amerika Birleşik Devletleri'nde 26.263 "veri bilimci" pozisyonuna sahip olduğunu iddia ediyor, ancak 900'den fazla pozisyon göremiyorum. Ek olarak, veri bilimcisi pozisyonlarının sayısı diğer büyük platformların üç katından fazla olamaz. Son analiz, LinkedIn'de listelenen 400'den fazla ortak beceri ve 200'den fazla özel beceriyi içeriyordu. Elbette, bazı çakışmalar olacak.

Sonuçlar, aşağıda bağlantısı verilen Google Sayfasına kaydedilir. .Csv dosyalarını indirdim ve bunları JupyterLab'e aktardım. Ardından, iş listeleme web sitesinde yüzdeler hesaplandı ve ortalaması alındı.

Google Sheet bağlantısı: https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing

Ayrıca yazılımın hesaplama sonuçlarını JupyterLab'ın 2017'nin ilk yarısı için veri bilimcisi iş listesiyle karşılaştırdım. KDNuggets'ın kullanım anketinden elde edilen bilgilerle birleştiğinde, bazı becerilerin gittikçe daha önemli hale geldiği, diğerlerinin ise giderek daha az önemli hale geldiği görülmektedir. Sonra konuşacağız.

KDNuggetsın kullanım anketi https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2

Etkileşimli grafikler ve diğer analizler için lütfen Kaggle Kernel'ime bakın. Verileri görselleştirmek için Plotly kullanıyorum. Bu makaleyi yazarken, JupyterLab'ın Ploly'ini kullanma konusunda bazı tartışmalar vardı - talimatlar Plotly'nin belgelerinde Kaggle Kernel'imin sonunda yer alıyor.

Plotlynin dokümanları https://github.com/plotly/plotly.py Ortak beceriler

Aşağıda, işverenler tarafından en sık aranan veri bilimci becerileri tablosu bulunmaktadır.

Sonuçlar gösteriyor, Analiz ve makine öğrenimi Bir veri bilimcinin çalışmasının özüdür. Verilerden yararlı bilgiler toplamak, veri biliminin temel işlevidir. Makine öğreniminin tüm içeriği, performansı tahmin etmek için bir sistem oluşturmaktır. Bu talep çok büyük.

Veri biliminin ihtiyaçları İstatistik ve bilgisayar bilimi becerileri Bu şaşırtıcı değil. İstatistik, bilgisayar bilimi ve matematik de üniversite ana dallarındandır ve bu da frekanslarını artırmaya yardımcı olabilir.

İlginç bir şekilde, iş ilanlarının neredeyse yarısında iletişimden bahsediliyor ve veri bilimcilerinin içgörü alışverişinde bulunabilmeleri ve başkalarıyla yakın çalışabilmeleri gerekiyor.

Yapay zeka ve derin öğrenme, diğer terimler kadar sık görünmüyor. Ancak, bunlar makine öğreniminin bir alt kümesidir. Derin öğrenme, daha önce diğer algoritmalar tarafından yapılan makine öğrenimi görevleri tarafından giderek daha fazla kullanılmaktadır. Örneğin, çoğu doğal dil işleme problemi için en iyi makine öğrenme algoritmaları, mevcut derin öğrenme algoritmalarıdır. Gelecekte insanların daha açık bir şekilde derin öğrenme becerilerini arayacağını ve makine öğreniminin derin öğrenmeyle eş anlamlı hale geleceğini tahmin ediyorum.

İşverenler, hangi belirli yazılım araçlarında uzmanlaşan veri bilimcileri arıyor? Sonra bu sorunu çözeceğiz.

Teknik beceriler

İşverenler aşağıdaki becerilere sahip veri bilimcileri arıyor: En iyi 20 özel dil, kütüphane ve teknik araç aşağıdaki gibidir.

En yaygın teknik becerilere kısaca bakalım.

1. Python

Python en popüler dildir. Bu açık kaynak dilin popülerliği yaygın olarak bilinmektedir. Yeni başlayanların kabul etmesi kolaydır ve birçok destek kaynağı vardır. Yeni veri bilimi araçlarının çoğu onunla uyumludur. Python, veri bilimcilerin ana dilidir.

2. R

R, Python'dan aşağı değildir, veri biliminin ana dili olarak kullanılırdı. Hala çok popüler olduğunu görünce şaşırdım. Bu açık kaynak dilinin kökü istatistiklerde yatmaktadır ve istatistikçiler arasında hala çok popülerdir. Python veya R, hemen hemen her veri bilimci pozisyonu için bir zorunluluktur.

3. SQL

SQL de oldukça popülerdir. SQL, yapılandırılmış bir sorgu dilidir ve ilişkisel veritabanları ile etkileşim kurmanın ana yoludur. Veri bilimi alanında SQL bazen göz ardı edilir, ancak iş piyasasına girmeyi planlıyorsanız, bu gösterişe değer bir beceridir.

4. Hadoop ve Spark

Sırada, Apache tarafından sağlanan büyük veriler için açık kaynaklı araçlar olan Hadoop ve Spark var. Apache Hadoop, ticari donanım tarafından oluşturulan bilgisayar kümelerinde büyük veri kümelerinin dağıtılmış depolanması ve dağıtılmış işlenmesi için açık kaynaklı bir yazılım platformudur.

Apache Spark, veri çalışanlarının veri kümelerine hızlı yinelemeli erişim gerektiren akış, makine öğrenimi veya SQL iş yüklerini verimli bir şekilde yürütmesini sağlayan zarif ve etkileyici geliştirme API'lerine sahip hızlı, bellek içi bir veri işleme motorudur.

Diğer birçok araçla karşılaştırıldığında, bu araçların medyada ve eğitimlerde kendileri hakkında çok daha az makale var. Python, R ve SQL becerilerine sahip olanlara göre bu becerilere sahip adayların çok daha az olmasını bekliyorum. Hadoop ve Spark ile deneyiminiz varsa veya edinebiliyorsanız, rekabet avantajı elde etmenize yardımcı olacaktır.

5. Java ve SAS

Sonra Java ve SAS var. Bu iki dilin bu kadar üst sıralarda olduğunu görmek beni çok şaşırttı. Bu iki dilin arkasında büyük şirketler ve en azından bazı ücretsiz ürünler var. Java ve SAS genellikle veri bilimi topluluğunda çok az ilgi görür.

6. Tableau

Sıradaki Tableau. Bu analiz platformu ve görselleştirme araçları güçlü, kullanımı kolay ve giderek daha popüler hale geliyor. Ücretsiz bir genel sürümü var, ancak verilerinizi gizli tutmak istiyorsanız, ödeme yapmanız gerekir.

Tableau'ya aşina değilseniz, Udemy'de Tableau 10A-Z gibi hızlı bir kursa kesinlikle değer. Bu kursu aldım ve paranızın tam karşılığını aldığımı gördüm.

Aşağıdaki şekil bu dillerin, çerçevelerin ve diğer veri bilimi yazılım araçlarının bir listesini göstermektedir.

Tarihsel karşılaştırma

GlassDoor, Ocak 2017'den Temmuz 2017'ye kadar web sitesinde veri bilimcileri için en yaygın 10 yazılım becerisini analiz etti. Aşağıda, Ekim 2018'deki LinkedIn, Indeed, SimplyHired ve Monster'ın ortalama seviyesiyle karşılaştırıldığında web sitesindeki görünüm sıklığının bir karşılaştırması bulunmaktadır.

Sonuçlar çok benzer. Hem analizim hem de GlassDoor, Python, R ve SQL'in en popüler olduğunu buldu. Ayrıca aynı ilk dokuz teknik beceriyi bulduk, ancak biraz farklı bir sırada.

Sonuçlar, 2017'nin ilk yarısına kıyasla, R, Hadoop, Java, SAS ve MATLAB için daha az talep olduğunu ve Tableau'ya olan talebin daha da yüksek olduğunu gösteriyor. KDnuggets geliştirici anketi gibi kaynaklardan gelen sonuçlara ek olarak beklediğim buydu. Orada, R, Hadoop, Java ve SAS'ın tümü çok yıllı net bir düşüş eğilimi gösterdi ve Tableau açık bir yükseliş eğilimi gösterdi.

Önermek

Yukarıdaki analizin sonuçlarına dayanarak, mevcut ve hevesli veri bilimcilerinin kendilerini işyerinde daha popüler hale getirmeleri için bazı genel önerilerde bulunulur:

1. Veri analizi yapabileceğinizi kanıtlayın Ve makine öğreniminde gerçekten iyi olan biri olmaya odaklanın.

2. Kendi iletişim becerilerinize yatırım yapın . "Yapıştırmak İçin Yapılmış" kitabını okumanızı öneririm, düşünceniz üzerinde daha büyük bir etkisi olacaktır. Yazının netliğini artırmak için Hemmingway Editor adlı APP'yi (uygulama) da görüntüleyebilirsiniz.

"Yapıştırmak İçin Üretildi": https://www.amazon.com/Made-Stick-Ideas-Survive-Others/dp/1400064287 Hemmingway Editörü:

3. Derin bir öğrenme çerçevesinde uzmanlaşın. Derin öğrenme çerçevelerindeki yeterlilik, makine öğrenimindeki yeterliliğin önemli bir parçasıdır. Kullanım, ilgi ve popülerlik açısından derin öğrenme çerçevelerinin karşılaştırması için lütfen aşağıdaki bağlantıdaki makaleye bakın:

https://towardsdatascience.com/deep-learning-framework-power-scores-2018-23607ddf297a

4. Python ve R öğrenmek arasında seçim yaparsanız, Lütfen Python seçin . Python hayranı değilseniz, R öğrenmeyi düşünün. Python kullanırken R'yi biliyorsanız, kesinlikle daha fazla pazara sahip olacaksınız.

İşverenler Python becerilerine sahip bir veri bilimcisi ararken, adayların numpy, pandas, scikit-learn ve matplotlib gibi yaygın Python veri bilimi kitaplıklarını anlamasını da beklerler. Bu araçları öğrenmek istiyorsanız, aşağıdaki kaynakları öneririm:

1. DataCamp ve DataQuest: Her ikisi de makul fiyatlı çevrimiçi SaaS veri bilimi eğitim ürünleridir.Bu ürünlerde kod yazarken öğrenebilirsiniz. Her ikisi de bazı teknik araçlar öğretir.

DataCamp https://www.datacamp.com/ DataQuest https://www.dataquest.io/

2. Data School, veri bilimi kavramlarını açıklayan iyi bir video seti dahil olmak üzere çeşitli kaynaklara sahiptir.

Veri Okulu https://www.dataschool.io/start/ Video kaynakları: https://www.youtube.com/dataschool

3. McKinney tarafından "Veri Analizi için Python". Bu kitap, pandalar kütüphanesinin ana yazarı tarafından yazılmıştır ve pandalara odaklanır.Ayrıca python, numpy ve scikit-learn gibi temel veri bilimi bilgilerini tartışır.

Veri Analizi için Python https://www.amazon.com/Python verileri-Analysis-Wrangling-IPython/dp/1491957662

4. "Python ile Makine Öğrenmesine Giriş", Müller Guido. Miller, scikit-learn'ün ana geliştiricisidir. Bu, makine öğrenimi scikit-learn öğrenmek için çok iyi bir kitaptır.

Python ile Makine Eğimine Giriş https://www.amazon.com/Introduction-Machine-Learning-Python-Scientists-ebook/dp/B01M0LNE8C

Derin öğrenmeyi keşfetmek istiyorsanız, TensorFlow veya PyTorch'a girmeden önce Keras veya FastAI ile başlamanızı öneririm. Chollet'in "Python ile Derin Öğrenme" kitabı, Keras öğrenmek için harika bir kaynaktır. Bu önerilere ek olarak, çalışma zamanını nasıl tahsis edeceğinize karar verirken göz önünde bulundurmanız gereken birçok faktör olmasına rağmen, sizi ilgilendiren şeyleri anlamanızı tavsiye ederim.

Bir web portalı aracılığıyla veri bilimcisi olarak iş bulmak istiyorsanız, LinkedIn ile başlamanızı öneririm - her zaman en çok sonuca sahiptir.

Çevrimiçi bir iş arıyorsanız veya bir iş sitesinde bir iş ilanı veriyorsanız, anahtar kelimeler çok önemlidir. "Veri Bilimi", "Veri Bilimcisi" tarafından döndürülen sonuç sayısının yaklaşık üç katı döndürür. Ancak, kesinlikle bir veri bilimcisi işi arıyorsanız, "veri bilimcisi" anahtar kelimesini girmeniz daha iyi olur.

Hangi web sitesini arıyor olursanız olun, gerekli beceri alanlarındaki yeterliliğinizi listeleyen bir online portföy listesi oluşturmanızı öneririm. Ayrıca becerilerinizi sergilemek için LinkedIn profilinizi kullanmanızı tavsiye ederim.

Bu projenin bir parçası olarak başka veriler topladım ve makaleler de yazabilirim. Benimle gel, kaçırma.

Etkileşimli diyagramları ve bunların arkasındaki kodu görmek istiyorsanız, lütfen Kaggle Kernel'imi kontrol edin:

Kaggle Çekirdeği: https://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/ Yazar hakkında: Jeff Hale, birçok şirket için teknoloji, operasyon ve finansmanı yöneten deneyimli bir girişimcidir. Makine öğrenimi alanında uzmanlaşmış veri bilimci, bir alt işletme şirketinin kurucu ortağı ve işletme müdürü. Şu anda Jeff, veriye dayalı karar verme konusundaki hevesini bir veri bilimcisinin kariyer beklentisine dönüştürüyor. Makine öğrenimi, iletişim ve veri analizi ile çok ilgileniyor.

Orjinal başlık:

Veri Bilimciler için En Çok Talep Edilen Beceriler

Orijinal bağlantı:

https://www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html

Çevirmen Profili

Chen Zhiyan, Pekin Jiaotong Üniversitesi'nden iletişim ve kontrol mühendisliği alanında yüksek lisans derecesi ile mezun olmuştur. Great Wall Computer Software and System Company'de mühendis ve Datang Microelectronics'te mühendis olarak hizmet vermiştir. Şu anda Beijing Wuyichaoqun Technology Co., Ltd.'nin teknik destekçisidir. Şu anda akıllı çeviri öğretim sistemlerinin işletimi ve bakımı ile uğraşmaktadır ve yapay zeka derin öğrenme ve doğal dil işleme (NLP) konusunda belirli deneyimler edinmiştir. Boş zamanlarımda çeviri oluşturmayı seviyorum. Başlıca çeviri çalışmaları arasında şunlar yer alıyor: IEC-ISO 7816, Irak Petrol Mühendisliği Projesi, Yeni Mali İşler Beyannamesi, vb. Çince-İngilizce çalışması "Yeni Mali İşler Bildirgesi" resmi olarak GLOBAL TIMES'te yayınlandı. Boş zamanımı, sizinle iletişim kurmak, paylaşmak ve birlikte ilerleme kaydetmek umuduyla THU Data Pie platformundaki çeviri gönüllüleri grubuna katılmak için kullanabilirim.

- Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

82 dakikalık hikâye eşitlendi! Maçın 20 sayı önündeydiler, ancak neredeyse 44 yıllık bir üzüntüyü kırdılar.
önceki
94. dakika çekilişi + fazla mesai bilgisi! Premier League orta sınıf takımının süper bir dönüşü var ve tüm takım galibiyet gibi kutluyor
Sonraki
Jinan Zhonggong Yeni Yıl Tapınak Fuarı, halka tezgahların önündeki kalabalık gerçekten muhteşem
Bu dram nedeniyle, ülkenin her yerinden netizenler Wuhan'a gelmek için haykırıyor! İnternetteki ünlü yer işaretini kontrol edin, oyunda aynı paragrafı gönderin
2019, yıkıcı yapay zeka karıştırmanın yolu
Tarihteki en ince ve renksiz gümüş atomik film, esnek ekran ve dokunmatik ekran teknolojisinde büyük bir yenilik
Bir hayran Ay Yeni Yılı 42 | Sayfa Nedir? Bir çocuğun gözünde küçük domuz
En popüler Python editörlerinden / IDE'lerden bazılarını (bağlantılarla) tanımaya götürür
Yılbaşı Günü Kan Bağışı Yapın! Jinan'da 117 kişi 41800 ml kan bağışladı
Mezunlar nereye gidiyor? Tsinghua Üniversitesi'nin 2018 lisansüstü istihdam kalitesi raporu yayınlandı
Wuhan'daki 35. Altın Sonbahar Krizantem Sergisi kapanıyor, binlerce saksı daha kaliteli krizantem topluma gönderilecek
Kanser gerçekten "tamamen tesadüfi" midir? Kanserin nedeni bir kez daha akademik dünyada büyük bir çarpışmaya neden oldu
majör! Mobilya sektörünün Alibaba'sı doğdu!
Kara kemik şehir: Çin'deki en büyük antik dağ şehri kalıntıları (2. bölüm)
To Top