Veri Bilimcisi Büyüme Kılavuzu: Başlangıçtan Çılgınlığa Yönelik Olmaya (toplam 12 soru)

Kaynak: Xinzhiyuan

Bu makale hakkında 2000 kelime 5 dakika okumanız tavsiye edilir.

Bu makale, bir veri bilimcisi olmak için gereken becerileri açıklamaktadır.

Yapay zekanın popülaritesi, veri bilimcileri için büyük bir talep yarattı. Acilen ihtiyaç duyulan pozisyonları ve yüksek maaşları görünce kim baştan çıkarılamaz? Ama bir veri bilimcisi olmak istediğinizden emin misiniz? DS olmak için hangi becerilerin gerekli olduğunu biliyor musunuz? O zaman lütfen hazırlanın, şimdi gidiyoruz!

Veri bilimcilerinin yükselişte olduğunu ezici medya haberlerinden öğrenmiş olabilirsiniz.

UiPath verilerine göre, 2018'de AI yetenekleri için 12.113 pozisyon yarıştı ve veri bilimcilerine olan talep ikinci sırada yer aldı.

Sonuç olarak, birçok insan mesleğe katılma veya veri bilimcisi olma fikrine sahip. Ardından soru geliyor: nasıl veri bilimcisi olunur?

Ardından, "SQL ile Başlarken" (OReilly) ve "Learning RxJava" (Packt) kitaplarının yazarı ve Southwest Airlines'ın kurumsal danışmanı Thomas Nield, bu "2019'da Veri Bilimcilerin Büyümesine Yönelik Kılavuz" u sunuyor.

Çok saçma değil, hemen savaşa girin.

Tur 1: Araştırma olmadan hiç sorun değil. Tabii ki sınava girebilirsin

Araştırma üzerinde çalıştıktan sonra değerli zamanınızı boşa harcamayın. Veri bilimi sadece bir iş analizi dalıdır ve genellikle okul bilgisi her zaman mevcut teknolojik sınırlarla temastan uzaktır. Gerçekten öğrenmek istiyorsanız, kendi başınıza çalışmak için Coursera veya Khan Academy'ye gitmeniz önerilir.

Elbette daha fazla sertifikaya sahip olmak iyi bir şey. Sınav için okula gitmeniz gerekiyorsa, fizik veya yöneylem araştırması alanında yüksek lisans derecesi almanız önerilir. Birçok üst düzey veri bilimcisinin bu iki ana daldan mezun olduğunu öğrendim.

Birkaç yıllık lisansüstü okul mezuniyetinden sonra yarın daha iyi olacak mı? Her neyse, bir veri bilimi girişiminin kurucusu şunları söyledi:

Bir doktora derecesi önemli değildir; bir yüksek lisans derecesi kesinlikle gereklidir; bir lisans derecesi gereklidir, çünkü bir işveren için asgari şart, bir üniversite mezunudur.

https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253 2. Tur: Veri bilimci olmak için gerçekten bu kadar çok alanı bilmeniz gerekiyor mu?

Bu 6 yıl öncesinden bir resim ve içinde TensorFlow bile yok.

Veri biliminin gelişiminin çok parçalı ve bölümlere ayrıldığını hissediyorum. Bu kadar karmaşık olmasına gerek yok.

3. Tur: Hangi dili öğrenmeliyim? Linux ile başlamanız mı gerekiyor?

Veri bilimci, çapraz platform bir türdür, işletim sistemi önemli değildir.

Dil açısından, Scala çok uzun zaman önce modası geçmiş durumda, R matematik problemlerini çözmede çok iyi ve Python çok güçlü. Elde bir Python var ve veri bilimi beni takip edecek.

Ancak veri çerçevelerini işlemek için Pandalar'a ve grafikler oluşturmak için matplotlib'e benzer bazı kitaplıkları anlamanız gerekir.

4. Tur: Python öğrenmek anahtardır! Öğrenememenin önemi yok

Python öğrenmesi çok kolay. Ancak Python öğrenmeniz gerekmeyebilir.

Bir insan olarak aletleri iyi kullanmalıyız. Veri bilimi yalnızca komut dosyası oluşturma ve önünüzdeki makine öğrenimi değil, aynı zamanda uzaktan veri görselleştirme ile de ilgilidir. Şu anda Tableau'nun kullanımı daha iyi ve daha güzel.

Tableau

Ancak veri temizleme, yönetim, dönüştürme, yükleme vb. Söz konusu olduğunda, fareyi sürükleyerek yapılabilen Alteryx'i kullanmanız gerekir.

Editörün yorumu: Yani bir Tableau satın almak veri bilimci olarak adlandırılabilir mi?

Taobao'dan bir aktivasyon kodu satın almak, ikinci el bir bilim adamı olmak anlamına mı geliyor?

5. Tur: Excel ve PPT ile yapılabilir, neden Python öğrenmek zorundayız?

Her şeyden önce özgeçmişinize aura katabilir.

İkinci olarak, daha önce de söylediğim gibi, Python her şeye kadirdir. Jupyter not defteri aracılığıyla veri analizinin her aşamasında adım adım ilerleyin, tıpkı başkalarıyla paylaşabileceğiniz bir hikaye oluşturuyormuş gibi her adımı görselleştirin.

Odaklanma: Sonuçta, iletişim ve hikaye anlatımı veri biliminin önemli parçalarıdır.

Veri bilimi ve yazılım mühendisliği büyük ölçüde eşitlenebilir. Aradaki fark, veri biliminin veriye sahip olması gerektiğidir, yazılım mühendisliği ille de gerekli değildir.

Wiki web sayfaları çok iyi bir veri kaynağıdır.Web sayfalarını taradıktan ve bunları Beautiful Soup ile ayrıştırdıktan sonra, çok sayıda yapılandırılmamış metin verisi elde edersiniz.

6: NoSQL bilin ama hiçbir şey

Organize olmayan veriler hayal gücümüzü harekete geçirebilir ve yapılandırılmış veriler sadece mantıksal yeteneğimizi sağlamlaştırabilir.

Günümüzde Google ve Facebook gibi büyük şirketler kurumsal olmayan bir çok veriye sahipler, hakem gibiler, veri bilimini tanımlama hakkı onların elinde. Geri kalanımız sporcular sıkıcı SQL kullanmak zorundayız.

Büyük şirketler, yapılandırılmamış verileri kullanarak reklam veya başka yollarla kullanıcı içeriğini, e-postaları ve hikayeleri araştırabilir.

Ayrıca sosyal medya gönderilerinde sohbet botları gibi bazı NLP uygulamalarını gerçekleştirmek için yapılandırılmamış verileri de kullanabiliriz.

NoSQL, bu tür verileri depolamada daha iyidir. Ancak veri bilimcileri için, bir veri mühendisi değilseniz NoSQL bir zorunluluk değildir. Ve şimdi Apache Kafka, NoSQL'den daha popüler, dolayısıyla ne öğreneceğinizi de biliyorsunuz.

Bazı insanlar veri bilimcileri için iki rol olduğunu bilmeyebilir. Veri mühendisleri üretim sistemlerini kullanır ve verilerin ve modellerin kullanılabilir olmasına yardımcı olur; veri bilimcileri makine öğrenimi ve matematiksel modellemeden sorumludur.

Şu anda, saf Bayes algoritması metnin sınıflandırmasını tahmin etmek için kullanılabilir. Ortalama ve standart sapma ile normal bir dağılımla başlamayı önermek niyetindeyim. Belki bazı olasılıkları hesaplamak için z-skorları ve doğrusal regresyon kullanın.

7. Tur: Doğrusal cebiri öğrenmek çok önemlidir. Yapamazsan ...

Geleneksel bilgelik, doğrusal cebirin birçok veri biliminin temel taşı olduğuna inanır, bu nedenle doğrusal cebire hakim olmak önemlidir. Matrisleri çarpmak ve eklemek (nokta ürünleri olarak adlandırılır) her zaman yanınızda olacaktır.

Kulağa sıkıcı geliyor, ama makine öğreniminin yaptığı şey bu. Doğrusal regresyon gerçekleştirdiğinizde veya kendi sinir ağınızı oluşturduğunuzda, birçok matris çarpımı ve ölçeklemesi için rastgele ağırlık değerleri kullanacaksınız.

Ama aslında, doğrusal cebir öğrenmenize gerek olmayabilir, çünkü doğrusal cebirin en sıkıcı kısmını çözmenize yardımcı olan TensorFlow ve scikit-learn gibi çerçeveler ve kitaplıklar vardır.

Aslında, TensorFlow kullanmayın, Keras kullanın.

8. Tur: Harika. Kısacası, Excel ile uygulanabilir, yani Excel kullanabiliyorsanız veri bilimcisi olarak adlandırılabilir misiniz?

Makine öğrenimi genellikle iki görevi yerine getirir: regresyon veya sınıflandırma. Ancak teknik olarak, sınıflandırma regresyondur.

Karar ağaçları, sinir ağları, destek vektör makineleri, lojistik regresyon ve doğrusal regresyon, hepsi bir çeşit eğri uydurma gerçekleştirir.

Bu nedenle, sorumsuzca şunu da söyleyebiliriz: makine öğrenimi sadece bir gerilemedir. Sinir ağı aslında bazı doğrusal olmayan işlevlere sahip çok katmanlı bir gerilemedir. Görüntü tanıma da geri dönüyor.

9. Tur: İnsanlar neden şimdi algoritmalar hakkında çok konuşmuyor?

Çünkü bu optimizasyon problemleri uzun süredir tatmin edici bir şekilde çözülmüş ve bu yöntemler daha önce pek tartışılmamıştı.

İşlem araştırması, makine öğrenimi için birçok optimizasyon algoritması sağlamıştır. Ayrıca, yaygın "AI" sorunlarına birçok çözüm sunar.

Yapay zeka hype, makine öğrenimini ve çözdüğü sorun türlerini yeniden canlandırdı: görüntü tanıma, doğal dil işleme, görüntü oluşturma vb.

Makine öğrenimi, derin öğrenme ... Bugün heyecanlanan herhangi bir şey genellikle ayrık optimizasyon problemini çözemez.İnsanlar denedi, ancak etkisi çok tatmin edici değil.

Bu yüzden bazı insanlar derin öğrenmenin sınırına ulaşıp ulaşmadığını ve AI kışının yeniden gelip gelmediğini söylüyor.

10. Tur: Yapay zeka oyun oynamakta zaten süper yetenekli, bundan sonra insan işlerinin yerini alacak mı?

Öncelikle açık olmalıyız. İnsanlar, Go and Chess'in optimal hareketlerini hesaplamak (ayrık optimizasyon da yapılabilir) veya sürücüsüz arabalar için direksiyonun yönünü hesaplamak gibi bazı akıllı regresyon uygulamaları buldular.

Bununla birlikte, regresyon tek bir görevi tamamlamak için yalnızca bu kadar çok uygulamayı birleştirebilir.

Şimdi bir düşünelim. Profesyonel StarCraft oyuncularının işinizi tehdit ettiğinden mi endişeleniyorsunuz? Starcraft oynamakla Excel oynamak arasında kaç tane örtüşme olduğunu düşünüyorsunuz?

İnsan yıldızlararası oyunculardan bile korkmuyorsanız, neden hala bir dönüşten korkuyorsunuz? Yapay zeka, Yıldızlararası oynamak için ne kadar güçlü olursa olsun, yalnızca Yıldızlararası oynayacaktır.

11. Tur: Büyükbabanızın anlayabilmesi için bir veri bilimcisinin ne olduğunu bir cümleyle açıklayın

Veri biliminin sınırları bulanıklaşıyor. Herhangi bir şey olabilir veya hiçbir şey olabilir. Bir veri bilimcisi olmak için ustalaşmanız gereken birçok şey var, ancak bu konuda ustalaşmasanız bile ölümcül olmayacak.

Allah Allah!

Neyse ki, bu dünyada hala veri biliminin ve veri bilimcinin ne olduğunu açıklayabilecek insanlar var. Veri bilimciyi tek bir cümleyle açıklayın:

Veri bilimcisi, istatistikleri yazılım mühendislerinden ve yazılım mühendisliğini istatistikçilerden daha iyi anlayan kişidir.

12. Tur: Çılgın

Peki, 2019'da hala bir veri bilimcisi olmak istiyor musunuz?

Editör: Wang Jing redaksiyon: Lin Yilin - Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

İlkbahar acemilerini kavrayın ve bu GitHub Wanxing ML algoritması röportaj kitabını kabul edin!
önceki
Ulusal Kısa Kurmaca Yarışması'nın ödül aşamasında, Sichuan'ın yeni oyunu "Genç Chen Yi" sahnelendi.
Sonraki
Bir okuma dizisi modellemesinde doğal dil işleme ve kelime gömme (deeplearning.ai)
[Özel] "Tunni Happy" 10 milyon RMB Pre-A tur yatırımı aldı, express + market modelini oynamanın yeni yolları nelerdir?
Doğal dil işlemenin (CNN / RNN / TF) üç ana özellik çıkarıcısının kapsamlı bir anlayışını size sunar.
Popüler GitHub eğitimi: 100 günde makine öğrenimi (Çince sürüm güncellemesi)
Aynı "Big Mac" asma köprü, Humen Second Bridge ve Yangsigang Yangtze River Bridge çok farklı.
34 yaşındaki Ronaldo bir gecede 6 rekor kırdı! İlk toptan 125. topa kadar 12 yılını kullandı
Boktan kürek memurunun büyük katili! Bu evcil hayvan sürüş robotu ile kediler artık kanunsuz olamaz
20 yıldır evrende dolaşan Cassini bize veda etmek istiyor!
Arsa tersine döndü! Barcelona süperstarı bir Şampiyonlar Ligi zaferi elde etti, ancak sonunda UEFA tarafından kendi başına sayıldı
Sisten sonra kuvvetli rüzgar geliyor! Shandong, fırtına için mavi uyarı verdi, rüzgar 7 hala soğuyor
Çapayı çekin, yelken açın ve dünyaya bir Çin "Sağlık Vadisi" adamak için yelken açın
"Grafenin Babası", deniz suyu tuzdan arındırma teknolojisinde çığır açarak küresel tatlı su kaynaklarının kıtlığını büyük ölçüde hafifletir
To Top