Veri bilimcisi seksi bir iş mi? Hayalet olduğuna inanıyorum

Veri bilimcilerinin% 40'ı elektrikli süpürge,% 40'ı temizlikçi ve geri kalan% 20'si falcıdır.

Yazar | Jingles

Çevirmen | Champagne Supernova, Genel Yayın Yönetmeni | Yu Yan

Üretildi | CSDN (ID: CSDNnews)

Harvard Business Review'a göre, veri bilimcileri 21. yüzyılın en seksi meslekleridir. Mevcut büyük veri dünyasında, veri bilimcileri değerli iş içgörülerini ortaya çıkarmak için yapay zeka veya derin öğrenme yöntemlerini kullanıyor.

Ve beş yıldır "veri bilimcisi" unvanını takan ben, neye seksi olduğumu hala tam olarak anlamadım, ancak yeni perma saçlarımın beni Koreli bir oppa gibi göstermesi dışında. Idol drama oyuncusu).

Nitekim bulutun ortaya çıkışı ve ticaretin internete kayması bir veri patlamasına neden oldu. Bu, belirli bölümlerdeki veri bilimcilerine olan talebin artmasına ve bu pozisyon için personel sıkıntısına neden oldu.

Ancak, veri bilimcilerin günlük çalışmalarının belirli içerikleri nelerdir?

LinkedIn'de yayınlanan pozisyonları analiz ederek bu sorunun cevabını bulabiliriz. İşte özetlediğim ana noktalardan bazıları:

  • İşletmeyi ve müşterileri anlayın ve hipotezi doğrulayın

  • Tahmine dayalı bir model ve makine öğrenimi ardışık düzeni oluşturun ve A / B testi yapın

  • İş paydaşları için kavramsal analiz

  • İş kararları verebilecek algoritmalar geliştirin

  • Teknik yetenekleri geliştirmek için yeni teknolojileri ve yöntemleri deneyin ve araştırın

Bunlar kulağa çok seksi geliyor, değil mi?

İş içeriğiniz yalnızca Kaggle veri setlerini işlemeyi içermediği sürece, bu iş tanımları veri bilimcilerin hayatının sadece küçük bir parçasıdır.

Aşağıdaki anket sonuçları, bir veri bilimcisinin olağan çalışma gününü özetleyen CrowdFlower'dan alınmıştır:

Veri bilimcileri çoğu zaman ne yapar? Kaynak: CrowdFlower

Yukarıdaki tabloda gösterildiği gibi, veri bilimcilerinin zamanının çoğu veri setlerini toplamak, verileri temizlemek ve düzenlemek için harcanmaktadır.

21. yüzyılda yüksek performanslı veri elektrikli süpürge

Veri gölleri, tüm şirket verilerinin merkezi olarak depolandığı yerlerdir. Kuruluşların makine öğrenimi modelleri ve gösterge tabloları oluşturmak için şirket verilerini kullanmasına olanak tanır. Ne yazık ki, bazı insanlar bir veri gölünün, verileri atmak için kullanılabilecek bir çöp dökümü veya büyük boyutlu bir sabit disk olduğunu düşünüyor.

Veri gölünü uygulamaya başladıklarında birçok kuruluş (şirket) toplanan verilerle ne yapacaklarını bilmiyordu. "O zaman her şeyi toplayalım" dediler. Veri gölünün anlamı şirketin tüm verilerini tek bir yerde toplamak olsa da, onu belirli bir projenin ihtiyaçlarına göre tasarlamak hala çok önemli. . Planlamamak, neredeyse "yeni bir klasör" oluşturup ardından tüm şirket verilerini kopyalayıp içine yapıştırmak gibidir.

Masaüstünü bir veri dökümü olarak ele aldığınızda

Tarihsel olarak, kötü planlar iyi tanımlanmış meta verileri nadiren getirmiş veya hiç getirmemiştir, bu da herkesin ihtiyaç duyduğu verileri aramasını (ve bulmasını) zorlaştırır. Veri bilimcilerin, veri elde etmek için genellikle farklı departmanlarla iletişim kurması gerekecektir. Çeşitli veri sahiplerinden veriler hakkında bilgi almaları gerekebilir. Verileri sınıflandırmadan saklamak büyük bir hatadır. Bir veri gölünü kullanışlı hale getirmenin anahtarı, meta verilerin açıkça tanımlandığından emin olmaktır.

Veri yönetimi veya veri sahipleri (genellikle farklı bölümlerdeki paydaşlardır) çok meşgul olduklarından, önemli verileri elde etmek haftalar bile alabilir. Bekleme oyunu bittikten sonra, veri bilimcileri sonunda verilerin alakasız olduğunu veya ciddi kalite sorunları olduğunu görebilir.

Veri bilimcileri nihayet verilere eriştiklerinde, yine de verileri keşfetmek ve bu verileri tanımak için çok zaman harcamaları gerekir. Bu kaotik veri bloklarını proje gereksinimleriyle uyumlu yeni tablolar halinde yeniden birleştirmeleri gerekir.

21. yüzyılda üst düzey veri temizleyiciler

Verilerle ilgilenen herkesin "kirli veri" terimini duymuş olması gerekirdi. Kirli veriler, veri kümesinin bütünlüğünü yok eder ve bazı özellikleri eksik, yanlış, tutarsız veya kopyalanmıştır. " "Eksik", bazı gerekli özelliklerin eksik olduğu anlamına gelir. Örneğin, görevinizin konut fiyatlarını tahmin etmek olduğunu ve "evin alanı" iyi bir tahmin için çok önemlidir, ancak bu değer eksiktir. Bu durumda, konut fiyatlarını tahmin etmek sizin için çok zor olabilir ve modeliniz de kötü performans gösterebilir. "Yanlış" ve "tutarsız", değerin teknik olarak doğru olduğu, ancak belirli bağlamda yanlış olduğu anlamına gelir. Örneğin, bir çalışan adresini değiştirdiğinde ve adres güncellenmediğinde veya belirli bir veri parçasının birçok sürümü olduğunda, ancak veri bilimcisi eski sürümü alır. "Çoğaltma" yaygın bir sorundur. Bir e-ticaret şirketinde çalışırken meydana gelen bir olayı sizinle paylaşmama izin verin. Plana göre, bir ziyaretçi "makbuz" düğmesini tıkladığında, web sitesi sunucuya bir yanıt gönderecek, bu da makbuz alan kullanıcıların sayısını saymamıza olanak tanıyor.

Web sitesi bir gün belirli bir değişiklik olana kadar iyi çalıştı, ancak bu konuda hiçbir şey bilmiyordum. Ön uç geliştirici, birisi makbuzu başarıyla topladığında gönderilen başka bir yanıt ekledi. Bunun nedeni, bazı makbuzların kısa olması ve düğmeyi tıklayıp fişi alan ziyaretçileri takip etmek istemeleridir.

O zaman, her iki yanıt da aynı günlük tablosuna gönderilecektir. Raporlama aracıma baktım ve makbuz sayısının bir gecede ikiye katlandığını gördüm! Bir önceki gün bir model kurduğum için, yeni modelimden kaynaklandığını kabul ettim. O zamanlar küçük modelimi hala gizlice kalbimde alkışladığımı hatırlıyorum ve sonra bunun sadece bir çift hesaplama olduğunu anladım!

Ayrıca son beş yılda bir veri bilimcisi olarak aldığım verilerin bir kısmı şirket çalışanları tarafından manuel olarak girildi. Bu veriler, çoğu hatalı, eksik ve tutarsız olan Excel tablolarında saklanır.

Verinin manuel girişten mi yoksa makine günlüklerinden mi geldiğine bakılmaksızın, gerçek dünyada veri sıralama, iş içeriğinin büyük bir bölümünü oluşturur. Veri bilimcileri bu konuyla yüzleşmelidir. Denetimli öğrenmenin etkili olabilmesi için güvenilir, etiketli verilere ihtiyacımız var. Yalnızca veriler doğru etiketlendiğinde tahmine dayalı bir model oluşturabilirsiniz, ancak hiç kimse verileri etiketlemekten hoşlanmaz.

Birçok kişi bu durumu 80/20 kuralı olarak tanımlar. Veri bilimcileri, model oluşturmaya zamanlarının yalnızca% 20'sini harcıyor ve zamanlarının% 80'i verileri toplamak, analiz etmek, temizlemek ve yeniden düzenlemek için harcıyor. Kirli veriler, sıradan bir veri bilimcisinin en çok zaman alan görevidir.

İşaret etmek gerekli Veri temizliği çok önemlidir. Dağınık verilerden iyi sonuçlar üretilemez. "Çöp içeri, çöp dışarı" ifadesini duymuş olabilirsiniz.

Veri bilimcileri, veriler arasında dolaşırken bir şeyler keşfederler. Ancak herhangi bir modeli eğitmeye başlamadan önce, bir veri bilimcisinin önce bir veri temizleyici olması gerekir. Verilerin temizlenmeye tabi tutulması ve verilerin işaretlemeye tabi tutulması gerekir.

Ben bir veri bilimciyim ...

İşimin seksi olduğunu sanmıyorum.

Fonksiyonumun% 40'ı elektrikli süpürge gibi, diğer% 40'ı ise süpürge gibidir.

Ve son% 20 ... ona falcı muamelesi yap.

Orijinal bağlantı:

https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845

Bu makale bir CSDN çeviri makalesidir, lütfen yeniden basımın kaynağını belirtin.

Huawei, Wuhan çalışanlarını günde 2.000 RMB'ye kadar sübvanse ediyor; iPhone SE 2'nin seri üretimi ertelenebilir; PowerShell 7.0 yayınlandı | Geek Manşetleri

Tencent Cloud "Weimeng'i" kurtarır! 766 çevrimiçi toplantı düzenleyin, 100'den fazla sunucu tahsis edin ve alarm saati yalnızca 2 saat için ayarlanabilir

Yapay zekanın gelecekteki eğitimi değiştirmesinin 5 yolu!

Linux, ana masaüstü işletim sistemi olacak mı?

6 adım, Ubuntu sanal makine ortamında Hadoop'u Docker'ın kendi DNS'si ile yapılandırmayı öğretir | Ekli kod

Bir proje geliştirirken bir blockchain platformu nasıl seçilir? Size cevap vermek için Ethereum, RSK üzerinden Bitcoin ve Ardor olmak üzere üç ilginç platformu analiz ettik!

SaaS bulut hizmeti, bir veritabanı silme olayı meydana geldiğinde veri güvenliğini nasıl korur?
önceki
Huawei ve Alibaba çalışanlarının dinlediği İngilizce kaynakların süresi dolmak üzere, lütfen onları alın
Sonraki
TIOBE March programlama dili sıralaması: Java yükseliyor, Delphi artık mükemmel değil
Rust geliştiricisinin ilk git deneyimi
Huawei, Wuhan'daki çalışanları günde 2.000 RMB'ye kadar sübvanse ediyor; iPhone SE 2 seri üretimi veya erteleme; PowerShell 7.0 yayınlandı | Geek Headlines
Transformer neden bir grafik sinir ağıdır?
Tencent Cloud Weimeng'i "kurtarıyor"! 766 çevrimiçi toplantı düzenleyin, 100'den fazla sunucu tahsis edin ve alarm saati yalnızca 2 saat için ayarlanabilir
1w2'nin altındaki programcılar 2020'de gerçeklerle yüzleşecek ...
Ali mühendisleri size bir B-end dikey pazarlama merkezinin nasıl tasarlanacağını öğretir
Duotu sizi Wuhan'a götürüyor: Hubei, 0! Wuhan, 0
Wuhan'da beyaz melek sayesinde binlerce ışık yanıyor, en sıcak olanı Wuhan halkının kalbi.
Kimura Takuya'nın 18 yaşındaki kızı da çıkış yaptı! Alev kırmızı dudaklar fotoğraf pozlama
Guiyang County Köprüsü Merkez Okulu bahar girişinde acil durum tatbikatını başlattı
Suxian Bölgesinde Wugaishan Eyaletine ait Orman Çiftliği, gerçek çatışmaya yakın orman yangını söndürme tatbikatları gerçekleştirdi.
To Top