Veri bilimcilerinin% 40'ı elektrikli süpürge,% 40'ı temizlikçi ve geri kalan% 20'si falcıdır.
Yazar | Jingles
Çevirmen | Champagne Supernova, Genel Yayın Yönetmeni | Yu Yan
Üretildi | CSDN (ID: CSDNnews)
Harvard Business Review'a göre, veri bilimcileri 21. yüzyılın en seksi meslekleridir. Mevcut büyük veri dünyasında, veri bilimcileri değerli iş içgörülerini ortaya çıkarmak için yapay zeka veya derin öğrenme yöntemlerini kullanıyor.
Ve beş yıldır "veri bilimcisi" unvanını takan ben, neye seksi olduğumu hala tam olarak anlamadım, ancak yeni perma saçlarımın beni Koreli bir oppa gibi göstermesi dışında. Idol drama oyuncusu).
Nitekim bulutun ortaya çıkışı ve ticaretin internete kayması bir veri patlamasına neden oldu. Bu, belirli bölümlerdeki veri bilimcilerine olan talebin artmasına ve bu pozisyon için personel sıkıntısına neden oldu.
Ancak, veri bilimcilerin günlük çalışmalarının belirli içerikleri nelerdir?
LinkedIn'de yayınlanan pozisyonları analiz ederek bu sorunun cevabını bulabiliriz. İşte özetlediğim ana noktalardan bazıları:
İşletmeyi ve müşterileri anlayın ve hipotezi doğrulayın
Tahmine dayalı bir model ve makine öğrenimi ardışık düzeni oluşturun ve A / B testi yapın
İş paydaşları için kavramsal analiz
İş kararları verebilecek algoritmalar geliştirin
Teknik yetenekleri geliştirmek için yeni teknolojileri ve yöntemleri deneyin ve araştırın
Bunlar kulağa çok seksi geliyor, değil mi?
İş içeriğiniz yalnızca Kaggle veri setlerini işlemeyi içermediği sürece, bu iş tanımları veri bilimcilerin hayatının sadece küçük bir parçasıdır.
Aşağıdaki anket sonuçları, bir veri bilimcisinin olağan çalışma gününü özetleyen CrowdFlower'dan alınmıştır:
Veri bilimcileri çoğu zaman ne yapar? Kaynak: CrowdFlower
Yukarıdaki tabloda gösterildiği gibi, veri bilimcilerinin zamanının çoğu veri setlerini toplamak, verileri temizlemek ve düzenlemek için harcanmaktadır.
21. yüzyılda yüksek performanslı veri elektrikli süpürge
Veri gölleri, tüm şirket verilerinin merkezi olarak depolandığı yerlerdir. Kuruluşların makine öğrenimi modelleri ve gösterge tabloları oluşturmak için şirket verilerini kullanmasına olanak tanır. Ne yazık ki, bazı insanlar bir veri gölünün, verileri atmak için kullanılabilecek bir çöp dökümü veya büyük boyutlu bir sabit disk olduğunu düşünüyor.
Veri gölünü uygulamaya başladıklarında birçok kuruluş (şirket) toplanan verilerle ne yapacaklarını bilmiyordu. "O zaman her şeyi toplayalım" dediler. Veri gölünün anlamı şirketin tüm verilerini tek bir yerde toplamak olsa da, onu belirli bir projenin ihtiyaçlarına göre tasarlamak hala çok önemli. . Planlamamak, neredeyse "yeni bir klasör" oluşturup ardından tüm şirket verilerini kopyalayıp içine yapıştırmak gibidir.
Masaüstünü bir veri dökümü olarak ele aldığınızda
Tarihsel olarak, kötü planlar iyi tanımlanmış meta verileri nadiren getirmiş veya hiç getirmemiştir, bu da herkesin ihtiyaç duyduğu verileri aramasını (ve bulmasını) zorlaştırır. Veri bilimcilerin, veri elde etmek için genellikle farklı departmanlarla iletişim kurması gerekecektir. Çeşitli veri sahiplerinden veriler hakkında bilgi almaları gerekebilir. Verileri sınıflandırmadan saklamak büyük bir hatadır. Bir veri gölünü kullanışlı hale getirmenin anahtarı, meta verilerin açıkça tanımlandığından emin olmaktır.
Veri yönetimi veya veri sahipleri (genellikle farklı bölümlerdeki paydaşlardır) çok meşgul olduklarından, önemli verileri elde etmek haftalar bile alabilir. Bekleme oyunu bittikten sonra, veri bilimcileri sonunda verilerin alakasız olduğunu veya ciddi kalite sorunları olduğunu görebilir.
Veri bilimcileri nihayet verilere eriştiklerinde, yine de verileri keşfetmek ve bu verileri tanımak için çok zaman harcamaları gerekir. Bu kaotik veri bloklarını proje gereksinimleriyle uyumlu yeni tablolar halinde yeniden birleştirmeleri gerekir.
Verilerle ilgilenen herkesin "kirli veri" terimini duymuş olması gerekirdi. Kirli veriler, veri kümesinin bütünlüğünü yok eder ve bazı özellikleri eksik, yanlış, tutarsız veya kopyalanmıştır. " "Eksik", bazı gerekli özelliklerin eksik olduğu anlamına gelir. Örneğin, görevinizin konut fiyatlarını tahmin etmek olduğunu ve "evin alanı" iyi bir tahmin için çok önemlidir, ancak bu değer eksiktir. Bu durumda, konut fiyatlarını tahmin etmek sizin için çok zor olabilir ve modeliniz de kötü performans gösterebilir. "Yanlış" ve "tutarsız", değerin teknik olarak doğru olduğu, ancak belirli bağlamda yanlış olduğu anlamına gelir. Örneğin, bir çalışan adresini değiştirdiğinde ve adres güncellenmediğinde veya belirli bir veri parçasının birçok sürümü olduğunda, ancak veri bilimcisi eski sürümü alır. "Çoğaltma" yaygın bir sorundur. Bir e-ticaret şirketinde çalışırken meydana gelen bir olayı sizinle paylaşmama izin verin. Plana göre, bir ziyaretçi "makbuz" düğmesini tıkladığında, web sitesi sunucuya bir yanıt gönderecek, bu da makbuz alan kullanıcıların sayısını saymamıza olanak tanıyor.
Web sitesi bir gün belirli bir değişiklik olana kadar iyi çalıştı, ancak bu konuda hiçbir şey bilmiyordum. Ön uç geliştirici, birisi makbuzu başarıyla topladığında gönderilen başka bir yanıt ekledi. Bunun nedeni, bazı makbuzların kısa olması ve düğmeyi tıklayıp fişi alan ziyaretçileri takip etmek istemeleridir.
O zaman, her iki yanıt da aynı günlük tablosuna gönderilecektir. Raporlama aracıma baktım ve makbuz sayısının bir gecede ikiye katlandığını gördüm! Bir önceki gün bir model kurduğum için, yeni modelimden kaynaklandığını kabul ettim. O zamanlar küçük modelimi hala gizlice kalbimde alkışladığımı hatırlıyorum ve sonra bunun sadece bir çift hesaplama olduğunu anladım!
Ayrıca son beş yılda bir veri bilimcisi olarak aldığım verilerin bir kısmı şirket çalışanları tarafından manuel olarak girildi. Bu veriler, çoğu hatalı, eksik ve tutarsız olan Excel tablolarında saklanır.
Verinin manuel girişten mi yoksa makine günlüklerinden mi geldiğine bakılmaksızın, gerçek dünyada veri sıralama, iş içeriğinin büyük bir bölümünü oluşturur. Veri bilimcileri bu konuyla yüzleşmelidir. Denetimli öğrenmenin etkili olabilmesi için güvenilir, etiketli verilere ihtiyacımız var. Yalnızca veriler doğru etiketlendiğinde tahmine dayalı bir model oluşturabilirsiniz, ancak hiç kimse verileri etiketlemekten hoşlanmaz.
Birçok kişi bu durumu 80/20 kuralı olarak tanımlar. Veri bilimcileri, model oluşturmaya zamanlarının yalnızca% 20'sini harcıyor ve zamanlarının% 80'i verileri toplamak, analiz etmek, temizlemek ve yeniden düzenlemek için harcıyor. Kirli veriler, sıradan bir veri bilimcisinin en çok zaman alan görevidir.
İşaret etmek gerekli Veri temizliği çok önemlidir. Dağınık verilerden iyi sonuçlar üretilemez. "Çöp içeri, çöp dışarı" ifadesini duymuş olabilirsiniz.
Veri bilimcileri, veriler arasında dolaşırken bir şeyler keşfederler. Ancak herhangi bir modeli eğitmeye başlamadan önce, bir veri bilimcisinin önce bir veri temizleyici olması gerekir. Verilerin temizlenmeye tabi tutulması ve verilerin işaretlemeye tabi tutulması gerekir.
İşimin seksi olduğunu sanmıyorum.
Fonksiyonumun% 40'ı elektrikli süpürge gibi, diğer% 40'ı ise süpürge gibidir.
Ve son% 20 ... ona falcı muamelesi yap.
Orijinal bağlantı:
https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845
Bu makale bir CSDN çeviri makalesidir, lütfen yeniden basımın kaynağını belirtin.
Huawei, Wuhan çalışanlarını günde 2.000 RMB'ye kadar sübvanse ediyor; iPhone SE 2'nin seri üretimi ertelenebilir; PowerShell 7.0 yayınlandı | Geek Manşetleri
Tencent Cloud "Weimeng'i" kurtarır! 766 çevrimiçi toplantı düzenleyin, 100'den fazla sunucu tahsis edin ve alarm saati yalnızca 2 saat için ayarlanabilir
Yapay zekanın gelecekteki eğitimi değiştirmesinin 5 yolu!
Linux, ana masaüstü işletim sistemi olacak mı?
6 adım, Ubuntu sanal makine ortamında Hadoop'u Docker'ın kendi DNS'si ile yapılandırmayı öğretir | Ekli kod
Bir proje geliştirirken bir blockchain platformu nasıl seçilir? Size cevap vermek için Ethereum, RSK üzerinden Bitcoin ve Ardor olmak üzere üç ilginç platformu analiz ettik!