Veri bilimiyle uğraşmak istiyorsanız, kodlama becerileri yeterli olabilir mi?

Tam metin 2860 Kelimeler, tahmini öğrenme süresi 9 dakika

Kaynak: unsplash

Önce böyle bir hikayeye bakalım:

"Cuma gecesiydi. Ailemle tatile gittiğimi çok net hatırlıyorum. Bu, Bangalore'a ilk seyahatleriydi ve onları gezmeyi planladım. İşler tamamlandı ve genellikle Cuma gecesi Çok meşgul değil. Ama işten hemen sonra, karşı taraf aniden bana uzun bir zaman önce bir rapor istemek için bir e-posta gönderdi Bu rapor bir yıl önce sunulmamıştı.

Mutsuz olmasına rağmen, standart kod çalıştırmak çok fazla sorun değildir. Lanet olsun! Yanılmışım, bitirmek bütün gece sürdü ... "

Bunun konumuzla ne ilgisi var? Tahmin etmeliydin, esprili ~

Günümüz şirketleri, veri bilimini karar verme döngüsünün her aşamasında kilit bir joystick olarak kullanıyor ve önemli iş stratejilerini kolaylaştırıyor. Ama veri bilimiyle ilgili bu kadar zor olan ne? Veri analistleri, iş analistleri veya veri bilimcileri nasıl çalışır?

Kaynak: unsplash

Tüm veri bilimi problemleri ikiye bölünebilir, bir dizi "faaliyet" ve birkaç adım "en iyi işletim prosedürleri".

"Faaliyetler", veri toplama, veri temizleme, veri sıralama, hipotez doğrulama, model geliştirme, doğrulama vb. İçerir. Analitik sektörüyle sık sık ilgileniyorsanız, bu terimlere aşina olmanız gerekir.

Bununla birlikte, "en iyi işletim prosedürü" nadiren bilinmekte ve pek uygulanmamaktadır. Aslında, en çok proje yönetimi, kütüphane oluşturma, dosya yönetimi, iletişim ve kod bakımı üzerinde durur. Bir veri bilimcisi olarak "3 C" ye uyduğunuzdan emin olmalısınız:

· Tutarlılık

· İletişim (iletişim)

· Tüketim

Tutarlı bir şekilde çalışın, iş ayrıntılarını paydaşlarla paylaşın ve en önemli şey tüketiliyor olmanızdır.

"Bugünün şirketleri, birden fazla ekip için çözümler üretebilecek veri bilimcileri arıyor. Herkesin kolayca kullanabileceği bir ürün gibi. Bu, yalnızca paradan tasarruf etmekle kalmayacak ve farklı iş faaliyetlerindeki benzer sorunları çözmek için artık para israf etmeyecek. Aynı zamanda zaman ve enerji tasarrufu sağlar. "

Kaynak: unsplash

Veri biliminde kodlama, yazılım geliştirmeden çok farklıdır. Sadece nasıl yapılacağını bilmekle kalmaz, aynı zamanda birçok veri ve iş içeriği de gerekir.

Bugün "tutarlı" dan ve bunun kodlamada nasıl yapılacağından bahsetmek istiyorum. Mu Sigma'nın iş çözümünde üç yıllık çalışma ve şimdiye kadar karşılaştığım tüm zorluklar, birçok mükemmel deneyimi özetlememe olanak sağladı.

Aşağıdaki beş nokta, becerilerinizi büyük ölçüde artırmanıza yardımcı olacak "matematik + iş + veri + teknoloji = veri bilimi" nin ne olduğunu kısaca açıklayacaktır!

1. Kod okunabilir mi?

İyi biçimlendirilmiş ve incelenmiş kod cennettir. Güvenlik açıklarını kolayca düzeltmeye ve kalite kontrollerinin sorunsuz bir şekilde tamamlanmasına yardımcı olur. Her veri bilimi ekibi, verileri doğru bir şekilde çıktı almak için "Eş Kalite Kontrolleri (QC)" konseptini takip eder. Meslektaşları göndermeden önce nihai sonuçlardan geçmelerine izin vermek harika bir uygulamadır. Okunabilir kod şunları içerir:

· Proje adı, kod amacı, sürümü, yazar adı, oluşturma tarihi, tamamlanma tarihi, son değişiklik ve hangi değişikliklerin başlaması

· Hesaplamaları yapmadan önce, her kod parçacığının bir açıklama satırı olması gerekir (iş kuralı bilgilerini veya kullanılan filtreleme sistemini doğru bir şekilde elde etmek için bu kodlar aracılığıyla)

· Her iki kod parçası arasında uygun boşluklar, yeterli mesafe bırakın

· Tabloları adlandırmak için makul kuralları kullanın. "Form Oluştur" adını kullanmayın, "Form Oluştur İstemci Sayfaları-Genel Bakış" ile değiştirebilirsiniz. Bu, kalan tüm kod parçacıklarına göz atmak zorunda kalmadan tabloyu daha sezgisel hale getirecektir.

2. Kodun yeniden kullanılabilir modülleri var mı?

Çoğu zaman, mevcut iş problemlerine dayalı veri setlerini işlemek için benzer kalıplar ve farklı filtreler kullanırız veya iş problemlerindeki çeşitli durumları kısaca açıklamak için aynı tabloyu kullanırız.

Örneğin, artık elinizde bir müşteri veri seti var, bilgiler müşteri kimliği, işlem kimliği, teslimat tarihi, ürün türü ve satış verilerini içerir. Her ürün için satışların% 80'ine katkıda bulunan en iyi müşterileri bulmanız söyleniyor.

Genellikle özel bir kod seti oluşturulur ve ardından kopyalayıp yapıştırdıktan sonra başka bir filtre kullanılır. Mükemmel kodlayıcılar, kullanıcının bakış açısından modüller oluşturacak, ürün tipi ve satış fiyatı alanına girecek ve ideal sonuçlar elde edecektir.

Yeniden kullanılabilir modüller, gereksiz kod satırlarından kaçınmak ve kalite kontrolünü kolayca elde etmek için tüm platformlarda oluşturulabilir.

Kaynak: unsplash

3. Girilen kod kurtarılabilir mi?

Herhangi bir girdinin kurtarılabilir olması, ne tür bir girdi olursa olsun, sonucun çıktı olabileceği anlamına gelir. Kod uygulamasındaki en zor sorun, kodun yeniden kullanılmasını sağlamak için girdiyi geri yüklemektir.

Analistler çeşitli paydaşlardan veri talepleri alabilir.İdeal durum, çeşitli iş taleplerine hitap eden kod yazmaktır.

Örneğin, elektronik ekipman ve kozmetik şirketlerinin satış yöneticileri, ilgili müşteri bilgilerine karşılık gelen ürün tüketim kayıtlarını bilmek ister. Analistler, tüm elektronik ürün adlarının küçük harf olduğunu bilerek dizüstü bilgisayarlarda veya tabletlerde çalışıyorlardı.

Ancak kozmetik bilgilerini doğrulamak için önce tüm ürünleri filtrelemek ve ardından müşteri verilerinde kozmetikle ilgili işlemlere bakmak gerekebilir.

Ancak aslında ürün sütununda BÜYÜK HARF () kullanmak gereksiz kontrolleri önleyebilir. Gerçek dünyada, her giriş kodunu kurtarmak zordur ve tüm kontrol edilebilir istisnalar dikkate alınmalıdır.

4. Çıktının verilerin ve işin düzenli denetimine dayanıp dayanamayacağı

Doğru verilerin iletimi, projenin başarısının anahtarıdır. Çoğu iş kararı, rapor edilen verilere dayanır ve küçük bir hatanın çok büyük bir etkisi olabilir.

İşlem hacmine göre ilk 100 sadık müşteriyi bulmanız söylenirse, şirket bu kişilere tavsiyenizin sonuçlarına göre% 30 indirim sağlayacaktır.

Buradaki fikir, katı müşteriler bulmak ve onları daha fazla ürün satın almaya yönlendirmektir. Fiyatları düşürerek daha yüksek işlem hacmi sağlamak. Ancak birçok kişi, çoğu şirket tarafından kullanılan veri setlerinin kesinlikle gerçek olmadığının ve kullanılmadan önce işlenmesi gerektiğinin farkında değildir.

Örneğin, bir müşteri ödeme yaparken başarılı olamayabilir, ancak sistem bunu da kaydeder. Son olarak işlem tutarı hesaplanırken bu tür yanlış bilgiler ortadan kaldırılmalıdır aksi takdirde her müşteri için işlem tutarı bütçesi doğru olmayacaktır. Zorluk, anormal bilgilerin tanımlanmasında yatmaktadır.

Kaynak: unsplash

Kodlama işlemi sırasında aşağıdaki kontroller yapılmalıdır:

· Performansın temel göstergelerinde uzmanlaşmak, her adımda veri birleştirme elde etmeye yardımcı olacaktır. Yukarıdaki örnekte, tüm müşteri işlemleri bu kanadadır. Şirketin yıllık raporuna göre, yaklaşık 12.000 müşterinin web sitesinden ürün satın aldığı tespit edildi. Ancak verileri sorgularken, sadece 8000 tüketicinin bilgileri. Veriler doğru mu? Kodu tekrar kontrol edin veya veri sorunlarını çözmek için paydaşlarla birlikte çalışın.

· Veri setinin seviyesi herhangi bir işlemden önce kontrol edilmelidir. Tek bir seri mi yoksa birleşik seri mi olduğuna göre, bu seriler veri tabanındaki veya tablodaki anormal bilgileri belirleyebilir. Tekrar tekrar girilen kısmın tanımlanmasına yardımcı olur ve çift sayımı önler.

· Bir veya birkaç tablo eklemekten bağımsız olarak, aynı seviyede olduğunuzdan emin olun. Tüm katılma bilgileri görüntülenmeden önce ve sonra kayıtların sayısını takip ettiğinizden emin olun. Bu, birden çok veri grafiğini veya tekrarlanan hesaplamaları tanımlamaya yardımcı olacaktır.

· Veri seti için hızlı bir şekilde tanımlayıcı bir istatistik yapın. Bu, veri dağılımını ve olası tüm eksik değerleri bulmaya yardımcı olacaktır.

Kaynak: unsplash

5. İstisnaları ele alma rehberi

İstisnaların işlenmesi, kurtarılacak giriş koduna biraz benziyor gibi görünüyor, ancak işlem tamamen farklı.

Herkese birkaç soru sorun: Bir şirketin müşteri verilerinin kaç kayıt içerdiğini düşünüyorsunuz? Yukarıda gösterilen 20.252 mi? Şaka yapmayın! Tüm müşteri verilerindeki her bir ürünün işlem kayıtları birkaç milyona ulaşabilir. SQR, R, Python veya Alteryx'teki sorgular birkaç saat sürebilir.

Farklı ürünlerin tablolarını sorgulamanız gerekip gerekmediğini, beklenmedik durumlarla nasıl başa çıkılacağını düşünün.

· Sorgu zamanını kontrol ettiğinizden emin olun. Genellikle büyük veri kümelerini sorgulamak beklenenden daha uzun sürer.Bunun nedeni, eşzamanlı kullanımların olmasıdır, yani birden çok kullanıcı aynı veri kümesini aynı anda sorgulayacaktır. Kodun belirli bir seviyenin ötesinde çalıştığında otomatik olarak çalışmayı durdurabilmesini sağlamak için.

· Tüm programlama dilleri, yürütme istisnalarını ayarlamanıza izin verir ve aşağıdaki kod parçaları, sorgu başarısız olursa yürütmeyi durdurur. Bu sayede kodun tamamının çalıştırılmasını beklemek yerine, bir şeyler ters gittiğinde veya bir hata olduğunda gerekli düzeltici önlemler hemen alınabilir.

Kaynak: unsplash

"Telefonum aniden titredi ve sabah saat sekizdi. Son beş saattir uyumsuz numaralar arıyordum. Bunu bir yıl önce yapmış olmama rağmen, kullandığım hiçbir iş kuralını neredeyse hiç hatırlayamıyorum. Her adımdaki işlem akışı kusurlu ve kalite kontrol verileri yeterli değil, bu da sorunu bulmayı zorlaştırıyor. Artık iyi kodlama uygulamalarının önemine güvenebilirim. "

Bu "üzücü" hikaye, dikkatinizi iyi kodlama uygulamalarına çekmeye yeter ~

Yorum Beğen Takip Et

Yapay zeka öğrenme ve geliştirmenin kuru mallarını paylaşalım

Yeniden yazdırıyorsanız, lütfen arka planda bir mesaj bırakın ve yeniden yazdırma şartnamelerine uyun

Teknoloji devlerini reddetmek ve AI / ML işlerini bırakmak, kariyer gelişimi hakkında ne düşünüyorsunuz?
önceki
Bugün Core Voice | "İnternetin Babası" Winton Cerf'in COVID-19 ile enfekte olduğu doğrulandı
Sonraki
Neden bilgisayar bilimcileri dışında herkes baştan savma kod yazıyor?
SQL röportajı nasıl kazanılır? Bu ipuçları ve tuzaklar bilinmeli ...
Doğrudan vurulan Jinyintan-Hunan, Hubei'nin Hunan'a geri dönmesi için son sağlık personelini destekliyor
Açılış Sezonu Xintian: Okula Başlamak İçin Toplam 11.000 Öğrenci 27 Ortaokul
Kitlelerin mutluluk duygusunun, yeni bir tabandan yönetişim dünyasını yönetmek için kapının önündeki "kırmızı kâhya" yı yükseltmesine izin verin
Heshun Petroleum ana kartta listeleniyor, yakıt ikmali indirimi 1 yuan / litreyi aşıyor
Endüstriyel Gelişimde Xiangxi'ye Bakmak Bir parça çay ormanı bir kişiyi yükseltir, Xiangxi çay yağının "zenginleşmenin sutrası"
Yantai Havalimanı T2 terminalinin inşaatı başladı! Uzun vadeli yolcu hacminin 48 milyona ulaşması bekleniyor
Tai'an Şehir Yönetim Bürosu: Kanalizasyon arıtma kalitesini ve verimliliğini artırmak için dört önlem
Hızlı ve verimli bir şekilde kod yazmanıza yardımcı olacak en iyi Python uygulamaları ve teknikleri
Excel, Tableau ... beş görselleştirme aracı, bunları nasıl kullanacağınızı gerçekten biliyor musunuz?
Tasarımdan üretime ve piyasaya sürülmeye kadar, size bir MVP ürününü 5 günde tamamlamayı öğretin
To Top