Kuru gıda "İlk veri bilimcisi staj deneyimim"

Öğretmen Wu Enda'nın başka bir öğrencisi

AI Technology Review Press: "Veri bilimcisi" nin son yıllarda çok sevilen bir iş olduğu söylenebilir.Matematik, bilgi ve bilgisayarla ilgili branşlarda eğitim almış birçok öğrenci bunu denemeye isteklidir. Admond Lee fizik okudu ve İsveç'teki CERN'in fizik yaz kampına katıldı ve şimdi de veri bilimcisi yoluna girdi. Kısa süre önce veri bilimci staj deneyimini hatırlatan bir makale yazdı ve AI teknolojisi incelemesi aşağıdaki gibi derlendi.

Admond Lee:

Bu makaleyi yazdığım sırada, Quantum Invention'da veri bilimci stajyer olduğum sondan bir önceki gündü. Şu anda dizüstü bilgisayar ekranının önünde oturuyordum ve geçtiğimiz birkaç ayın öğrenme yolculuğunu hatırladım, çok zordu ama başarı doluydu.

Yolculuğun her zaman bir sonu vardır ama sorun devam eder

----Ne öğrendin? İstediğiniz bu mu?

Bir fizikçi olarak, her zaman doğru soruları sorduğum ve uygun cevaplarla gerçeği aradığım için lütfen beni affet.

Aslında bir veri bilimci olarak doğru soruları sormak şüphesiz önemlidir (daha sonra açıklanacaktır ...)

Size genel bir giriş yapmak için, bu makale staj yolculuğuyla ilgili deneyimimi anlatmak için esas olarak üç bölüme ayrılmıştır (staj öncesi, staj sırasında ve staj sonrası). Mevcut öğrenme aşamanıza göre herhangi bir bölüme atlayabilirsiniz. Yolculuk başlasın!

Teşekkür ederim! Medium ile ilgili ilk makalemi yayınladığımda moralim çok yüksekti. Hatta pek çok kişiden güçlü destek aldığı için, özelliklerinden dolayı directiondatascience.com'da bile yayınlandı. Bu, öğrenme deneyimimi daha fazla insanla paylaşmaya devam etmem için gerçekten motivasyonum oldu, çünkü öğrenmenin ve başkalarının daha iyi olmasına yardımcı olmanın sevinci!

Staj öncesi

Kasım 2017'deki final sınavımdan sonra "İstatistiksel Makine Öğrenmesine Giriş-R Dilinin Uygulanması" ders kitabını okumaya başladığımı hala net olarak hatırlıyorum. Bu, temel ve istatistiksel düzeyde makine öğrenimi ile ilk karşılaşmam.

Bu kavramlarda ustalaştıktan sonra, MOOC'ta Wu Enda tarafından verilen "Makine Öğrenimi" kursu olan popüler bir kursa çalışmaya başladım. Başlangıçta dersin içeriği herkesin beklediği kadar kolay değildi ama Wu Enda herkesin dikkatini çekmeyi başardı.Birçok kavram karmaşık olmasına rağmen kolay anlaşılması ve sindirilmesi için onun tarafından basitleştirilebilir, öyle görünüyor ki kimse yapamaz. Sanırım bu yüzden gerçekten makine öğrenimini öğrendim. Bahse girerim makine öğreniminin sıcak kelime dağarcığının göründüğü kadar karmaşık olmadığını bileceksiniz.

Aynı zamanda yapay zeka-derin öğrenmenin başka bir önemli alanını da öğrendim. Özetlemek gerekirse, bu görünüşte yabancı terimin anlamı nedir, lütfen sinir ağının açıklamasına bakın ve sinir ağları herhangi bir işlevi hesaplamak için kullanılabilir. Pekala, eğer önerilen makaleyi okuduktan sonra, benim gibi, işlerin nasıl yürüdüğünü anlamak için her zaman bir çeşit görselleştirmeye ihtiyacınız varsa, lütfen adresini ziyaret edin ve "oynat" düğmesine basın. Arkanıza yaslanın, rahatlayın ve sinir ağının sınıflandırma ve gerileme için nasıl kullanıldığını gözlemleyin. Harika, değil mi?

Tüm okuma, çalışma ve ev ödevleri Aralık 2017'deki stajıma hazır.

Staj sırasında

Başvurduğum Quantum Invention şirketi, tüketicilere, işletmelere ve hükümetlere mobilite zekası sağlamak için entegre mobilite uygulama paketini, kurumsal lojistiği ve analiz platformunu kullanmaya kendini adamıştır. Ve Ar-Ge ve analitik ekibine katılan ilk veri bilimci stajyer bendim.

Önümüzdeki birkaç gün içinde birçok meslektaşımla tanıştım, çeşitli sektör jargonları hakkında bilgi edindim ve devam eden heyecan verici projeler. Staj sürecinde en sevdiğim şey güven ve özgürlük ... Bir stajyer olarak ilgilendiğim projeleri özgürce seçip dışarı çıkabiliyorum!

Şaşırtıcı bir şekilde, bu projeye başlayan ilk kişi olduğumu fark ettim çünkü bunu daha önce kimse yapmamıştı. Hiç kimse bir şey yapmadığında, üzerinde çalışılması gerekir, bu belirsizliğe ve zorluğa rağmen minnettar olduğum şeydir. neden? Veri biliminin tüm sürecini (hepsini değilse de) sıfırdan deneyimleme fırsatım olduğu için.

Lütfen veri bilimi temelimi oluşturduğu için geçtiğim iş akışlarını listelememe izin verin. Umarım bir gün yararlı bulursun.

1. İşle ilgili sorunları anlayın

Seçilen proje, kısa vadeli bir otoyol sürüş süresi tahminidir. Çok basit görünüyor ama dediğim gibi doğru soruları sormak veri bilimcileri için çok önemli. Proje sonuçlandırılmadan önce, veri kaynakları, projenin nihai hedefi (ayrıldıktan sonra bile) vb. Dahil olmak üzere gerçek iş sorunlarını gerçekten anlamak için birçok soru soruldu. Esasen amacımız, önümüzdeki birkaç dakika içinde Singapur otoyollarında seyahat süresini tahmin etmek ve mevcut temel tahminden daha doğru olmaktır.

2. Veri toplayın

Yeni projeden ilham alarak veri tabanlarından ve iş arkadaşlarından veri toplamaya başladım (temelde ofiste dolaşıp veri kaynakları hakkında sorular sorarak). Doğru verilerin toplanması, çeşitli veri web sitelerinden veri ayıklamaya ve ardından verileri önceden işlemeye benzer. Bu, daha sonra oluşturacağınız modelin doğruluğunu etkileyebileceği için çok önemlidir.

3. Veri ön işleme

Gerçek dünya verileri kirli. Verilerin Kaggle tarafından sağlandığı şekliyle düzgün ve parazitsiz olmasını bekleyemeyiz. Bu nedenle, veri ön işleme (diğerleri buna veri temizleme veya veri temizleme diyebilir) o kadar önemlidir ki, önemini birçok kez vurgulamalıyım. Bu en önemli aşamadır, çünkü yalnızca modelinizin verilerini temizlemek için tüm iş akışının% 40 ila% 70'ini alabilir.

Veri bilimiyle ilgili sevdiğim bir şey, kendinize karşı dürüst olmanız gerektiğidir. Henüz neyi bilmediğinizi bilmediğinizde, verilerin ön işlemesinin yeterince temiz ve modelinizde kullanmaya hazır olduğunu hissetmeye başlayacaksınız. Şu anda, yanlış verilerle doğru bir model oluşturmaya çalışma riski vardır.

Diğer bir deyişle, her zaman kendinizi sorgulayın ve verilerin teknik olarak doğru olup olmadığına karar vermek için alan bilginizi kullanın. Veri kümesinin tamamında diğer aykırı değerler, eksik veya tutarsız değerler olup olmadığını kontrol etmek için lütfen verileri kesinlikle ve dikkatlice kontrol edin. Veri.

Bir keresinde modele beslediğim veriler sadece ön işleme adımındaki basit bir hata yüzünden yanlıştı Bu hatayı yaptıktan sonra çok dikkatliydim.

4. Bir model oluşturun

Araştırmadan sonra, dört destek vektörü regresyon (SVR), çok katmanlı algılayıcı (MLP), uzun kısa süreli bellek ağı (LSTM) ve durum uzay sinir ağı (SSNN) modeli önerdim ve bunları projemde kullandım. Burada ayrıntılı olarak genişletmeyeceğim.Her modelin detaylı açıklamalarını birçok web sitesinde bulabilirsiniz.

Hala MOK kursları ve ders kitapları okuyan benim gibi biri için, sıfırdan çeşitli modeller oluşturmak zorlu bir öğrenme yoludur. Neyse ki, Scikit-learn ve Keras (arka uç olarak Tensorflow'u kullanarak) kurtarıcılarım, çünkü model prototiplerini hızlı bir şekilde öğrenmenizi kolaylaştırıyor ve Python'da uygulanıyorlar. Ayrıca, modelleri nasıl optimize edeceğimi ve her modelin hiperparametrelerinde ince ayar yapmak için çeşitli teknikler kullanmayı öğrendim.

5. Modelin değerlendirilmesi

Her modelin performansını değerlendirmek için esas olarak aşağıdaki ölçütleri kullanıyorum:

1. Ortalama mutlak hata (MAE)

2. Ortalama Kare Hatası (MSE)

3. Belirleme katsayısı (R2)

Bu aşamada, en iyi modelin temel modelin tahmin doğruluğunu aşabileceği belirlenene kadar yukarıdaki 3-5 adımları tekrarlanır (değiştirilir).

Staj sonrası

Pekala, stajın veri bilimine olan coşkumu güçlendirdiğini kanıtladı Stajım için minnettarım, bu da gelecekteki çalışmalarım için gerçekten bir motivasyon getirdi. Araştırma ve geliştirme aşamasında, farklı paydaşlarla konuşmak için gereken iletişim becerileri, iş problemlerini çözmek için verileri kullanma merakı ve şevk vb. Bu alana olan ilgimi artırdı.

Veri bilimi endüstrisi hala çok genç ve iş tanımı bizim gibi iş arayanlar için belirsiz görünebilir. Gerekli tüm becerilere sahip olmamak normaldir, çünkü çoğu iş tanımı en iyi beklentilerini karşılamak için idealleştirilmiştir.

Şüphe duyduğunuzda, MOOC'lardan, kitaplardan ve makalelerden (hala üzerinde çalıştığım) temel ilkeleri öğrenin ve sonra öğrendiklerinizi kendi kişisel projeleriniz veya stajlarınız aracılığıyla uygulayın. sabırlı ol. Öğrenme yolculuğu zaman alır. Gidin ve öğrenme yolculuğunuza zevkle başlayın. Çünkü

Yolculuğun her zaman bir sonu vardır ama sorun devam eder

---- Ne öğrendin? İstediğiniz bu mu?

Herkese okuduğu için teşekkürler. Bu makale, bazı veri bilimi süreçlerini ve öğrenme yolculuğumu kısaca tanıtıyor. Bunu yararlı bulursanız, başkalarıyla paylaşmaktan çekinmeyin veya bu makaleyi tavsiye edin! =) Herhangi bir sorunuz varsa, beni ekleyin ve daha fazla bilgi için LinkedIn'de sohbet etmemize veya kişisel web sitemi ( ziyaret etmemize izin verin.

Warddatascience.com aracılığıyla, AI teknolojisi incelemeleri derlenir ve derlenir.

Bu arada, insanları işe alıyoruz, öğrenelim mi?

BAT kıdemli algoritma mühendisleri için özel araştırma ve geliştirme kursları

Hayata ve işe en yakın eğlenceli pratik projeler

Profesyonel öğretim asistanları ile sınıf yönetimi yardımı

Bir teklif almak için öğrendiklerinizi uygulayın ve bitirdikten sonra istihdam önerin

Kodu tarayın veya öğrenmek için orijinal metni okumak için tıklayın!

( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!

Upstream Drama İzleme | "Beauty Walk" dans draması "Du Fu" nun öne çıkan özellikleri nelerdir?
önceki
OnePlus 6T McLaren özelleştirilmiş versiyonu yakında geliyor: 10GB büyük bellek + 50W süper hızlı şarj
Sonraki
"Onmyoji" nin arkasındaki Gongfu film endüstrisi yılda yalnızca bir film çekiyor, ancak değeri 1.8 milyar mı?
Konferans | Alibaba ICLR Makalesinin Yorumlanması: Alternatif Yön Yöntemine Dayalı Tekrarlayan Sinir Ağının Çok Bitli Nicelendirilmesi
"Dedektif Chinatown 2" yi dört gözle bekliyorum, Chen Sicheng'in film mükemmellik oranının bu kadar yüksek olduğunu düşünemiyorum!
Sadece karşılaştır, korkmuyor zaten
1,7 milyar kırılıyor! "Mekong Operasyonu" ndan "Kızıl Deniz Operasyonu" na bu adam deniz tanrısı oldu!
2017 Frankfurt Otomobil Fuarı: i Vision Dynamics
Neden cennete bu kadar güçlü gitmiyorsun? Huami Technology, Douyu: Üzgünüz, zaten ayaktayız
Kuru ürünler Shen Yanyao, UT Austin'de doktora öğrencisi: Derin Aktif Öğrenmeye Dayalı Adlandırılmış Varlık Tanıma
Modaya liderlik etmek için doğdu: Vivo LOGO PHONE resmi takdiri
"Dedektif Chinatown 2" ile Wang Baoqiang en çok satan 5. oyuncu oldu, bak bakalım ilk 5'te kim var!
Yeni bir "Hengdian" inşa etmek ve "Çin Seddi" ni ve diğerlerini sübvanse etmek için 50 milyar Baba Jianlin bu kadar utanıyor mu?
"X-Men" in genç versiyonu mu? "Stranger Things" sizin için iyi görünecek!
To Top