Öğretmen Wu Enda'nın başka bir öğrencisi
AI Technology Review Press: "Veri bilimcisi" nin son yıllarda çok sevilen bir iş olduğu söylenebilir.Matematik, bilgi ve bilgisayarla ilgili branşlarda eğitim almış birçok öğrenci bunu denemeye isteklidir. Admond Lee fizik okudu ve İsveç'teki CERN'in fizik yaz kampına katıldı ve şimdi de veri bilimcisi yoluna girdi. Kısa süre önce veri bilimci staj deneyimini hatırlatan bir makale yazdı ve AI teknolojisi incelemesi aşağıdaki gibi derlendi.
Admond Lee:
Bu makaleyi yazdığım sırada, Quantum Invention'da veri bilimci stajyer olduğum sondan bir önceki gündü. Şu anda dizüstü bilgisayar ekranının önünde oturuyordum ve geçtiğimiz birkaç ayın öğrenme yolculuğunu hatırladım, çok zordu ama başarı doluydu.
Yolculuğun her zaman bir sonu vardır ama sorun devam eder
----Ne öğrendin? İstediğiniz bu mu?
Bir fizikçi olarak, her zaman doğru soruları sorduğum ve uygun cevaplarla gerçeği aradığım için lütfen beni affet.
Aslında bir veri bilimci olarak doğru soruları sormak şüphesiz önemlidir (daha sonra açıklanacaktır ...)
Size genel bir giriş yapmak için, bu makale staj yolculuğuyla ilgili deneyimimi anlatmak için esas olarak üç bölüme ayrılmıştır (staj öncesi, staj sırasında ve staj sonrası). Mevcut öğrenme aşamanıza göre herhangi bir bölüme atlayabilirsiniz. Yolculuk başlasın!
Teşekkür ederim! Medium ile ilgili ilk makalemi yayınladığımda moralim çok yüksekti. Hatta pek çok kişiden güçlü destek aldığı için, özelliklerinden dolayı directiondatascience.com'da bile yayınlandı. Bu, öğrenme deneyimimi daha fazla insanla paylaşmaya devam etmem için gerçekten motivasyonum oldu, çünkü öğrenmenin ve başkalarının daha iyi olmasına yardımcı olmanın sevinci!
Kasım 2017'deki final sınavımdan sonra "İstatistiksel Makine Öğrenmesine Giriş-R Dilinin Uygulanması" ders kitabını okumaya başladığımı hala net olarak hatırlıyorum. Bu, temel ve istatistiksel düzeyde makine öğrenimi ile ilk karşılaşmam.
Bu kavramlarda ustalaştıktan sonra, MOOC'ta Wu Enda tarafından verilen "Makine Öğrenimi" kursu olan popüler bir kursa çalışmaya başladım. Başlangıçta dersin içeriği herkesin beklediği kadar kolay değildi ama Wu Enda herkesin dikkatini çekmeyi başardı.Birçok kavram karmaşık olmasına rağmen kolay anlaşılması ve sindirilmesi için onun tarafından basitleştirilebilir, öyle görünüyor ki kimse yapamaz. Sanırım bu yüzden gerçekten makine öğrenimini öğrendim. Bahse girerim makine öğreniminin sıcak kelime dağarcığının göründüğü kadar karmaşık olmadığını bileceksiniz.
Aynı zamanda yapay zeka-derin öğrenmenin başka bir önemli alanını da öğrendim. Özetlemek gerekirse, bu görünüşte yabancı terimin anlamı nedir, lütfen sinir ağının açıklamasına bakın ve sinir ağları herhangi bir işlevi hesaplamak için kullanılabilir. Pekala, eğer önerilen makaleyi okuduktan sonra, benim gibi, işlerin nasıl yürüdüğünü anlamak için her zaman bir çeşit görselleştirmeye ihtiyacınız varsa, lütfen adresini ziyaret edin ve "oynat" düğmesine basın. Arkanıza yaslanın, rahatlayın ve sinir ağının sınıflandırma ve gerileme için nasıl kullanıldığını gözlemleyin. Harika, değil mi?
Tüm okuma, çalışma ve ev ödevleri Aralık 2017'deki stajıma hazır.
Başvurduğum Quantum Invention şirketi, tüketicilere, işletmelere ve hükümetlere mobilite zekası sağlamak için entegre mobilite uygulama paketini, kurumsal lojistiği ve analiz platformunu kullanmaya kendini adamıştır. Ve Ar-Ge ve analitik ekibine katılan ilk veri bilimci stajyer bendim.
Önümüzdeki birkaç gün içinde birçok meslektaşımla tanıştım, çeşitli sektör jargonları hakkında bilgi edindim ve devam eden heyecan verici projeler. Staj sürecinde en sevdiğim şey güven ve özgürlük ... Bir stajyer olarak ilgilendiğim projeleri özgürce seçip dışarı çıkabiliyorum!
Şaşırtıcı bir şekilde, bu projeye başlayan ilk kişi olduğumu fark ettim çünkü bunu daha önce kimse yapmamıştı. Hiç kimse bir şey yapmadığında, üzerinde çalışılması gerekir, bu belirsizliğe ve zorluğa rağmen minnettar olduğum şeydir. neden? Veri biliminin tüm sürecini (hepsini değilse de) sıfırdan deneyimleme fırsatım olduğu için.
Lütfen veri bilimi temelimi oluşturduğu için geçtiğim iş akışlarını listelememe izin verin. Umarım bir gün yararlı bulursun.
1. İşle ilgili sorunları anlayın
Seçilen proje, kısa vadeli bir otoyol sürüş süresi tahminidir. Çok basit görünüyor ama dediğim gibi doğru soruları sormak veri bilimcileri için çok önemli. Proje sonuçlandırılmadan önce, veri kaynakları, projenin nihai hedefi (ayrıldıktan sonra bile) vb. Dahil olmak üzere gerçek iş sorunlarını gerçekten anlamak için birçok soru soruldu. Esasen amacımız, önümüzdeki birkaç dakika içinde Singapur otoyollarında seyahat süresini tahmin etmek ve mevcut temel tahminden daha doğru olmaktır.
2. Veri toplayın
Yeni projeden ilham alarak veri tabanlarından ve iş arkadaşlarından veri toplamaya başladım (temelde ofiste dolaşıp veri kaynakları hakkında sorular sorarak). Doğru verilerin toplanması, çeşitli veri web sitelerinden veri ayıklamaya ve ardından verileri önceden işlemeye benzer. Bu, daha sonra oluşturacağınız modelin doğruluğunu etkileyebileceği için çok önemlidir.
3. Veri ön işleme
Gerçek dünya verileri kirli. Verilerin Kaggle tarafından sağlandığı şekliyle düzgün ve parazitsiz olmasını bekleyemeyiz. Bu nedenle, veri ön işleme (diğerleri buna veri temizleme veya veri temizleme diyebilir) o kadar önemlidir ki, önemini birçok kez vurgulamalıyım. Bu en önemli aşamadır, çünkü yalnızca modelinizin verilerini temizlemek için tüm iş akışının% 40 ila% 70'ini alabilir.
Veri bilimiyle ilgili sevdiğim bir şey, kendinize karşı dürüst olmanız gerektiğidir. Henüz neyi bilmediğinizi bilmediğinizde, verilerin ön işlemesinin yeterince temiz ve modelinizde kullanmaya hazır olduğunu hissetmeye başlayacaksınız. Şu anda, yanlış verilerle doğru bir model oluşturmaya çalışma riski vardır.
Diğer bir deyişle, her zaman kendinizi sorgulayın ve verilerin teknik olarak doğru olup olmadığına karar vermek için alan bilginizi kullanın. Veri kümesinin tamamında diğer aykırı değerler, eksik veya tutarsız değerler olup olmadığını kontrol etmek için lütfen verileri kesinlikle ve dikkatlice kontrol edin. Veri.
Bir keresinde modele beslediğim veriler sadece ön işleme adımındaki basit bir hata yüzünden yanlıştı Bu hatayı yaptıktan sonra çok dikkatliydim.
4. Bir model oluşturun
Araştırmadan sonra, dört destek vektörü regresyon (SVR), çok katmanlı algılayıcı (MLP), uzun kısa süreli bellek ağı (LSTM) ve durum uzay sinir ağı (SSNN) modeli önerdim ve bunları projemde kullandım. Burada ayrıntılı olarak genişletmeyeceğim.Her modelin detaylı açıklamalarını birçok web sitesinde bulabilirsiniz.
Hala MOK kursları ve ders kitapları okuyan benim gibi biri için, sıfırdan çeşitli modeller oluşturmak zorlu bir öğrenme yoludur. Neyse ki, Scikit-learn ve Keras (arka uç olarak Tensorflow'u kullanarak) kurtarıcılarım, çünkü model prototiplerini hızlı bir şekilde öğrenmenizi kolaylaştırıyor ve Python'da uygulanıyorlar. Ayrıca, modelleri nasıl optimize edeceğimi ve her modelin hiperparametrelerinde ince ayar yapmak için çeşitli teknikler kullanmayı öğrendim.
5. Modelin değerlendirilmesi
Her modelin performansını değerlendirmek için esas olarak aşağıdaki ölçütleri kullanıyorum:
1. Ortalama mutlak hata (MAE)
2. Ortalama Kare Hatası (MSE)
3. Belirleme katsayısı (R2)
Bu aşamada, en iyi modelin temel modelin tahmin doğruluğunu aşabileceği belirlenene kadar yukarıdaki 3-5 adımları tekrarlanır (değiştirilir).
Pekala, stajın veri bilimine olan coşkumu güçlendirdiğini kanıtladı Stajım için minnettarım, bu da gelecekteki çalışmalarım için gerçekten bir motivasyon getirdi. Araştırma ve geliştirme aşamasında, farklı paydaşlarla konuşmak için gereken iletişim becerileri, iş problemlerini çözmek için verileri kullanma merakı ve şevk vb. Bu alana olan ilgimi artırdı.
Veri bilimi endüstrisi hala çok genç ve iş tanımı bizim gibi iş arayanlar için belirsiz görünebilir. Gerekli tüm becerilere sahip olmamak normaldir, çünkü çoğu iş tanımı en iyi beklentilerini karşılamak için idealleştirilmiştir.
Şüphe duyduğunuzda, MOOC'lardan, kitaplardan ve makalelerden (hala üzerinde çalıştığım) temel ilkeleri öğrenin ve sonra öğrendiklerinizi kendi kişisel projeleriniz veya stajlarınız aracılığıyla uygulayın. sabırlı ol. Öğrenme yolculuğu zaman alır. Gidin ve öğrenme yolculuğunuza zevkle başlayın. Çünkü
Yolculuğun her zaman bir sonu vardır ama sorun devam eder
---- Ne öğrendin? İstediğiniz bu mu?
Herkese okuduğu için teşekkürler. Bu makale, bazı veri bilimi süreçlerini ve öğrenme yolculuğumu kısaca tanıtıyor. Bunu yararlı bulursanız, başkalarıyla paylaşmaktan çekinmeyin veya bu makaleyi tavsiye edin! =) Herhangi bir sorunuz varsa, beni ekleyin ve daha fazla bilgi için LinkedIn'de sohbet etmemize veya kişisel web sitemi ( ziyaret etmemize izin verin.
Warddatascience.com aracılığıyla, AI teknolojisi incelemeleri derlenir ve derlenir.
Bu arada, insanları işe alıyoruz, öğrenelim mi?
BAT kıdemli algoritma mühendisleri için özel araştırma ve geliştirme kursları
Hayata ve işe en yakın eğlenceli pratik projeler
Profesyonel öğretim asistanları ile sınıf yönetimi yardımı
Bir teklif almak için öğrendiklerinizi uygulayın ve bitirdikten sonra istihdam önerin
Kodu tarayın veya öğrenmek için orijinal metni okumak için tıklayın!
( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!