9102, nasıl veri bilimcisi olunacağını bilmiyor musun?

Leifeng.com AI Technology Review Not: Bu makalenin yazarı Thomas Nield, Southwest Airlines için bir iş danışmanı, "SQL ile Başlarken (O'Reilly)" ve diğer kitapların yazarı ve deneyimli bir veri bilimcisi. Uzun yıllar kariyeri hakkında derinlemesine içgörülere sahip ve düşünüyor. Birkaç gün önce Towards Data Science web sitesinde ironik bir konuşma makalesi yayınladı.Yeni veri bilimine yeni başlayanlar için önerilerde bulunurken, Ayrıca, birçok insanın "veri bilimi" kavramı konusunda kafalarının karışık olduğuna işaret ediyor (örneğin, birçok insan artık veri bilimini diğer benzer disiplinlerle kolayca karıştırıyor). Makalenin yayınlanmasının ardından birçok okuyucu yorum alanında duygu yüklü bir şekilde: "Yani yalnız değilim!"

Bu makale, veri bilimini kendi kendine inceleyerek veri bilimcisi olmak isteyen yeni başlayan bir kişi ile gerçek bir veri bilimcisi arasındaki konuşmadan oluşmaktadır. Diyalogda, veri bilimcisi yeni başlayanlara çok sayıda öneri öne sürdü, ancak bu önerileri dinledikten sonra, yeni başlayanların ulaştığı son sonuç şu oldu: "Zamanımı başka şeylere harcamalıyım", ironi çok açık. . Veri bilimcilerinin iş içeriği ile veriyle ilgili diğer pozisyonların iş içeriği arasındaki farkla ilgili konuları genişletir ve aynı zamanda çoğu insanın "veri bilimini" diğer disiplinlerden ayırt edemediğini yansıtır. Bu kafa karışıklığı hissi, yeni başlayanların diyalog boyunca "siste çiçek görme" durumunu göstermelerinin temel nedenidir. Bu makalenin genel üslubu esprili ve ilginç, diyalog biraz ironik ve burada ortaya çıkan problemler de düşündürücü. Aynı zamanda veri bilimi alanına girmek isteyen veya veri bilimi ile ilgili çalışmalarla uğraşan okuyucular için bu makale aynı zamanda okumaya değer kuru bir makaledir. Aşağıdakiler, Lei Feng'in Yapay Zeka Teknolojisi İncelemesinin bir derlemesidir.

Yazdığım bu makale, "2016'da JavaScript öğrenmek nasıl bir duygu" başlıklı 2016 tarihli bir makaleden esinlenmiştir. Bu makale "hicivli bir eserdir", bu nedenle bazı sözler veya öneriler için umarım çok ciddiye almazsınız. Makalede bahsedilen önerilerden bazıları iyi bazıları çok kötü, büyük ölçüde herkesin veri bilimi tanımına benziyor, sadece kişisel görüşlerim.

Metin içeriği

Buluşmamı isteyen kişinin sen olduğu söyleniyor. Çok teşekkür ederim ve beni kahve içmeye davet ettiğiniz için teşekkür ederim. Veri bilimini biliyor musunuz?

Evet anladım. Geçen yıl PyData ve O'Reilly Strata'ya katıldım ve bazı modeller geliştirdim.

Evet, geçen hafta şirketimize makine öğrenimi konusunda çok güzel bir sunum yaptığınızı duydum. Meslektaşım bu sunumun çok faydalı olduğunu söyledi.

Kedi ve köpek resimleri için bir sınıflandırıcı mı? Evet, onayınız için teşekkür ederim.

Her halükarda veri bilimine, yapay zekaya ve makine öğrenimine değer vermeye karar verdim. Uzun yıllardır analist ve danışman olarak çalışıyorum ve işim sayıları işlemek, Excel çalışma kitaplarında pivot tablolar ve grafikler yapmak. Bununla birlikte, her zaman "Yapay zekanın insan işlerinin yerini alacağı" konusunda endişelenmişimdir. (Makale okuma adresi: https://thenewstack.io/ai-starts-taking-white-collar-jobs/) Bu tür yazılar, benim gibi beyaz yakalı işçilerin bile pek bağışık olmadığı söyleniyor.

Bu "yol haritasını" Google'da "nasıl veri bilimci olunur" diye araştırdığımda buldum ve ayrıca varoluşsal bir krizin ne olduğunu öğrendim. Size şu soruyu sorayım: Veri bilimcisi olmak istiyorsam, bu grafikteki her şeye hakim olmam gerekir mi?

Kendine güvenen bir veri bilimcisi olmak için ustalaşmanız gereken tek şey budur (2013). Tamamen ulaşılabilir, değil mi? (Kaynak: Swami Chandrasekaran,

Kısacası gerek yok. Artık kimse bu "yol haritasını" kullanmıyor. Bu resim 2013 yılında çizilmiştir ve TensorFlow'u bile içermemektedir.Bu resimde birkaç güzergah bulabilirsiniz. O zamanlar "veri bilimcisi" kavramının daha alt bölümlere ayrıldığını ve daha uzmanlaştığını düşünüyorum. Her segmentteki "veri bilimciler" için farklı öğrenme yöntemlerini benimsemek daha iyi olabilir.

Tamam, söylediklerin beni daha iyi hissettirdi. Mesleki bilgi edinmek için okula geri dönmeli miyim? Bazı yerlerden birçok veri bilimcinin en az yüksek lisans derecesi olduğunu öğrendim, veri bilimi alanında yüksek lisans yapmalı mıyım?

Tanrım, bunu neden yaptın? · Büyük ölçüde gizli "iş analizi" dereceleri olan "veri bilimi" projelerine karşı dikkatli olmalısınız. Ek olarak, günlük akademi genellikle endüstrinin gerisinde kalıyor, bu da okulda öğrendiğiniz teknolojinin modası geçmiş olabileceği anlamına geliyor. Zamana ayak uydurmak için Coursera veya Khan Academy ile kendi kendine çalışmak daha iyi bir seçim olabilir.

Oh.

Bununla birlikte, üniversiteye giderseniz, belki fizik veya yöneylem araştırması okudunuz? Söylemesi zor. Tanıştığım birçok mükemmel veri bilimcisinin bu araştırma alanlarından geldiği söyleniyor. Aynı zamanda iyi bir "veri bilimi" projesi de bulabilirsiniz. Bunların hepsini tahmin edemiyorum. Doktora sırasında okulu bırakan yazar Jeremie Harris'in yazdığı makaleyi okumanızı öneririm ("Veri bilimi için yüksek lisans derecesine ihtiyacınız var mı?", Adresi okuyun: https://towardsdatascience.com / do-you-need-a-graduate-derece-for-data-science-8e3d0ef39253)

Kendi kendime çalışmaya nasıl başlayabilirim? LinkedIn'deki bazı insanlar, veri bilimiyle ilgilenen insanların Linux öğrenerek başlamaları gerektiğini söyledi; sonra Twitter'a gittim ve ona baktım ve oradaki insanlar ısrar etti: Veri bilimciler Python veya R'yi değil Scala'yı öğrenmeli.

Bunu LinkedIn üzerinden söyleyenler neredeyse yapıyor. Scala öğrenmeyi önerenlerin görüşlerine gelince, inanın Scala küçük bir yol ve sonuna kadar onu takip etmeye değmez. Şimdi 2019 ve Scala veri bilimi dünyasında ortadan kayboldu - eğer hala oradaysa, PySpark olmayacak (erişim adresi: https://spark.apache.org/docs/0.9.0/python-programming-guide .html) Ne oldu. Ve asla Kotlin'i tartışanlar gibi popüler dili dinlemeyin (ilgili video oynatma adresi: https://www.youtube.com/watch?v=J8GYPG6pt5wfeature=youtu.be).

bu mu? R dili ne olacak? Herkes onu kullanmayı seviyor gibi görünüyor.

R dili matematiksel modellemede iyidir, ancak sadece budur. Python ile, öğrenim yatırımınızdan daha fazla getiri elde edebilirsiniz ve ayrıca veri sıralama ve Web hizmetlerini kurma gibi daha geniş kapsamlı görevleri gerçekleştirebilirsiniz.

Ancak R dili Tiobe'de çok üst sıralarda yer alıyor ve birçok topluluk ve kaynağı var, kullanmanın herhangi bir zararı var mı?

Dinle, R dilini kullanabilirsin. Yalnızca matematikle ilgileniyorsanız, R dilini kullanmak daha iyi bir seçim olabilir ve Tidyverse ile kullanıldığında daha iyi performans gösterir. Ancak veri bilimi matematik ve istatistiğin çok ötesine geçer. İnanın 2019'da Python kullanmak daha ileri gitmenizi sağlayacak.

Tamam, öyleyse ... Sanırım Python öğreneceğim.

Pişman olmayacaksın.

Python öğrenmek zor mu? Python, robotlar ilgili görevleri devraldığında pazar rekabet gücümü koruyabilir mi?

Tabii ki, Python çok kolay bir dildir.Python'u birçok görevi yerine getirmek ve kendi başınıza bazı harika şeyler yapmak için kullanabilirsiniz. Bununla birlikte, Python'a bile ihtiyacınız yok, çünkü veri bilimi sadece komut dosyası oluşturma ve makine öğrenimi meselesi değildir.

Bununla ne demek istiyorsun?

Bu yazılımlar araçlardır. Python'u sadece verilere dayalı analiz için kullanıyorsunuz. Veri bilimi bazen makine öğrenimini içerir, ancak çoğu zaman içermez. Bu sadece bir grafik oluşturma meselesi de olabilir. Aslında, Python öğrenmenize bile gerek yok, sadece Tableau kullanın. Tableau tanıtımında, sadece bu ürünleri kullanmanın "kuruluşunuzdaki herkesi bir veri bilimcisi yapabileceğini" belirtti (bu tanıtım makalesinin okuma adresi: https://www.tableau.com/learn/whitepapers/make-everyone -kuruluşunuz-veri-bilimcisi).

Tableau, veri bilimcisi çalışanlarının sorununu çözebileceğinden çok emin

ne? Veri bilimcisi olmak için bir Tableau lisansı satın almam gerekiyor mu? Tamam, bu cümleyi bazı çekinceleri olan bir pazarlama retoriği olarak alalım. Hiçbir şey bilmiyor olsam da, veri biliminin sadece güzel görselleştirmeler yapmaktan daha fazlası olduğunu biliyorum. Bunu Excel ile yapabilirim.

Tabii ki, ancak bunun sorunsuz bir pazarlama olduğunu kabul etmelisiniz. Verilerin grafiğini çizmek ilginç bir aşamadır ve Tableau, veri işlemenin zaman alıcı ve zahmetli kısmını ortadan kaldırır: temizleme, sıralama, taşıma ve yükleme.

Evet, bu yüzden kodlamayı öğrenmenin değerli olduğunu düşünüyorum. Öyleyse Python hakkında konuşalım.

Aslında, sadece ona bağlı kalıyorsun. Ama belki Alteryx'i de öğrenebilirsiniz.

ne?

Alteryx, verileri temizlemek, düzenlemek, taşımak ve yüklemek için kullanabileceğiniz başka bir yazılımdır. Verileri karıştırmak için sürükle ve bırak arayüzü kullandığından kullanımı kolaydır ve ...

Tanrım, lütfen önce durun! Bu sürükle ve bırak aracından bahsetmiyorum bile. Tableau veya Alteryx değil Python öğrenmek istiyorum.

Afedersiniz. Sadece kodlamayı öğrenmekten kaçınmanı ve hayatını kolaylaştırmanı istiyorum. Ek olarak, bunu muhtemelen şirketimiz de bir Tableau lisansı satın aldığı için yaptım ve şimdi onu kullanıyoruz. Her neyse, Python öğrenmek istiyorsanız, veri çerçevelerini işlemek için Pandalar öğrenmek ve grafikler yapmak için matplotlib öğrenmek gibi bazı geliştirme kitaplıklarını kullanmayı öğrenmelisiniz. Aslında, Plotly öğrenmek için matplotlib'i terk edebilirsiniz, d3.js kullanır ve kullanımı daha iyidir.

Bu kelimelerin bazılarını biliyorum, ancak veri çerçevesi nedir?

Satır ve sütunlardan oluşan bir tablo yapısındaki verileri işleyebilen bir işlevdir. Python ortamında, aktarım, görselleştirme ve toplama gibi tüm bu harika işlemler bir veri çerçevesi kullanılarak uygulanabilir.

Bekle, onunla Excel arasındaki fark nedir? Mezun olduktan sonra bu görevleri tamamlıyorum Bu zaten bir veri bilimcisi olduğum anlamına mı geliyor?

Böyle daha rahat olduğunuzu iddia ediyorsanız, elbette yapabilirsiniz. Bir partiye gittiğinizde veya bir özgeçmiş yazdığınızda, kendi tarzınıza sahip bu başlığı da işaretleyebilirsiniz.

Peki Python ile Excel arasındaki fark nedir?

Python ile fark, onu Jupyter not defterinde çalıştırabilmenizdir (adresi alın: https://jupyter.org/). Veri analizinin her aşamasını adım adım gerçekleştirebilirsiniz ve not defteri de her adımı görselleştirebilir. Bu süreç, muhtemelen başkalarıyla paylaşabileceğiniz bir hikaye oluşturduğunuz gibidir. Sonuçta, iletişim ve hikaye anlatımı veri biliminin hayati parçalarıdır.

Bu şekilde Python, PowerPoint'e çok benzer. Verileri işlemek için her zaman PowerPoint kullandım. Şimdi kafam çok karışık.

İkisi arasında büyük bir fark var. Dizüstü bilgisayarın çok daha otomatik ve gelişmiş olması gerekir ve her adımı kolayca izleyebilir ve analiz edebilir. Ancak bundan bahsetmişken, bazı kişilerin Defter'i kodunun pek pratik olmadığı için kullanmayı sevmediklerini bile söylediğini hatırlıyorum (ilgili video: https://www.youtube.com/watch?v=7jiPeIFXb6U). Kodu bir yazılım ürününe dönüştürmeniz gerekirse, kodu dizüstü bilgisayarın dışında modüler hale getirmek daha kolaydır.

Peki veri bilimi artık yazılım mühendisliği mi?

Veri bilimi ve yazılım mühendisliği büyük ölçüde eşitlenebilir, ancak şimdilik bununla dikkatinizi dağıtmayın. Şimdi önce daha acil şeyler öğrenmeliyiz. Veri biliminin açıkça verilere ihtiyacı var.

elbette.

Ve başlangıçta, veri almanın iyi bir yolu, bazı wiki sayfaları gibi web sayfalarından verileri taramaktır.

Ayrıca neyi başarmaya çalışıyoruz?

Pratik yapmak için bazı veriler alabiliriz. Web sayfalarından verileri taramak ve Beautiful Soup'u kullanmak (erişim adresi: https://www.crummy.com/software/BeautifulSoup/) ayrıştırma, uygulamamız için büyük miktarda yapılandırılmamış metin verisi sağlayabilir.

Kafam karıştı. SQL'de 130 sayfalık bir kitap okudum ("SQL'e Başlarken: Yeni Başlayanlar İçin Uygulamalı Bir Yaklaşım", kitap görüntüleme adresi: https://www.amazon.com/dp/1491938617) , Veriler için genellikle web sayfasından taramak yerine tabloyu sorgulayacağım. Veri elde etmenin ana yolu SQL olması gerekmez mi?

Yapılandırılmamış metin verileriyle birçok harika şey yapabiliriz. Sosyal medya gönderilerindeki görüşleri sınıflandırmak veya doğal dil işleme yapmak için kullanabiliriz. İlişkisel olmayan veritabanları (NoSQL), bu tür taranan verileri depolamada iyidir, çünkü depoladığımız veriler henüz analiz için yararlı veriler olarak işlenmemiştir.

NoSQL terimini duydum, SQL veya anti-SQL anlamına mı geliyor? Büyük verileri işleyebildiği için anlayabilir miyim?

Her şeyden önce 2016'da "büyük veri" nin ilgi odağı geçti. Bundan sonra çoğu insan bu kavramı gerçekten hiç kullanmadı, bu kavramdan tekrar bahsettiğinizde yeterince havalı değil. Pek çok heyecan verici teknoloji gibi, teknoloji olgunluk eğrisinin de zirvesini (Gartner Hype Cycle) geçti (İlgili makaleleri okuyun: https://www.analyticsindiamag.com/big-data-buzz-is-on- düşüş-büyük veri için-2017-ölüm yılıdır /), yalnızca pazarını belirli yerlerde bulmak için. Ancak NoSQL, temelde "büyük veri" hareketinin bir ürünüdür ve MongoDB gibi bir platform haline gelmiştir.

Öyleyse neden "NoSQL" deniyor?

NoSQL, "yalnızca SQL değil" anlamına gelir ve ilişkisel tablolar dışındaki veri yapılarını destekler. Bununla birlikte, NoSQL veritabanları genellikle SQL kullanmaz, bunun yerine özel bir sorgu dili kullanır. Aşağıdaki şekil MongoDB ve SQL arasında bir dil karşılaştırmasıdır:

Tanrım, bu korkunç! Yani her NoSQL platformunun kendi sorgu dili olduğunu söylediniz? SQL'in nesi var?

Nasıl hissettiğini anlıyorum. On yıllardır dışında, SQL'in başka sorunları yoktur. Bu yapılandırılmamış veri çılgınlığı, daha önce imkansız olan farklı veya büyük ölçekte bir şey yapmanın bir yolunu ortaya çıkardı. Ancak, sanırım daha fazla insan SQL'in varlığının değerli olduğunu düşünüyor olabilir (ilgili makaleleri okuyun: https://blog.timescale.com/why-sql-beating-nosql-what-this-means-for-future-of -data-time-series-database-348b777b847a /), analizi çok daha basit hale getirir. Aslında, birçok NoSQL ve "büyük veri" teknolojisi, SQL katmanını belirli bir forma veya forma eklemek için rekabet ediyor (İlgili makaleleri okuyun: https://www.networkworld.com/article/3019122/tech-primers/the -hidden-cost-of-nosql.html). Sonuçta, bazı insanlar SQL'i öğrenmekte zorlansa bile, yine de çok yönlü bir dildir.

Tamam. Az önce söylediklerinizi özetleyeyim, NoSQL öğrenmek artık bir veri bilimcisi olmak için belirleyici değil, mesleğim bir ölçüde gerektirmedikçe. Bu şekilde sadece SQL'i anlıyorum ve güvenli görünüyor.

Düşünürseniz, gerçekten, bir veri mühendisi olmayı hedeflemediğiniz sürece (sadece NoSQL öğrenmeniz gerekir) haklı olduğunuzu düşünüyorum.

Veri mühendisi mi?

Evet, veri bilimcileri iki profesyonel yöne ayrılmıştır. Veri mühendisleri genellikle çalışmak ve verileri ve modelleri kullanılabilir hale getirmek için işlemeye yardımcı olmak için ürün sistemlerini kullanır, ancak makine öğrenimi ve matematiksel modelleme çalışmalarına daha az dahil olurlar - işin bu kısmı veri bilimcileri tarafından yapılır. İkisi arasındaki ayrım gereklidir, çünkü çoğu İK ve işe alım görevlisi özgeçmişlerine bakarken "veri bilimcisi" unvanını atlamayacaktır (ilgili okuma: https://www.fastcompany.com/40432834/what-if -veri-bilimi-beceriler-uçurumu-sadece işe alma-sıcak-karmaşadır). Bunları göz önünde bulundurarak, veri mühendisi olmak istiyorsanız, önce Apache Kafka'yı, sonra da NoSQL öğrenmenizi tavsiye ederim. Şimdi, Apache Kafka çok popüler.

Aşağıdaki Venn şeması size yardımcı olabilir. "Veri bilimcisi" unvanını almak istiyorsanız, Matematik / İstatistik çemberi ile diğer disiplinler arasındaki örtüşmeye odaklanmanız gerekir.

Veri Bilimi Venn Şeması

Tamam. Veri bilimcisi mi yoksa veri mühendisi mi olmak istediğimi hâlâ bilmiyorum. Tartışmaya devam edelim. Ama önce bir önceki soruya dönelim: Neden wiki sayfalarından veri tarıyoruz?

Bunun nedeni, wiki sayfalarından taranan verilerin doğal dil işleme için veri girişi olarak kullanılabilmesi ve ardından bir sohbet botu oluşturmak gibi ilgili işlemleri gerçekleştirebilmesidir.

Tıpkı Microsoft'un Tay robotu gibi mi? Bu robot, yeni ürünleri piyasaya sürmek için doğru miktarda envanter tutmama yardımcı olurken satışları tahmin edecek kadar akıllı mı? Robotların ırkçı olma riski var mı?

Teorik olarak, olabilir. Alakalı haber makalelerinden öğrenirseniz, işle ilgili karar verme önerilerini etkileyen eğilimleri bulmak için bazı modeller oluşturabilirsiniz. Ama bunu başarmak gerçekten "gerçekten" zor. Bu şekilde düşünürsek, bu iyi bir başlangıç noktası olmayabilir.

Gordon Ramsay'den robot, mutfak sanatının sınırlarını aşıyor. Hatta bir yemek kitabı bile yazdı (ilgili okuma:

Yani ... Doğal dil işleme, sohbet robotları ve yapılandırılmamış metin verilerinin benimle neredeyse hiçbir ilgisi yok mu?

Muhtemelen hayır, ancak şu anda çok fazla veri bilimi olduğu unutulmamalıdır. Google ve Facebook gibi Silikon Vadisi şirketleri artık büyük miktarda yapılandırılmamış veriyle (sosyal medya gönderileri ve haber makaleleri vb.) Uğraşıyor ve "veri bilimi" nin tanımı üzerinde büyük bir etkiye sahip oldukları aşikar. Bundan sonra, diğer şirketler ilgili bir veritabanındaki iş operasyon verilerini kullanır ve SQL gibi daha az güçlü teknolojileri kullanır.

Bu doğru. Ayrıca, reklam veya diğer kötü amaçlarla kullanıcı gönderilerini, e-postalarını ve hikayelerini araştırmak için yapılandırılmamış verilerin işleme gücünü büyük ölçekte kullanmaya kararlı olduklarını düşünüyorum.

Bu tam olarak bu konunun özüdür. Ancak saf Bayes yöntemini ilginç ve bazı yararlı şeyler de bulabilirsiniz. Sınıflandırmasını tahmin etmek için metnin ana gövdesini kullanabilirsiniz. Baştan başlamak da çok basittir:

Demo video oynatma URL'sinin ana gövdesini sınıflandırmak için Naive Bayes yöntemini kullanın: https://youtu.be/JLSdW60t898

Evet, saf Bayes yöntemi gerçekten harika, ancak bunun ötesinde, yapılandırılmamış verilerde başka bir değer görmüyorum.

Bu konuyu daha sonra tartışmaya devam edeceğiz. Bununla birlikte, işte uğraştığınız verilerin büyük kısmı tablo verileridir: elektronik tablolar, tablolar ve çok sayıda kaydedilmiş sayı. Bu görevler, bazı tahminler veya istatistiksel analizler yapmak istediğiniz gibi görünüyor.

Evet, sonunda bu pratik problemlerin farkına varacağız. Sinir ağları veya derin öğrenme şimdi bu alanlara giriyor mu?

Hey dostum, merak etme. Ortalama ve standart sapma ile bazı normal dağılımlarla başlamanızı önerecektim. Olasılık hesaplamaları için z puanlarını ve bir veya iki doğrusal regresyon hesaplamasını da kullanabilirsiniz.

Ama tekrar söylemeliyim, bunu Excel ile yapabilirim! Burada bir şey mi kaçırıyorum?

Başka bir deyişle, bu görevlerin çoğunu gerçekleştirmek için Excel'i kullanabilirsiniz, ancak bunu yapmak için komut dosyası kullandığınızda, işin esnekliği büyük ölçüde artacaktır.

VBA gibi Visual Basic?

Sanki bunları söylememişsiniz gibi bu soru hakkında konuşmaya devam edeceğim. Excal, mükemmel istatistiksel operatörlere ve iyi doğrusal regresyon modellerine sahiptir. Ancak, öğenin her kategorisi için ayrı bir normal dağılım veya gerileme yapmanız gerekiyorsa, Python'da bir komut dosyası yazmak, korkunç derecede uzun bir formül oluşturmaktan daha kolaydır (her ikisi de aya olan mesafeyi ölçmek için bir ölçü olabilir) birçok.

Excel konusunda uzman olduğunuzda, herkesle çalışmanın acısını çekeceksiniz.

Ek olarak, çok faydalı geliştirme kitaplığı scikit-learn'ü de kullanabilirsiniz (erişim adresi: https://scikit-learn.org/stable/index.html). Regresyon ve makine öğrenimi modelleri için çok daha iyi seçeneğiniz var.

Tamamen anlayın. Matematiksel modelleme alanıyla ilgili söylediniz Matematiksel problemlerle karşılaşırsam nereden başlamalıyım?

"Geleneksel bilgelik", doğrusal cebirin birçok veri biliminin temel taşı olduğunu ve başlamanız gereken yerin bu olduğunu söylüyor. Çarpma ve ekleme matrisleri (nokta ürünleri olarak adlandırılır), gelecekte tekrar tekrar yapmanız gereken işlemlerdir.Ayrıca, determinantlar ve özvektörler önemli kavramlardır. 3Blue1Brown, doğrusal cebirin sezgisel bir açıklamasını bulabileceğiniz neredeyse tek yerdir (ilgili video oynatma adresi: https://www.youtube.com/watch?v=fNk_zzaMoSslist=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab).

Dijital bir şebekeyi başka bir dijital şebekeyle çarpmak / eklemek, gelecekte tekrar tekrar yapmam gereken bir şey mi? Bu anlamsız ve sıkıcı geliyor. Bana bir kullanım durumu verebilir misin?

Evet ... makine öğrenimi! Doğrusal regresyon (ilgili okuma: https://towardsdatascience.com/linear-regression-using-gradient-descent-97a6c8700931) yaptığınızda veya kendi sinir ağınızı oluşturduğunuzda, çok sayıda matris çarpımı gerçekleştirmek için rastgele ağırlık değerleri kullanmalısınız ve Yakınlaştır.

Peki matrisin veri çerçevesiyle çok ilgisi var mı? İkisi birbirine çok benziyor.

Aslında, bekle ... Bu soruyu yeniden düşünüyorum. Önce önceki soruya geri dönelim Pratikte doğrusal cebir yapmanıza gerek yok.

Gerçekten mi? Hala lineer cebiri öğrenmem gerekiyor mu?

Uygulamada, doğrusal cebir öğrenmenize gerek olmayabilir (ilgili okuma: https://machinelearningmastery.com/why-learn-linear-algebra-for-machine-learning/). TensorFlow ve scikit-learn gibi geliştirme kitaplıkları aslında sizin için doğrusal cebirle ilgili tüm çalışmaları tamamladı. Her neyse, doğrusal cebir sıkıcı ve sıkıcıdır. Son olarak, bu geliştirme kitaplıklarının nasıl çalıştığını anlamak isteyebilirsiniz. Ancak şimdilik, makine öğrenimi kitaplıklarını kullanmaya başlamanız gerekiyor ve doğrusal cebiri tamamen göz ardı edebilirsiniz.

Belirsizliğin beni rahatsız ediyor, sana güvenebilir miyim?

Biraz minnettar olabilir misin? Seni başka bir "tavşan deliğinden" kurtardım. Tamam, önemli değil.

ne

Ek olarak, unutmadan size hatırlatmak isterim: Sadece TensorFlow kullanmayın ve TensorFlow'un çalışmasını kolaylaştırmak için Keras kullanın.

Makine öğreniminden bahsetmişken, doğrusal regresyon gerçekten makine öğrenimini sağlayabilir mi?

Evet, doğrusal regresyon, "makine öğreniminin" bir araç setini oluşturur.

Bu gerçekten harika, doğrusal regresyon yapmak için her zaman Excel kullanıyorum. Öyleyse kendime bir makine öğrenimi uygulayıcısı da diyebilir miyim?

(İç çeker) Teknik olarak, evet. Ancak genişliğinizi genişletmeniz gerekebilir. Gördüğünüz gibi, makine öğrenimi (teknik olarak konuşmak değil) genellikle iki görevdir: gerileme ve sınıflandırma. Ancak teknik olarak, sınıflandırma regresyondur. Karar ağaçları, sinir ağları, destek vektör makineleri, lojistik regresyon ve doğrusal regresyon, eğri uydurmanın bazı biçimlerini gerçekleştirir. Koşullara bağlı olarak, her modelin artıları ve eksileri vardır.

Bekle, yani makine öğrenimi sadece bir gerileme mi? Eğriyi etkili bir şekilde bir noktaya sığdırabilirler mi?

Çoğu yapabilir. Doğrusal regresyon gibi bazı modeller net ve yorumlanabilirken, sinir ağları gibi daha gelişmiş modeller tanım gereği karmaşıktır ve yorumlanması zordur. Sinir ağı aslında bazı doğrusal olmayan işlevleri kullanan çok katmanlı bir gerilemedir. Yalnızca 2-3 değişken olduğunda, çok dikkat çekici görünmeyebilir, ancak yüzlerce veya binlerce değişkeniniz olduğunda ilginç olmaya başlar.

Basit sinir ağı demo video oynatma URL'si: https://youtu.be/tAioWlhKA90

Bunun gibi sinir ağlarını kullandığınızda elbette ilginç olacaktır. Görüntü tanıma yalnızca doğrusal regresyon mu?

Evet, her bir görüntü pikseli temelde sayısal bir girdi değişkeni haline gelir. Bu bana boyutluluk lanetine karşı dikkatli olmanız gerektiğini hatırlatıyor. Bu temelde, ne kadar çok değişkene (boyuta) sahip olursanız, seyrekleşmesini önlemek için o kadar fazla veriye ihtiyacınız olduğu anlamına gelir. Bu, makine öğreniminin bu kadar güvenilmez ve düzensiz olmasının birçok nedeninden biridir ve ayrıca sahip olmadığınız çok sayıda etiketli veri gerektirir.

Şimdi birçok sorum var.

(Sonra soru sormaya başlayın)

Personel planlama veya ulaşım gibi sorunlar nasıl çözülür? Sudoku problemleri ne olacak? Makine öğrenimi tüm bu sorunları çözebilir mi?

Bu tür sorunlarla karşılaştığınızda, bazı insanlar bunların hiçbirinin veri bilimi veya makine öğrenimi olmadığını söyleyecektir. Bunlar "yöneylem araştırmasıdır" (ilgili okuma: https://en.wikipedia.org/wiki/Operations_research).

Bana göre bunlar gerçek sorunlar gibi görünüyor. Yani yöneylem araştırmasının veri bilimiyle ilgisi yok mu?

Aslında ikisi arasında önemli bir örtüşme vardır. Makine öğreniminde kullanılan çok sayıda optimizasyon algoritması aslında yöneylem araştırması tarafından sağlanmaktadır. Ek olarak, yöneylem araştırması aynı zamanda yaygın "AI" sorunlarına da (az önce bahsettiğiniz gibi) birçok çözüm sunar.

Peki bu sorunları çözmek için hangi algoritmayı kullanıyoruz?

Kesinlikle çok az kişinin bildiği bir makine öğrenimi algoritması değildir. Bu sorunları çözmek için ağaç arama, sezgisel algoritmalar, doğrusal programlama ve diğer operasyon araştırma metodolojileri gibi onlarca yıldır var olan daha iyi algoritmaları kullanabilirsiniz (ilgili okuma: https://www.coursera.org/learn/discrete -optimization / home / welcome), uzun süredir kullanılmaktadırlar ve bu tür problemler için makine öğrenimi algoritmalarından daha iyi performans gösterirler.

Öyleyse neden herkes bu algoritmalardan değil de makine öğreniminden bahsediyor?

(İç çekiş) Çünkü bu optimizasyon sorunları kısa sürede tatmin edici bir şekilde çözüldü ve o zamandan beri bu yöntemler hakkında sıcak bir haber alınmadı. İster inanın ister inanmayın, bu algoritmalara odaklanan ilk AI çılgınlığı onlarca yıl önce meydana geldi. Mevcut yapay zeka çılgınlığı makine öğrenimi ile ateşleniyor.Aynı zamanda makine öğreniminin iyi çözebileceği problem türlerini de ateşliyor: görüntü tanıma, doğal dil işleme, görüntü oluşturma vb.

İnsanlar zamanlama problemlerini veya Sudoku gibi basit problemleri çözmek için makine öğrenimini kullanmayı önerdiğinde, bu yaklaşım yanlış mı?

Neredeyse evet. Makine öğrenimi, derin öğrenme, vb ... Günümüzün en sıcak teknolojileri genellikle ayrı optimizasyon sorunlarını çözemez - en azından iyi değil. Araştırmacılar denedi, ancak etki pek tatmin edici değil.

Bu nedenle, makine öğrenimi geri dönüyorsa, neden herkes insan çalışmasını ve toplumu tehdit eden robotlar ve yapay zeka konusunda telaşlı? Demek istediğim ... bir eğriye uymak gerçekten tehlikeli mi? "AI" geri döndüğünde, öz farkındalığı ne kadar güçlü?

İnsanlar, belirli bir dönüşte en iyi satranç hareketini bulmak (bu ayrı optimizasyon da elde edilebilir) veya hangi yöne döneceğini hesaplayan otonom bir araç gibi bazı daha mantıklı regresyon uygulamaları buldular. Tabii ki, bunda çok fazla yutturmaca var ve sadece çok fazla uygulama var ve regresyonda sadece bir görev çalıştırılabilir.

Hala bu kopukluğa alışmaya çalışıyorum. Satranç oyunlarında insan benzeri zekayı kopyalayan DeepMind hakkında her zaman makaleler okudum. (Leifeng.com'dan ilgili makale: "AlphaGo kraldır! Ke Jie, Triple Chess'in son oyununu kaybeder") Ve şimdi StarCraft'ta insan oyuncuları yenmek için çalışıyor (Leifeng.com'dan ilgili makale: "DeepMind'ın insanüstü düzeydeki StarCraft AI" AlphaStar "ın çok resimli ayrıntılı açıklaması") ! Bu makine öğrenme algoritmaları, tüm bu oyunlarda insan oyuncuları yendi! Bu aynı zamanda benim ve diğer insan işlerinin yerini alacakları anlamına mı geliyor?

StarCraft'taki kaç insan oyuncu işinizi tehdit ediyor?

(Sessizce sessizce)

"StarCraft" oyununu oynamanın işinizi yapmaya tamamen benzediğini söyleyebilir misiniz?

"StarCraft" insan oyuncular işinizi tehdit edemiyorsa, neden "StarCraft" robot oyuncuları için endişelenmelisiniz? Bu görevi tamamlamak için kodlanmış ve eğitilmişlerdir: "StarCraft" oynayın. Başka şeyler yapmaya zaman ayırmayanlar sizi tehdit edemez ve aynı şekilde sizi tehdit edemezler.

Emin mi yoksa şüpheci mi olacağımı bilmiyorum. Birincisi satranç, sonra StarCraft ... Belki bir sonraki otomatik analiz ve stratejik iş kararları alan robotlardır. Bununla birlikte, belki de üçüncü öğe, ilk iki öğeden büyük bir adımdır. Diğerlerini bilmiyorum.

Birisi veri bilimi perspektifinden derin öğrenmenin sınırlamaları hakkında bir makale yazdı. Onu da okuyabilirsiniz:

Okuma URL'si: https://towardsdatascience.com/is-deep-learning-already-hitting-its-limitations-c81826082a

Tamam. Kısacası veri biliminden yapay zekaya nasıl geçeceğiz? "Veri bilimini" ne kadar çok tanımlamaya çalışırsam, o kadar çok ... Onu tarif edemem. Her şey çok dağınık ve belirsiz.

Burada aynı yazarın yazdığı başka bir makale buldum, siz de okuyabilirsiniz:

Okuma adresi: https://towardsdatascience.com/data-science-has-become-too-vague-538899bab57

teşekkür ederim. Bunları sindirmek için yürüyüşe ihtiyacım var. Bundan öğrendiklerimi söylemek gerekirse, Excel ile yaptığım işin "veri bilimi" koşullarını karşıladığını düşünüyorum. "Veri bilimci" sıfatına sahip olmak isteyip istemediğimi bilmesem de, her şey olabilir gibi görünüyor. Vaktimi başka şeylere harcamam iyi olur. Umarım veri bilimindeki bir sonraki "sonraki büyük şey" o kadar çılgınca olmaz.

IBM'i bir süre takip edebilir misin?

neden?

Veri bilimi kulağa pek ilginç gelmediğine göre, kuantum hesaplama ne olacak? (gülümsemek)

(Bitiş)

aracılığıyla: https://towardsdatascience.com/how-it-feels-to-learn-data-science-in-2019-6ee688498029

Dört ayda 2 milyon takipçi kırdıktan sonra, Xiaomi Mall'un resmi Douyin hesabı neden bu kadar başarılı?
önceki
Hafta sonu nereye gitmeli? Dünya Meteoroloji Günü'nün bu temalı etkinlikleri sizleri bekliyor
Sonraki
Zhang Han, "Wolf Warrior 2" nin ortaya çıkışından sorumludur, Wu Jing ve Wu Gang sert adamlardır, ancak o en iyi oyunculuktur.
Yeni Golf Sportsvan, Frankfurt Otomobil Fuarı'nda tanıtılacak
"Wolf Warriors 2" patladı, "Wolf Warriors 3" e katılabilecek dört sert adamı tahmin edin!
Xiaomi Mi 8 Youth Edition yükseltme geliştirme sürümü, elde taşınan süper gece sahnesi provaları ortaya çıktı
6 yıllık denetim standardını almak ister misiniz? Bu noktaları unutmayın, yarım saat içinde bitiyor!
Bağımsız oyunlarda hiçbir domuz takım arkadaşı bu harika tanrı seviyesindeki ortakları saymaz
77 yorgan "uyku" kelimesine konuyor, turistler yatıyor ve fotoğraf çekiliyor
Berlin filmi ile ödüllendirildikten sonra Yongmei nihayet "dağların çiçek açtığı zamana" kadar kaldı!
Snapdragon 855 olarak bilinen Pinduoduo VIVI cep telefonu incelemesi
Bu Cuma açılışı yapılacak Chengdu Otomobil Fuarı'nın nesi bu kadar iyi?
Cthulhu Kahramanları açığa çıktı, LOL yeni bir yardımcı aracı kullanmak üzere
"Wolf Warriors 2", "Halkın Adı" popülaritesine katılmak için Dakang Sekreterini mi seçti? Gerçek şu ki!
To Top