g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Python ve veri bilimi arasındaki "belirsizlik" hakkında 14 QA

Tam metin 3733 Kelimeler, tahmini öğrenme süresi 7 dakika

Python son zamanlarda popüler hale geldi ve büyük bir hit oldu. PYPL (Programlama Dili Popülerliği) Nisan ayında Python'un 1 numarayı kazandığını açıkladı Arkadaş çevresi içindeki liberal sanatlar öğrencileri bile Python kursu check-in bağlantısını iletmeye başladılar ... Bütün insanlar için bu çılgınlık ne tür bir dil?

Programlama dünyasında "en iyi marka" ünlüsü olarak, Python'un yaklaşılabilir tavrı ve kurnaz ve zarif çevikliği tüm bilim adamlarının kalbini kazandı. Örneğin: yapay zeka, web geliştirme, tarama, sistem çalıştırma ve bakım, veri analizi ve hesaplama vb. Sektördeki bu seçkinlerden herhangi biri "geleceği tersine çevirebilir".

Bu makale, sizin için Python ve veri biliminin "belirsiz bir tarihini" dikkatlice hazırladı - Numpy, Scipy, pandalar, Scikit-Learn, XGBoost, TensorFlow ve Keras ve diğer modüller, paketler ve kitaplıkların kullanımı dahil olmak üzere Python ile veri bilimine genel bir bakış.

içindekiler

1. Neden Python'u seçmelisiniz?

2. Python'u yükleyin

3. Veri bilimi araştırması için Python kullanın

4. Python'da sayısal hesaplamalar

5. Python'da İstatistiksel Analiz

6. Python'da veri işleme

7. Veritabanını Python'da kullanma

8. Python'da Veri Mühendisliği

9. Python'da Büyük Veri Projesi

10. Python'da Diğer İstatistikler

11. Python'da makine öğrenimi

12. Python'da Derin Öğrenme

13. Python'da Veri Bilimi API'si

14. Python'da Uygulamalar

1. Neden Python'u seçmelisiniz?

Python bir dil olarak dekatlondur, öğrenmesi ve yüklemesi kolaydır. Aynı zamanda veri bilimi araştırmaları için çok uygun birçok uzantı var. Google, Instagram, Youtube, Reddit vb. Gibi yıldız web siteleri temel işlerini oluşturmak için Python kullanıyor.

Python yalnızca veri bilimi için kullanılmaz, aynı zamanda komut dosyaları yazmak, API'ler oluşturmak, web siteleri oluşturmak vb. Gibi daha fazla iş yapmak için Python'u da kullanır.

Python hakkında dikkat edilmesi gereken birkaç önemli nokta var.

· Şu anda, Python'un yaygın olarak kullanılan iki sürümü vardır. Bunlar sürüm 2 ve 3'tür. Çoğu eğitici ve bu makale varsayılan olarak Python Python 3'ün en son sürümünü kullanacaktır. Ancak bazen Python 2 kullanan kitaplara veya makalelere rastlıyorum. Sürümler arasındaki farklar büyük değildir, ancak bazen sürüm 3'ü çalıştırırken sürüm 2 kodunu kopyalayıp yapıştırmak işe yaramayacağından bazı küçük düzenlemeler gerekir.

· Python'un beyaz boşluğa (yani boşluklar ve dönüş karakterleri) çok dikkat ettiğini unutmayın. Boşlukları yanlış yere koyarsanız, program muhtemelen hatalar üretecektir.

· Diğer dillerle karşılaştırıldığında, Python'un belleği yönetmesine gerek yoktur ve iyi bir topluluk desteğine sahiptir.

2. Python'u yükleyin

Veri bilimi için Python'u kurmanın en iyi yolu Anaconda dağıtımını kullanmaktır.

Anacoda, bu makalede tanıtılacak birçok yazılım paketi de dahil olmak üzere Python kullanarak veri bilimi araştırması için ihtiyaç duyduğunuz malzemelere sahiptir.

Ürünleri tıklayın- > Dağıtım ve aşağı kaydırın, Mac, Windows ve Linux için yükleyiciyi görebilirsiniz. Mac'inizde zaten Python olsa bile, Anaconda dağıtımını kurmayı düşünmelisiniz çünkü diğer paketleri kurmak faydalıdır.

Ek olarak, yükleyiciyi indirmek için resmi Python web sitesine gidebilirsiniz.

Paketleme yöneticisi

Paket, Python kodunun bir parçasıdır, dilin bir parçası değildir.Bir paket, belirli görevleri yerine getirmek için çok yararlıdır. Paket aracılığıyla, kodu kopyalayıp yapıştırabilir ve ardından Python yorumlayıcısının (kodu çalıştırmak için kullanılır) bulabileceği yere yerleştirebiliriz.

Ancak bu çok zahmetli, her yeni projeye başladığınızda veya bir paketi güncellediğinizde, içeriği kopyalayıp yapıştırmanız gerekir. Bu nedenle bir paket yöneticisi kullanabiliriz. Anaconda dağıtımı bir paket yöneticisi ile birlikte gelir. Değilse pip takılması önerilir.

Hangisini seçerseniz seçin, terminaldeki komutları (veya komut istemini) kullanarak yazılım paketini kolayca kurabilir ve güncelleyebilirsiniz.

3. Veri bilimi araştırması için Python kullanın

Python, birçok farklı geliştiricinin (web geliştiricileri, veri analistleri, veri bilimcileri) teknik gereksinimlerini karşılar, bu nedenle dili kullanan birçok farklı programlama yöntemi vardır.

Python yorumlanmış bir dildir.Kodu çalıştırılabilir bir dosyada derlemeniz gerekmez, sadece kodu içeren metin belgesini yorumlayıcıya iletin.

Python yorumlayıcısıyla etkileşim kurmanın farklı yollarına hızlı bir göz atın.

Terminalde

Bir terminal (veya komut istemi) açarsanız ve 'Python' kelimesini yazarsanız, bir kabuk oturumu başlatılır. İlgili program işlemlerini gerçekleştirmek için iletişim kutusuna geçerli Python komutları girebilirsiniz.

Bu, hızlı bir şekilde hata ayıklamanın harika bir yolu olabilir, ancak küçük bir proje için bile terminalde hata ayıklamak zordur.

Bir metin düzenleyici kullanın

Bir metin dosyasına bir dizi Python komutu yazıp bunu .py uzantısıyla kaydederseniz, terminali kullanarak dosyaya gidebilir ve python YOUR_FILE_NAME.py yazarak programı çalıştırabilirsiniz.

Bu temelde terminalde tek tek komutları girmekle aynıdır, ancak hataları düzeltmek ve programın işlevini değiştirmek daha kolaydır.

IDE'de

IDE, yazılım proje yönetimi için kullanılabilecek profesyonel düzeyde bir yazılımdır.

IDE'nin bir avantajı, hata ayıklama işlevini kullanmanın, programı çalıştırmadan önce hatanın nerede oluştuğunu size söyleyebilmesidir.

Bazı IDE'ler proje şablonlarıyla birlikte gelir (belirli görevler için), projeyi en iyi uygulamalara göre ayarlamak için bu şablonları kullanabilirsiniz.

Jupyter Defterler

Bu yöntemler python ile veri bilimi yapmanın en iyi yolu değildir, en iyisi Jupyter Not Defterlerini kullanmaktır.

Jupyter Not Defterleri, bir seferde bir kod "bloğu" çalıştırmanıza olanak tanır; bu, bir sonraki adımda ne yapacağınıza karar vermeden önce çıktıyı görebileceğiniz anlamına gelir - bu, veri bilimi projelerinde çok önemlidir ve çıktıyı almadan önce genellikle grafiğe bakmamız gerekir.

Anaconda kullanıyorsanız ve Jupyter laboratuvarını kurduysanız. Başlamak için, terminalde 'jupyter lab' yazmanız yeterlidir.

Pip kullanıyorsanız, 'python pip install jupyter' komutunu kullanarak Jupyter laboratuarını kurmanız gerekir.

4. Python'da sayı hesaplamaları

NumPy paketi, veri bilimi çalışması için gerekli matematiksel işlemleri gerçekleştirmek için birçok yararlı işlev içerir.

Anaconda dağıtımının bir parçası olarak kurulur ve pip kullanılarak kurulur, Jupyter Notbook'ları kurmak kadar kolaydır ('pip install numpy').

Veri biliminde yapmamız gereken en yaygın matematiksel işlemler matris çarpımı, vektörlerin iç çarpımını hesaplamak, bir dizinin veri türünü değiştirmek ve bir dizi oluşturmaktır!

Bir listeyi NumPy dizisine nasıl derleyeceğiniz aşağıda açıklanmıştır:

Aşağıda, NumPy'de dizilerin nasıl çarpılacağı ve nokta çarpımlarının nasıl hesaplanacağı açıklanmaktadır:

NumPy'de matris çarpımının nasıl yapılacağı aşağıda açıklanmıştır:

5. Python'da İstatistiksel Analiz

Scipy paketi, istatistiklere ayrılmış modüller içerir (paket kodunun bir alt bölümü).

Not defterinize aktarmak (işlevlerini programda kullanılabilir kılmak) için 'from scipy import stats' komutunu kullanabilirsiniz. Paket, verilerin istatistiksel ölçümlerini hesaplamak, istatistiksel testler yapmak, korelasyonları hesaplamak, verileri özetlemek ve çeşitli olasılık dağılımlarını incelemek için gereken her şeyi içerir.

Bir dizinin özet istatistiklerine (minimum, maksimum, ortalama, varyans, çarpıklık ve basıklık) hızlı bir şekilde erişmek için Scipy'yi nasıl kullanacağınız aşağıda açıklanmıştır:

6. Python'da veri işleme

Veri bilimcileri, verileri temizlemek ve düzenlemek için çok zaman harcamalıdır. Neyse ki, Pandalar paketi bunu elle yapmak yerine kodla yapmamıza yardımcı olabilir.

Pandalar ile gerçekleştirilen en yaygın görevler, CSV dosyalarından ve veritabanlarından veri okumaktır.

Ayrıca, farklı veri kümelerini birleştirebilen (veri kümeleri Pandalarda DataFrame olarak adlandırılır) ve veri işlemlerini gerçekleştirebilen güçlü bir sözdizimine sahiptir.

DataFrame'in ilk birkaç satırını görüntülemek için .head yöntemini kullanın:

Sütun seçmek için köşeli parantez kullanın:

Diğer sütunları birleştirerek yeni bir sütun oluşturun:

7. Veritabanını Python'da kullanın

Pandaların read_sql yöntemini kullanmak için önceden veri tabanına bağlantı kurulması gerekir.

Veritabanına bağlanmanın en güvenli yolu Python'un SQLAlchemy paketini kullanmaktır.

SQL'in kendisi bir dildir ve veritabanına bağlanmanın yolu kullanmakta olduğunuz veritabanına bağlıdır.

8. Python'da Veri Mühendisliği

Bazen, Pandas DataFrame olarak projemize ulaşmadan önce veriler üzerinde bazı hesaplamalar yapma eğilimindeyiz.

Bir veritabanı kullanıyorsanız veya Web'den veri alıyorsanız (ve bir yerde depoluyorsanız), verileri taşıma ve dönüştürme işlemine ETL (Çıkar, Dönüştür, Yükle) denir.

Verileri bir yerden çıkarırsınız, üzerinde bazı dönüştürmeler gerçekleştirirsiniz (verileri ekleyerek özetleyin, ortalamayı bulun, veri türünü değiştirin, vb.) Ve ardından erişilebilir bir konuma yüklersiniz.

ETL iş akışlarını yönetmede çok iyi olan Airflow adında çok güzel bir araç var. Daha da iyisi, Python'da yazılmıştır ve Airbnb tarafından geliştirilmiştir.

9. Python'da Büyük Veri Projesi

Bazen ETL süreci çok yavaş olabilir. Milyarlarca veri satırınız varsa (veya bunlar metin gibi garip bir veri türüyse), ayrı ayrı işlemek ve dönüştürmek için birçok farklı bilgisayarı kullanabilir ve son saniyede tüm verileri bir araya getirebilirsiniz.

Bu mimari desene MapReduce adı verilir ve Hadoop ile çok popülerdir.

Günümüzde birçok kişi bu tür veri dönüştürme / alma işlerini yapmak için Spark kullanıyor ve PySpark adında bir Spark Python arayüzü var.

Hem MapReduce mimarisi hem de Spark çok karmaşık araçlardır ve burada ayrıntılara girmeyeceğim. Varlıklarının farkında olun, kendinizi çok yavaş bir ETL süreciyle uğraşırken bulursanız, PySpark yardımcı olabilir.

10. Python'da Diğer İstatistikler

Scipy'nin istatistik modülünü istatistiksel testleri çalıştırmak, açıklayıcı istatistikleri, p değerlerini ve çarpıklığı ve basıklığı hesaplamak için kullanabileceğimizi zaten biliyoruz, ancak Python başka ne yapabilir?

Bilmeniz gereken özel bir paket, Lifelines paketidir.

Yaşam Hatları paketini kullanarak, hayatta kalma analizi adı verilen istatistiksel bir alt alandan çeşitli işlevleri hesaplayabilirsiniz.

Hayatta kalma analizinin birçok uygulaması vardır. Müşteri kaybını (bir müşteri aboneliği iptal ettiğinde) ve bir perakende satış mağazasının ne zaman çalınabileceğini tahmin etmek için kullanabiliriz.

Bu paketlerin yaratıcıları, tamamen farklı bir alanda kullanılacağını düşünüyor (hayatta kalma analizi, geleneksel olarak tıbbi bir istatistiksel araçtır). Ancak bu, veri bilimi problemlerini yapılandırmanın farklı bir yolunu gösteriyor!

11. Python'da makine öğrenimi

Bu önemli bir konudur.Makine öğrenimi dünyayı kasıp kavuruyor ve veri bilimcilerinin çalışmalarının önemli bir parçası.

Kısacası, makine öğrenimi, bilgisayarların giriş verilerini çıktı verileriyle eşlemesine olanak tanıyan bir dizi teknolojidir. Durumun böyle olmadığı bazı durumlar vardır, ancak bunlar azınlıktadır ve MO hakkında bu şekilde düşünmek çoğu zaman yararlıdır.

Python'un iki çok iyi makine öğrenimi paketi vardır.

Scikit-Learn

Python'u makine öğrenimi için kullanırken, zamanın çoğu Scikit-Learn paketi (bazen sklearn olarak kısaltılır) kullanılarak harcanır.

Bu paket, birçok makine öğrenimi algoritmasını uygular ve bunları tutarlı bir sözdizimi aracılığıyla ortaya çıkarır. Bu, veri bilimcilerin her algoritmadan tam olarak yararlanmasını kolaylaştırır.

Scikit-Learn kullanmanın genel çerçevesi şu şekildedir: veri setini eğitim ve test veri setlerine ayırın:

Bir modeli örnekleyin ve eğitin:

Modelin çalışma koşullarını test etmek için metrik modülünü kullanın:

XGBoost

Python'da makine öğrenimi için yaygın olarak kullanılan ikinci paket XGBoost'tur.

Scikit-Learn bir dizi algoritma uygular, XGBoost yalnızca gradyan artırıcı karar ağacı uygular.

Son zamanlarda bu paket (ve algoritma), Kaggle yarışmalarındaki (herkesin katılabileceği çevrimiçi veri bilimi yarışmaları) başarısı nedeniyle çok popüler hale geldi.

Eğitim modeli yaklaşık olarak Scikit-Learn algoritması ile aynı şekilde çalışır.

12. Python'da derin öğrenme

Scikit-Learn'de sağlanan makine öğrenimi algoritması neredeyse her sorunu çözebilir. Bununla birlikte, bazen en gelişmiş algoritmaları kullanmanız gerekir.

Bunları kullanan sistemler diğer tüm algoritmalardan daha iyi olduğundan, derin sinir ağlarının popülaritesi keskin bir şekilde arttı.

Ancak sinir ağının ne yaptığını ve neden yaptığını söylemek zor. Bu nedenle, finans, tıp, hukuk ve ilgili mesleklerde kullanımları geniş çapta kabul edilmemiştir.

Sinir ağlarının iki ana kategorisi, evrişimli sinir ağları (bilgisayar görüşünde görüntüleri sınıflandırmak ve diğer birçok görevi tamamlamak için kullanılır) ve tekrarlayan sinir ağlarıdır (metni anlamak ve oluşturmak için kullanılır).

Sinir ağı çalışmasının mekanizmasını keşfetmek bu makalenin kapsamı dışındadır. Bu tür bir çalışma yapmak istiyorsanız, aramanız gereken paketin TensorFlow (Google contibution!) Mı yoksa Keras mı olduğunu bilmeniz yeterli.

Keras, temelde TensorFlow için bir sarmalayıcıdır ve kullanımı kolaylaştırır.

13. Python'da Veri Bilimi API'si

Model eğitildikten sonra, bir API oluşturarak onun tahminlerine başka bir yazılımdan erişilebilir.

API, modelin dış kaynaklardan her seferinde bir satır veri almasına ve tahminleri döndürmesine olanak tanır. Python genel amaçlı bir programlama dili olduğundan ve web hizmetleri oluşturmak için de kullanılabildiğinden, API'ler aracılığıyla modellere hizmet sağlamak için Python'u kullanmak kolaydır.

Bir API oluşturmanız gerekiyorsa, turşu ve Flask'ı kontrol etmelisiniz. Pickle, iyi eğitilmiş modellerin daha sonra kullanılmak üzere sabit sürücüye kaydedilmesini sağlar. Flask, bir web hizmeti oluşturmanın en kolay yoludur.

14. Python'da Web Uygulamaları

Son olarak, veri bilimi projeleri etrafında tamamen işlevsel bir web uygulaması oluşturmak istiyorsanız, Django çerçevesini kullanmalısınız.

Django, web geliştirme topluluğunda çok popülerdir ve Instagram ve Pinterest'in (ve diğerlerinin) ilk sürümlerini oluşturmak için kullanılmıştır.

Yorum bırak Arkadaş çevresi gönder Yapay zeka öğrenme ve geliştirmenin kuru mallarını paylaşalım Temel okumaları takip etmeye hoş geldiniz

Meizu Technology yeni yatırımcıları tanıttı ve Li Nan'ın mevcut durumu netizenlerin spekülasyon yapmasına neden oldu!

Masu kendini serbest mi bıraktı? Büyük bir takım elbise giymek kendisini bir "cüce" yapar ve bir çöp tenekesi giymek büyülü bir şey değildir