Veri bilimi ve büyük veri teknolojisi, uygulamalara yönelik bir konu alanıdır, bu nedenle araçlar önemli bir parça haline gelmiştir. İş yerinde, bir veri bilimcisi etkili bir araç seçerse, çabanın yarısı ile iki kat daha fazla sonuç alır. Genel olarak, veri bilimciler işletim veritabanları, veri işleme ve veri görselleştirme gibi ilgili becerilere sahip olmalıdır.Birçok insan ayrıca bilgisayar becerilerinin de vazgeçilmez olduğuna ve veri bilimcilerin verimliliğini artırabileceğine inanmaktadır.
Açık kaynak topluluğu, yıllar boyunca veri bilimi araç setlerinin geliştirilmesine büyük katkılarda bulundu ve bu da veri bilimi alanında sürekli ilerlemeye izin verdi. Burada veritabanları, programlama dilleri, makine öğrenimi, görselleştirme ve bilgisayarlarda bazı açık kaynak araçları topladık. Bu alanla ilgilenen daha fazla veri bilimcisine ve kişiye yardımcı olmayı umuyoruz.
Burada büyük veriyi öğrenmek isteyen çok sayıda öğrenci olduğuna inanıyorum.Büyük veri öğrenme eteğini indirebilirsiniz: 957205962 , Sistemin büyük veri öğrenme öğreticisini ücretsiz olarak edinebilirsiniz
1. Veritabanı
1.1 MongoDB
MongoDB, ölçeklenebilirliği ve yüksek performansı ile bilinen bir NoSQL veritabanıdır. Geleneksel veritabanlarına güçlü bir alternatif sağlar ve belirli uygulamalarda veri entegrasyonunu kolaylaştırır. Özellikle büyük web uygulamaları oluşturmak için uygundur.
1.2 Apache HBase
Apache HBase (Hadoop veritabanı), dağıtılmış ve ölçeklenebilir bir büyük veri deposudur. Veri bilimcileri, büyük verilere rastgele, gerçek zamanlı okuma / yazma erişimine ihtiyaç duyduklarında bu açık kaynak aracı kullanabilir.
2. Programlama dili
2.1 R
R, veri işleme ve grafik işleme için bir programlama dili ve veri bilimcileri ve analistleri tarafından kullanılan popüler bir araçtır. Veri bilimcilere göre R, öğrenmesi en kolay dillerden biridir çünkü kullanıcılar için çok sayıda paket ve kılavuz mevcuttur.
2.2 Python
Python, veri bilimcileri arasında yaygın olarak kullanılan bir başka dildir Okunabilirlik ve basitliğe odaklanan genel amaçlı bir programlama dilidir. Python'da veri işleme, makine öğrenimi ve görselleştirme için kullanılabilecek çok sayıda kod kitaplığı vardır.
* Veri biliminde yaygın olarak kullanılan kitaplıklar için makaleye bakın: https://mp.weixin.qq.com/s/dLrZWsqrZW7XqG6phS3R7g
2.3 Ölçek
Scala, Java platformunda çalışan genel amaçlı bir programlama dilidir. Büyük veri kümeleri için uygundur ve esas olarak Apache Spark ve Apache Kafka gibi büyük veri araçları için kullanılır. Bu işlevsel programlama stili, hızı ve daha yüksek üretkenliği beraberinde getirerek, giderek daha fazla şirketin onu veri bilimi araç setlerinin önemli bir parçası olarak yavaşça uyarlamasına neden oldu.
2.4 SQL
SQL, ilişkisel veritabanlarında depolanan veriler için özel bir programlama dilidir. SQL, daha temel veri analizi için kullanılır ve verileri düzenleme ve işleme veya bir veritabanından veri alma gibi görevleri gerçekleştirebilir. Veri bilimi araçları arasında, veritabanındaki verileri filtrelemek ve seçmek için en iyi araçlardan biridir.
2.5 Julia
Julia, teknik bilgi işlem için dinamik bir programlama dilidir. Yaygın olarak kullanılmamaktadır, ancak esnekliği, tasarımı ve performansı nedeniyle veri bilimi araçları arasında giderek daha popüler hale gelmektedir.
3. Veri Madenciliği
3.1 RapidMiner
RapidMiner, görselleştirme ve istatistiksel modelleme işlevlerine sahip bir tahmine dayalı analiz aracıdır. Yazılımın temeli, ücretsiz ve açık kaynaklı bir platform olan RapidMiner Studio'dur.
3.2 Veri Erime
Data Melt, gelişmiş matematiksel hesaplamalara, istatistiksel analizlere ve veri madenciliği işlevlerine sahip olan ve programlama dilleri ile desteklenebilen ve hatta kapsamlı bir öğretici kitaplığı içeren bir matematik yazılımıdır.
Ek olarak, Python ve R'de veri madenciliği için birçok kütüphane var, bu yüzden onları burada tekrar etmeyeceğim.
4. Makine öğrenimi
4.1 Weka
Weka, Waikato Üniversitesi tarafından Java ile yazılmış bir makine öğrenimi yazılımıdır. Veri madenciliği için kullanılır ve kullanıcıların büyük veri setlerini işlemesine izin verir. Weka'nın özelliklerinden bazıları ön işleme, sınıflandırma, regresyon, kümeleme, deneme, iş akışı ve görselleştirmeyi içerir.
4.2 TensorFlow
TensorFlow, programcıların arkasındaki bazı karmaşık ilkeleri anlamadan derin öğrenmeyi uygulamalarına olanak tanıyan sayısal hesaplamalar için bir yazılım kitaplığıdır. Binlerce şirketin derin öğrenmeyi uygulamasına yardımcı olan veri bilimi araçlarından biri olarak listelenmiştir. Bir.
4.2 Apache Mahout
Apache Mahout, ölçeklenebilir makine öğrenimi algoritmaları oluşturmak için bir ortamdır. Algoritma Hadoop'ta yazılmıştır. Mahout, üç ana makine öğrenimi görevi uygular: işbirliğine dayalı filtreleme, kümeleme ve sınıflandırma.
4.3 Turuncu
Orange, veri bilimini eğlenceli ve etkileşimli hale getirmeye adanmış, kullanıcıların verileri kodlamadan analiz etmelerine ve görselleştirmelerine olanak tanıyan ve ayrıca yeni başlayanlar için makine öğrenimi seçenekleri sunan basit bir veri bilimi aracıdır.
4.4 MLBase
MLBase, Berkeley Kaliforniya Üniversitesi AMP (Algoritmik Robotik) Laboratuvarı tarafından geliştirilen açık kaynaklı bir projedir. Bunun arkasındaki temel fikir, makine öğrenimini büyük ölçekli sorunlara uygulamak için basit bir çözüm sağlamaktır.
5. Veri görselleştirme
5.1 D3
5.2 Eksen
Veri bilimi araçları arasında Axiis, az bilinen bir veri görselleştirme çerçevesidir. Kullanıcıların önceden oluşturulmuş bileşenleri kullanarak etkileyici ve özlü bir biçimde grafikler oluşturmasına ve verileri keşfetmesine olanak tanır.
6. Diğer araçlar
6.1 Linux
Bash komut dosyası bilgisayar bilimindeki en temel araçtır ve veri biliminin büyük bir kısmı programlama gerektirir. Paketleri, çerçeve yönetimini, ortam değişkenlerini, erişim yollarını ($ PATH) vb. İşlemek için bazı komut satırları kullanılmalıdır, bu nedenle Linux gereklidir .
6.2 Git
Ekipte kodlama yaparken ekip üyesi kod çakışmalarını çözmek, hataları düzeltmek ve güncellemek için git'i kullanabilirsiniz. Bir açık kaynağa veya özel depoya (Github gibi) kod gönderirken, kod testi için Coveralls ve benzerlerini ve ayrıca kodu üretime dağıtmaya yardımcı olan diğer çerçeveleri kullanabilirsiniz.
6.3 REST API'leri
REST API'leri, yerel eğitim modellerini ve mevcut programları sorunsuz bir şekilde birbirine bağlayabilir. Standart API'ler aracılığıyla arama yapmak veya kullanılabilir uygulamalar geliştirmek, veri bilimi modellerinin tahminlerde bulunmasına gerçekten olanak tanır. Bu aynı zamanda veri bilimindeki büyük rolüdür.
6.4 Docker ve Kubernetes
Docker, kullanıcıların, çalışan her bir hizmet için üretim sunucularını merkezi olarak yapılandırmaya gerek kalmadan üretime hazır bir uygulama ortamına sahip olmasını sağlar. Tam bir işletim sisteminin kurulmasını gerektiren sanal makinelerin aksine, docker konteynerleri ana bilgisayarla aynı çekirdek üzerinde çalışır ve çok daha hafiftir. Bazı gelişmiş makine öğrenimi kitaplıkları (Tensorflow gibi), belirli ana bilgisayarlarda sorun giderilmesi zor olan özel yapılandırma gerektirir. Docker iyi bir seçimdir.
Kubernetes (K8s), birden çok ana bilgisayarda kapsayıcıya alınmış hizmetlerin ölçek yönetimi ve dağıtımı için bir platformdur. Esasen bu, çapraz düzey ölçeklenebilir bir küme aracılığıyla docker konteynerlerini kolayca yönetebileceğiniz ve devreye alabileceğiniz anlamına gelir.
6.5 Apache Hava Akışı
Airflow, iş akışlarını programlı olarak oluşturmak, planlamak ve izlemek için yönlendirilmiş döngüsel olmayan grafiği (DAG) kullanabilen nispeten niş bir Python platformudur. Python veya bash komut dosyalarını istediğiniz zaman kolayca kurmanıza ve kullanıcı dostu bir GUI'de zamanlama işlerini kontrol etmenize olanak tanır.
6.6 Elasticsearch
Elasticsearch aynı zamanda nispeten niş bir araçtır. Elastic, Python istemcisi aracılığıyla ihtiyacınız olan her şeyi rahatlıkla sağlar ve belgeleri hataya dayanıklı ve ölçeklenebilir bir şekilde kolayca indekslemenizi ve aramanızı sağlar. Ne kadar çok veriniz varsa, o kadar çok düğüm başlatır ve sorgu yürütme hızı o kadar hızlı olur. Birçok işlevi vardır ve hatta çok dilli çözümleyiciler gibi özel eklentileri destekler.
6.7 Homebrew
Homebrew, paket yönetimi olmadan işletim sistemi sistemindeki kusurları telafi eden terminal komutları aracılığıyla kurulduktan sonra kullanılamayan işletim sistemi sistemlerine yardımcı olabilecek bir Mac OS sistem aracıdır.