Sınıflandırma önerilerinin anlaşılması kolaydır: veri bilimi ve büyük veri teknolojisi alanındaki pratik araçlar

Veri bilimi ve büyük veri teknolojisi, uygulamalara yönelik bir konu alanıdır, bu nedenle araçlar önemli bir parça haline gelmiştir. İş yerinde, bir veri bilimcisi etkili bir araç seçerse, çabanın yarısı ile iki kat daha fazla sonuç alır. Genel olarak, veri bilimciler işletim veritabanları, veri işleme ve veri görselleştirme gibi ilgili becerilere sahip olmalıdır.Birçok insan ayrıca bilgisayar becerilerinin de vazgeçilmez olduğuna ve veri bilimcilerin verimliliğini artırabileceğine inanmaktadır.

Açık kaynak topluluğu, yıllar boyunca veri bilimi araç setlerinin geliştirilmesine büyük katkılarda bulundu ve bu da veri bilimi alanında sürekli ilerlemeye izin verdi. Burada veritabanları, programlama dilleri, makine öğrenimi, görselleştirme ve bilgisayarlarda bazı açık kaynak araçları topladık. Bu alanla ilgilenen daha fazla veri bilimcisine ve kişiye yardımcı olmayı umuyoruz.

Burada büyük veriyi öğrenmek isteyen çok sayıda öğrenci olduğuna inanıyorum.Büyük veri öğrenme eteğini indirebilirsiniz: 957205962 , Sistemin büyük veri öğrenme öğreticisini ücretsiz olarak edinebilirsiniz

1. Veritabanı

1.1 MongoDB

MongoDB, ölçeklenebilirliği ve yüksek performansı ile bilinen bir NoSQL veritabanıdır. Geleneksel veritabanlarına güçlü bir alternatif sağlar ve belirli uygulamalarda veri entegrasyonunu kolaylaştırır. Özellikle büyük web uygulamaları oluşturmak için uygundur.

1.2 Apache HBase

Apache HBase (Hadoop veritabanı), dağıtılmış ve ölçeklenebilir bir büyük veri deposudur. Veri bilimcileri, büyük verilere rastgele, gerçek zamanlı okuma / yazma erişimine ihtiyaç duyduklarında bu açık kaynak aracı kullanabilir.

2. Programlama dili

2.1 R

R, veri işleme ve grafik işleme için bir programlama dili ve veri bilimcileri ve analistleri tarafından kullanılan popüler bir araçtır. Veri bilimcilere göre R, öğrenmesi en kolay dillerden biridir çünkü kullanıcılar için çok sayıda paket ve kılavuz mevcuttur.

2.2 Python

Python, veri bilimcileri arasında yaygın olarak kullanılan bir başka dildir Okunabilirlik ve basitliğe odaklanan genel amaçlı bir programlama dilidir. Python'da veri işleme, makine öğrenimi ve görselleştirme için kullanılabilecek çok sayıda kod kitaplığı vardır.

* Veri biliminde yaygın olarak kullanılan kitaplıklar için makaleye bakın: https://mp.weixin.qq.com/s/dLrZWsqrZW7XqG6phS3R7g

2.3 Ölçek

Scala, Java platformunda çalışan genel amaçlı bir programlama dilidir. Büyük veri kümeleri için uygundur ve esas olarak Apache Spark ve Apache Kafka gibi büyük veri araçları için kullanılır. Bu işlevsel programlama stili, hızı ve daha yüksek üretkenliği beraberinde getirerek, giderek daha fazla şirketin onu veri bilimi araç setlerinin önemli bir parçası olarak yavaşça uyarlamasına neden oldu.

2.4 SQL

SQL, ilişkisel veritabanlarında depolanan veriler için özel bir programlama dilidir. SQL, daha temel veri analizi için kullanılır ve verileri düzenleme ve işleme veya bir veritabanından veri alma gibi görevleri gerçekleştirebilir. Veri bilimi araçları arasında, veritabanındaki verileri filtrelemek ve seçmek için en iyi araçlardan biridir.

2.5 Julia

Julia, teknik bilgi işlem için dinamik bir programlama dilidir. Yaygın olarak kullanılmamaktadır, ancak esnekliği, tasarımı ve performansı nedeniyle veri bilimi araçları arasında giderek daha popüler hale gelmektedir.

3. Veri Madenciliği

3.1 RapidMiner

RapidMiner, görselleştirme ve istatistiksel modelleme işlevlerine sahip bir tahmine dayalı analiz aracıdır. Yazılımın temeli, ücretsiz ve açık kaynaklı bir platform olan RapidMiner Studio'dur.

3.2 Veri Erime

Data Melt, gelişmiş matematiksel hesaplamalara, istatistiksel analizlere ve veri madenciliği işlevlerine sahip olan ve programlama dilleri ile desteklenebilen ve hatta kapsamlı bir öğretici kitaplığı içeren bir matematik yazılımıdır.

Ek olarak, Python ve R'de veri madenciliği için birçok kütüphane var, bu yüzden onları burada tekrar etmeyeceğim.

4. Makine öğrenimi

4.1 Weka

Weka, Waikato Üniversitesi tarafından Java ile yazılmış bir makine öğrenimi yazılımıdır. Veri madenciliği için kullanılır ve kullanıcıların büyük veri setlerini işlemesine izin verir. Weka'nın özelliklerinden bazıları ön işleme, sınıflandırma, regresyon, kümeleme, deneme, iş akışı ve görselleştirmeyi içerir.

4.2 TensorFlow

TensorFlow, programcıların arkasındaki bazı karmaşık ilkeleri anlamadan derin öğrenmeyi uygulamalarına olanak tanıyan sayısal hesaplamalar için bir yazılım kitaplığıdır. Binlerce şirketin derin öğrenmeyi uygulamasına yardımcı olan veri bilimi araçlarından biri olarak listelenmiştir. Bir.

4.2 Apache Mahout

Apache Mahout, ölçeklenebilir makine öğrenimi algoritmaları oluşturmak için bir ortamdır. Algoritma Hadoop'ta yazılmıştır. Mahout, üç ana makine öğrenimi görevi uygular: işbirliğine dayalı filtreleme, kümeleme ve sınıflandırma.

4.3 Turuncu

Orange, veri bilimini eğlenceli ve etkileşimli hale getirmeye adanmış, kullanıcıların verileri kodlamadan analiz etmelerine ve görselleştirmelerine olanak tanıyan ve ayrıca yeni başlayanlar için makine öğrenimi seçenekleri sunan basit bir veri bilimi aracıdır.

4.4 MLBase

MLBase, Berkeley Kaliforniya Üniversitesi AMP (Algoritmik Robotik) Laboratuvarı tarafından geliştirilen açık kaynaklı bir projedir. Bunun arkasındaki temel fikir, makine öğrenimini büyük ölçekli sorunlara uygulamak için basit bir çözüm sağlamaktır.

5. Veri görselleştirme

5.1 D3

5.2 Eksen

Veri bilimi araçları arasında Axiis, az bilinen bir veri görselleştirme çerçevesidir. Kullanıcıların önceden oluşturulmuş bileşenleri kullanarak etkileyici ve özlü bir biçimde grafikler oluşturmasına ve verileri keşfetmesine olanak tanır.

6. Diğer araçlar

6.1 Linux

Bash komut dosyası bilgisayar bilimindeki en temel araçtır ve veri biliminin büyük bir kısmı programlama gerektirir. Paketleri, çerçeve yönetimini, ortam değişkenlerini, erişim yollarını ($ PATH) vb. İşlemek için bazı komut satırları kullanılmalıdır, bu nedenle Linux gereklidir .

6.2 Git

Ekipte kodlama yaparken ekip üyesi kod çakışmalarını çözmek, hataları düzeltmek ve güncellemek için git'i kullanabilirsiniz. Bir açık kaynağa veya özel depoya (Github gibi) kod gönderirken, kod testi için Coveralls ve benzerlerini ve ayrıca kodu üretime dağıtmaya yardımcı olan diğer çerçeveleri kullanabilirsiniz.

6.3 REST API'leri

REST API'leri, yerel eğitim modellerini ve mevcut programları sorunsuz bir şekilde birbirine bağlayabilir. Standart API'ler aracılığıyla arama yapmak veya kullanılabilir uygulamalar geliştirmek, veri bilimi modellerinin tahminlerde bulunmasına gerçekten olanak tanır. Bu aynı zamanda veri bilimindeki büyük rolüdür.

6.4 Docker ve Kubernetes

Docker, kullanıcıların, çalışan her bir hizmet için üretim sunucularını merkezi olarak yapılandırmaya gerek kalmadan üretime hazır bir uygulama ortamına sahip olmasını sağlar. Tam bir işletim sisteminin kurulmasını gerektiren sanal makinelerin aksine, docker konteynerleri ana bilgisayarla aynı çekirdek üzerinde çalışır ve çok daha hafiftir. Bazı gelişmiş makine öğrenimi kitaplıkları (Tensorflow gibi), belirli ana bilgisayarlarda sorun giderilmesi zor olan özel yapılandırma gerektirir. Docker iyi bir seçimdir.

Kubernetes (K8s), birden çok ana bilgisayarda kapsayıcıya alınmış hizmetlerin ölçek yönetimi ve dağıtımı için bir platformdur. Esasen bu, çapraz düzey ölçeklenebilir bir küme aracılığıyla docker konteynerlerini kolayca yönetebileceğiniz ve devreye alabileceğiniz anlamına gelir.

6.5 Apache Hava Akışı

Airflow, iş akışlarını programlı olarak oluşturmak, planlamak ve izlemek için yönlendirilmiş döngüsel olmayan grafiği (DAG) kullanabilen nispeten niş bir Python platformudur. Python veya bash komut dosyalarını istediğiniz zaman kolayca kurmanıza ve kullanıcı dostu bir GUI'de zamanlama işlerini kontrol etmenize olanak tanır.

6.6 Elasticsearch

Elasticsearch aynı zamanda nispeten niş bir araçtır. Elastic, Python istemcisi aracılığıyla ihtiyacınız olan her şeyi rahatlıkla sağlar ve belgeleri hataya dayanıklı ve ölçeklenebilir bir şekilde kolayca indekslemenizi ve aramanızı sağlar. Ne kadar çok veriniz varsa, o kadar çok düğüm başlatır ve sorgu yürütme hızı o kadar hızlı olur. Birçok işlevi vardır ve hatta çok dilli çözümleyiciler gibi özel eklentileri destekler.

6.7 Homebrew

Homebrew, paket yönetimi olmadan işletim sistemi sistemindeki kusurları telafi eden terminal komutları aracılığıyla kurulduktan sonra kullanılamayan işletim sistemi sistemlerine yardımcı olabilecek bir Mac OS sistem aracıdır.

Her gün birbirimiz! Deng Chao, Luhan'ı sokak dansı gibi dans ettiği için "alay etti" Luhan, Huang Zitao kadar iyi değil mi?
önceki
"Stranger Things" önümüzdeki ay üçüncü sezonu çekmeye başlayacak, Xiao 11 ve Mike duygusal bir sahneye sahip olacak.
Sonraki
Bilim ve teknoloji sevginin anlamını verir, akıllı evler hayatlarının geri kalanını kurtarır
7.2.2 "Alternatif" akustik yaratmak için Nenshi Atmos Cinema
Yatay aksiyon oyunu "Rebel Mechanic" in PC'deki Çince versiyonu artık çevrimiçi
Wang Baoqiang, En Hayal Kırıklığına Uğrayan Yönetmen Ödülü'nü kazandı ve ödülü şahsen kabul etti: İzleyiciler için üzgünüm
"Blue Jet" in dönüş tarihi kesinleşti, bu 20. yıldönümü Air Foamposite çifti hızlı olmalı
Çin'de ses çıkarmakRongstar, akıllı ev ikili inovasyonunun beşiğini oluşturuyor
"Lulua'nın Stüdyosu" yeni bilgi: Büyüyen Bianni, Lulua'nın öğretmeni oldu
İlk altın! Changsha Tianma tarih yaratır ve ilimiz için İkinci Gençlik Ligi'nin ilk altın madalyasını kazanır
Qualcomm, ZTE ve China Mobile, dünyanın ilk uçtan uca 5G yeni hava arayüz sistemi birlikte çalışabilirliğini başarıyla gerçekleştirerek Çinin 5G çağına geçişini ilerletti
En soğuk "üç ila dokuz gün" vatandaşlar, soğuğu dışarıda tutmak için tamamen silahlanmış durumda
2017'de en yüksek koruma oranına sahip SUV'lar hangileri?
Büyük veri alanını açmanın doğru yolu
To Top