Büyük veri (BÜYÜK VERİ), belirli bir zaman dilimi içinde geleneksel yazılım araçlarıyla yakalanamayan, yönetilemeyen ve işlenemeyen bir veri koleksiyonunu ifade eder.Daha güçlü karar verme gücüne, içgörü keşfine ve süreç optimizasyon yeteneklerine sahip olmak için yeni bir işleme modeli gerektiren çok büyük miktarda veridir. , Yüksek büyüme oranı ve çeşitlendirilmiş bilgi varlıkları.
Büyük verilerin 5V özellikleri: HACİM (büyük hacim), VELOCITY (yüksek hız), ÇEŞİTLİLİK (çeşitlilik), DEĞER (düşük değer yoğunluğu), VERACITY (özgünlük).
Neden büyük veriyi çalışmalı?
Şu anda küresel veriler, patlayıcı büyüme ve muazzam birikimin özelliklerini gösteriyor. Büyük veri bilgi işlem teknolojisi, büyük veri toplama, depolama, hesaplama ve analiz sorunlarını mükemmel şekilde çözer. 2022 yılına kadar, büyük veri pazarının yıllık ortalama% 15,37 büyüme oranıyla 80 milyar ABD dolarına ulaşacağı tahmin ediliyor Büyük veri çağı, insan toplumunun verilerin değerini kullandığı başka bir çağ açıyor. Ülkenin büyük veri stratejik politikalarının formüle edilmesi ve uygulanması da büyük veri pazarının sürekli gelişimi için güçlü koşullardır.
Onikinci Ulusal Halk Kongresi'nin İkinci Oturumu'nun hükümet çalışma raporu: "Yeni nesil mobil iletişim, entegre devreler, büyük veri ve gelişmiş üretimdeki gelişmeleri yakalamak için gelişmekte olan endüstrilerde girişimcilik ve yenilik için bir platform oluşturmak gereklidir."
Çin Komünist Partisi 18. Ulusal Kongresi sırasında Devlet Konseyi bir belge yayınladı: "" Büyük Veri Gelişimini Teşvik Etme Eylemi "nin yayınlanması, büyük verinin ekonomik dönüşüm ve kalkınma için yeni bir itici güç haline geldiğini kanıtlıyor."
Çin Komünist Partisi 19. Ulusal Kongresi raporunda, "Bir üretim gücünün inşasını hızlandırın, gelişmiş üretimin gelişimini hızlandırın ve İnternet, büyük veri, yapay zeka ve reel ekonominin derin entegrasyonunu teşvik edin."
Büyük Veri Öğrenme Rotasının Özeti:
İlk aşama: Java dilinin temel aşaması
1.1.1 Bilgisayar dili ve programlamaya genel bakış 1.1.2 Java ekosistemine giriş ...
1.2.1 Dal döngü bildirimi 1.2.2 Dal yapısı ise
1.3.1 Yazılımın yaşam döngüsü 1.3.2 Yazılımın tasarım ilkeleri ......
1.4.1 Paketin yönetimi ve işlevi 1.4.2 JavaBean spesifikasyonu
1.5.1 Paketleme Sınıfı 1.5.2 Paketleme ve ambalajdan çıkarma
1.6.1 Numaralandırma tanımı ve kullanımı 1.6.2 Numaralandırılmış sınıf dosyası aracılığıyla temeldeki uygulamayı görüntüleyin ...
1.7.1 Veri yapısı örneklerinin analizi 1.7.2 Dizilerin tanımı ve kullanımı ......
1.8.1 Dosya sınıfının genel işlemleri 1.8.2 Klasörleri yinelemeli olarak gezme ...
1.9.1 Program, süreç ve iş parçacığı arasındaki ilişkinin ayrıntılı açıklaması 1.9.2 İş parçacığı ilkesi ...
1.10.1 Ağ iletişim protokolü 1.10.2 Yedi katmanlı ağ protokolü ......
1.11.1 Lambda ifadesi 1.11.2 Java işlevsel olarak derlenebilir ...
1.12.1 Tomcat'in tanıtımı ve yapımı 1.12.2 Yazılım B / S ve C / S
İkinci aşama: Linux sistemi Hadoop ekosistemi
01 Linux ile Başlarken
02, ortak temel komutlar
03, sistem yönetimi
04, Linux operasyon geliştirme
05, Linux kabuk programlama
06, Hadoop ekolojisi
07 Dağıtılmış sisteme genel bakış
08. Hadoop'a başlarken
09, Hadoop sözde dağıtılmış
10. Hadoop tamamen dağıtılmış
11. HDFS'nin temel kavramları
12. HDFS'nin uygulama geliştirme
13, HDFS IO akış işlemi
14. NameNode çalışma mekanizması
15. DataNode çalışma mekanizması
16. Zookeeper'ı kullanmaya başlama
17. Zookeeper'ın ayrıntılı açıklaması
18, HA çerçeve ilkesi
19. Hadoop-HA küme yapılandırması
20. MapReduce Çerçevesinin İlkeleri
21, Shuffle mekanizması
22, Mapreduce durum bir
23, Mapreduce durum iki
24. Hive'a Başlarken
25, Hive DDL veri tanımı
26, Kovan bölüm tablosu
27, Kovan kova tablosu
28, Hive sorgusu
29, Hive gelişmiş sorgu Birleştirme ve sıralama
30, Kovan işlevi
31, Hive DML veri yönetimi
32, Kovan dosyası depolama
33, Hive kurumsal düzeyde ayarlama
34, Hive kurumsal düzeyde ayar iki
35. Kurumsal düzeyde proje savaşı kovanı
36, Flume detaylı
37, Sqoop ayrıntılı açıklama
38, Hbase konsepti
39, Hbase işlemi
40, Hbase entegrasyonu
41. Gerçek mücadele ve Hbase optimizasyonu
Üçüncü aşama: dağıtılmış bilgi işlem çerçevesi
3.1.1 Fikir yapılandırma ortamı değişkenini kurun 3.1.2 Maven yerel kitaplık yapılandırması 3.1.3 JDK ortam değişkeni yapılandırması 3.1.4 fikir sürümü yapılandırması ...
3.2.1 Büyük Veri Mimarisi 3.2.2 Ayrıntılı Mimari 3.2.3 Spark Kümesine Giriş 3.2.4 Spark Küme Yapılandırması ...
3.3.1 Spark SQL'in geliştirme geçmişi 3.3.2 Spark SQL ilkesine giriş 3.3.3 DataFrame'e Genel Bakış 3.3.4 Bir DataFrame nasıl oluşturulur ...
3.4.1 Spark Streaming'e Genel Bakış 3.4.2 Spark Streaming ilkelerine giriş 3.4.3 Spark Streaming ile Storm'un Karşılaştırması 3.4.4 DStream Kavramı
3.5.1 Kafka'nın temel kavramları 3.5.2 Kafka'nın geliştirme tarihi 3.5.3 Kafka'nın uygulama geçmişi 3.5.4 JMS temeli ...
3.6.1 Tam metin arama teknolojisine giriş 3.6.2 ES kurulumuna ve yapılandırmasına giriş 3.6.3 ES eklenti kurulumu 3.6.4 ES temel çalıştırma ...
3.7.1 Logstash'e Giriş 3.7.2 Giriş bileşenine giriş 3.7.3 Filtre bileşenine giriş 3.7.4 Çıkış bileşenine giriş
3.8.1 Kibana tanıtımı 3.8.2 Kibana ortam hazırlığı 3.8.3 Kibana kurulumu 3.8.4 Kibana demosu ...
3.9.1 NoSQL nedir 3.9.2 NoSQL veritabanlarının sınıflandırılması 3.9.3 Redis'e Giriş 3.9.4 Redis geliştirme geçmişi ...
Dördüncü aşama: büyük veri gerçek savaş projesi
4.1 Karşılıklı altın alan reklamı
Proje tanıtımı: Bir reklam platformu oluşturun, reklamcılık işi yürütün, potansiyel müşterileri çekin ve mikro hizmet platformları, teklif modülleri, müşteri grubu portreleri ve binlerce kişi tarafından önerilen ürünler dahil olmak üzere ürünleri tanıtın.
4.2 E-ticaret platformu
Proje tanıtımı: işi gömün, kullanıcı segmentasyon portreleri yapın, bir kredi sistemi kurun ve çeşitli çevrimiçi aktiviteler gerçekleştirin.
4.3 Bisiklet paylaşımı
Proje tanıtımı: Kullanıcı grubu seyahat yasasına, bölgesel koşullara ve araç kullanımının diğer dinamik planlamasına göre seyahat yasasını oluşturan kullanıcının davranış yörüngesine göre.
4.4 Endüstriyel Büyük Veri
Proje tanıtımı: State Grid_Provincial Transmission / Transformation Monitoring Project: Hat algılama ekipmanını izleme, ekipman güvenliğini sağlama, arıza maliyetlerini azaltma, hatları dinamik olarak izleme, trafo merkezi ikincil ekipman çalışma koşulları ve alarm otomasyonu.
4.5 Taşıma
Proje tanıtımı: Guizhou Ulaşım Departmanı, trafik çevrimdışı / gerçek zamanlı izleme projesi: Trafik kontrol noktaları aracılığıyla gerçek zamanlı veriler toplayın, eyaletteki tüm yolların trafik ve kaza koşullarını dinamik olarak izleyin, tıkanıklığı önleyin, trafik kazalarını önleyin, hızı doğru bir şekilde ölçün, güverteleri önleyin ve kolaylık sağlayın Optimum seyahat planı, tahmini trafik sıkışıklığı katsayısı ve tüm seviyeler için optimum yol planlama planı sağlayın.
4.6 Turizm
Proje tanıtımı: Anshun Smart Tourism, turizmle ilgili çeşitli uygulama sistemlerini ve bilgi kaynaklarını entegre eder, kamu güvenliği, ulaşım, endüstri ve ticaret ve diğer ilgili alanlarda bilgi paylaşımını ve işbirliğine dayalı işbirliğini gerçekleştirir ve birlikte iyi huylu bir turizm bulut ekosistemi oluşturur.
4.7 Tıbbi
Proje tanıtımı: Belli bir şehrin halk hastanesi, yaşlanmanın sürekli artmasıyla, yaygınlık oranı giderek yükseliyor. Büyük veri platformunu artırın, tıbbi ile ilgili verileri toplayın, teşhis doğruluğunu iyileştirin, bazı hastalıkların oluşumunu önleyin, ilgili hastalıkların rehabilitasyonunun ilerlemesini izleyin ve gerçekten bir doktor görmedeki zorluğu çözün ve insidansı azaltın.
Beşinci aşama: büyük veri analizi
5.1.1 Yapay Zeka Makine Öğrenmesine ve Derin Öğrenmeye Giriş 5.1.2 Veri Bilimi ...
5.2.1 Veri analizinde yaygın olarak kullanılan Python becerileri 5.2.2 Python dizesi manipülasyonu ...
5.3.1 Python Matplotlib kitaplığı 5.3.2 Matplotlib mimarisi ...
5.4.1 Makine öğreniminin temel kavramları 5.4.2 Sınıflandırma algoritması ve regresyon algoritması ...
5.5.1 Eğitim modeli 5.5.2 Test modeli ...
5.6.1 Sklearn'de karar ağaçlarının önemli parametreleri 5.6.2 Karar ağaçları ile özelliklerin önem puanları elde edilebilir ...
5.7.110 kat çapraz doğrulama 5.7.2 Model değerlendirme göstergeleri ve model seçimi ...
5.8.1 Bernoulli modeli 5.8.2 Çok terimli model ...
5.9.1 Doku özelliği 5.9.2 Şekil özelliği ...
5.10.1 Yüz tanıma 5.10.2 Nesne tanıma ...
5.11.1 Python yaygın olarak kullanılan metin işleme fonksiyonları (dize işlemleri) 5.11.2 Normal ifadeler ...
5.12.1 Konu Modeli ve LDA 5.12.2 Gizli Dirichlet Tahsisi (LDA) ...
Büyük veri için en popüler istihdam yönlerinden bahsedeyim:
1. Büyük veri araştırma ve geliştirme
2. Büyük veri analizi ve madencilik
3. Derin öğrenme
4. Yapay zeka
< data-linktype = "2" style = "geçiş: kenar boşluğu 0.1s doğrusal 0s, dolgu 0.1s doğrusal 0s, genişlik 0.1s doğrusal 0s, yükseklik 0.1s doğrusal 0s; renk: rgb (255, 255, 255); yazı tipi boyutu : 14px; line-height: 18px; padding-left: 22px; arka plan: url ("https://mmbiz.qpic.cn/mmbiz_png/M56yr494LJeQpUTGxc14G47QFUcrM35MMQyQkicv1hRmXwMCUk2oVRAHzpaKzIGznicpx) > Büyük resim modu
< data-linktype = "2" style = "geçiş: kenar boşluğu 0.1s doğrusal 0s, dolgu 0.1s doğrusal 0s, genişlik 0.1s doğrusal 0s, yükseklik 0.1s doğrusal 0s; renk: rgb (255, 255, 255); yazı tipi boyutu : 14px; line-height: 18px; padding-left: 22px; arka plan: url ("https://mmbiz.qpic.cn/mmbiz_png/M56yr494LJeQpUTGxc14G47QFUcrM35MMQyQkicv1hRmXwMCUk2oVRAHzpaKzIGznicpx) > Büyük resim modu
< data-linktype = "2" style = "geçiş: kenar boşluğu 0.1s doğrusal 0s, dolgu 0.1s doğrusal 0s, genişlik 0.1s doğrusal 0s, yükseklik 0.1s doğrusal 0s; renk: rgb (255, 255, 255); yazı tipi boyutu : 14px; line-height: 18px; padding-left: 22px; arka plan: url ("https://mmbiz.qpic.cn/mmbiz_png/M56yr494LJeQpUTGxc14G47QFUcrM35MMQyQkicv1hRmXwMCUk2oVRAHzpaKzIGznicpx) > Büyük resim modu
< data-linktype = "2" style = "geçiş: kenar boşluğu 0.1s doğrusal 0s, dolgu 0.1s doğrusal 0s, genişlik 0.1s doğrusal 0s, yükseklik 0.1s doğrusal 0s; renk: rgb (255, 255, 255); yazı tipi boyutu : 14px; line-height: 18px; padding-left: 22px; arka plan: url ("https://mmbiz.qpic.cn/mmbiz_png/M56yr494LJeQpUTGxc14G47QFUcrM35MMQyQkicv1hRmXwMCUk2oVRAHzpaKzIGznicpx) > Büyük resim modu
< data-linktype = "2" style = "geçiş: kenar boşluğu 0.1s doğrusal 0s, dolgu 0.1s doğrusal 0s, genişlik 0.1s doğrusal 0s, yükseklik 0.1s doğrusal 0s; renk: rgb (255, 255, 255); yazı tipi boyutu : 14px; line-height: 18px; padding-left: 22px; arka plan: url ("https://mmbiz.qpic.cn/mmbiz_png/M56yr494LJeQpUTGxc14G47QFUcrM35MMQyQkicv1hRmXwMCUk2oVRAHzpaKzIGznicpx) > Büyük resim modu
Java:
Yalnızca Java'nın standart JavaSE sürümünü öğrenmeniz gerekir.
Linux:
Esas olarak Linux işletim sisteminin teorik temeline ve sunucu konfigürasyonunun pratik bilgisine hakim olun ve aynı zamanda çok sayıda deney yoluyla, pratik becerileri geliştirmeye odaklanın. Öğrencilerin, endüstrideki Linux işletim sisteminin önemli konumunu ve geniş kullanım alanını anlamalarını sağlamak. Linux öğrenmeye dayanarak, sunucu işletim sistemi anlayışını derinleştirin ve yapılandırma yeteneklerini uygulayın. Temel bilgisayar ağı bilgisini derinleştirin ve pratikte uygulayın.
Ana Linux işletim sistemi kurulumu, komut satırı işlemi, kullanıcı yönetimi, disk yönetimi, dosya sistemi yönetimi, yazılım paketi yönetimi, süreç yönetimi, sistem izleme ve sistem sorun giderme. Ana Linux işletim sistemi ağ yapılandırması, DNS, DHCP, HTTP, FTP, SMTP ve POP3 hizmeti yapılandırması ve yönetimi. Diğer ağ işletim sistemleri ve yazılım sistemi geliştirme hakkında daha fazla çalışma için sağlam bir temel oluşturun. Aynı zamanda, javaweb ve çerçeveyi öğrenmek için zamanınız varsa, büyük veriyi öğrenmekte daha özgür olacaksınız.
Artık temel konular hakkında konuşmayı bitirdiğime göre, büyük veri teknolojilerinin hala öğrenilmesi gereken şeylerden bahsedelim. Yazdığım sırayla öğrenmeye devam edebilirsiniz.
Hadoop:
Hadoop hangi sorunu çözer? Hadoop, büyük verilerin güvenilir şekilde depolanmasını ve işlenmesini çözer (bir bilgisayarın depolayamayacağı kadar büyük ve bir bilgisayar gerekli süre içinde işleyemez).
Burada öğrendikinizin büyük veriyi öğrenmeniz için bir düğüm görevi görebileceğini unutmayın.
Hayvan bakıcısı:
ZooKeeper, dağıtılmış, açık kaynak dağıtılmış bir uygulama koordinasyon hizmetidir, Googleın Chubby'sinin açık kaynaklı bir uygulaması ve önemli bir Hadoop ve Hbase bileşenidir. Dağıtılmış uygulamalar için tutarlı hizmetler sağlayan bir yazılımdır.Sağlanan işlevler şunları içerir: yapılandırma bakımı, etki alanı adı hizmetleri, dağıtılmış senkronizasyon, grup hizmetleri vb.
Amacı, karmaşık ve hataya açık temel hizmetleri özetlemek ve kullanıcılara basit ve kullanımı kolay arayüzler ve yüksek performanslı ve kararlı işlevlere sahip sistemler sağlamaktır.
ZooKeeper kod sürümü, dağıtılmış özel kilitler, seçimler ve kuyruklar için arabirimler sağlar. Kod, zookeeper-3.4.3src ecipes içindedir. Bunlar arasında, dağıtılmış kilit ve kuyruğun Java ve C olmak üzere iki sürümü vardır ve seçimde yalnızca Java sürümü vardır.
MySQL:
MySQL, İsveç'in MySQL AB'si tarafından geliştirilen ilişkisel bir veritabanı yönetim sistemidir ve şu anda bir Oracle ürünüdür. MySQL, en popüler ilişkisel veritabanı yönetim sistemlerinden biridir.Web uygulamaları açısından MySQL, en iyi RDBMS (İlişkisel Veritabanı Yönetim Sistemi) uygulama yazılımıdır.
MySQL ilişkisel bir veritabanı yönetim sistemidir.İlişkisel veritabanları, tüm verileri büyük bir depoya koymak yerine verileri farklı tablolarda saklar, bu da hızı ve esnekliği artırır.
MySQL tarafından kullanılan SQL dili, veritabanlarına erişmek için en yaygın kullanılan standartlaştırılmış dildir. MySQL yazılımı, topluluk sürümüne ve ticari sürüme bölünmüş bir ikili yetkilendirme politikası benimser.Küçük boyutu, hızlı hızı, düşük toplam sahip olma maliyeti, özellikle açık kaynak özellikleri nedeniyle, küçük ve orta ölçekli web sitelerinin geliştirilmesi, web sitesi veritabanı olarak genellikle MySQL'i seçer.
Sqoop:
Bu, verileri Mysql'den Hadoop'a aktarmak için kullanılır. Elbette bunu kullanmanıza gerek yok, sadece Mysql veri tablosunu doğrudan bir dosyaya aktarın ve ardından HDFS'ye koyun.Tabii ki, üretim ortamında Mysql'in baskısına dikkat etmelisiniz.
Kovan:
Bu şey, SQL sözdizimini bilenler için sihirli bir araçtır.Büyük verilerle çok kolay başa çıkmanıza olanak tanır ve MapReduce programları yazmak için çok çalışmak zorunda kalmazsınız. Bazıları Domuz der mi? Domuz ile hemen hemen aynıdır.
Oozie:
Artık Hive'ı öğrendiğinize göre, bu şeye ihtiyacınız olduğuna inanıyorum. Bu, Hive, MapReduce ve Spark komut dosyalarınızı yönetmenize yardımcı olabilir. Ayrıca, programınızın doğru bir şekilde yürütülüp yürütülmediğini kontrol edebilir. Bir hata oluşursa, size bir alarm gönderir ve programı yeniden denemenize yardımcı olur. En önemli şey, görev bağımlılıklarını yapılandırmanıza da yardımcı olabilmesidir. Beğeneceğinize inanıyorum, aksi takdirde bu kadar çok senaryoya ve yoğun cronlara baktığınızda kendinizi bok gibi hissedeceksiniz.
Hbase:
Bu, Hadoop ekosistemindeki NOSQL veritabanıdır. Verileri anahtar ve değer biçiminde depolanır ve anahtar benzersizdir, bu nedenle verileri sıralamak için kullanılabilir. MYSQL ile karşılaştırıldığında, büyük miktarda veri depolayabilir. bir çok. Bu nedenle, büyük veri işleme tamamlandıktan sonra genellikle bir depolama hedefi olarak kullanılır.
Kafka:
Bu, nispeten kullanımı kolay bir sıralama aracıdır. Kuyruk ne işe yarar? Bilet almak için sıraya girip girmediğinizi biliyor musunuz? Daha fazla veriniz varsa, sizinle işbirliği yapan diğer öğrencilerin çağrılmaması için sıraya girmeniz de gerekir. Neden bana bu kadar çok veri verdiniz? (Örneğin, yüzlerce gigabayt dosya) Bunu nasıl halledebilirim? Büyük veriye dahil olmadığı için onu suçlamayın. Verileri kuyruğa koyduğumu ve onları kullandığınızda tek tek aldığımı söyleyebilirsiniz. Şikayet etmeyi bıraktım ve hemen programını optimize etmeye gittim, çünkü bunu kaldıramaması onun işiydi. Verdiğiniz soru yerine. Elbette, bu aracı çevrimiçi gerçek zamanlı veri depolama veya HDFS yapmak için de kullanabiliriz. Şu anda, özellikle basit veri işleme sağlamak ve çeşitli dosyalara yazmak için kullanılan Flume adlı bir araçla kullanabilirsiniz. Veri alıcısı (Kafka gibi).
Kıvılcım:
MapReduce'a dayalı veri işleme hızındaki eksiklikleri gidermek için kullanılır.Karakteristik, son derece yavaş ve gelişen yavaş sabit diski okumak yerine hesaplama için verileri belleğe yüklemektir. Özellikle yinelemeli işlemler için uygundur, bu nedenle algoritma akışı özellikle püredir. Scala ile yazılmıştır. Java dili veya Scala, her ikisi de JVM kullandığından onu çalıştırabilir.