g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Big Data Learning Route 2020 Sürümü

Büyük veri (BÜYÜK VERİ), belirli bir zaman dilimi içinde geleneksel yazılım araçlarıyla yakalanamayan, yönetilemeyen ve işlenemeyen bir veri koleksiyonunu ifade eder.Daha güçlü karar verme gücüne, içgörü keşfine ve süreç optimizasyon yeteneklerine sahip olmak için yeni bir işleme modeli gerektiren çok büyük miktarda veridir. , Yüksek büyüme oranı ve çeşitlendirilmiş bilgi varlıkları.

Büyük verilerin 5V özellikleri: HACİM (büyük hacim), VELOCITY (yüksek hız), ÇEŞİTLİLİK (çeşitlilik), DEĞER (düşük değer yoğunluğu), VERACITY (özgünlük).

Neden büyük veriyi çalışmalı?

Şu anda küresel veriler, patlayıcı büyüme ve muazzam birikimin özelliklerini gösteriyor. Büyük veri bilgi işlem teknolojisi, büyük veri toplama, depolama, hesaplama ve analiz sorunlarını mükemmel şekilde çözer. 2022 yılına kadar, büyük veri pazarının yıllık ortalama% 15,37 büyüme oranıyla 80 milyar ABD dolarına ulaşacağı tahmin ediliyor Büyük veri çağı, insan toplumunun verilerin değerini kullandığı başka bir çağ açıyor. Ülkenin büyük veri stratejik politikalarının formüle edilmesi ve uygulanması da büyük veri pazarının sürekli gelişimi için güçlü koşullardır.

Geniş uygulama alanları: benzeri görülmemiş endüstriyel ölçek ve çeşitli bankalar çabalarını sürdürüyor: finans, hükümet işleri, ulaşım, telekomünikasyon, ticaret, tıbbi bakım, eğitim, turizm, sanayi, tarım ve diğer endüstriler dahil.

İstihdam maaşı yüksektir: endüstri ortalama aylık maaşı 22,690 yuan, 30K-50K% 29,7, 20K-30K% 43,2, 15K-20K% 12,2, 10K-15K% 2,7 ve 6K-8K% 8,1'dir.

Boşluk büyük: Sektörün günlük işe alım hacmi 154.598, Zhaolianın günlük işe alım hacmi 50.916, 51job.comun ortalama günlük işe alım hacmi 55.804, avcı işe alım hacmi 10.000+ ve kariyer ekibinin ortalama günlük işe alım hacmi 37.878.

Politika desteği: Devlet, büyük veri geliştirme stratejilerinin uygulanmasını şiddetle teşvik ediyor ve endüstri politika ortamı iyi.

Onikinci Ulusal Halk Kongresi'nin İkinci Oturumu'nun hükümet çalışma raporu: "Yeni nesil mobil iletişim, entegre devreler, büyük veri ve gelişmiş üretimdeki gelişmeleri yakalamak için gelişmekte olan endüstrilerde girişimcilik ve yenilik için bir platform oluşturmak gereklidir."

Çin Komünist Partisi 18. Ulusal Kongresi sırasında Devlet Konseyi bir belge yayınladı: "" Büyük Veri Gelişimini Teşvik Etme Eylemi "nin yayınlanması, büyük verinin ekonomik dönüşüm ve kalkınma için yeni bir itici güç haline geldiğini kanıtlıyor."

Çin Komünist Partisi 19. Ulusal Kongresi raporunda, "Bir üretim gücünün inşasını hızlandırın, gelişmiş üretimin gelişimini hızlandırın ve İnternet, büyük veri, yapay zeka ve reel ekonominin derin entegrasyonunu teşvik edin."

Büyük Veri Öğrenme Rotasının Özeti:

İlk aşama: Java dilinin temel aşaması

1.1 Java programlama diline temel genel bakış

1.1.1 Bilgisayar dili ve programlamaya genel bakış 1.1.2 Java ekosistemine giriş ...

1.2 Java temel sözdizimi

1.2.1 Dal döngü bildirimi 1.2.2 Dal yapısı ise

1.3 Nesne yönelimli programlama

1.3.1 Yazılımın yaşam döngüsü 1.3.2 Yazılımın tasarım ilkeleri ......

1.4 Nesne yönelimli gelişmiş programlama

1.4.1 Paketin yönetimi ve işlevi 1.4.2 JavaBean spesifikasyonu

1.5 Java'da Ortak Sınıf Kitaplıkları

1.5.1 Paketleme Sınıfı 1.5.2 Paketleme ve ambalajdan çıkarma

1.6 Numaralandırmalar ve istisna sınıfları

1.6.1 Numaralandırma tanımı ve kullanımı 1.6.2 Numaralandırılmış sınıf dosyası aracılığıyla temeldeki uygulamayı görüntüleyin ...

1.7 Java veri yapısı ve toplama çerçevesi jenerikleri

1.7.1 Veri yapısı örneklerinin analizi 1.7.2 Dizilerin tanımı ve kullanımı ......

1.8 Java'da IO akışı

1.8.1 Dosya sınıfının genel işlemleri 1.8.2 Klasörleri yinelemeli olarak gezme ...

1.9 Java'da Çoklu Okuma

1.9.1 Program, süreç ve iş parçacığı arasındaki ilişkinin ayrıntılı açıklaması 1.9.2 İş parçacığı ilkesi ...

1.10 Java'da ağ programlama ve yansıma

1.10.1 Ağ iletişim protokolü 1.10.2 Yedi katmanlı ağ protokolü ......

1.11 Java 8'in Yeni Özellikleri

1.11.1 Lambda ifadesi 1.11.2 Java işlevsel olarak derlenebilir ...

1.12 Java temel geliştirmesi

1.12.1 Tomcat'in tanıtımı ve yapımı 1.12.2 Yazılım B / S ve C / S

İkinci aşama: Linux sistemi Hadoop ekosistemi

01 Linux ile Başlarken

02, ortak temel komutlar

03, sistem yönetimi

04, Linux operasyon geliştirme

05, Linux kabuk programlama

06, Hadoop ekolojisi

07 Dağıtılmış sisteme genel bakış

08. Hadoop'a başlarken

09, Hadoop sözde dağıtılmış

10. Hadoop tamamen dağıtılmış

11. HDFS'nin temel kavramları

12. HDFS'nin uygulama geliştirme

13, HDFS IO akış işlemi

14. NameNode çalışma mekanizması

15. DataNode çalışma mekanizması

16. Zookeeper'ı kullanmaya başlama

17. Zookeeper'ın ayrıntılı açıklaması

18, HA çerçeve ilkesi

19. Hadoop-HA küme yapılandırması

20. MapReduce Çerçevesinin İlkeleri

21, Shuffle mekanizması

22, Mapreduce durum bir

23, Mapreduce durum iki

24. Hive'a Başlarken

25, Hive DDL veri tanımı

26, Kovan bölüm tablosu

27, Kovan kova tablosu

28, Hive sorgusu

29, Hive gelişmiş sorgu Birleştirme ve sıralama

30, Kovan işlevi

31, Hive DML veri yönetimi

32, Kovan dosyası depolama

33, Hive kurumsal düzeyde ayarlama

34, Hive kurumsal düzeyde ayar iki

35. Kurumsal düzeyde proje savaşı kovanı

36, Flume detaylı

37, Sqoop ayrıntılı açıklama

38, Hbase konsepti

39, Hbase işlemi

40, Hbase entegrasyonu

41. Gerçek mücadele ve Hbase optimizasyonu

Üçüncü aşama: dağıtılmış bilgi işlem çerçevesi

3.1 ölçek

3.1.1 Fikir yapılandırma ortamı değişkenini kurun 3.1.2 Maven yerel kitaplık yapılandırması 3.1.3 JDK ortam değişkeni yapılandırması 3.1.4 fikir sürümü yapılandırması ...

3.2 Kıvılcım Çekirdeği

3.2.1 Büyük Veri Mimarisi 3.2.2 Ayrıntılı Mimari 3.2.3 Spark Kümesine Giriş 3.2.4 Spark Küme Yapılandırması ...

3.3 Spark SQL

3.3.1 Spark SQL'in geliştirme geçmişi 3.3.2 Spark SQL ilkesine giriş 3.3.3 DataFrame'e Genel Bakış 3.3.4 Bir DataFrame nasıl oluşturulur ...

3.4 Kıvılcım Akışı

3.4.1 Spark Streaming'e Genel Bakış 3.4.2 Spark Streaming ilkelerine giriş 3.4.3 Spark Streaming ile Storm'un Karşılaştırması 3.4.4 DStream Kavramı

3.5 kafka

3.5.1 Kafka'nın temel kavramları 3.5.2 Kafka'nın geliştirme tarihi 3.5.3 Kafka'nın uygulama geçmişi 3.5.4 JMS temeli ...

3.6 ElasticSearch

3.6.1 Tam metin arama teknolojisine giriş 3.6.2 ES kurulumuna ve yapılandırmasına giriş 3.6.3 ES eklenti kurulumu 3.6.4 ES temel çalıştırma ...

3.7 Logstash

3.7.1 Logstash'e Giriş 3.7.2 Giriş bileşenine giriş 3.7.3 Filtre bileşenine giriş 3.7.4 Çıkış bileşenine giriş

3.8 Kibana

3.8.1 Kibana tanıtımı 3.8.2 Kibana ortam hazırlığı 3.8.3 Kibana kurulumu 3.8.4 Kibana demosu ...

3.9 Kibana

3.9.1 NoSQL nedir 3.9.2 NoSQL veritabanlarının sınıflandırılması 3.9.3 Redis'e Giriş 3.9.4 Redis geliştirme geçmişi ...

Dördüncü aşama: büyük veri gerçek savaş projesi

4.1 Karşılıklı altın alan reklamı

Proje tanıtımı: Bir reklam platformu oluşturun, reklamcılık işi yürütün, potansiyel müşterileri çekin ve mikro hizmet platformları, teklif modülleri, müşteri grubu portreleri ve binlerce kişi tarafından önerilen ürünler dahil olmak üzere ürünleri tanıtın.

4.2 E-ticaret platformu

Proje tanıtımı: işi gömün, kullanıcı segmentasyon portreleri yapın, bir kredi sistemi kurun ve çeşitli çevrimiçi aktiviteler gerçekleştirin.

4.3 Bisiklet paylaşımı

Proje tanıtımı: Kullanıcı grubu seyahat yasasına, bölgesel koşullara ve araç kullanımının diğer dinamik planlamasına göre seyahat yasasını oluşturan kullanıcının davranış yörüngesine göre.

4.4 Endüstriyel Büyük Veri

Proje tanıtımı: State Grid_Provincial Transmission / Transformation Monitoring Project: Hat algılama ekipmanını izleme, ekipman güvenliğini sağlama, arıza maliyetlerini azaltma, hatları dinamik olarak izleme, trafo merkezi ikincil ekipman çalışma koşulları ve alarm otomasyonu.

4.5 Taşıma

Proje tanıtımı: Guizhou Ulaşım Departmanı, trafik çevrimdışı / gerçek zamanlı izleme projesi: Trafik kontrol noktaları aracılığıyla gerçek zamanlı veriler toplayın, eyaletteki tüm yolların trafik ve kaza koşullarını dinamik olarak izleyin, tıkanıklığı önleyin, trafik kazalarını önleyin, hızı doğru bir şekilde ölçün, güverteleri önleyin ve kolaylık sağlayın Optimum seyahat planı, tahmini trafik sıkışıklığı katsayısı ve tüm seviyeler için optimum yol planlama planı sağlayın.

4.6 Turizm

Proje tanıtımı: Anshun Smart Tourism, turizmle ilgili çeşitli uygulama sistemlerini ve bilgi kaynaklarını entegre eder, kamu güvenliği, ulaşım, endüstri ve ticaret ve diğer ilgili alanlarda bilgi paylaşımını ve işbirliğine dayalı işbirliğini gerçekleştirir ve birlikte iyi huylu bir turizm bulut ekosistemi oluşturur.

4.7 Tıbbi

Proje tanıtımı: Belli bir şehrin halk hastanesi, yaşlanmanın sürekli artmasıyla, yaygınlık oranı giderek yükseliyor. Büyük veri platformunu artırın, tıbbi ile ilgili verileri toplayın, teşhis doğruluğunu iyileştirin, bazı hastalıkların oluşumunu önleyin, ilgili hastalıkların rehabilitasyonunun ilerlemesini izleyin ve gerçekten bir doktor görmedeki zorluğu çözün ve insidansı azaltın.

Beşinci aşama: büyük veri analizi

5.1 Veri Analizi veri analizi temeli

5.1.1 Yapay Zeka Makine Öğrenmesine ve Derin Öğrenmeye Giriş 5.1.2 Veri Bilimi ...

5.2 Çalışma ortamı hazırlığı

5.2.1 Veri analizinde yaygın olarak kullanılan Python becerileri 5.2.2 Python dizesi manipülasyonu ...

5.3 Veri görselleştirme kavramları ve ilkeleri

5.3.1 Python Matplotlib kitaplığı 5.3.2 Matplotlib mimarisi ...

5.4 Python makine öğrenimi

5.4.1 Makine öğreniminin temel kavramları 5.4.2 Sınıflandırma algoritması ve regresyon algoritması ...

5.5 Model seçin

5.5.1 Eğitim modeli 5.5.2 Test modeli ...

5.6 Bir ağaç inşa etme süreci

5.6.1 Sklearn'de karar ağaçlarının önemli parametreleri 5.6.2 Karar ağaçları ile özelliklerin önem puanları elde edilebilir ...

5.7 Grid Arama

5.7.110 kat çapraz doğrulama 5.7.2 Model değerlendirme göstergeleri ve model seçimi ...

5.8 Sklearn'de üç tür saf Bayes algoritması vardır

5.8.1 Bernoulli modeli 5.8.2 Çok terimli model ...

5.9 Renk özellikleri

5.9.1 Doku özelliği 5.9.2 Şekil özelliği ...

5.10 El yazısı rakam tanıma

5.10.1 Yüz tanıma 5.10.2 Nesne tanıma ...

5.11 Metnin temel bileşimi

5.11.1 Python yaygın olarak kullanılan metin işleme fonksiyonları (dize işlemleri) 5.11.2 Normal ifadeler ...

5.12 Metnin temel bileşimi

5.12.1 Konu Modeli ve LDA 5.12.2 Gizli Dirichlet Tahsisi (LDA) ...

Büyük veri için en popüler istihdam yönlerinden bahsedeyim:

1. Büyük veri araştırma ve geliştirme

2. Büyük veri analizi ve madencilik

3. Derin öğrenme

4. Yapay zeka

< data-linktype = "2" style = "geçiş: kenar boşluğu 0.1s doğrusal 0s, dolgu 0.1s doğrusal 0s, genişlik 0.1s doğrusal 0s, yükseklik 0.1s doğrusal 0s; renk: rgb (255, 255, 255); yazı tipi boyutu : 14px; line-height: 18px; padding-left: 22px; arka plan: url ("https://mmbiz.qpic.cn/mmbiz_png/M56yr494LJeQpUTGxc14G47QFUcrM35MMQyQkicv1hRmXwMCUk2oVRAHzpaKzIGznicpx) > Büyük resim modu

Java:

Yalnızca Java'nın standart JavaSE sürümünü öğrenmeniz gerekir.

Linux:

Esas olarak Linux işletim sisteminin teorik temeline ve sunucu konfigürasyonunun pratik bilgisine hakim olun ve aynı zamanda çok sayıda deney yoluyla, pratik becerileri geliştirmeye odaklanın. Öğrencilerin, endüstrideki Linux işletim sisteminin önemli konumunu ve geniş kullanım alanını anlamalarını sağlamak. Linux öğrenmeye dayanarak, sunucu işletim sistemi anlayışını derinleştirin ve yapılandırma yeteneklerini uygulayın. Temel bilgisayar ağı bilgisini derinleştirin ve pratikte uygulayın.

Ana Linux işletim sistemi kurulumu, komut satırı işlemi, kullanıcı yönetimi, disk yönetimi, dosya sistemi yönetimi, yazılım paketi yönetimi, süreç yönetimi, sistem izleme ve sistem sorun giderme. Ana Linux işletim sistemi ağ yapılandırması, DNS, DHCP, HTTP, FTP, SMTP ve POP3 hizmeti yapılandırması ve yönetimi. Diğer ağ işletim sistemleri ve yazılım sistemi geliştirme hakkında daha fazla çalışma için sağlam bir temel oluşturun. Aynı zamanda, javaweb ve çerçeveyi öğrenmek için zamanınız varsa, büyük veriyi öğrenmekte daha özgür olacaksınız.

Artık temel konular hakkında konuşmayı bitirdiğime göre, büyük veri teknolojilerinin hala öğrenilmesi gereken şeylerden bahsedelim. Yazdığım sırayla öğrenmeye devam edebilirsiniz.

Hadoop:

Hadoop hangi sorunu çözer? Hadoop, büyük verilerin güvenilir şekilde depolanmasını ve işlenmesini çözer (bir bilgisayarın depolayamayacağı kadar büyük ve bir bilgisayar gerekli süre içinde işleyemez).

Burada öğrendikinizin büyük veriyi öğrenmeniz için bir düğüm görevi görebileceğini unutmayın.

Hayvan bakıcısı:

ZooKeeper, dağıtılmış, açık kaynak dağıtılmış bir uygulama koordinasyon hizmetidir, Googleın Chubby'sinin açık kaynaklı bir uygulaması ve önemli bir Hadoop ve Hbase bileşenidir. Dağıtılmış uygulamalar için tutarlı hizmetler sağlayan bir yazılımdır.Sağlanan işlevler şunları içerir: yapılandırma bakımı, etki alanı adı hizmetleri, dağıtılmış senkronizasyon, grup hizmetleri vb.

Amacı, karmaşık ve hataya açık temel hizmetleri özetlemek ve kullanıcılara basit ve kullanımı kolay arayüzler ve yüksek performanslı ve kararlı işlevlere sahip sistemler sağlamaktır.

ZooKeeper kod sürümü, dağıtılmış özel kilitler, seçimler ve kuyruklar için arabirimler sağlar. Kod, zookeeper-3.4.3src ecipes içindedir. Bunlar arasında, dağıtılmış kilit ve kuyruğun Java ve C olmak üzere iki sürümü vardır ve seçimde yalnızca Java sürümü vardır.

MySQL:

MySQL, İsveç'in MySQL AB'si tarafından geliştirilen ilişkisel bir veritabanı yönetim sistemidir ve şu anda bir Oracle ürünüdür. MySQL, en popüler ilişkisel veritabanı yönetim sistemlerinden biridir.Web uygulamaları açısından MySQL, en iyi RDBMS (İlişkisel Veritabanı Yönetim Sistemi) uygulama yazılımıdır.

MySQL ilişkisel bir veritabanı yönetim sistemidir.İlişkisel veritabanları, tüm verileri büyük bir depoya koymak yerine verileri farklı tablolarda saklar, bu da hızı ve esnekliği artırır.

MySQL tarafından kullanılan SQL dili, veritabanlarına erişmek için en yaygın kullanılan standartlaştırılmış dildir. MySQL yazılımı, topluluk sürümüne ve ticari sürüme bölünmüş bir ikili yetkilendirme politikası benimser.Küçük boyutu, hızlı hızı, düşük toplam sahip olma maliyeti, özellikle açık kaynak özellikleri nedeniyle, küçük ve orta ölçekli web sitelerinin geliştirilmesi, web sitesi veritabanı olarak genellikle MySQL'i seçer.

Sqoop:

Bu, verileri Mysql'den Hadoop'a aktarmak için kullanılır. Elbette bunu kullanmanıza gerek yok, sadece Mysql veri tablosunu doğrudan bir dosyaya aktarın ve ardından HDFS'ye koyun.Tabii ki, üretim ortamında Mysql'in baskısına dikkat etmelisiniz.

Kovan:

Bu şey, SQL sözdizimini bilenler için sihirli bir araçtır.Büyük verilerle çok kolay başa çıkmanıza olanak tanır ve MapReduce programları yazmak için çok çalışmak zorunda kalmazsınız. Bazıları Domuz der mi? Domuz ile hemen hemen aynıdır.

Oozie:

Artık Hive'ı öğrendiğinize göre, bu şeye ihtiyacınız olduğuna inanıyorum. Bu, Hive, MapReduce ve Spark komut dosyalarınızı yönetmenize yardımcı olabilir. Ayrıca, programınızın doğru bir şekilde yürütülüp yürütülmediğini kontrol edebilir. Bir hata oluşursa, size bir alarm gönderir ve programı yeniden denemenize yardımcı olur. En önemli şey, görev bağımlılıklarını yapılandırmanıza da yardımcı olabilmesidir. Beğeneceğinize inanıyorum, aksi takdirde bu kadar çok senaryoya ve yoğun cronlara baktığınızda kendinizi bok gibi hissedeceksiniz.

Hbase:

Bu, Hadoop ekosistemindeki NOSQL veritabanıdır. Verileri anahtar ve değer biçiminde depolanır ve anahtar benzersizdir, bu nedenle verileri sıralamak için kullanılabilir. MYSQL ile karşılaştırıldığında, büyük miktarda veri depolayabilir. bir çok. Bu nedenle, büyük veri işleme tamamlandıktan sonra genellikle bir depolama hedefi olarak kullanılır.

Kafka:

Bu, nispeten kullanımı kolay bir sıralama aracıdır. Kuyruk ne işe yarar? Bilet almak için sıraya girip girmediğinizi biliyor musunuz? Daha fazla veriniz varsa, sizinle işbirliği yapan diğer öğrencilerin çağrılmaması için sıraya girmeniz de gerekir. Neden bana bu kadar çok veri verdiniz? (Örneğin, yüzlerce gigabayt dosya) Bunu nasıl halledebilirim? Büyük veriye dahil olmadığı için onu suçlamayın. Verileri kuyruğa koyduğumu ve onları kullandığınızda tek tek aldığımı söyleyebilirsiniz. Şikayet etmeyi bıraktım ve hemen programını optimize etmeye gittim, çünkü bunu kaldıramaması onun işiydi. Verdiğiniz soru yerine. Elbette, bu aracı çevrimiçi gerçek zamanlı veri depolama veya HDFS yapmak için de kullanabiliriz. Şu anda, özellikle basit veri işleme sağlamak ve çeşitli dosyalara yazmak için kullanılan Flume adlı bir araçla kullanabilirsiniz. Veri alıcısı (Kafka gibi).

Kıvılcım:

MapReduce'a dayalı veri işleme hızındaki eksiklikleri gidermek için kullanılır.Karakteristik, son derece yavaş ve gelişen yavaş sabit diski okumak yerine hesaplama için verileri belleğe yüklemektir. Özellikle yinelemeli işlemler için uygundur, bu nedenle algoritma akışı özellikle püredir. Scala ile yazılmıştır. Java dili veya Scala, her ikisi de JVM kullandığından onu çalıştırabilir.