Büyük verinin giriş düzeyinde öğrenilmesi için ayrıntılı bir yol, yeni başlayanlar için mutlaka görülmesi gereken bir yol! !

Uzun zamandır popülerdi ve her zaman anlamak istedim ve öğrenmek için zamanım yok.Bazı materyaller öğrendim ve bir öğrenme rotası düzenlemek için kendi durumumu birleştirdim.

Daha güçlü büyüyebilmeniz için büyük veri alanındaki besinleri emmek istersiniz. Yönleri paylaşın Harekete geçmeden önce, bir sonraki büyük veri alışverişini paylaşın ve kaynak grubunu paylaşın 740041381. Öğrenmek veya kariyer değiştirmek isteyenler bekliyoruz.İleri öğrenmeye katılabilirsiniz.

1. Linux temelleri ve dağıtılmış küme teknolojisi

Bu aşamayı öğrendikten sonra hakim olunabilecek temel yetkinlikler:

Linux kullanma konusunda uzman, Linux'a yazılım yüklemede uzman, yük dengeleme ve yüksek güvenilirlik gibi kümeyle ilgili kavramlara aşina ve yüksek eşzamanlılık ve yüksek güvenilirlikli İnternet hizmeti mimarisi oluşturma;

Bu aşamadan sonra çözülebilecek gerçekçi sorunlar:

Yük dengeli ve oldukça güvenilir bir sunucu kümesi oluşturmak, web sitesinin eşzamanlı ziyaretlerini artırabilir ve kesintisiz harici hizmetler sağlayabilir;

Bu aşamadan sonra sahip olabileceğiniz piyasa değeri:

Küçük programcılar için gerekli Linux sunucu çalıştırma ve bakım yeteneklerine sahip olun.

1. İçerik tanıtımı:

Büyük veri alanında en çok kullanılan işletim sistemi Linux serisidir ve neredeyse tamamı dağıtılmış kümelerdir. Bu kurs, temel olarak Linux işletim sistemi, Linux ortak komutları, Linux ortak yazılım kurulumu, Linux ağı, güvenlik duvarı, Shell programlama vb.

2. Durum: İnternet için yüksek düzeyde eşzamanlılık ve son derece güvenilir bir hizmet mimarisi oluşturma.

2. Çevrimdışı bilgi işlem sistemi kurs aşaması

1. Çevrimdışı bilgi işlem sistemi kurs aşaması

Hadoop çekirdek teknolojisi çerçevesi

Bu aşamayı öğrendikten sonra hakim olunabilecek temel yetkinlikler:

1. Büyük veri teknolojisi ve endüstri uygulama örneklerinin arka planı aracılığıyla Hadoop'un rolünü anlayın; 2. Hadoop'un temelindeki dağıtılmış dosya sistemi HDFS'nin ilkesini, çalışmasını ve uygulama geliştirmesini kavrayın; 3. MAPREDUCE dağıtılmış bilgi işlem sisteminin çalışma prensibini ve dağıtımını kavrayın Analiz ve uygulama geliştirme 4. Hive veri ambarı araçlarının çalışma prensibinde ve uygulama geliştirmesinde ustalaşın.

Bu aşamadan sonra çözülebilecek gerçekçi sorunlar:

1. Büyük miktarda veri için çevrimdışı bir bilgi işlem platformu oluşturma becerisi, 2. Belirli iş senaryolarına göre büyük veri depolama çözümleri tasarlama ve uygulama 3. Belirli veri analizi gereksinimlerine göre mapreduce'a dayalı dağıtılmış hesaplama programları uygulama;

Bu aşamadan sonra sahip olabileceğiniz piyasa değeri:

Kurumsal veri departmanında genç bir uygulama geliştiricisi olma yeteneği

1.1 HADOOP Hızlı Başlangıç

1.1.1 Hadoop bilgisi arka planı

Hadoop nedir, hadoop arka planı, hadoop'un büyük veri bulut bilişimindeki konumu ve ilişkisi, yerel hadoop istihdam analizi ve kurs ana hatları tanıtımı

Yurtiçi ve yurtdışında hadoop uygulama vakalarının tanıtılması

Dağıtılmış sisteme, Hadoop ekosistemine ve her bileşenin tanıtılmasına genel bakış

1.1.2 HIVE hızlı başlangıç

Kovana temel giriş, kovanın kullanımı, temel veri ambarı bilgisi

1.1.3 Veri analizi süreci durumu

Web tıklama akışı günlük veri madenciliği ihtiyaç analizi, veri kaynağı, işleme akışı, veri analizi sonuç dışa aktarma, veri görüntüleme

1.1.4 Hadoop veri analiz sistemi kümelenmesi yapısı

Küme tanıtımı, sunucu tanıtımı, ağ ortamı ayarı, sunucu sistem ortamı ayarı, JDK ortamı kurulumu, hadoop küme kurulumu ve dağıtımı, küme başlatma, küme durum testi

HIVE konfigürasyon kurulumu, HIVE başlatma, HIVE kullanım testi

1.2 Ayrıntılı HDFS

1.2.1 HDFS'nin Kavramları ve Özellikleri

Dağıtılmış dosya sistemi nedir, HDFS'nin tasarım hedefleri, HDFS ve diğer dağıtılmış depolama sistemlerinin avantaj ve dezavantajlarının karşılaştırılması ve HDFS'nin uygulanabilir senaryoları

1.2.2 HDFS'nin kabuk işlemi

HDFS komut satırı istemcisi başlatma, HDFS komut satırı istemcisinin temel çalışması, komut satırı istemcisi tarafından desteklenen ortak komutlar, ortak parametrelere giriş

1.2.3 HDFS'nin çalışma mekanizması

HDFS sistem modülü mimarisi, HDFS yazma veri işlemi, HDFS veri okuma işlemi

NAMENODE çalışma mekanizması, meta veri depolama mekanizması, meta veri manuel görüntüleme, meta veri kontrol noktası mekanizması, NAMENODE arıza kurtarma, DATANODE çalışma mekanizması, DATANODE dinamik artış ve azalma, global veri yük dengeleme

1.2.4 HDFS'nin Java uygulaması geliştirme

Bir geliştirme ortamı kurun, api'deki istemci nesnelerini, HDFS java istemcisinin ortak işlevlerini edinin, dosyalar üzerinde HDFS istemcisinin ortak işlemlerini gerçekleştirin ve veri toplama ve depolama sistemleri geliştirmek için HDFS JAVA istemcisini kullanın

1.3 MAPREDUCE'un ayrıntılı açıklaması

1.3.1 MAPREDUCE hızlı başlangıç

Neden MAPREDUCE, MAPREDUCE programı çalışan gösteri, MAPREDUCE programlama örnekleri ve programlama özellikleri, MAPREDUCE programı çalışma modu, MAPREDUCE program hata ayıklama ve hata ayıklama yöntemlerine ihtiyacınız var

1.3.2 MAPREDUCE programının çalışma mekanizması

MAPREDUCE program işlem süreç analizi, MAPTASK eşzamanlılık belirleme mekanizması, MAPREDUCE'de birleştirici bileşen uygulaması, MAPREDUCE'da serileştirme çerçevesi ve uygulama, MAPREDUCE'da sıralama, MAPREDUCE'da özel bölüm uygulaması, MAPREDUCE'da karıştırma mekanizması, MAPREDUCE kullanım verileri Sıkıştırma optimizasyonu, MAPREDUCE programı ile YARN arasındaki ilişki, MAPREDUCE parametrelerinin optimizasyonu

Yukarıdaki bileşenlerin ayrıntılı açıklamasıyla, çeşitli karmaşık uygulama senaryolarına esnek bir şekilde yanıt verebilme yeteneğine sahip olmak için MAPREDUCE'nin temel çalışma mekanizmasının derinlemesine anlaşılması

MAPREDUCE gerçek savaş programlama vakası: Gerçek bir savaş vakası aracılığıyla karmaşık MAPREDUCE programının geliştirilmesine kendinizi alıştırın. Program, her ziyaretçinin ziyaret sayısını ve nginx sunucusu tarafından oluşturulan erişim sunucusundan yapılan her ziyaretin süresini hesaplar. Orijinal veri örneği aşağıdaki gibidir:

Bir dizi MAPREDUCE prosedürü - temizleme, filtreleme, erişim süreleri ve zaman analizi yoluyla, sayfa görüntüsünü desteklemek için nihai sonuç hesaplanır:

1.4 HIVE geliştirmesi

1.4.1 HIVE'ın temel kavramları

HIVE uygulama senaryoları, HIVE iç mimarisi, HIVE ile hadoop arasındaki ilişki, HIVE ile geleneksel veritabanları arasında karşılaştırma, HIVE'ın veri depolama mekanizması ve HIVE'ın hesaplama yürütme mekanizması

1.4.2 HIVE'ın temel çalıştırılması

HIVE'daki DDL işlemi, HIVE'daki DML işlemi, HIVE'da verimli JOIN sorgusunun nasıl uygulanacağı, HIVE'ın yerleşik işlev uygulaması, HIVE kabuğunun gelişmiş kullanımı, HIVE'ın ortak parametre yapılandırması, HIVE özel işlevi ve DÖNÜŞÜM'ün kullanım becerileri, HIVE UDF geliştirme örneği

1.4.3 HIVE Advanced Uygulaması

HIVE yürütme süreci analizi ve optimizasyon stratejileri, gerçek savaşta HIVE en iyi uygulama durumları, HIVE optimizasyon sınıflandırması ayrıntılı açıklama, HIVE gerçek savaş vakaları-verileri ETL, HIVE gerçek savaş vakaları-kullanıcı ziyaret süresi istatistikleri

HIVE gerçek muharebe vakası kademeli toplam raporu örneği:

Çevrimdışı veri madenciliği sistemi

Bu aşamayı öğrendikten sonra hakim olunabilecek temel yetkinlikler:

1. Veri ambarındaki bilgileri güçlendirerek veri ambarının temel kavramlarını ve tasarım sürecini önceden kavrayın; 2. HADOOP ekosisteminin temel yardımcı araçlarını öğrenerek hadoop analiz sisteminin entegrasyon yeteneğinde ustalaşın; 3. E-ticaret sistemi aracılığıyla akış günlüğü verilerini tıklayın Madencilik sisteminin asıl projesi, veri toplama, depolama, analiz ve rapor sunumundan hadoop çevrimdışı veri madenciliği sisteminin tüm sürecine hakim

Bu aşamadan sonra çözülebilecek gerçekçi sorunlar:

1. Büyük veri analiz sisteminin genel mimarisi, işletmenin belirli senaryolarına göre tasarlanabilir.2. Her bir veri analizi bağlantısının teknik seçimi, belirli senaryoların özelliklerine göre ayarlanabilir; 3. Tam bir çevrimdışı veri analiz sistemi, belirli ihtiyaçlara göre oluşturulabilir; 4. Basit veri ambarı modelinin tasarımı ve mimarisi 5. Her bağlantıda belirli işlevsel modüllerin geliştirilmesi ve gerçekleştirilmesi

Bu aşamadan sonra sahip olabileceğiniz piyasa değeri:

Kurumsal veri departmanında üst düzey uygulama geliştirme ve genç mimar

2.1 Veri ambarı geliştirme

2.1.1 Veri Ambarı ve Veri Modeline Giriş

Veri ambarı nedir, veri ambarının anlamı, veri ambarının temel kavramları ve veri ambarının mimarisi

2.1.2 Veri Ambarı Tasarımı

Veri ambarı oluşturma adımları, veri çıkarma, veri dönüştürme, veri yükleme, veri modeli nedir, yaygın veri modelleri türleri, bir veri modeli nasıl tasarlanır, bir veri modelleme mimarisi nasıl seçilir

Tipik veri modeli-yıldız modelleme örneği

2.1.3 Veri ambarı modelleme örneği

İş modelleme, etki alanı modelleme, mantıksal modelleme, fiziksel modelleme

Web tıklama akışı günlük analizi sistemi veri ambarı tasarım mücadelesi:

Veri özelliklerinin ve iş ihtiyaçlarının analizi ve ilişkinin birleştirilmesi yoluyla, net temalar ve makul seviyelere sahip bir veri modeli tasarlayın

2.2 Çevrimdışı yardım sistemi

2.2.1 Veri Toplama Sistemi

Veri toplama kavramlarına giriş

FLUME günlük toplama çerçevesine giriş, FLUME çalışma mekanizması, FLUME çekirdek bileşenleri, FLUME parametresi yapılandırma talimatları, nginx günlük gerçek durumlarının FLUME koleksiyonu

2.2.2 Görev planlama sistemi

Görev planlama sistemi kavramı tanıtımı, ortak görev planlama araçlarının karşılaştırması, OOZIE tanıtımı, OOZIE temel kavramları, OOZIE konfigürasyon talimatları, mapreduce / hive'ın OOIZE uygulaması ve diğer görev planlama pratik durumları

2.2.3 Veri aktarımı

Veri aktarımı kavramı tanıtımı, SQOOP temel bilgisi, SQOOP ilkesi ve yapılandırma talimatları, SQOOP verilerini içe aktarma gerçek muharebe, SQOOP verilerini dışa aktarma gerçek muharebe, SQOOP toplu işlem işlemi

2.3 Web tıklama akışı günlük analiz sisteminin pratik projeleri

2.3.1 Proje tanıtımı

1. PC çağında, pazarlamanın özü satın alma işlemidir.Mobil İnternet çağında, temel olan kişiselleştirilmiş kullanıcı etkileşiminin nasıl sağlanacağı ve kullanıcılara daha kesin içeriğin nasıl dağıtılacağıdır.Bu öze ulaşmanın temeli, yönetim ve veri yönetimidir. Analiz-veriye dayalı iş modeli.

2. Her türlü İnternet hizmeti ürünü (web siteleri, APP'ler gibi), ön uç teknolojisi aracılığıyla ayrıntılı kullanıcı davranış verilerini (ziyaret edilen sayfalar, tıklanan alanlar, oturum açma sıklığı, kayıt davranışları, satın alma davranışları vb.) Elde edebilir. Akış günlüğü verilerinin ve arka uç iş verilerinin entegrasyonu, şirketin operasyonel karar verme sürecinde olağanüstü bir iş değeri ortaya çıkarabilir.

3. Bu proje, bir büyük veri teknolojisi platformu ile uygulanan bir tıklama akışı günlük analizi veri madenciliği sistemidir.Projenin içeriği, talep analizi, veri toplama, veri depolama yönetimi, veri temizleme, veri ambarı tasarımı dahil olmak üzere tipik bir veri madenciliği sistemini kapsamaktadır. ETL'nin tüm süreci, iş modeli istatistiksel analizi ve veri görselleştirme.

2.3.2 Talep analizi

Tıklama akışı günlükleri, tıklama akışı günlüklerinin ticari değeri ve tıklama akışı günlük analizi gereksinimleri nelerdir

İş modeli gösterge sistemi tasarımı-trafik analizi, kaynak analizi, görüşme analizi, ziyaretçi analizi, dönüşüm oranı analizi

2.3.3 Sistem tasarımı ve geliştirme

1. Sistem Mimarisi Tasarımı

2. Veri toplama tasarımı ve geliştirme-veri formatı, veri içeriği analizi, veri oluşturma kanunu, toplama sistemi teknolojisi seçim analizi, FLUME toplama sistemi gerçekleştirme

3. Veri depolama tasarımı ve geliştirme-depolama teknolojisi seçimi, depolama iş süreci analizi, depolama dizini planlama ve dosya adlandırma kuralları, küçük dosya birleştirme uygulaması

4. Veri istatistiksel tasarım ve geliştirme-veri ön işleme, veri yükleme, orijinal veri tablosu oluşturma, veri depolama, veri ETL

5. Rapor istatistiksel tasarım-veri modeli tasarımı, olgu tablosu tasarımı, boyut tablosu taraması

6. İş göstergesi tasarımı ve geliştirme-PV istatistikleri (zaman boyutu, son boyut, coğrafi boyut), ziyaret sayısı istatistikleri (zaman boyutu, coğrafi boyut, son boyut), bağımsız ziyaretçi istatistikleri (zaman boyutu, son boyut, coğrafi boyut), Görüşülen sayfa istatistikleri (zaman boyutu, sütun boyutu), sayfa ısı haritası, dönüşüm oranı analizi, kaynak anahtar kelime analizi, kaynak arama motoru analizi, kaynak reklam tanıtım analizi

2.3.4 Görev Çizelgeleme Sisteminin Tasarımı ve Uygulanması

Görev planlama biriminin uygulanması, görev çalıştırma sıklığının ve her bağlantının bağımlılıklarının sıralanması, iş akışı tasarımı ve uygulaması, iş akışı tanım yapılandırması yükleme ve dağıtma, iş akışı başlatma ve durum izleme

2.3.5 Veri görselleştirme-sonuç raporu ekranı

1. Kovan analiz sonuçlarını msyql veritabanına aktarmak için sqoop'u kullanın

2. Rapor görüntüleme sisteminin teknik seçimi:

Arka planda spingmvc + spring + mybatis kullanın

Ön sayfa, tamamen statik eşzamansız yenileme teknolojisi kullanır jQuery + Echarts

3. Web görüntüleme programı mimari inşaatı, proje mühendisliği oluşturmak için maven kullanın

4. Web sunum programı sayfa tasarımı ve geliştirme: prototip sayfa tasarımı, js kod geliştirme

Daha güçlü büyüyebilmeniz için büyük veri alanındaki besinleri emmek istersiniz. Yönleri paylaşın Harekete geçmeden önce, bir sonraki büyük veri alışverişini paylaşın ve kaynak grubunu paylaşın 740041381. Öğrenmek ya da kariyer değiştirmek isteyenler bekliyoruz.İleri öğrenmeye katılabilirsiniz.

5. Son olarak aşağıdaki veri görselleştirme efektlerini elde edin:

(1) Trafik profilinin görselleştirme etkisi:

(2) Kaynak alan analizinin görselleştirme etkisi:

(3) Kaynak türü analizinin görselleştirme etkisi:

3. Sahnenin gerçek zamanlı bilgi işlem bölümünü fırtına yapın

Gerçek zamanlı kurs iki bölüme ayrılmıştır: akışlı hesaplamanın temel teknolojisi ve gerçek zamanlı bilgi işlem durumu.

1. Akış bilgi işlemin temel teknolojisi

Akış hesaplamasının temel teknolojisi temel olarak iki temel teknoloji noktasına bölünmüştür: Storm ve Kafka Bu aşamayı öğrendikten sonra, Storm'un geliştirme ve temel ilkeleri, Kafka'nın geliştirme ve temel ilkeleri ve Kafka ile Storm'un entegre kullanımı konusunda uzmanlaşabilirsiniz. Fırtınaya dayalı gerçek zamanlı bilgi işlem programları geliştirme teknik becerisine sahip olun.

Bu aşamayı öğrendikten sonra hakim olunabilecek temel yetkinlikler:

(1), gerçek zamanlı bilgi işlem ve uygulama senaryolarını anlayın

(2) Storm programlarının geliştirme ve temel ilkelerinde ustalaşın ve Kafka mesaj kuyruklarının geliştirilmesine ve temel ilkelerine hakim olun

(3) Kafka ve Storm'u entegre etme yeteneği

Bu aşamadan sonra çözülebilecek gerçekçi sorunlar:

Fırtınaya dayalı gerçek zamanlı bilgi işlem programları geliştirme becerisine sahip olun

Bu aşamadan sonra sahip olabileceğiniz piyasa değeri:

Gerçek zamanlı bilgi işlem ve geliştirme teknik becerisine sahip, ancak kuruluşun işini anlamak için yetersiz beceriye sahip

1.1. Akış hesaplamasının genel yapısı

2011'de muazzam veri işleme alanında, Hadoop insanların bahsettiği bir teknolojidir.Hadoop, yalnızca büyük verileri depolamak için değil, aynı zamanda büyük verileri hesaplamak için de kullanılabilir. Yüksek iş hacmi, yüksek güvenilirliği ve diğer özellikleri nedeniyle, birçok İnternet şirketi veri ambarları oluşturmak için Hadoop'u kullandı ve yüksek sıklıkta kullanım Hadoop ekosisteminde çeşitli teknolojilerin geliştirilmesini teşvik etti. Genel olarak, iş ihtiyaçlarına göre veri işleme, çevrimdışı işleme ve gerçek zamanlı işleme olarak ikiye ayrılabilir. Çevrimdışı işleme açısından, Hadoop iyi bir çözüm sunar, ancak büyük verilerin gerçek zamanlı işlenmesi için daha iyi bir çözüm yoktur. İnsanların merakla beklediği sırada fırtına doğdu. Doğasında var olan dağıtılmış, yüksek güvenilirlik ve yüksek verimlilik özellikleri piyasadaki bazı akışlı bilgi işlem çerçevelerini taradı ve kademeli olarak akışlı bilgi işlem için ilk tercih haline geldi. çerçeve. Pang Mailang orada olsaydı, kesinlikle derdi ki, bu benim istediğim paten ayakkabısı!

Yukarıdaki şekil, akış analizinin genel bir mimari diyagramıdır Özetlenen dört adım, veri toplama, veri tamponlama, veri işleme ve veri çıkışıdır. Genel olarak, veri akışı analizi için Flume + kafka + Storm + Redis yapısını kullanıyoruz. Kursun gerçek zamanlı kısmı esas olarak Kafka ve Storm içindir.

1.2 Akış hesaplaması ne için kullanılabilir?

Yitao gerçek zamanlı analiz sistemi: kullanıcı özelliklerinin gerçek zamanlı analizi ve arama motoruna geri bildirim. Başlangıçta, kullanıcı öznitelik analizi, her gün düzenli olarak merdiven üzerinde çalışan MR işleri aracılığıyla yapılır. Gerçek zamanlı gereksinimleri karşılamak için, kullanıcının davranış günlüğünün gerçek zamanlı olarak analiz edilebileceği, en son kullanıcı özelliklerinin arama motoruna geri besleneceği ve mevcut ihtiyaçlarını en iyi karşılayan sonuçların kullanıcılara sunulabileceği umulmaktadır.

Ctrip web sitesi performans izleme: Ctrip.com web sitesinin performansını izlemek için gerçek zamanlı analiz sistemi. Mevcut göstergeleri elde etmek ve günlükleri kaydetmek için HTML5 tarafından sağlanan performans standartlarını kullanın. Fırtına kümesi, günlükleri analiz eder ve gerçek zamanlı olarak depolar. Raporları birleştirmek ve geçmiş veri karşılaştırması ve diğer değerlendirme kuralları aracılığıyla erken uyarı olaylarını tetiklemek için DRPC'yi kullanın.

Oyunun yeni bir sürümü piyasaya sürüldü ve oyunda veri toplayan gerçek zamanlı bir analiz sistemi var.Operatörler veya geliştiriciler, lansmandan birkaç saniye sonra sürekli güncellenen oyun izleme raporları ve analiz sonuçlarını alabilir ve ardından hemen oyunun parametrelerine ve dengesine odaklanabilir. Ayarlamaları yapmak. Bu, oyunun yineleme döngüsünü büyük ölçüde kısaltabilir ve oyunun canlılığını güçlendirebilir.

Tencent'te gerçek zamanlı hesaplamanın kullanımı: kesin öneri (Guangdiantong reklam önerisi, haber önerisi, video önerisi, oyun prop önerisi); gerçek zamanlı analiz (WeChat operasyon veri portalı, efekt istatistikleri, sipariş profili analizi); gerçek zamanlı izleme (gerçek zamanlı izleme platformu, Oyun içi arayüz araması)

Reklamları daha doğru bir şekilde sunmak için, Alimama'nın arka uç bilgi işlem motorunun her kullanıcının ilgi alanlarını koruması gerekir (ideal olarak, ilgileniyorsanız size ne tür reklamlar gönderilir). Kullanıcı ilgi alanları esas olarak kullanıcının geçmiş davranışından, kullanıcının gerçek zamanlı sorgusundan, kullanıcının gerçek zamanlı tıklamasından ve kullanıcının coğrafi bilgilerinden elde edilir; bunların arasında gerçek zamanlı sorgu ve gerçek zamanlı tıklama gibi kullanıcı davranışlarının tümü gerçek zamanlı verilerdir. Sistemin gerçek zamanlı doğasını göz önünde bulunduran Alimama, kullanıcı ilgi verilerini korumak için Storm'u kullanıyor ve bu temelde kitle hedefli reklamcılık yapıyor.

1.3, Storm çekirdek teknik noktaları

Temel teknik noktalar

Linux ortam hazırlığı, zookeeper küme oluşturma, Storm küme oluşturma, Storm yapılandırma dosyası yapılandırma öğesi açıklaması, küme oluşturma ortak problem çözme.

Fırtına alıştırma vakası

Ant Financial tarafından sağlanan son verilere göre, bu yıl Double Eleven'daki işlemlerin zirve değeri, geçen yıl saniyede 38.500 işlemin 2.23 katı olan saniyede 85.900 işlem oldu. Bu veriler ayrıca saniyede 60.000 işlem tahminini aştı. Şirket liderlerinin görebilmesi için sipariş miktarı gerçek zamanlı olarak nasıl hesaplanır?

(Resim Double Eleven Alipay'in işlem tutarını göstermektedir)

Fırtınanın temelleri ve ilkeleri

Storm ortak bileşenleri ve programlama API'si: Topoloji, Çıkış, Bolt, Storm gruplama stratejisi (akış gruplamaları), Storm projesi maven ortamı yapımı, bir WordCount örneği geliştirmek için Strom'u kullanma, Storm programı yerel mod hata ayıklama, Storm mesaj güvenilirliği ve hata toleransı ilkesi, Storm görevi Gönderme süreci, Strom mesajı hata tolerans mekanizması.

(Resim fırtına bileşenini göstermektedir)

1.4, Kafka temel teknik noktaları

Storm, mesaj kuyruğu Kafka'yı birleştirir: mesaj kuyruğunun temel kavramları (Üretici, Tüketici, Konu, Broker vb.), Mesaj kuyruğu Kafka kullanım senaryoları, Storm ile Kafka programlama API'si, Kafka yük dengeleme, Kafka mesaj depolama prensibi vb.

(Resim, Kafka mesaj kuyruğu prensibini göstermektedir)

2. Akış bilgi işlem vakasıyla gerçek mücadele

Gerçek vaka bölümü temel olarak, tıklama akışı tabanlı günlük analiz sistemi, sistem günlüğüne dayalı izleme alarm sistemi ve sipariş tabanlı işlem risk kontrol sistemi olmak üzere üç gerçek işletme durumunu içerir. Üç durum, kuruluştaki tipik projelerdir. Bu aşamayı inceledikten sonra, işletmenin iş yapısına göre ilgili fırtına programlarını bağımsız olarak geliştirebilirsiniz.

Bu aşamayı öğrendikten sonra hakim olunabilecek temel yetkinlikler:

1. Kuruluşun temel iş gereksinimlerinde uzmanlaşın

2. Gerçek zamanlı sistemlerin ortak geliştirme süreci ve işletim deneyiminde ustalaşın

Bu aşamadan sonra çözülebilecek gerçekçi sorunlar:

İş ihtiyaçlarını karşılamak için fırtına programını bağımsız olarak geliştirebilir

Bu aşamadan sonra sahip olabileceğiniz piyasa değeri:

Yeterli öğrenme ve ustalaşmadan sonra, kurumsal gelişimin birincil ihtiyaçlarını karşılayabilir.Pazar geri bildirim verilerine göre, maaş genellikle 15000-18000 yuan / ay'dır.

2.1. Durum: Trafik günlüğü analizi

Trafik günlüğü analizinin huni modeli: büyük e-ticaret web siteleri, yüz milyonlarca kullanıcı ve on milyonlarca aktif kullanıcı. Bir ürün sayfasının etkinliği nasıl değerlendirilir? Örneğin: görüntüleme sayısı, alışveriş sepeti sayısı, sipariş sayısı , Ödeme sayısı ve tamamlanma.

(Resim, veri departmanı için gerekli olan log analizi huni modelini göstermektedir)

Trafik günlüğü analizinin temel veri analizi: E-ticaret online ürün sayısı on milyonlarda, mağaza sayısı milyonda ... Her bir ürün sayfasının ziyaret sayısı, kullanıcı, kaynak bilgileri ve diğer temel bilgiler gerçek zamanlı olarak nasıl hesaplanır? Her mağaza için ziyaret sayısı, kullanıcı sayısı ve kaynak bilgileri gibi temel veriler nasıl hesaplanır?

(Resim, veri departmanı için gerekli olan sayfa tarama analizini göstermektedir)

2.2. Durum: Birleşik İzleme ve Alarm Sistemi

Şirketin işinin gelişmesiyle birlikte, şirketin işini destekleyen sistemlerin sayısı giderek artmaktadır. Şirketin işinin normal gelişimini sağlamak için, sorunları en aza indirecek şekilde zamanında tespit etmek ve çözmek için bu çevrimiçi sistemlerin işleyişini izlemek için acil bir ihtiyaç vardır. İşletme üzerindeki etkisi. Farklı işletmeleri destekleyecek düzinelerce veya yüzlerce sunucu var ve büyük işletmelerin binlerce sunucusu olabilir.Peki her bir sunucunun donanım durumu ve iş uygulama durumu gerçek zamanlı olarak izlenebilir, böylece zamanında tespit edilebilir ve sorunları hızlı bir şekilde çözülebilir? ?

(Resim, şirketin günlükleri oluşturduğu sistemlerin listesini gösterir)

Birleşik izleme sistemi tarafından tetiklenen SMS uyarıları

Birleşik izleme sistemi tarafından tetiklenen e-posta uyarıları

2.3. Durum: İşlem Riski Kontrol Sistemi

E-ticaret, İnternete dayalı yeni bir ticaret modelidir ve en büyük özelliklerinden biri, işleme katılan tüm tarafların ve işbirliği yapan ortakların, ağ ortamı altında ticari elektronik uygulamalara ortaklaşa katılmak için İnternet aracılığıyla yakından entegre edilmesi gerektiğini vurgulamaktır. Kullanıcı bilgileri, bilgisayar virüslerine ve bilgisayar korsanlarına karşı savunmasızdır. Ticari bilgiler ve verilerin ele geçirilmesi ve ele geçirilmesi, şifre tespiti ve hırsızlığı kolaydır. Olağandışı kullanıcı bilgilerinin tüccarlar ve kullanıcılar için gereksiz kayıplara neden olmasını önlemek için şirketler, kullanıcı siparişlerini analiz etmeyi bekler , Kuralları tetikleyen, gerektiğinde emirleri durduran ve kilitleyen emirler için risk uyarısı yapın.

(Resim, siparişlerin anormal şekilde ele geçirildiğini gösterir)

4. Kıvılcım bellek hesaplama aşaması

Bu aşamayı öğrendikten sonra hakim olunabilecek temel yetkinlikler:

1. Scala işlevsel programlama özelliklerinde uzmanlaşın, programları geliştirmek için Scala'yı kullanma konusunda yetkin ve Scala'da yazılmış diğer kaynak kodlarını anlama.

2. Bir Spark kümesi oluşturun, Spark hesaplama programları yazmak için Scala'yı kullanın, Spark ilkelerinde uzman olun ve Spark kaynak kodunu okuyabilirsiniz.

3. DataFrame ve RDD arasındaki ilişkiyi anlayın, DataFrame API'yi yetkin bir şekilde kullanın, yapılandırılmış verileri işlemek için Spark SQL'i yetkin bir şekilde kullanın, Spark SQL aracılığıyla çeşitli veri kaynaklarını bağlayın ve işlenen sonuçları depolama ortamına geri yazın.

4. Spark Streaming'in temel DStream'ini anlayın, DStream'in programlama API'sinde uzmanlaşın ve gerçek zamanlı hesaplama programları yazın.

Bu aşamadan sonra çözülebilecek gerçekçi sorunlar:

Büyük miktarda verinin hesaplanması ve analizi, değerli verilerin madenciliği yoluyla Spark büyük veri uygulamalarını hızlı bir şekilde geliştirmek için Scala kullanma yeterliliği, işletmelerin karar vermeleri için bir temel sağlar.

Bu aşamadan sonra sahip olabileceğiniz piyasa değeri:

Kıvılcımı öğrendikten ve içeriğine hakim olduktan sonra, orta düzey bir büyük veri mühendisi olma yeteneğine sahip olacaksınız ve maaş 20K ~ 25K'ya ulaşabilir.

1. Scala fonksiyonel programlama

Giriş: Scala, nesne yönelimli ve işlevsel programlamayı bütünleştiren bir programlama dilidir.Güçlü ifade yeteneği, zarif API'si ve yüksek verimli performansı, giderek daha fazla programcı tarafından tercih edilmektedir. Spark'ın en alt katmanı Scala dilinde yazılmıştır Spark'ı iyice öğrenmek istiyorsanız, Scala'yı iyi öğrenmelisiniz.

Örnek Olay: Akka çerçevesine dayanan Scala programlama uygulaması, basit bir dağıtılmış RPC iletişim çerçevesi yazıyor

2. Çevrimdışı verileri işlemek için Spark'ı kullanın

Giriş: Spark, bellek hesaplamasına dayalı büyük veri paralel hesaplama çerçevesidir.Yüksek hata toleransına ve yüksek ölçeklenebilirliğe sahiptir. Büyük ölçekli kümeleri çok sayıda ucuz donanıma yerleştirebilir. Aynı koşullar altında Hadoop'tan 10 ila 100 kat daha hızlıdır.

3. Yapılandırılmış verileri işlemek için Spark SQL'i kullanın

Giriş: Spark SQL'in öncülü, yapılandırılmış verileri işlemek için tasarlanmış Shark'tır.Hive'e benzer şekilde, SQL'i bir dizi RDD görevine dönüştürür ve çalıştırılması için Spark kümesine gönderir. Hesaplama bellekte yapıldığından, kovandan daha yüksek performansa sahiptir. Pek çoktur ve Spark programları geliştirmenin zorluğunu basitleştirir ve geliştirme verimliliğini artırır.

4. Gerçek zamanlı hesaplamaları tamamlamak için Spark Streaming'i kullanın

Giriş: Spark Streaming, Apache Storm'a benzer ve veri akışının işlenmesi için kullanılır. Resmi belgelerine göre Spark Streaming, yüksek verim ve güçlü hata toleransı özelliklerine sahiptir. Spark Streaming, Kafka, Flume, Twitter, ZeroMQ ve basit TCP soketleri gibi birçok veri giriş kaynağını destekler. Veri girişinden sonra, Spark'ın haritalama, azaltma, birleştirme, pencere vb. Gibi oldukça soyut ilkelleri hesaplamalar için kullanılabilir. Sonuçlar ayrıca HDFS, veritabanları vb. Gibi birçok yerde saklanabilir. Ek olarak Spark Streaming, MLlib (makine öğrenimi) ve Graphx ile mükemmel bir şekilde entegre edilebilir.

5. Kıvılcım entegre projesi:

Giriş: Bu proje, oyunun tüm yaşam döngüsü boyunca üretilen verileri analiz etmek için Spark SQL ve Spark Streaming kullanır.Bir oyuncunun oyuna ilk girişinden her gün oluşturulan oyun günlüğüne kadar, oyunun ve oyuncuların işleyişini analiz etmek için büyük miktarda veri kullanılır. Çeşitli davranışlar: aktif kullanıcılar, kullanıcıyı elde tutma, yeniden doldurma oranı, oyun geliri, eklenti analizi vb.

Oyuna giriş yapan oyuncunun ürettiği verilerle bir gün içinde çeşitli zaman dilimlerinde oyuna girme durumunu analiz edin

Oyuncunun oturum açma oyunu tarafından oluşturulan verilerle oyuncunun ülkedeki durumunu adım adım analiz edin ve reklam stratejisini ayarlayın

Kullanıcı tutma göstergeleri, oyunun oyunculara çekiciliğini analiz edebilir ve kullanıcı kaybının nedenlerini analiz edebilir

Kullanıcı seviyesi bilgileri, oyuncuların seviye dağılımını analiz edebilir, ekipman patlama oranını ve oyun zorluğunu ayarlayabilir

Yukarıdaki oyunun çeşitli veri göstergelerinin analizi yoluyla, oyun operatörleri oyunun çalışmasını ve bakımını anlayabilir ve operatörlere oyunun sağlıklı ve istikrarlı çalışmasını sağlamak için çeşitli kişiselleştirilmiş ayarlama stratejileri sağlayabilir.

2018'de Chongqing'i Taşıyan KişilerLi Zemin: Kendini Kırsal Canlandırmaya Adanmış Özel Bir Girişimci
önceki
"Acil durumda emri çıkar" Dong Zijian, Xiang kızı tarafından saniyeler içinde tokatlandı.
Sonraki
Resimli anlar | Yeter ... Lütfen ağzınızı kapatın ve konuşmayı bırakın ...
Antifrizin farklı renkleri hakkında herhangi bir ayrıntı var mı?
Bir (veya iki) yardımcıya mı ihtiyacınız var? Youbionic, 2.100 $ fiyatına sahip bir biyonik kolu piyasaya sürerek size "olağanüstü yetenekler" sağlar
Kanye West güçlü bir üst gövdeye sahip. Bu yeni sıcak marka mı olacak? !
2018'de Chongqing'i Taşıyan İnsanlarXie Binrong: Liangshan'daki Yi Uyruğuna Bilgi Getiren "Göçmen Kuş"
Tian Fuzhen, Liu Ruoying'in ilk yönetmenlik denemesi olan "Küçük Şanslı" yı söylüyor ve "Uzun zamandır aşık olan arkadaşlar" ı söylüyor.
Yüksek hızda sürerken arabaya ne olur?
Sıradan programcılar, şu anda yetersiz olan büyük veriyle ilgili yeteneklere nasıl dönüşüyor?
Gizemi arkadaşlarınızla çözün, "Shadow of the Tomb Raider" yakında kooperatif moduna katılacak
Madden! "Pacific Rim: Resurrection of Thunder" 488 milyon özel efekt bombardımanı kazandı
Ayakkabı yüzüğü viral oldu, yıldırım AJ1 fiyatının 59,99 ABD doları olduğunu hiç hayal etmemiştim
A6 veya Huiang veya Aurora satın almak için 350.000'lik bir bütçe mi?
To Top