Bir acemi büyük veri alanına nasıl girer, bir makale sizi öğrenme rotasına aşina kılar

Son zamanlarda, birçok insan büyük veri geliştirmeyi öğrenmek istiyor, ancak öğrenmeye nasıl başlayacağını bilmiyor. Bugün, büyük veriye yeni başlayanlar için büyük bir veri geliştirme öğrenme rotası derledik.

Aşağıdakiler, büyük veri geliştirmenin içeriğini göstermek için on bölüme ayrılmıştır:

Yukarıdakiler büyük veri acemi. Büyük veri geliştirmeyi öğrenmek istiyorsanız, içeriği öğrenmeniz gerekir. Büyük veri öğrenimi sürekli bir süreçtir ve büyük veri geliştirme hakkında daha fazla bilgi edinmek istersiniz.

Şimdi öğrenme rotasına bir göz atalım:

İlk aşama: Linux kursu Linux'un temel işleyişini açıklar.Bu, dosya sisteminin komut satırı altında çalışması ile ilgilidir. Bu, Hadoop öğrenmenin temelidir. Aşağıdaki tüm videolar Linux işletimine dayanmaktadır. Pek çok öğrencinin Linux temeli olmadığı gerçeği göz önüne alındığında, bu içerik sıfır Linux temeli girişi sağlamak için özel olarak eklenmiştir. Hiç linux kullanmadıysanız, endişelenmeyin, bu bölüm başlayabilir. Linux aynalarını yüklemek için vmware nasıl kullanılır. Kabuk ortamında dosya sistemini çalıştırmak için Linux masaüstü ortamını ve kabuk ortamını anlayın ve daha fazla, touch, cp, mv, rm, vb. Gibi yaygın olarak kullanılan 20'den fazla ustalaşın.

  • İlk aşama: Linux kursu Linux'un temel işleyişini açıklar.Bu, dosya sisteminin komut satırı altında çalışması ile ilgilidir. Bu, Hadoop öğrenmenin temelidir. Aşağıdaki tüm videolar Linux işletimine dayanmaktadır. Pek çok öğrencinin Linux temeli olmadığı gerçeği göz önüne alındığında, bu içerik sıfır Linux temeli girişi sağlamak için özel olarak eklenmiştir.
  • Hiç linux kullanmadıysanız, endişelenmeyin, bu bölüm başlayabilir.
  • Linux, vmware kullanarak linux yansıtmayı nasıl kuracağını bilir. Linux'un masaüstü ortamını ve kabuk ortamını bilir. Dosya sistemini kabuk ortamında çalıştırabilir. More, touch, cp, mv, rm gibi 20'den fazla ortak komuta hakim ol. ip, ana bilgisayar adı ve diğer ayarlar vmware ve linux arasındaki iletişim ayarlarını öğrenir, yalnızca ana bilgisayar, köprü, nat ve diğer ağ bağlantı yöntemlerinin nasıl uygulanacağını öğrenin, linux süreç yönetimini öğrenin, süreçleri nasıl görüntüleyeceğinizi ve sileceğinizi öğrenin, linux yazılım yönetimini öğrenin, ana java, mysql vb. Ortam değişkeni yapılandırmasını kurun ve öğrenin, ortam değişkenlerinin nasıl ayarlanacağını öğrenin, linux ssh yönetimini öğrenin, şifresiz oturum açma konusunda ustalaşın, linux güvenlik duvarı yönetimini öğrenin, güvenlik duvarının nasıl kapatılacağını ve belirlenen bağlantı noktalarının nasıl açılacağını öğrenin, linux planlama yönetimini öğrenin ve crontab kullanımında ustalaşın

İkinci aşama: hadoop2 kursu

Sözde dağıtılmış deneysel ortam kurma: Bu bölüm, giriş seviyesine ait en temel derstir. Esas olarak hadoop'u tek bir Linux makinesine kurmanın ve bir Linux kümesine hadoop kümesinin kurulmasının sözde dağıtılmış modunu açıklar. Linux'a aşina olmayan öğrenciler için kurs, yaygın olarak kullanılan linux komutlarını kısaca açıklayacaktır. Bu ikisine hakim olunmalıdır. Mevcut öğretim sayesinde, birçok öğrenci ortamı doğru bir şekilde yapılandıramıyor.

Sözde dağıtılmış deneysel bir ortam oluşturun

  • Hadoop kavramı, sürümü, tarihçesi Hadoop ve çekirdek kompozisyon tanıtımı ve hdfs, mapreduce mimarisi Hadoop küme yapısı Hadoop sözde dağıtımı ayrıntılı kurulum adımları Komut satırı ve tarayıcı aracılığıyla hadoop'u gözlemleme

HDFS mimarisi ile kabuk ve Java işletim yöntemlerini tanıtın: Bu bölüm, hadoop'un çekirdeklerinden biri olan hdfs'nin bir açıklamasıdır. HDFS, tüm Hadoop işlemlerinin temelidir ve temel içeriğe aittir. Bu bölümün içeriğinin anlaşılması, sonraki tüm derslerin çalışmasını doğrudan etkiler. Çalışmanın bu bölümünde, hdf'lerin mimarisini ve hdf'lerin shell ve java kullanılarak farklı şekillerde nasıl çalıştırılacağını anlatacağız. İş yerinde, bu iki yöntem çok yaygın olarak kullanılmaktadır. Bu bölümün içeriğini öğrendikten sonra kendi ağ disk uygulamanızı geliştirebilirsiniz. Çalışmanın bu bölümünde, sadece teori ve operasyonu açıklamakla kalmayacağız, aynı zamanda bazı öğrencilerin gelecekte hadoop kaynak kodunu değiştirmesi için uygun olan hdfs kaynak kodunu da açıklayacağız. Son olarak, Hadoop operasyonunun temeli olan Hadoop'un RPC mekanizmasını açıklamamız gerekiyor.Bu bölüm sayesinde, Hadoop'un nasıl anladığını anlayabiliriz. Kafanızı karıştırmayın.Bu bölümün içeriği özellikle önemlidir.

HDFS mimarisine giriş ve

Kabuk, java çalışma modu

  • Hdfs mimarisi ayrıntıları NameNode, DataNode, SecondaryNameNode mimarisi İsim düğümünün yüksek güvenilirliği garanti edilirse, Datanode'daki blok bölme ilkesi ve depolama yöntemi İsim kodu, datanode veri depolama konumu nasıl değiştirilir Kaynak kodunu görüntüleyin, hadoop'un rpc üzerine kurulduğunu bilin hdfs kaynak kodunu görüntüleyerek, istemcinin Namenode ile rpc aracılığıyla nasıl iletişim kurduğunu öğrenin

MapReduce mimarisine ve çeşitli algoritmalara giriş (1): Bu bölüm, hadoop'un çekirdeklerinden biri olan mapreduce'un bir açıklamasıyla başlar. Mapreduce, hadoop'un özüdür ve gelecekte ustalaşılması gereken çeşitli çerçevelerin çalışması için temel oluşturur. Bu açıklamada, ayrıntılı mapreduce yürütme sürecine hakim olun, kelime sayısını örnek olarak alın, mapreduce'un ayrıntılı uygulama sürecini açıklayın. Ayrıca, Hadoop'un serileştirme mekanizmasını ve veri türlerini açıklar ve telekom günlük bilgilerinin istatistiklerini gerçekleştirmek için özel türleri kullanır.

MapReduce gövdesine giriş

Departman yapısı ve çeşitli algoritmalar (1)

  • Mapreduce'un İlkeleri Mapreduce tarafından gerçekleştirilen sekiz adım, kelime sayma işlevini uygulamak için mapreduce'un nasıl kullanılacağını ayrıntılı olarak açıklar ve Mapper işlevinin nasıl ele alınacağını ve Reducer işlevinin nasıl ele alınacağını ayrıntılı olarak açıklar. Çeşitli hadoop sertifikasyonları arasında, araştırmanın odak noktası budur. Hadoop'un özel tip Yazılabilir arayüzünü ayrıntılı olarak açıklayacaktır. Telekomünikasyon İnternet günlüğü örneği aracılığıyla hadoop türünün nasıl özelleştirileceği. Örnek, veritabanı girişi, xml dosyası ve daha fazlası dahil olmak üzere hadoop1'in çeşitli giriş kaynağı işlemcilerini açıklamaktadır. Dosya girişi vb. Ve nasıl özelleştirileceğini açıklayın
  • Tanım giriş kaynağı işlemci örneği, veritabanı çıktısı, dosya çıktısı vb. Dahil olmak üzere çeşitli hadoop1 çıktı kaynaklarını açıklar ve çıktı kaynağı işlemcisinin nasıl özelleştirileceğini açıklar,
  • Kaynak kodu aracılığıyla özel bir çıktı dosyası adı uygulayın, hadoop'un hdfs dosyasını nasıl okuduğunu ve eşleme yönteminin çağırması için anahtar-değer çiftlerine dönüştürdüğünü söyler

MapReduce mimarisi ve çeşitli algoritmalara giriş (2): Bu bölüm, mapreduce'u açıklamaya devam edecek ve eski api, counter, birleştirici, partitioner, sıralama algoritması ve gruplama algoritmasının kullanımını açıklayacaktır. Bu iki kurs sayesinde, öğrenciler tüm haritanın uygulama ayrıntılarını çözebilir ve tüm ölçeklenebilirlik noktalarını azaltabilir ve anlayabilirler. Bu bölümün içeriği şu anda piyasada bulunan kitap ve videolarda bu kadar kapsamlı bulunmamıştır.

MapReduce gövdesine giriş

Departman yapısı ve çeşitli algoritmalar (2)

  • Yeni ve eski api arasındaki farkı, işlemi tamamlamak için eski api'nin nasıl kullanılacağını açıklayın, bir kavanozda nasıl paketleneceğini tanıtın, hadoop programını komut satırında çalıştırın, yerleşik hadoop sayacını tanıtın ve birleştirme için özel bir sayaç kavramını (birleştirici), neden kullanıldığını, nasıl kullanılacağını ve ne zaman kullanıldığını açıklayın Hangi kısıtlamalar yerleşik hadoop kavramını tanıtır, neden ve nasıl kullanılacağı, hadoop'un yerleşik sıralama algoritmasını sunar ve sıralama kurallarının nasıl özelleştirileceği, hadoop'un yerleşik gruplama algoritmasını sunar ve gruplama kurallarının nasıl özelleştirileceği, mapreduce'u tanıtır. Mapreduce algoritmasının ortak uygulama senaryoları ve nasıl uygulanacağı Daha yüksek işletim verimliliği elde etmek için mapreduce algoritmasının nasıl optimize edileceğini açıklar

Üçüncü aşama: zookeeper kursu Bu bölümün içeriğinin hadoop ile pek ilgisi yoktur, sadece Hbase kümesi kurulduğunda kullanılır. Bununla birlikte, hayvan bakıcısı, dağıtılmış projelerde yaygın olarak kullanılmaktadır.

hayvanat bahçesi görevlisi

  • Zookeeper küme ortamı oluşturmak için Zookeeper nedir? Zookeeper'ı çalıştırmak için komut satırı nasıl kullanılır? Zookeeper'ı çalıştırmak için java nasıl kullanılır

Dördüncü aşama: HBase kursu hbase iyi bir şeydir ve özellikle telekomünikasyon, bankacılık, sigorta ve diğer sektörlerde gelecekteki çalışmalarda sıklıkla karşılaşılacaktır. Bu bölüm, hbase ve küme kurulumunun sözde dağılımını açıklar ve temel teori ile çeşitli işlemleri açıklar. Herkesin hbase'in büyük verinin gerçek zamanlı sorgusu için neden bu kadar uygun olduğunu anlamasını sağlamak için hbase ilkesini açıklıyoruz. Son olarak, hbase optimizasyonunun odak noktası olan hbase'in tablo yapısını nasıl tasarladığını açıklayın.

HBase

  • Hbase hbase veri modeline genel bakış hbase tablosu tasarımı hbase sözde dağıtım ve küme kurulumu hbase kabuk işlemi hbase Java API işlemi hbase veri geçişi hbase veri yedekleme ve kurtarma Hbase, Hive kullanımı hbase küme yönetimi hbase performans ayarı

Beşinci aşama: CM + CDH küme yönetimi kursu Cloudera şirketi ve CDH tarafından geliştirilen küme web yönetimi aracı cloudera yöneticisi (CM) şu anda büyük oranda işletmelerde kullanılmaktadır. CM + CDH küme yönetimine hakim olmak ve kullanımı yalnızca küme kurulumunu basitleştirmekle kalmaz , Yapılandırma, ayarlama vb. Ve görev izleme, küme erken uyarı ve hızlı sorun bulma için çok faydalıdır.

CM + CDH küme yönetimi

  • CM + CDH kümesinin kurulumu, CM ana bilgisayarının ve çeşitli hizmet bileşenlerinin yönetimine dayanır.CDH küme yapılandırması ve parametre ayarlama CDH kümesi HA yapılandırması ve küme yükseltmesi CM izleme ve yönetim kümesi yönetim notları

Altıncı aşama: Kovan kursu "Yüksek maaş almak için hadoop1 zero vakıf" dersinde, Hive çerçevesinin içeriğini dahil ettik, ancak içeriği çok küçük, Giriş olarak kullanılabilir, ancak çalışmada bulunmayan birçok kurs var. Bu dersin amacı, Hive veri tabanı yönetimi, veri tablosu yönetimi, tablo bağlantısı, sorgu optimizasyonu ve Hive tablo yapısının nasıl tasarlanacağına odaklanarak Hive çerçevesinin tüm köşelerini kapsamaktır. Bu, eserde en acil ihtiyaç duyulan içeriktir ve işin odak noktasıdır.

Kovana genel bakış, kurulum

Ve temel işlemler

  • Herkes, Hadoop alanında Hive'a veri ambarı demeye alışkındır. Hive, MySQL'e çok benzer, ancak MySQL kullanmaktan daha ilginçtir.
  • Burada Hive'ın mimarisini ve Hive'ın nasıl kurulacağını anlatacağız. Ayrıca Hive'ın temel işleyişini de anlatacak, amaç aşağıda öğrenmeye devam etmektir. (Teorinin oranı Gerçek savaşın oranı )

Hive tarafından desteklenen veri türleri

  • Hive, giderek artan veri türlerini destekler. Bunların arasında, bileşik veri türü, ilişkisel veritabanındaki bire çok ilişkisini Hive'daki bir tabloya taşıyabilir.
  • Bu, önceki veritabanı tasarım paradigmamızı altüst eden çok büyülü bir şey. Bu veri tipinin nasıl kullanılacağını, nasıl yapılacağını açıklayacağız.
  • Veritabanı tabloları Hive tablolarına taşınır. (Teorinin oranı Gerçek savaşın oranı )

Kovan veri yönetimi

  • Hive'ı her zaman MySQL ile karşılaştırıyoruz. Bunların arasında Hive'ın veri işleme yöntemi MySQL'den en büyük farkıdır. Numaraları nasıl içe aktaracağımızı öğreneceğiz
  • Verileri bölümlere göre nasıl içe aktaracağınızı, aşamalı olarak nasıl içe aktaracağınızı ve içe aktarma işlemi sırasında işlemleri nasıl optimize edeceğinizi öğreneceksiniz. İçeriğin bu kısmı
  • Eserde en sık kullanılan içeriklerden biri. (Teorinin oranı Gerçek savaşın oranı )

Hive sorgusu

  • Bu bölüm, tablo birleşimlerine odaklanarak Hive sorgu ifadelerinin temel yapısını açıklamaktadır. Bunların arasında daha önce bilmediğimiz bazı gramerler var, örneğin sol yarı
  • katılma, sıralama, kümeleme vb. Bu bölüm aynı zamanda eserde en çok kullanılan içeriklerden biridir. (Teorinin oranı Gerçek savaşın oranı )

Kovan fonksiyonları

  • Hive, sorgu sözdiziminin bir uzantısıdır. Hive, bizim için java işlevlerini yazmak için çok kullanışlıdır, bu da çok uygundur. Kısaca ortak girişe ek olarak
  • Tek satırlı işlevlere, toplama işlevlerine ve tablo işlevlerine ek olarak, işlevlerin nasıl özelleştirileceğini de tanıtır. Bu şekilde, orijinal fonksiyon kütüphanesini genişletebilir ve kendi
  • İş mantığı. Burası sistemimizin yeteneği için iyi bir yerdir! (Teorinin oranı Gerçek savaşın oranı )

Kovan dosya biçimi

  • Sıradan dosya formatlarına ek olarak, Hive depolaması ayrıca serileştirilmiş dosya formatları ve sütunsal depolama formatları içerir. Nasıl kullanılacağını ve nasıl bir sahne olduğunu açıklayın
  • Altında kullanın. Son olarak, veri depolama formatının nasıl özelleştirileceğini açıklayın. (Teorinin oranı Gerçek savaşın oranı )

Kovan performans ayarı

  • Sonunda performans ayarlama kısmına geldi. Büyük veri artı kesinti grubu 80512 artı 7855 öğrenin Yerel modu, katı modu, paralel yürütmeyi, birleştirme optimizasyonunu vb. Açıklayacağız. Optimizasyonu deneme yoluyla keşfedin
  • Araçların değeri. Bu, tüm dersin özü ve gelecekte çalışma yeteneğimizin en önemli tezahürüdür. (Teorinin oranı Gerçek savaşın oranı )

Gerçek dövüşü tasarla

  • Önceki içeriği entegre etmek için bir telekomünikasyon projesi kullanacağız. Bu gerçek bir çalışma ortamından bir projedir, her birini nasıl kullanacağınızı öğrenin
  • Bir bilgi noktası proje gereksinimlerini karşılar. Ve herkesin kendi başına alıştırma yapabileceği gerçek veriler var. (Teorinin oranı Gerçek savaşın oranı )

Çeşitli

  • Görünümler, dizinler ve HBase entegrasyonu gibi bazı önemsiz bilgi noktaları dahil. Bunlar önceki bölüme dahil edilmemiştir ve ayrı olarak listelenmiştir. Ve göre
  • Kursiyerlerin iş görüşmesi durumu sürekli eklenmeyecektir. (Teorinin oranı Gerçek savaşın oranı )

Yedinci aşama: Sqoop kursu sqoop, ilişkisel veritabanı ve hdfs arasında iki yönlü veri dönüşümü için uygundur ve işletmelerde çok yaygın olarak kullanılmaktadır.

Sqoop

  • Pratikte Sqoop nedir: Sqoop'un mysql'deki verileri hdf'lere nasıl aktardığını açıklayın.Pratik: Sqoop'un verileri hdfs'deki mysql'ye nasıl aktardığını ve Sqoop'un gelecekte hızlı uygulama için nasıl bir işe dönüştürülebileceğini açıklayın

Sekizinci aşama: Flume course Flume, cloudera tarafından yayınlanan dağıtılmış bir günlük toplama sistemidir.Çeşitli sunuculardan veri toplamak ve bunları hdfs veya diğer hedeflere göndermek için kullanılır.Hadoop depolama verilerinin kaynağıdır ve işletmelerde çok popülerdir.

Kanal

  • Flume nedir? Flume'un mimarisi, Flume'un aracı yapılandırma bilgilerinin nasıl yazılacağını açıklar.Gerçek savaş: Flume, klasörlerdeki dosya değişikliklerini dinamik olarak nasıl izler. Asıl savaş: Flume, verileri hdfs'ye nasıl aktarır. Gerçek savaş: Flume aracılığıyla günlük dosyası değişikliklerinin dinamik olarak nasıl izleneceğini açıklayın. Hdflere aktar

Dokuzuncu aşama: Kafka kursu Kafka, ActiveMQ, RabbitMQ'ya benzer, ancak daha verimli bir mesajlaşma sistemidir.

Kafka

  • Kafka nedir Kafka mimarisi kafka kurulumu kafka depolama stratejisi Kafka yayın ve abonelik Zookeeper koordineli yönetimi kullanarak gerçek mücadele: Kafka ve Storm'un entegre uygulaması

Onuncu aşama: Fırtına kursu Fırtına, hadoop çerçevesi ile birlikte kullanılan gerçek zamanlı hesaplamayı çözmek için özel olarak kullanılır. Bu ders, Storm'un temel yapısını ve teorik sistemini, Storm kümelerinin nasıl konuşlandırılacağını, yerel geliştirme ve dağıtılmış geliştirmenin nasıl gerçekleştirileceğini açıklar. Bu kurs sayesinde herkes Storm salonuna girebilir.Artık çeşitli Storm teknik makalelerini okumak zor değil ve Storm'u geliştirmekten artık korkmuyor.

Fırtına

  • Storm'un mimarisinin temel kavramları ve uygulama alanları, çalışma prensibi, Storm'un bağımsız ortam yapılandırması, küme ortamı yapılandırması, Spout, Bolt, Stream Groupings dahil olmak üzere Storm çekirdek bileşenleri vb. Dahil olmak üzere Storm nedir? Storm, mesaj işlemenin güvenliğini nasıl gerçekleştirir ve mesajı sağlar? Storm'un toplu işlemlerini ihmal etmeden halledin. Asıl savaş: Kelime sayma gibi işlemleri tamamlamak için Storm'u kullanın. Gerçek savaş: Web sitesinin pv, uv ve diğer işlemlerini hesaplayın

On birinci aşama: Redis kursu Redis, İnternet şirketlerinde yaygın olarak kullanılan, yüksek performanslı, bellek tabanlı bir anahtar-değer veritabanıdır.

Redis

  • Redis özellikleri, diğer veritabanları ile karşılaştırma Redis nasıl kurulurRedis komut satırı istemcisi nasıl kullanılır Redis'in dize türü Redis'in karma türü Redis'in toplama türü Redisredis işlemine (işlem) erişmek için java nasıl kullanılır redis pipeline (pipeline) ) Redis kalıcılığı (AOF + RDB) redis, redis master-slave replikasyonunu optimize eder, sentinel yüksek kullanılabilirlikli redis3.x küme kurulum yapılandırması

On ikinci aşama: Scala kursu Scala, Spark'ı öğrenmek için temel bir dildir ve bu konuda uzmanlaşılmalıdır.

Scala

  • Scala yorumlayıcı, değişkenler, ortak veri türleri, vb. Scala'nın koşullu ifadeleri, giriş ve çıkışları, döngüler ve diğer kontrol yapıları Scala'nın fonksiyonları, varsayılan parametreleri, değişken uzunluklu parametreler vb. Scala dizileri, değişken uzunluklu diziler, çok boyutlu diziler vb. Fasulye özellikleri, yardımcı yapıcılar, ana yapıcılar ve diğer ölçekleme nesneleri, tekli nesneler, eşlik eden nesneler, genişletilmiş sınıflar, uygulama yöntemleri ve diğer ölçek paketleri, giriş, kalıtım ve diğer kavramlar dahil olmak üzere Scala sınıfları. Scala özellikleri. Scala'nın üst düzey işlevleri (kilit nokta bu, spark'ın orijinal kodu neredeyse tüm üst düzey işlevlerdir) Scala koleksiyonu

On üçüncü aşama: Büyük veriyi öğrenen Spark kursu artı QQ grubu: 805127855 Spark, MapReduce hesaplamadan 100 kat daha hızlı olduğu söylenen yüksek performanslı bir dağıtılmış hesaplama çerçevesidir, bu kurs sizin için sırrı ortaya çıkaracaktır.

Kıvılcım

  • Spark girişi Spark ve Hadoop karşılaştırması Spark ortamı yapımı gerçek mücadele: kelime sayısını tamamlamak için Spark'ı kullanın Spark önbellek stratejisi Kıvılcım dönüşümü ve eylem Kıvılcım hataya dayanıklı mekanizma Spark'ın temel bileşeni Spark'ın çeşitli RDDSpark akış hesaplaması

On dördüncü aşama: Oozie course oozie, Hadoop ekosisteminde nispeten önemli bir çerçevedir. Sistemdeki rolü, Hadoop Map / Reduce görev iş akışlarını (MR, Hive, Pig, Sqoop vb. Dahil) çalıştırmak için kullanılan iş akışı motoru sunucusudur. ), çoğu işletme, tüm proje sürecinin görev planlamasından kaynaklanmaktadır.

Oozie

  • Oozie'ye Giriş Oozie kurulum yapılandırmasına giriş ve basit çalışması hPDL dil öğrenimi ve süreç tanımlama sızıntı iş akışı yapılandırması ve meta veri veritabanı tanımı sızma zamanlaması görev zamanlaması ve sızıntı API işlemi

On beşinci aşama: Impala kursu Impala, Cloudera tarafından Google Dreme sistemine dayalı olarak tasarlanmış ve geliştirilmiş yeni bir sorgu sistemidir. Karmaşık SQL semantiği sağlar ve Hadoop'un HDFS ve HBase'de depolanan PB düzeyinde büyük verileri sorgulayabilir.

İmpala

  • Impala ve mimarisine girişImpala konfigürasyonu ve ayarıImpala proje uygulamasıImpala ve spark SQL karşılaştırması

On altıncı aşama: Kettle kursu Kettle, saf java ile yazılmış, Windows, Linux, Unix üzerinde çalışabilen yabancı bir açık kaynak ETL aracıdır, veri çıkarma verimli ve kararlıdır. ETL, veri çıkarma (çıkarma), dönüştürme (dönüştürme), hedefe yükleme (yükleme) anlamına gelir.

Su ısıtıcısı

  • Su ısıtıcısına giriş Windows geliştirme ortamının oluşturulması ve linux sunucu yapısının kullanımı ve kaynak kitaplıklarının, değişkenlerin, paylaşılan kitaplıkların yapılandırılmasının kullanımı su ısıtıcısı ortak bileşenler su ısıtıcısı uygulama durumları

On yedinci aşama: Ganglia kursu Ganglia, özel göstergeleri ve kullanıcı görünümlerini genişletmek için C, C ++, Python'u destekleyen, eksiksiz bir grafik izleme arayüzleri seti sağlayan, çeşitli göstergelerin on binlerce düğümü için bir grafik izleme çerçevesidir.

Ganglia

  • Ganglia'nın temel orijinal yapısı ve sunucunun gösterge yapılandırmasını izlemek için gangliyon kullanımı ve büyük veri hadoop ve habase kümelerini izlemek için gangliyonların kullanımı, özel göstergeleri yazmak ve kullanmak için kanal izleme

On sekizinci aşama: Takyon kursu Tachyon, yüksek performans, yüksek hata toleransı ve diğer avantajlara sahip açık kaynaklı bir dağıtılmış bellek depolama sistemidir. Ayrıca, Hadoop MapReduce ve Apache Spark ile uyumlu Java benzeri dosya API'si, eklenti temel dosya sistemine sahiptir. Tachyon, resmi olarak HDFS veriminden 300 kat daha yüksek olduğu iddia edilen küme çerçeveleri (Spark, MapReduce, vb.) İçin bellek düzeyinde hızlı küme arası dosya paylaşım hizmetleri sağlayabilir.

Takyon

  • Takyon Taşyon mimarisine giriş ayrıntılı Takyon kurulumu Takyon parametre yapılandırması Takyon, Spark ile birlikte Tachyon kullanmak için Hadoop ile birleştirildi

Aşama 19: Solr kursu

  • SolrSolr kurulum ve dağıtımına giriş Solr örneği Ayrıntılı solr yapılandırma bilgileri Ayrıntılı solr olgu sorgusu Solr karmaşık sorgu Özel Çince kelime bölütleme aracı ve eş anlamlılar java işlemi uygulamak için solrj kullanın solrsolr vurgulama bileşeni solr optimizasyonu solr ana-bağımlı yapı dağıtımı solrcloud küme kurulumu ve dağıtım solr uygulama uygulaması

Aşama 20: elasticsearch kursu elasticsearch

  • Elasticsearch'e giriş elasticsearch ve solr Elasticsearch kurulumu ve dağıtımı karşılaştırması Elasticsearch küme dağıtımını optimize edin

Aşama 21: Çoklu Okuma Kursu Çoklu Okuma

  • Eşzamanlı, kilit, zamanlayıcı, semafor vb. Kullanarak iş parçacığı havuzlarının oluşturulması ve eşzamanlı koleksiyonların kullanımı dahil olmak üzere iş parçacığı yönetimi iş parçacığı senkronizasyonu

Aşama 22: Java Sanal Makine Optimizasyonu Kursu Java Sanal Makine Optimizasyonu

  • Jvmjava bellek alanını ve bellek tahsisini anlayın Çöp toplayıcı ve geri dönüşüm mekanizması Sanal makine performansı izleme ve hata işleme ortak araçlar İş parçacığı güvenliği ve kilit optimizasyonu Büyük veride JVM optimizasyonu

Aşama 23: Python kursu Python

  • Python Python temel sözdizimine giriş MapReduce programları ve Spark programları yazmak için Python kullanın

Yirmi dördüncü aşama: Mahout kursu Mahout, veri madenciliği ve makine öğrenimi alanında güçlü bir araçtır.Bu kurs, herkesi bu alana yönlendirmek içindir. Kurs içeriği Mahout mimarisine giriş ve Mahout'un öneri, sınıflandırma ve kümeleme alanlarında nasıl kullanıldığını içerir.

Mahout

  • Mahout nedir ve Mahout makine öğrenimi ortamının inşası ve dağıtımı için uygulama senaryoları nelerdir? Mahout'ta hangi yüksek algoritmalar desteklenir? Öneri motoru gerçek savaşını tamamlamak için Mahout'u kullanın: web tabanlı erişim öneri programlarını uygulayın Kümeleme nedir? Mahout'a dayalı ortak kümeleme algoritmaları, Örneğin, k-algoritma savaşı anlamına gelir: haber içeriğinin kümelenmesini gerçekleştirmek için büyük veri artı kesinti grubu 80512 artı 7855'i öğrenin.Sınıflandırma ve sınıflandırmanın çalışma prensibi nedir, özellikleri ayıklayın ve sınıflandırıcı savaşı oluşturun: bir sınıflandırma sunucusu oluşturun

Yirmi beşinci aşama: gerçek muharebe projesi xx forum günlük analizi (kayıt): Bu projenin verileri karanlık at programcısı ( forumunun günlüğünden gelir Bu proje bu kurs için özel olarak hazırlanmıştır. Özel yapım, hadoop kurs çalışmamız için çok uygun. Bazı öğrenciler daha fazla projenin tanıtılması gerektiğini düşünür, hatta birkaç proje yaptıktan sonra projelerin fikirlerinin aynı olduğunu ancak işin farklı olduğunu göreceklerdir. Bu projeyi yazdıktan sonra, projede çeşitli hadoop çerçevelerinin nasıl kullanıldığına dair daha net bir anlayışa ve hadoop ve javaEE kombinasyonunun daha net bir anlayışına sahip olursunuz.

Not: Şirkete girdikten sonra birçok öğrenci, şirketteki hadoop log analizi projelerinin çoğunun projenin geliştirme süreci olduğunu keşfetti ve bu kesinlikle doğru!

xx forum günlük analizi (kayıt)

  • Proje arka planı tanıtımı Veri ölçeğine giriş İş anahtar göstergelerine giriş Günlük verilerini hdfs'ye aktarmak için kanal kullanın, veri temizleme için MapReduce kodu yazın, ayrıntılı günlükleri depolamak için hbase kullanın, ip sorgusuna dayalı verilerin çok boyutlu analizini gerçekleştirin, kovanı kullanın ve kovan analiz sonuçlarını dışa aktarmak için sqoop'u kullanın. MySQL

İnternet e-ticaret tarayıcısı projesi: Bu proje, başlıca İnternet e-ticaret web sitelerinin ürün verilerini taramak için dağıtılmış tarayıcıları kullanır ve ön büro, hızlı ve doğru veri sorgulaması ve ürün karşılaştırması gerçekleştirir.

İnternet e-ticaret tarayıcısı

  • Ürün sayfası taraması ve ayrıştırması Dağıtılmış tarayıcı tasarım ayrıntıları URL bağlantılarının ve sayfa içeriğinin analizi Dağıtılmış tarayıcı izleme işlevi tarayıcıları nasıl depolanır verileri sık sık tarar IP engellenen sorun çözümü tarama hatası analizi url oturum açma gerektiren web sitesi verilerinin kullanımının nasıl ele alınacağı Solr, büyük verilerin doğru sorgulanmasını sağlar ve büyük verilerin hızlı sorgulanmasını sağlamak için hbase kullanır

Yüksek frekanslı veri gerçek zamanlı akış işleme projesi: Bu proje, iş verileri sisteminin yüksek frekanslı günlük verilerinin gerçek zamanlı toplanmasını ve iş işlemesini gerçekleştirir.

Yüksek frekanslı verilerin gerçek zamanlı akışı

  • Yüksek frekanslı günlük verilerinin gerçek zamanlı olarak toplanması, kanal havuz kaynak kodu analizi, toplanan yüksek frekanslı günlük verilerinin arabelleğe alınmasını sağlamak için özel kafkasink elde etmek için avro yöntemini kullanın, kafka'da verilerin gerçek zamanlı okunmasını sağlamak için kafkaspout'u kullanın, günlük verilerini analiz etmek ve işlemek için fırtına gerçek zamanlı hesaplama çerçevesini kullanın Kafka ve Storm'un oluk ve Kafka Entegrasyonu

Çin'deki ilk 50'deki belirli bir web sitesinin İnternet günlük analizi projesi: Ortak İnternet göstergelerini hesaplamak için İnternet günlüklerini toplamak, temizlemek ve analiz etmek için büyük veri araçlarını kullanın; çeşitli boyutlu UV dağıtım raporları, günlük ve aylık göstergeler geliştirin Endeks raporları, ürünler hakkında doğru kararlar vermek, verilerin doğruluğunu kontrol etmek ve geçici grafikler geliştirmek için kullanılır.

Bir web sitesinin internet günlüğü analizi

  • UV, PV, oturum açma, saklama vb. Gibi ortak göstergeleri temizlemek ve analiz etmek için hadoop, mapreduce, hive kullanın. Gerçek zamanlı olarak şarj, tüketim vb. Eğilimlerini analiz etmek için fırtına kullanın. Çeşitli boyutların trend karşılaştırması, her gösterge için günlük ve aylık gösterge raporu oluşturma, su ısıtıcısı verilerini kullanarak doğru Cinsel düzeltme sorunları ve e-posta uyarıları

Mobil iş algısı projesi: Mobil iş algılama sistemi, mobil toplu çevrimdışı çağrı faturası verilerini analiz etmek ve mobil kullanıcıların mobil hizmetleri (veri paketi, çağrı paketi, zil sesi paketi vb.) Kullanımını saymak için temel olarak hadoop kümesinin güçlü bilgi işlem gücünü kullanır. Kullanıcı davranışını ve kullanım alışkanlıklarını algılayan ve mobil iş tanıtımının trendini belirleyen bir sistem.Editör, aşağıda görülebilecek olan 2018 büyük veri öğrenme materyallerini derledi!

1. Giriş malzemeleri 2. İleri düzey eğitim 3. Web çerçevesi 4. Tarayıcı geliştirme 5. Grafikler ve görüntüler 6. Veri analizi 7. Makine öğrenimi 8. Yapay zeka

"Nasıl Elde Edilir": Takip Edin! İleri! Özel mesaj yanıtı: bilgiler ücretsiz olarak alınabilir

Jishou: Küçük "morel" zengin olmanın yeni bir yolunu geliştiriyor
önceki
Birçok arabanın tepesinin arkasındaki küçük çıkıntı nedir?
Sonraki
Senden asla vazgeçme! 4000 kilometre koşan adam ve ölüm tanrısı kız arkadaşını "soydu"
O sevimli ve patlayıcı "tilki tavuk yiyor" filmi, gerçekten beklentileri karşıladı
Lianyuan: Tüm belediye liderleri "Şehir Hareketi" ni gerçekleştirmek için köyün derinliklerine gitti
Büyük Veri Öğrenmeye Başlamak İçin 2018 Temel Planı
IDC, 2018'de robotların ilk on trendini tahmin ediyor: endüstriyel robotlar tercih ediliyorLei Bao 043
200.000 yıllık maaş hesaplandı ve saatlik maaş sadece 50 yuan! 996'nız gerçekten buna değer mi?
72 yaşındaki Spielberg, sanal gerçeklik bilim kurgu "En İyi Oyuncu" filmini oynadı
"Amca beni arabadan aldı ve yolcu bölmesine koydu ..." 18 yaşındaki bir kadın trafik kazası geçirdikten sonra, WeChat netizenlerden polise rapor etmelerini istedi.
Aktif proje %10'dan az ve ortalama yaşam beklentisi sadece bir yıldır. Github Blockchain projesi çok sefil mi? Lei News 042 Sayı 042
güçlü! Ağır demiryolu özel polisinin acil servisi, Bahar Şenliğinin güvenliğini sağlamak için bir tatbikat yapıyor.
Lumi, 100 milyon yuan'den fazla B dönemi finansmanı tamamladı ve akıllı ev kanalı modeli yeniliği gerçekleştirecek
Hao Leinin ilk romanı "Adam öldürme" ortaya çıktı ve bir Hint gerilim filminden uyarlandığından şüpheleniliyor.
To Top