Büyük veri ile Hadoop arasındaki ilişki nedir? Büyük Veri Hadoop'una Giriş

Veri bilimi ve büyük veri teknolojisi (kısaca büyük veri) üzerine çalışan bizler, "büyük veri" terimine aşinayız ve büyük veri hakkında ne kadar çok şey öğrenirsek, bir kelimenin her zaman anılacağını görürüz. Ve bu-Hadoop

Öyleyse Hadoop'un büyük verilerle ne ilgisi var?

Lafta Büyük veri Yani, çeşitli veri türlerinden, Değerli bilgileri hızlı bir şekilde elde etme yeteneği . Büyük veri, daha güçlü karar verme gücüne, içgörüye ve süreç optimizasyon yeteneklerine sahip olmak için yeni işleme modelleri gerektiren devasa, yüksek büyüme oranlı ve çeşitlendirilmiş bir bilgi varlığıdır. Normal işleme aralığını ve boyutunu aşan ve kullanıcıları geleneksel olmayan işleme yöntemlerini benimsemeye zorlayan veri setlerinin tanımıdır.

Büyük veri ve yapay zeka kavramları belirsizdir.Öğrenmek için hangi yol izlenmeli, öğrenmenin ardından nereye gidecek, daha fazla bilgi edinmek isteyen ve öğrenmek isteyen öğrenciler büyük veri öğrenme qq grubuna katılmaya davetlidir: 740041381, çok fazla kuru ürün var ( Sıfır temel ve gelişmiş klasik gerçek savaş) herkesle paylaşmak için, herkesin Çin'deki en eksiksiz üst düzey gerçek savaş ve pratik öğrenme süreci sistemini bilmesini sağlayın. Java ve linux ile başlayın ve ardından yavaş yavaş HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK ve diğer ilgili bilgileri tek tek paylaşmak için derinlere inin!

Büyük veri ile Hadoop arasındaki ilişki nedir?

Hadoop Evet Apache Yazılım Vakfı Başlatılan bir proje bir tür Dağıtılmış veriler ve hesaplama çerçevesi. Büyük miktarlarda saklamakta iyidir. Yarı yapılandırılmış Veri seti. Veriler rastgele saklanabilir, bu nedenle bir diskin arızalanması veri kaybına neden olmaz. Hadoop ayrıca dağıtılmış hesaplamada çok iyidir. Büyük veri kümelerini birden çok makinede hızla işleyin.

Büyük veri teknolojisinin popülaritesiyle, Hadoop bir veri dağıtılmış işleme sistemi olarak Tipik temsilci Açık kaynak özellikleri ve mükemmel performansı nedeniyle, geçici olarak yeni bir favori haline geldi ve bu alanda fiili standart haline geldi. Büyük veri Hadoop'tur , Aslında bu bir Yanlış anlama . fakat Hadoop, büyük veriye eşit değildir , Hadoop sadece Çevrimdışı verileri işlemek için dağıtılmış depolama ve işleme sistemi . Akış verilerini işlemek için Storm, ilişkisel verileri işlemek için Oracle, gerçek zamanlı makine verilerini işlemek için Splunk gibi ... Birçok ana akım büyük veri sistemi var. Hadoop sadece temsilcidir .

Hadoop büyük veri işlemenin önemi

Hadoop Kendi içerisinde olması sayesinde büyük veri işleme uygulamalarında yaygın olarak kullanılabilir. Veri çıkarma, dönüştürme ve yüklemede (ETL) doğal avantajlar . Hadoop'un dağıtılmış mimarisi, büyük veri işleme motorunu depolamaya olabildiğince yakın bir yere koyar; bu, ETL gibi toplu işleme işlemleri için nispeten uygundur, çünkü benzer işlemlerin toplu işleme sonuçları doğrudan depolamaya gidebilir. Hadoop için MapReduce İşlev gerçekleştirildi Tek bir görevi bitir Ve parçalama görevi (Harita) Birden çok düğüme gönderildi , Daha sonra tek bir veri seti olarak Veri ambarına yükleyin (azaltın)

Büyük veri çağında, Hadoop Üstün performansı ile sektörden yoğun ilgi görmüştür, Büyük veri haline gelin İşleme alanı standart. Hadoop günümüzde pek çok alanda becerilerini sergiliyor. Açık kaynak topluluğu ve bu açık kaynak teknolojisine yoğun bir şekilde yatırım yapmaya devam eden ve aktif olarak destekleyen birçok uluslararası teknoloji satıcısı ile Hadoop teknolojisinin yakın gelecekte daha fazla uygulamaya genişletileceğine inanılıyor.

Büyük Veri Hadoop'una Giriş

hadoop nedir

Hadoop, HDFS olarak adlandırılan dağıtılmış bir dosya sistemi (Hadoop Dağıtılmış Dosya Sistemi) uygular. HDFS, yüksek hata toleransı özelliklerine sahiptir ve düşük maliyetli donanımlara yerleştirilmek üzere tasarlanmıştır; ve çok büyük veri kümelerine sahip uygulamalar için uygun olan uygulama verilerine erişmek için yüksek verim sağlar. HDFS, POSIX gereksinimlerini rahatlatır ve dosya sistemindeki verilere akışlar şeklinde erişebilir.

Hadoop çerçevesinin temel tasarımı: HDFS ve MapReduce . HDFS, büyük miktarda veri için depolama sağlarken, MapReduce büyük miktarda veri için hesaplamalar sağlar.

1. Apache Hadoop: Apache açık kaynak kuruluşunun dağıtılmış bilgi işlem açık kaynak çerçevesidir, dağıtılmış bir dosya sistemi alt projesi (HDFS) ve MapReduce dağıtılmış hesaplamayı destekleyen bir yazılım mimarisi sağlar.

2. Apache Hive: Yapılandırılmış veri dosyalarını bir veritabanı tablosunda eşleştirebilen ve veri ambarları için çok uygun olan özel MapReduce uygulamaları geliştirmeye gerek kalmadan SQL benzeri ifadeler aracılığıyla basit MapReduce istatistiklerini hızla uygulayabilen Hadoop tabanlı bir veri ambarı aracıdır. İstatistiksel analiz.

3. Apache Pig: Hadoop tabanlı büyük ölçekli bir veri analiz aracıdır. Sağladığı SQL-LIKE dili PigLatin olarak adlandırılır. Bu dilin derleyicisi SQL benzeri veri analizi isteklerini optimize edilmiş MapReduce işlemlerine dönüştürür.

4. Apache HBase: Son derece güvenilir, yüksek performanslı, sütun odaklı ve ölçeklenebilir dağıtılmış bir depolama sistemidir HBase teknolojisi kullanılarak, büyük ölçekli yapılandırılmış bir depolama kümesi ucuz bir PCServer üzerine kurulabilir.

5. Apache Sqoop: Hadoop ile ilişkisel veritabanları arasında veri aktarımı için kullanılan bir araçtır. İlişkisel veritabanından (MySQL, Oracle, Postgres, vb.) Hadoop HDFS'sine veya HDFS verilerini ilişkisel bir veritabanına aktarın.

6. Apache Zookeeper: dağıtılmış uygulamalar için tasarlanmış dağıtılmış, açık kaynaklı bir koordinasyon hizmetidir. Esas olarak dağıtılmış uygulamalarda sıklıkla karşılaşılan bazı veri yönetimi sorunlarını çözmek ve dağıtılmış uygulamaların koordinasyonunu ve yönetimini basitleştirmek için kullanılır. Yüksek performanslı dağıtılmış hizmetler sağlamak zordur.

7. Apache Mahout: Hadoop tabanlı makine öğrenimi ve veri madenciliği için dağıtılmış bir çerçevedir. Mahout, paralel madencilik problemini çözmek için veri madenciliği algoritmasının bir bölümünü uygulamak için MapReduce'u kullanıyor.

8. Apache Cassandra: açık kaynaklı dağıtılmış bir NoSQL veritabanı sistemidir. GoogleBigTable'ın veri modelini ve Amazon Dynamo'nun tamamen dağıtılmış mimarisini entegre ederek, verileri basit bir biçimde depolamak için orijinal olarak Facebook tarafından geliştirilmiştir.

9. Apache Avro: veri yoğun, toplu veri alışverişi uygulamalarını desteklemek için tasarlanmış bir veri serileştirme sistemidir. Avro, Hadoop'un orijinal IPC mekanizmasının yavaş yavaş yerini alacak yeni bir veri serileştirme formatı ve aktarım aracıdır.

10. Apache Ambari: Hadoop kümelerinin tedarikini, yönetimini ve izlenmesini destekleyen web tabanlı bir araçtır.

11. Apache Chukwa: Büyük dağıtılmış sistemleri izlemek için açık kaynaklı bir veri toplama sistemidir.Çeşitli verileri Hadoop işlemeye uygun dosyalar halinde toplayabilir ve bunları çeşitli MapReduce işlemlerini gerçekleştirmek için Hadoop için HDFS'ye kaydedebilir.

12. Apache Hama: HDFS tabanlı bir BSP (BulkSynchronousParallel) paralel hesaplama çerçevesidir.Hama, grafikler, matrisler ve ağ algoritmaları dahil olmak üzere büyük ölçekli ve büyük veri hesaplamaları için kullanılabilir.

13. Apache Flume: günlük veri toplama, günlük veri işleme ve günlük veri aktarımı için kullanılabilen, büyük günlük toplama için dağıtılmış, güvenilir ve yüksek düzeyde kullanılabilir bir sistemdir.

14. Apache Giraph: Hadoop platformuna dayalı, ölçeklenebilir dağıtılmış yinelemeli bir grafik işleme sistemidir, BSP (yığın senkronlu paralel) ve Google'ın Pregel'inden esinlenmiştir.

15. Apache Oozie: Hadoop platformunda (HDFS, Pig ve MapReduce) çalışan görevleri yönetmek ve koordine etmek için kullanılan bir iş akışı motoru sunucusudur.

16. Apache Crunch: MapReduce programları oluşturmak için kullanılan, Google'ın FlumeJava kitaplığına dayalı olarak yazılmış bir Java kitaplığıdır. Hive and Pig'e benzer şekilde Crunch, verileri bağlama, toplama gerçekleştirme ve kayıtları sıralama gibi genel görevler için bir model kitaplığı sağlar.

17. Apache Whirr: Bulut hizmetleri üzerinde çalışan ve yüksek derecede tamamlayıcılık sağlayabilen bir dizi sınıf kitaplığıdır (Hadoop dahil). Whirr Learning, Amazon EC2 ve Rackspace hizmetlerini destekler.

18. Apache Bigtop: Hadoop'u ve çevresindeki ekolojiyi paketleme, dağıtma ve test etme aracıdır.

19. Apache HCatalog: Merkezi meta verileri ve mod yönetimini gerçekleştiren, Hadoop ve RDBMS'yi kapsayan ve ilişkisel görünümler sağlamak için Pig ve Hive'ı kullanan Hadoop tabanlı bir veri tablosu ve depolama yönetimidir.

20. Cloudera Hue: HDFS, MapReduce / YARN, HBase, Hive ve Pig'in web tabanlı çalışmasını ve yönetimini gerçekleştiren WEB tabanlı bir izleme ve yönetim sistemidir.

HDFS dosya sistemi

HDFS (Hadoop Dağıtılmış Dosya Sistemi), hataya karşı oldukça dayanıklı bir sistemdir ve ucuz makinelere dağıtım için uygundur. HDFS, yüksek verimli veri erişimi sağlayabilir ve büyük veri kümelerine sahip uygulamalar için uygundur.

HDFS'nin tasarım özellikleri:

1. Büyük veri dosyaları, T düzeyi büyük dosyaların veya bir grup büyük veri dosyasının depolanması için çok uygundur.

2. Bloklar halinde dosya depolama, HDFS, farklı bilgisayarlarda ortalama bloklarda tam bir büyük dosya depolayacaktır. Bunun anlamı, farklı bloklardaki dosyaların, dosyaları okurken aynı anda birden fazla ana bilgisayardan getirilebilmesi ve birden çok ana bilgisayar tarafından okunabilmesidir. Tek ana bilgisayar okumasından çok daha verimlidir.

3. Akış veri erişimi, bir yazma ve çoklu okuma ve yazma. Bu mod, geleneksel dosyalardan farklıdır. Dosya içeriğinin dinamik olarak değiştirilmesini desteklemez. Bunun yerine, dosyanın bir kez yazılmasını ve değiştirilmemesini gerektirir. Değişiklikler yalnızca şurada yapılabilir: Dosyanın sonuna içerik ekleyin.

4. Pahalı olmayan donanım HDFS sıradan PC'lere uygulanabilir Bu mekanizma bazı şirketlerin büyük bir veri kümesini desteklemek için düzinelerce ucuz bilgisayarı kullanmasına izin verir.

5. Donanım arızası HDFS, tüm bilgisayarların sorun yaşayabileceğine inanır.Bir ana bilgisayarın, ana bilgisayarın blok dosyasını okuyamamasını önlemek için, aynı dosya bloğunun bir kopyasını diğer birkaç ana bilgisayara tahsis eder. Ana bilgisayar başarısız olursa, dosyaları getirmek için hızlı bir şekilde başka bir kopya bulabilirsiniz.

HDFS ana / bağımlı mimarisi:

Bir HDFS kümesi, bir Namenode ve belirli sayıda Datanode'dan oluşur. Namenode, dosya sisteminin ad alanını yönetmekten ve dosyalara istemci erişiminden sorumlu merkezi bir sunucudur. Datanodlar genellikle, düğümlerde kendilerine bağlı depolamayı yönetmekten sorumlu bir küme içindeki düğümlerdir. Dahili olarak bir dosya aslında bir veya daha fazla bloğa bölünür ve bu bloklar Datanode koleksiyonunda saklanır. Namenode, dosya ve dizinleri açma, kapatma ve yeniden adlandırma gibi dosya sisteminin ad alanı işlemlerini gerçekleştirir ve aynı zamanda blokların belirli Datanode düğümlerine eşlenmesini belirler. Datanode, Namenode komutuyla blokları oluşturur, siler ve çoğaltır. Hem Namenode hem de Datanode, Linux çalıştıran sıradan, ucuz makinelerde çalışacak şekilde tasarlanmıştır.

HDFS'nin temel unsurları:

1. Blok: Bir dosyayı genellikle 64M olmak üzere bloklara bölün.

2. NameNode: Dizin bilgilerini, dosya bilgilerini ve tüm dosya sisteminin blok bilgilerini kaydedin. Bu, yalnızca tek ana bilgisayar tarafından saklanır. Elbette, bu ana bilgisayar başarısız olursa, NameNode başarısız olur. Hadoop 2. *, etkinlik bekletme modunu desteklemeye başladı - ana NameNode başarısız olursa, NameNode'u çalıştırmak için bekleme ana bilgisayarını başlatın.

3. DataNode: ucuz bilgisayarlara dağıtılır ve blok dosyaları depolamak için kullanılır.

MapReduce dosya sistemi

MapReduce, büyük ölçekli veri kümelerinde (1TB'den büyük) paralel işlemler için bir programlama modelidir. MapReduce, "Harita (harita)" ve "Azalt (azalt)" olmak üzere iki bölüme ayrılacaktır.

MapReduce çerçevesine bir hesaplama işi gönderdiğinizde, ilk olarak hesaplama işini birkaç Harita görevine böler ve ardından bunları yürütmek için farklı düğümlere atar.Her Harita görevi giriş verilerinin bir bölümünü işler. Harita görevi tamamlandığında , Bazı ara dosyalar oluşturacak, bu ara dosyalar Azaltma görevinin girdi verileri olarak kullanılacaktır. Azaltma görevinin ana amacı, önceki Haritalar'ın çıktılarını toplamak ve çıktılarını çıkarmaktır.

Büyük veri ve yapay zeka kavramları belirsizdir.Öğrenmek için hangi yol izlenmeli, öğrenmenin ardından nereye gidecek, daha fazla bilgi edinmek isteyen ve öğrenmek isteyen öğrenciler büyük veri öğrenme qq grubuna katılmaya davetlidir: 740041381, çok fazla kuru ürün var ( Sıfır tabanlı ve gelişmiş klasik gerçek savaş) herkesle paylaşmak için, herkesin Çin'deki en eksiksiz yüksek kaliteli pratik öğrenme süreci sistemini bilmesini sağlayın. Java ve linux ile başlayın ve ardından yavaş yavaş HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK ve diğer ilgili bilgileri tek tek paylaşmak için derinlere inin!

Aynı zamanda, WeChat genel hesabına da dikkat edebilirsiniz: (Taurus Büyük Veri Geliştirme ve Öğrenme) Büyük veri hakkında daha fazla bilgi edinin

Büyük veri nereden geliyor?
önceki
PS4 / PSV "Güzel Bir Dünya için Kutsamalar" yeni bilgiler: orijinal hikaye tam ses
Sonraki
"Why Is Home" gişesi 300 milyon yuan'ı kırdı ve Tao Piao Piao + Beacon duyurusu ve serbest bırakma kombinasyonu başka bir patlayıcı şaheser başlattı
En değerli bin yuan makinenin 618 envanteri olan vivo, aslında endüstrinin maliyet performansını yeniden tanımlıyor
"Mavi Fantezi" Cavaliers ağlıyor: Kadim savaş alanında savaşmayı yeni bitirdi, karısı kaçtı
4000mAh üç kart yuvasına sahip Huawei Enjoy 9 Plus, yalnızca Z5x ile tanışırken küçük bir erkek kardeş olduğunu iddia edebilir
Kişi başına düşen GSYİH'si 500.000 olan ülkeler mükemmel bir çevre güvenliğine sahiptir, ancak depresyonu olan birçok insan var
Programcıların anlayabileceği şakaların derin bir anlamı vardır, uyurken onları tıklamayın !! ! ! ! !
Orta sınıf cep telefonu pazarı güçlü bir düşmana yol açtı. Vivo Z5x bir savaşçı mı yoksa top yemi mi?
Blink açık kaynak Spark3.0, büyük veri alanına kim hakim olabilir?
"Dragon Quest" duyurulan yeni mobil oyun "Dragon Quest 12" hazırlanıyor
Efsaneye göre insanlar intihara meyilli halüsinasyonlar yaşayabilir. 7 yılda bir çiçek açan ceset konjac gerçekten var mı?
Kaldırma ve indirme arasındaki sıfır sınır deneyimini açın: vivo X27, gücüyle çağdaş bir model haline geldi
Yaoshan sitesinin fotoğraf günlüğü - fakir dağlık bölgelerdeki okulların değişimi
To Top