Hadoop Teknolojisinin İçinde: Hadoop kaynak kodunu hazırlamak için Hadoop ve HDFS 1.3'ün derinlemesine analizi

Hadoop resmi web sitesinde ( Hadoop projesi hakkında bilgi bulabilirsiniz.

Şekil 1-14'te gösterildiği gibi bilgiler

Şekil 1-14 Apache Hadoop resmi web sitesi

1.3.1 Hadoop'u indirin

Hadoop ekosistemini daha önce tanıttığımda, Hadoop'un ilk geliştirmesinin şunları içerdiğini öğrendim:

Common (başlangıçta kullanılan ad Core'dur), HDFS ve MapReduce. Şimdi bu alt sistemler

Bağımsız hale geldi ve Apache'nin bir alt projesi haline geldi. Ancak Hadoop 1.0 sürüm paketinde, Common, HDFS ve

MapReduce hala birlikte paketlenmiştir, sadece bir hadoop-1.0.0.tar.gz paketini indirmemiz gerekir. Not,

Hadoop resmi olarak Subversion (SVN) modunda kod indirme sağlar. SVN adresi şeklindedir.

Subversion hakkında bilgi sahibi olan okuyucular, bu adresten Hadoop1.0 sürüm kodunu da indirebilirler.

Yukarıdaki üç bölümün kodu.

Apache, yazılımını ve kaynak kodunu indirmeniz için çok sayıda yansıtma sitesi sağlar.

1.0.0.tar.gz dosyasının indirme adresi şu şekildedir:

Şekil 1-15'te gösterildiği gibi

Şekil 1-15 Apache Hadoop 1.0'ın indirme sayfası

Bu adres, 64 bit sistemlerde hadoop-1.0.0-1.adm64.rpm, kaynak kodu olmadan dağıtım paketi hadoop-1.0.0.bin.tar.gz vb. Gibi Hadoop 1.0'ın birden çok dağıtım yöntemini içerir. İndirilen hadoop-1.0.0.tar.gz, kaynak kodunu içeren Hadoop dağıtım paketidir.

1.3.2 Bir Eclipse projesi oluşturun

İndirilen hadoop-1.0.0.tar.gz paketinin sıkıştırmasını açın Açıldıktan sonra Hadoop'un kök dizininin E: \ hadoop-1.0.0 olduğunu varsayarak, Cygwin'i başlatın, projenin kök dizinine girin ve kodu Eclipse'e aktarmaya başlayın. Eclipse görevi, Hadoop kodu için Eclipse proje dosyaları oluşturabilen Hadoop Ant yapılandırma dosyası build.xml'de sağlanır ve bu da Eclipse projeleri oluşturmak için çok sayıda yapılandırma çalışması ihtiyacını ortadan kaldırır. Şekil 1-16'da gösterildiği gibi Cygwin altında basitçe "ant eclipse" komutunu çalıştırın.

Şekil 1-16 Eclipse proje dosyası oluştur

Not Bu işlemin UNIX çevrimiçi düzenleyicisini kullanması gerekir, bu nedenle Cygwin ortamında yukarıdaki komutu çalıştırmanız gerekir.

Sipariş verin, aksi takdirde bir hata meydana gelir.

Komutun çalışması bittikten sonra, projeyi Eclipse'de oluşturabilirsiniz. Dosya Yeni JavaProject of Eclipse'i açın, yeni bir Java projesi oluşturun, projenin konumunu Hadoop'un kök dizini olarak seçin, yani E: \ hadoop-1.0.0 ve ardından Eclipse projesini tamamlamak için "Bitir" düğmesine tıklayın Şekil 1-17'de gösterildiği gibi oluşturun.

Şekil 1-17 Bir Eclipse projesi oluşturma

Yukarıdaki çalışmayı tamamladıktan sonra, Eclipse bir hata mesajı verir: "Bağlantısız sınıf yolu değişkeni: 'ANT_HOME /

lib / ant.jar ', project'hadoop-1.0.0' içinde ".

Açıkçası, sistemin ANT_HOME değişkenini, Eclipse'in kaynak kodunu derlemek için ihtiyaç duyduğu şeyi bulabilmesi için ayarlamamız gerekiyor.

Ant kitaplığı, projeyi seçin, ardından Eclipse Projesi Özellikler Java Oluşturma Yolunu açın, Kitaplıklar sayfasındaki hata öğesini düzenleyin ("Düzenle" düğmesini tıklayın): ANT_HOME / lib / ant.jar, ANT_HOME değişkenini oluşturun (sonraki bölümde Bir iletişim kutusunda "Değişken" seçeneğine tıklayın ve ikinci iletişim kutusundaki "Yeni" düğmesine tıklayın) ve değeri, Şekil 1-18'de gösterildiği gibi Ant kurulum dizinidir.

Bu kitap yalnızca Ortak ve HDFS modüllerini analiz ettiğinden, Proje Özellikler Java Derleme Yolu'na gidin

Kaynak sayfası, Şekil 1-19'da gösterildiği gibi yalnızca çekirdek ve hdfs olmak üzere iki dizin tutar.

Yukarıdaki işlemleri tamamladıktan sonra Eclipse projesi oluşturma görevi tamamlanmıştır.

Şekil 1-18 ANT_HOME değişkeni oluştur

Şekil 1-19 İki kaynak kodu dizinini çekirdek ve hdfs olarak tutun

1.3.3 Hadoop kaynak kodu organizasyonu

Sıkıştırılmış Hadoop 1.0 kaynak kodunu açın ve Hadoop'taki tüm nesilleri içeren src dizinini girin.

Şekil 1-20'de gösterildiği gibi kodlayın.

Daha önce belirtildiği gibi, Hadoop 1.0 sürüm paketinde, Common, HDFS ve MapReduce'un üç modülü de

Birlikte paketlenirler ve uygulamaları çekirdek, hdfs ve eşlenmiş alt dizinlerde bulunur. Src kaynak kodu dizini altında aşağıdaki gibi dikkat etmeye değer birkaç alt dizin vardır.

tools: Arşiv dosyası har, dağıtılmış kopyalama aracı dağıtımı, MapReduce yürütme analiz aracı rumen vb. Gibi bazı pratik Hadoop araçlarının uygulanmasını içerir.

benchmarks: Hadoop'un performans testi için iki araç gridmix ve gridmix2 içerir.

Bu araçlar, Hadoop kümelerinin bazı performans göstergelerini test edebilir.

c ++: Belirtilmesi gereken şey, Java'nın C dil kütüphanesi arabirimi aracılığıyla HDFS'ye erişmek için bir dizi C arabirimi uygulayan libhdfs'tir.

Örnekler: Geliştiricilere Hadoop kullanımıyla ilgili bazı örnekler verin, ancak bu örnekler yalnızca MapReduce API'sini içerir ve bu bölüm bu kitapta tartışılmayacaktır.

contrib: çok sayıda Hadoop yardımcı modülünün uygulamasını içeren katkı kısaltmasıdır.Örneğin, Hadoop'u Amazon'un elastik bilgi işlem bulutunda dağıtmak ve çalıştırmak için gereken komut dosyaları Contrib \ ec2 dizinindedir.

test: Projenin birim test durumlarını içerir. Common, HDFS ve MapReduce bu dizinde bulunabilir.

Diğer modüller için birim test kodu.

Şekil 1-20 Hadoop kaynak kodu organizasyonu

1.4 Özet

Büyük veri ve ilgili kavramlar ve teknolojiler, sektörün ve akademinin son zamanlarda ilgilendiği gündemdeki konulardır. Hadoop bunda rol oynar.

Çok önemli bir rol oynadı. Bu bölüm ilk olarak hızla büyüyen Hadoop üretimini gösteren Hadoop'a kısa bir giriş sağlar.

Devlet sistemleri ve Hadoop'un basit bir tarihi. Ve bu temelde, okuyuculara Hadoop'u okumak ve analiz etmek için gerekli olan gelişmeyi tanıtır.

Geliştirme ortamını kurma süreci şunları içerir: JDK'yi kurma ve yapılandırma, Eclipse'i kurma ve yapılandırma ve yardımcı araçları kurma ve yapılandırma.

Yapılmış. Son olarak, yukarıdaki ortamda, Hadoop Common ve HDFS'yi içeren bir kaynak ortamı sıfırdan oluşturuldu.

Hadoop kaynak kodunun daha fazla incelenmesine hazırlanın.

Bu, herkes için bir "Hadoop Technology Insider" paylaşımıdır. Bu kitap Cai Bin ve Chen Xiangping tarafından yazılmıştır.Hadoop öğrenmek istiyorsanız, bu kitabı internette bulabilirsiniz.

Gelecekte herkese yayınlanacak, bu yüzden bizi izlemeye devam edin.

Hadoop çerçevesinin temel tasarımı: HDFS ve MapReduce'tur. HDFS, büyük miktarda veri için depolama sağlar ve MapReduce, büyük miktarda veri için hesaplamalar sağlar. Hadoop aynı zamanda arkasındaki diğer teknolojilerin temelidir. Ancak Hadoop'u iyi öğrenerek kovanı, hbase'i, kıvılcımı, fırtınayı vb. Daha iyi öğrenebilirsiniz.

[1] Hadoop hakkında bilgi almak istiyorsanız, beni takip edip aşağıdaki yorumları ve "verileri" gizli olarak paylaşabilirsiniz.

[2] Bazı materyallerin zaman sınırı vardır, acele edin!

desteğin için teşekkürler!

Topu fırlatmak bir çatışmaya neden oldu, Westbrook ve Carter birbirleriyle kavga etti
önceki
Mogujienin listelendikten sonraki ilk mali raporunun yorumu: net zarar daraldı, kârlılık beklenebilir, geliştirme tavanı ortada
Sonraki
Hadoop teknolojisi içinde: kaynak kodu okuma ortamını hazırlamak için Hadoop ve HDFS 1.2'nin derinlemesine analizi
Lenovonun kazanç raporu beklentileri aştı, ancak en kötüsü yeni başlamış olabilir
Hala hava soğutmaya bakarken, lüks entegre su soğutma radyatörünün nasıl yeni numaralar oynayabileceğini görün!
3999 yuan'dan başlayan X299 meraklısı anakartlar ne tür bir deneyim getirebilir?
HDFS'nin avantajları ve dezavantajları, yazma akışı mimarisi, erişim yöntemleri, güvenilirlik stratejisinin yeni özellikleri
Cep telefonu üreticileri 8 Ağustos'taki basın toplantısında düştü. Bu haberler yeni telefon satın almayı ertelemenize neden olabilir.
Sevgililer Günü: Gerçek aşk böyle görünüyor!
Haftalık Sohbet | Taraftarlar ve kumarbazlar dışında, bu insanlar Dünya Kupası'nı kazanma veya kaybetme konusunda daha endişeli
Arkadaş çevrenizden 100'den fazla övgü ile güzel kar sahnelerini nasıl çekeceğinizi öğretin!
Lamborghini'nin yeni giriş seviyesi spor otomobil maruziyeti: hibrit sistemle daha küçük boyut
Tren istasyonunda iki elektrik bankası satın aldım
HBase sunucu mimarisi
To Top