Özel | Hadoop'u bir makalede anlamak (3): Mapreduce

Küresel ekonominin sürekli gelişmesiyle birlikte, büyük veri çağı sessizce geldi ve Hadoop, büyük veri ortamının temelini oluşturdu.Büyük veri endüstrisine girmek istiyorsanız, önce Hadoop'un bilgisini anlamanız gerekir. Apache, 2017'nin başında Hadoop3.0'ı piyasaya sürdü, bu da bir grup insanın sürekli olarak Hadoop'u optimize ettiği anlamına geliyor.Sadece bu değil, birçok şirket Hadoop'un ticari değerini de doğrulayan ticari sürümlerini kullanıyor.

Okuyucular, "Hadoop'u Anlamak İçin Bir Makale" yazı dizisini okuyarak Hadoop teknolojisi hakkında kapsamlı bir anlayışa sahip olabilirler. Hadoop resmi web sitesinin tüm bilgi noktalarını kapsar ve anlaşılması kolaydır. Kötü İngilizce'ye sahip okuyucular bu makaleyi okuyarak tamamen anlayabilirler. Hadoop.

Bu sayıdaki "Hadoop'u Tek Bir Makalede Anlamak" yazı dizisindeki özel içerik Önce Hadoop'u tanıtın ve ardından HDFS, MAPREDUCE ve YARN'ın tüm bilgi noktalarını ayrıntılı olarak tanıtın. İçerik dört konuya bölünmüş ve son birkaç gün içinde yayınlanmıştır. Takip içeriği için bizi izlemeye devam edin.

Bu sayı Mapreduce'u herkes için ayrıntılı olarak açıklamaktadır:

Mapreduce bir hesaplama çerçevesidir. Hesaplama için bir çerçeve olduğundan, ifade biçimi, bir girdi (girdi) olduğu, bu girdiyi çalıştırdığı ve kendisi tarafından tanımlanan hesaplama modeli aracılığıyla bir çıktı (çıktı) elde ettiği şeklindedir. İhtiyacımız olan sonuç.

Öğrenmek istediğimiz şey, bu hesaplama modelinin çalışma kurallarıdır. Bir harita indirgeme hesaplama görevini çalıştırırken, görev süreci iki aşamaya ayrılır: eşleme aşaması ve azaltma aşaması Her aşama, giriş ve çıkış olarak anahtar / değer çiftlerini kullanır. Programcının yapması gereken, bu iki aşamanın işlevlerini tanımlamaktır: eşleme işlevi ve işlevi azaltma.

1. Tasarım Konsepti

  • Dağıtık Hesaplama;

  • Veri taşımadan mobil bilgi işlem.

2. Hesaplama çerçevesi

  • İlk aşama, büyük dosyaları küçük dosyalara ayıran bölünmüştür.

  • İkinci aşama haritadır, bazı temel analizler yapın, genellikle bir bölme bir haritaya karşılık gelir. Genellikle harita tarafında biriktirme nadiren yapılır Dosya büyükse haritaya bölünmüş tüm dosyalar hafızaya yüklenmelidir.

  • Üçüncü aşama, esas olarak haritayı sıralayan, bölümlere ayıran, gruplandıran ve birleştiren ve azaltan karıştırma işlemidir.

  • Dördüncü aşama azaltma Daha fazla analiz için, azaltma, bellek taşmasını önleyerek verileri almak için bir yineleyici kullanır.

3. Master-slave yapısı

Ana kaynak yöneticisi:

Her görev görevini düğüm yöneticisinde çalışacak şekilde planlamak ve atamaktan sorumludur. Herhangi bir hata bulunursa, görev diğer düğümlere yeniden dağıtılacaktır.Her hadoop kümesinde genellikle ana düğümde çalışan yalnızca bir kaynak yöneticisi vardır.

Nodemanager'dan:

Nodemanager, kaynak yöneticisi ile aktif olarak iletişim kurar, işleri alır ve her görevin yürütülmesinden sorumludur.Ağ bant genişliğini azaltmak için, nodemanager en iyi hdf'lerin veri düğümünde çalıştırılır.

4. Kompozisyon

4.1 MapReduce bölümünün boyutu

Maksimum Bölme değeri: max_split

Minimum Bölme değeri: min_split

Blok boyutu: blok

Bölme kuralları: maks (min_split, min (max_split, block)), esas olarak ağ bant genişliğini azaltmak için.

4.2 Eşleyici

MapReduce fikri: böl ve fethet. Eşleştirici, karmaşık bir görevi yürütmek için birkaç basit göreve "bölmekten" sorumludur, böylece veri veya hesaplama ölçeği kaynak göreve göre büyük ölçüde azalır ve en yakın hesaplama, hesaplama için gerekli verileri depolayan düğüme atanır ve Bu küçük görevler birbirine neredeyse hiç bağımlı olmaksızın paralel olarak hesaplanabilir.

Hesaplama çerçevesindeki kaynak yöneticisi, esas olarak hesaplama sürecinin yönetimi içindir.Veri, veri düğümünde depolanır ve hesaplama da bunun üzerinde hesaplanır. Aynı zamanda, ad kodu meta veri bilgilerini yönetir ve kaynak yöneticisi, işlem sırasında ad kodunu ister.

4.3 Karışık

Shuffle, eşleştirici ve indirgeyici arasında bir adımdır. Hadoop genellikle mobil hesaplamayı veri taşımadan gerçekleştirir, ancak karıştırma aşamasında veri hareketi vardır. İlk olarak, eşleme K-Değeri anahtar-değer çiftleri biçiminde çıktılanır ve çıktı bellek arabelleğine yazıldıktan sonra, her bir map_task eşlemenin çıktı sonucunu saklamak için bir bellek arabelleğine (varsayılan 100MB) sahiptir. Hafıza tamponuna yazılan veriler belirli bir eşiğe ulaştığında, tampondaki veriler geçici bir dosyada diske kaydedilir (bölünür). Üzerine yazma, ayrı bir iş parçacığı tarafından yapılır ve harita sonucunu arabelleğe (split.percent) yazan iş parçacığını etkilemez. Varsayılan değer 0,8'dir. Taşma yazma işlemindeki küçük disk dosyaları bölümlenir. Bölümlemenin amacı bunları işaretlemektir. Veriler daha sonra azaltılarak işlenir. Varsayılan bölümleme kuralı, anahtar hash değerlerinin sayısı% azaltmadır. Taşma yazma iş parçacığı başlatıldığında, 80MB alanındaki KEY'in sıralanması gerekir. Diskteki küçük dosyalar büyük bir dosyada (birleştirici) birleştirilir ve daha sonra azalt, kendi verilerini çekmek için harita tarafına aktif olarak gider ve ardından azaltma tarafında ikincil sıralama (gruplama) gerçekleştirir. Aynı zamanda azaltma tarafındaki veriler de hafızaya yüklenir Hafıza dolduğunda taşma da tetiklenir. Çok fazla küçük dosya da büyük dosyalar halinde birleştirilecek ve son olarak azaltma çıktısı alınacaktır.

4.4 Redüktör

Reducer esas olarak harita aşamasını özetler. Reduce sayısı, mapred-site.xml konfigürasyon dosyasındaki proje mapred.reduce.tasks tarafından belirlenir.Varsayılan değer 1'dir ve kullanıcı tarafından üzerine yazılabilir.

4.4.1 Hesaplama Çerçevesi Düşürücü

Resourcemanager, zamanlama için kullanılır ve less, harita tarafından veri alır, özetler ve sonucu hdflere çıkarır.

Erken Kapitalizm | Double 11 Savaş Raporu: Tmall 213.5 milyar, 159.8 milyar JD, Suning% 132 arttı
önceki
Didi'ye satış yapmak sadece sahte bir atış. İnsansız sürüş Uber'in Çin'deki stratejisi mi?
Sonraki
Odak analizi | Xiaomi tanıdık gelmiyor, Lei Jun rahatlık alanından çıkıyor
Özel Bir makalede (iki) HDFS'de (aşağıda) Hadoop'u anlama
Will Smith nihayet garip çete kavgasına katılmaya ve üşütmeyi ve uzaylıları dövmeyi bırakmaya karar verdi
Özel | Bir makalede Hadoop'u anlama (2) HDFS (açık)
"Hırsızlık olayı" değişmeye devam ediyor, Youku ve Tencent Video bir telif hakkı anlaşmazlığından daha fazlası
Bay 60 milyon dünya çapında bir performans daha sahneledi! 2 Eski uluslararası onun tarafından küçük düşürüldü ve yardım edemedi
Leaper'ın ilk seri üretilen modeli S01 piyasaya sürüldü
Özel | Bir makalede Hadoop'u Anlamak (1): Genel Bakış
Rockets'daki "Rolls Royce" nasıl çıktı, okuduktan sonra da yorum yapabilirsiniz
Ülkemiz 99 yıldır yeni tarz noktalama işaretleri kullanıyor
Özel Medikal görüntülerde beyin benzeri hesaplama uygulaması (PPT indirme ile)
Caidian köyün evsel kanalizasyonunu işliyor, 70.000 çiftçi bundan yararlanacak
To Top