g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Büyük veri gibi alanlarda çalışırken Hadoop veya Spark öğrenmeli miyim?

Bu makaleyi okuyanların benim gibi Hadoop ve Apache Spark'ın seçimi konusunda bazı şüpheleri olduğuna inanıyorum.Bugün pek çok bilgiyi kontrol ettim, bu iki platformun karşılaştırması ve seçimi hakkında konuşalım ve çalışmaya bir göz atalım. Ve gelişme, hangisi daha iyi? Xiaobai'nin büyük veriyi öğrenirken dikkat etmesi gereken birçok nokta var, ancak her halükarda, büyük veri endüstrisine girmeyi seçtiğiniz için çok çalışmanız gerekecek. Söylendiği gibi, asıl amacı unutmayın ve her zaman hedefe sahip olun Büyük veriyi öğrenirken en çok ihtiyacınız olan şey sebat etmektir.

1. Hadoop ve Spark

1. kıvılcım

Spark, hızlı ve genel küme hesaplamayı uygulamak için kullanılan bir platformdur. Hız açısından Spark, yaygın olarak kullanılan MapReduce hesaplama modelini genişletir ve etkileşimli sorgu ve akış işleme dahil olmak üzere daha fazla bilgi işlem modunu verimli bir şekilde destekler.

Spark projesi, çok sayıda sıkı entegre bileşen içerir. Spark'ın çekirdeği, birçok bilgi işlem görevinden oluşan ve birden çok iş makinesinde veya bir bilgi işlem kümesinde çalışan uygulamaları planlayan, dağıtan ve izleyen bir bilgi işlem motorudur.

2. Hadoop

Hadoop, Apache Foundation tarafından geliştirilen dağıtılmış bir sistem altyapısıdır. Kullanıcılar, dağıtılmış programın altında yatan ayrıntıları anlamadan dağıtılmış programlar geliştirebilirler. Yüksek hızlı bilgi işlem ve depolama için kümelerin gücünden tam olarak yararlanın. Hadoop çerçevesinin temel tasarımı: HDFS ve MapReduce'tur. HDFS, büyük miktarda veri için depolama sağlar ve MapReduce, büyük miktarda veri için hesaplamalar sağlar.

Yine de kendim kurduğum büyük veri öğrenme değişim grubunu tavsiye etmek istiyorum: 957205962. Grubun tamamı büyük veri geliştirmeyi öğreniyor. Büyük veriyi öğreniyorsanız, editör sizi katılmaya davet ediyor. Herkes bir yazılım geliştirme partisidir. En son büyük veri gelişmiş materyallerinin ve kendim tarafından derlenen gelişmiş geliştirme eğitimlerinin bir kopyası dahil olmak üzere kuru ürünleri paylaşın (yalnızca büyük veri yazılım geliştirmeyle ilgili), gelişmiş ve büyük verinin derinliklerine inmek isteyenler için hoş geldiniz.

İki, benzerlikler ve benzerlikler

Farklı seviyelerde problem çözme

Her şeyden önce, Hadoop ve Apache Spark'ın ikisi de büyük veri çerçeveleridir, ancak ilgili amaçları farklıdır. Hadoop, aslında daha çok dağıtılmış bir veri altyapısıdır: büyük veri kümelerini depolama için sıradan bilgisayarlardan oluşan bir kümedeki birden çok düğüme dağıtır, bu da pahalı sunucu donanımı satın almanıza ve bakımını yapmanıza gerek olmadığı anlamına gelir. Aynı zamanda Hadoop, bu verileri indeksleyecek ve izleyecek, böylece büyük veri işleme ve analiz verimliliğini eşi görülmemiş bir yüksekliğe çıkaracak. Spark, özellikle dağıtılmış depolamada büyük verileri işlemek için kullanılan bir araçtır ve dağıtılmış verileri depolamaz.

Her ikisi de birleştirilebilir ve ayrılabilir

Hadoop, herkesin üzerinde anlaştığı HDFS dağıtılmış veri depolama işlevine ek olarak, MapReduce adlı bir veri işleme işlevi de sağlar. Yani burada Spark'ı tamamen terk edebilir ve veri işlemeyi tamamlamak için Hadoop'un kendi MapReduce'unu kullanabiliriz.

Aksine, Spark'ın hayatta kalmak için Hadoop'a güvenmesi gerekmez. Ancak yukarıda belirtildiği gibi, sonuçta bir dosya yönetim sistemi sağlamaz, bu nedenle çalışması için diğer dağıtılmış dosya sistemleriyle entegre edilmesi gerekir. Burada Hadoop'un HDFS'sini veya diğer bulut tabanlı veri sistemi platformlarını seçebiliriz. Ancak Spark hala varsayılan olarak Hadoop'ta kullanılıyor, sonuçta herkes kendi kombinasyonunun en iyisi olduğunu düşünüyor.

Bu arada, mapreduce nedir: kütüphanedeki tüm kitapları saymak istiyoruz. Sen bir numaralı kitaplığı say, ben de iki numaralı kitaplığı numaralandırırım. Bu "Harita" dır. Ne kadar çok insanımız olursa, kitapları o kadar hızlı sayarız. Şimdi bir araya gelip tüm istatistikleri bir araya getiriyoruz. Bu "Azalt".

Spark veri işleme hızı MapReduce'u öldürür

Spark, farklı veri işleme yöntemi nedeniyle MapReduce'tan çok daha hızlıdır. MapReduce süreç verilerini adım adım: "Kümedeki verileri okuyun, bir işlem gerçekleştirin, sonucu kümeye yazın, kümeden güncellenmiş verileri okuyun, sonraki işlemi gerçekleştirin ve sonucu kümeye yazın. Bekle ... "Booz Allen Hamilton'da bir veri bilimcisi olan Kirk Borne bunu açıkladı.

Spark'ın aksine, bellekteki tüm veri analizini neredeyse "gerçek zamanlı" zamanda tamamlayacak: Born, "Kümedeki verileri okuyun, gerekli tüm analiz ve işlemleri tamamlayın, sonuçları kümeye geri yazın ve tamamlayın" dedi. Spark'ın toplu işlem hızı, MapReduce'tan yaklaşık 10 kat daha hızlıdır ve bellek içi veri analizi hızı yaklaşık 100 kat daha hızlıdır. İşlenecek veriler ve sonuç gereksinimleri çoğunlukla statikse ve toplu işlemenin tamamlanmasını bekleyecek sabrınız varsa, MapReduce işleme yöntemi tamamen kabul edilebilir.

Ancak, fabrikada sensörler tarafından toplananlar gibi akış verilerini analiz etmeniz gerekiyorsa veya uygulamanız birden çok veri işlemeyi gerektiriyorsa, işleme için muhtemelen Spark kullanmalısınız. Çoğu makine öğrenimi algoritması birden fazla veri işlemeyi gerektirir. Ek olarak, Spark'ın uygulama senaryoları genellikle şu alanlarda kullanılır: gerçek zamanlı pazar etkinlikleri, çevrimiçi ürün önerileri, ağ güvenliği analizi, makine günlüğü izleme vb.

Kurtarma ve

İkisinin felaket kurtarma yöntemleri çok farklı, ancak ikisi de çok iyi. Hadoop, işlenen verileri her seferinde diske yazdığından, doğası gereği sistem hatalarına karşı dirençlidir. Spark veri nesneleri, Esnek Dağıtılmış Veri Kümesi (RDD: Esnek Dağıtılmış Veri Kümesi) adı verilen bir veri kümesinde saklanır. "Bu veri nesneleri belleğe veya diske yerleştirilebilir, böylece RDD ayrıca eksiksiz olağanüstü durum kurtarma işlevleri sağlayabilir."

3. Hangisini öğrenmeli?

Aslında bildiğimiz gibi, Spark büyük veri endüstrisinde gerçekten yükselen bir yıldızdır.Hadoop ile karşılaştırıldığında Spark'ın birçok avantajı vardır. Hadoop'un büyük veri endüstrisinde tam olarak tanınmasının ana nedenleri şunlardır:

· Hadoop, büyük verilerin güvenilir şekilde depolanması ve işlenmesi sorununu çözer;

· Hadoop'un açık kaynak doğası, birçok büyük veri uygulayıcısının bundan ilham almasını sağlar, bu da kullanışlı ve pratiktir;

· Hadoop uzun yıllardır geliştirilmiştir ve eksiksiz bir ekosisteme sahiptir.

HDFS, sıradan PC'lerden oluşan bir kümede son derece güvenilir dosya depolama sağlar ve birden çok blok kopyasını kaydederek sunucu veya sabit kart arızası sorununu çözer.

· MapReduce, Mapper ve Reducer'ın basit soyutlaması yoluyla, düzinelerce ila yüzlerce bilgisayardan oluşan güvenilmez bir kümede çok sayıda veri kümesini eşzamanlı ve dağıtık olarak işleyebilen bir model sağlar. Dağıtım ve hata kurtarma gibi hesaplama ayrıntıları gizlidir.

Hadoop'un da birçok sınırlaması ve kusuru vardır Genel olarak, veri miktarı artmaya devam ettikçe, Hadoop'un hesaplama hızı daha da zorlaşacaktır. Bu aşamada, Hadoop'un büyük veri endüstrisinde hala yüksek bir uygulama sıklığına sahip olmasına rağmen, Hadoop'un veri hacminin birkaç yıl sonra birkaç kat arttığında karşılaştığı ikilemi hayal etmek zor değil. Spark'ın bilgi işlem hızı Hadoop'un yüzde bir veya hatta daha hızlı olduğundan, gelecekte Spark kaçınılmaz olarak Hadoop'un yerini alacak ve büyük veri endüstrisine hakim olacaktır.

Hadoop'u atlayıp sadece Spark'ı öğrenmek mümkün mü? Elbette değil, aşağıdaki nedenlerden dolayı:

· Bu aşamada, Hadoop hala büyük veri alanına hakimdir.İleri teknolojiyi öğrenebiliriz, ancak mevcut istihdam aşaması için daha fazladır. Mevcut aşamada, büyük veriyi öğrenmek Hadoop'u öğrenmelidir.

· MapReduce'da öğrenmeye değer birçok klasik fikir vardır.Bu, büyük veriyi anlamamıza çok yardımcı olur.

Kesin olmak gerekirse Spark, Hadoop'ta değil Hadoop'ta MapReduce'u değiştirmek istiyor. Hadoop bir araç setidir ve MapReduce gibi Spark da yalnızca bir araçtır.

sonuç olarak:

Sektörde algoritma mühendisliği alanında gelişiyorsanız, ikisini de öğrenmelisiniz, Hadoop anlamalı ve Spark aşina olmalıdır. Büyük veri araştırmacısıysanız, bu ikisinde yetkin olmalısınız. Dolayısıyla buradaki öneri ML ve büyük veri alanlarında gelişmek isteyenler için Java- > Hadoop- > Spark gibi bir yol için, C ++ ve SQL'de bir temele sahipseniz, öğrenme eğrisi özellikle dik olmayacaktır. Spark için biraz Scala öğrenmek daha yararlı olacaktır.

Xiaobai'nin büyük veriyi öğrenirken dikkat etmesi gereken pek çok nokta var, ancak her halükarda, büyük veri endüstrisine girmeyi seçtiğiniz için çok çalışmanız gerekecek. Söylendiği gibi, asıl niyeti unutma ve her zaman hedefe sahip ol Büyük veriyi öğrenirken en çok ihtiyacın olan şey sebat etmektir.

Büyük veri geliştirme ve yüksek maaşlar için eksiksiz bir gerekli kaynak seti [ücretsiz erişim]

Oracle'ın kıdemli teknik direktörü, büyük verilerin geliştirilmesine tam olarak yardımcı olmak için uzun yıllar boyunca eksiksiz bir müfredat sistemi [büyük veri ve yapay zeka geliştirme için görülmesi gereken bir] oluşturdu Sıfır temel + giriş + iyileştirme + proje = yüksek maaş !