Merhaba, büyük veri geliştirme mühendisi olmak için birçok beceriye sahip olmanız gerekiyor, detaylar için aşağıdaki noktalara bakabilirsiniz.
Java
Herkes Java'nın yönünün JavaSE, JavaEE ve JavaME olduğunu bilir.Büyük veriyi öğrenirken hangi yönü öğrenmeliyim? Sadece Java'nın standart JavaSE sürümünü öğrenmeniz gerekir.Servlet, JSP, Tomcat, Struts, Spring, Hibernate, Mybatis gibi hepsi JavaEE yönündeki teknolojilerdir.Büyük veri teknolojisinde pek fazla kullanılmaz, sadece anlayın. Elbette Java'nın veritabanına nasıl bağlandığını bilmeniz gerekir, örneğin JDBC, bu konuda ustalaşmanız gerekir.
Bazı öğrenciler Hibernate veya Mybites'in de veri tabanına bağlanabileceğini söylediler, neden öğrenmiyorsunuz? Bunları öğrenmenin iyi olmadığını, ancak bunları öğrenmenizin çok zaman alabileceğini ve son çalışmada sıklıkla kullanılmadığını söylemiyorum, görmedim Bu iki şeyi büyük veri işleme için kim kullanırsa kullansın, elbette, yeterli enerjiniz varsa, Hibernate veya Mybites ilkelerini öğrenebilirsiniz.Sadece API'yi öğrenmeyin.Bu, Java işletim veritabanlarını anlamanızı artırabilir, çünkü bu ikisi Bu teknolojinin özü, Java'nın yanı sıra JDBC'nin çeşitli kullanımlarının yansımasıdır.
Linux
Büyük veri ile ilgili yazılım Linux üzerinde çalıştığı için, Linux'u sağlam bir şekilde öğrenmeniz gerekir.Linux'u iyi öğrenmek, büyük veri ile ilgili teknolojilerde hızlı bir şekilde ustalaşmanıza yardımcı olacak ve hadoop, hive ve hbase'i daha iyi anlamanıza olanak sağlayacaktır. Spark ve Spark gibi büyük veri yazılımlarının işletim ortamı ve ağ ortamı yapılandırması birçok tehlikeyi kurtarabilir.Kabuğu öğrenerek betiği anlayabilirsiniz.Bu, büyük veri kümesini anlamayı ve yapılandırmayı kolaylaştıracaktır. Ayrıca, gelecekteki yeni büyük veri teknolojisi hakkında daha hızlı bilgi edinmenizi sağlar.
Artık temel konular hakkında konuşmayı bitirdiğime göre, büyük veri teknolojilerinin hala öğrenilmesi gereken şeylerden bahsedelim. Yazdığım sırayla öğrenmeye devam edebilirsiniz.
Hadoop
Bu artık popüler büyük veri işleme platformu neredeyse büyük veriyle eşanlamlı hale geldi, bu yüzden öğrenilmesi gereken bir şey. Hadoop, HDFS, MapReduce ve YARN gibi çeşitli bileşenleri içerir. HDFS, tıpkı bilgisayarımızın sabit diski gibi verilerin depolandığı yerdir.Dosyalar burada depolanır. MapReduce, verileri işler ve hesaplar.Veri ne kadar büyük olursa olsun, bir özelliği vardır. Verileri zaman verildiği sürece çalıştırabilir, ancak zaman hızlı olmayabilir, bu nedenle buna verilerin toplu olarak işlenmesi denir.
YARN, Hadoop platformu konseptini yansıtan önemli bir bileşendir. Büyük veri ekosistemi ile diğer yazılımlar Hadoop üzerinde çalışabilir, böylece HDFS büyük depolamanın avantajlarından daha iyi faydalanabilir ve daha fazla kaynak tasarrufu sağlayabiliriz. Örneğin, buna gerek yok Ayrı olarak bir kıvılcım kümesi oluşturun ve doğrudan mevcut hadoop ipliği üzerinde çalışmasına izin verin.
Aslında, Hadoop'un bu bileşenlerini anlayarak büyük veri işleme yapabilirsiniz, ancak yine de "büyük verilerin" ne kadar büyük olduğu konusunda net bir fikriniz olmayabilir, beni dinleyin, bunun için endişelenmeyin. Çalıştıktan sonra, onlarca terabayt / yüzlerce terabaytlık büyük ölçekli verilerle karşılaşacağınız birçok senaryo olacaktır.O zaman, verilerin harika olduğunu düşünmeyeceksiniz, ne kadar büyükse baş ağrınız o kadar büyük olacaktır. Tabii ki, bu kadar büyük ölçekli bir veriyle uğraşmaktan korkmayın, çünkü değeriniz burada yatıyor.Javaee'nin PHP, HTML5 ve DBA'larıyla uğraşanların sizi kıskanmasına izin verin.
Kendi oluşturduğum büyük veri geliştirme öğrenme grubunu tavsiye ederim: 805127855 , Büyük veri analiz yöntemlerine odaklanın, büyük veri programlama, büyük veri ambarı, büyük veri vakaları, yapay zeka, veri madenciliği tamamen kuru mal paylaşımıdır, hepsi büyük verileri öğrenerek geliştirilir, büyük veriyi öğreniyorsanız, yeni başlayanlara hoş geldiniz ve ileri düzey Arkadaşlar.
Burada öğrendikinizin büyük veriyi öğrenmeniz için bir düğüm görevi görebileceğini unutmayın.
Hayvan bakıcısı
Bu her derde devadır, Hadoop'un HA'sını kurduğunuzda kullanacaksınız ve gelecekte Hbase'de de kullanacaksınız. Genellikle bazı işbirlikçi bilgileri depolamak için kullanılır. Bilgiler nispeten küçüktür ve genellikle 1M'yi geçmez. Onu kullanan yazılım buna bağlıdır. Bizim için sadece doğru bir şekilde kurmamız ve normal çalışmasına izin vermemiz gerekiyor. Bu kadar.
< img src = "https://pic3.zhimg.com/v2-be259042ed15bada39ac69215b4b0fc2_b.jpg" data-caption = "" data-size = "normal" data-rawwidth = "900" data-rawheight = "500" class = " origin_image zh-lightbox-thumb "width =" 900 "data-original =" https://pic3.zhimg.com/v2-be259042ed15bada39ac69215b4b0fc2_r.jpg " >
Mysql
Büyük veri işlemeyi öğrenmeyi bitirdik ve sonra küçük veri işleme aracı mysql veritabanını öğrenmeyi öğreneceğiz, çünkü kovan daha sonra kurulduğunda kullanılacak, mysql'in hangi seviyede ustalaşması gerekiyor? Linux'a yükleyebilir, çalıştırabilir ve basit izinleri yapılandırabilir, kök parolasını değiştirebilir ve bir veritabanı oluşturabilirsiniz. Buradaki en önemli şey, SQL sözdizimini öğrenmektir, çünkü kovan sözdizimi buna çok benzer.
Sqoop
Bu, verileri Mysql'den Hadoop'a aktarmak için kullanılır. Elbette bunu kullanmanıza gerek yok, sadece Mysql veri tablosunu doğrudan bir dosyaya aktarın ve sonra onu HDFS'ye koyun.Tabii ki, üretim ortamındaki Mysql baskısına dikkat edin.
Kovan
Bu şey, SQL sözdizimini bilenler için sihirli bir araçtır.Büyük verileri işlemenizi kolaylaştırır ve MapReduce programları yazmak için çok çalışmak zorunda kalmazsınız. Bazıları Domuz mu diyor? Domuzlardan birine hakim olmak yeterlidir.
Oozie
Artık Hive'ı öğrendiğinize göre, bu şeye ihtiyacınız olduğuna inanıyorum. Bu, Hive, MapReduce ve Spark komut dosyalarınızı yönetmenize yardımcı olabilir. Ayrıca, programınızın doğru şekilde yürütülüp yürütülmediğini de kontrol edebilir. Bir şeyler ters giderse, size bir alarm gönderir ve programı yeniden denemenize yardımcı olur. En önemli şey, görev bağımlılıklarını yapılandırmanıza da yardımcı olabilmesidir. Beğeneceğinize inanıyorum, yoksa çok sayıda senaryoya ve yoğun crond'a baktığınızda kendinizi bok gibi hissedeceksiniz.
Hbase
Bu, Hadoop ekosistemindeki NOSQL veritabanıdır. Verileri anahtar ve değer biçiminde depolanır ve anahtar benzersizdir, bu nedenle verileri sıralamak için kullanılabilir. MYSQL ile karşılaştırıldığında, büyük miktarda veri depolayabilir. bir çok. Bu nedenle, büyük veri işleme tamamlandıktan sonra genellikle bir depolama hedefi olarak kullanılır.
Kafka
Bu nispeten kullanımı kolay bir kuyruklama aracıdır Kuyruk ne işe yarar? Bilet almak için sıraya girip girmediğinizi biliyor musunuz? Çok fazla veriniz varsa, sizinle işbirliği yapan diğer öğrencilerin çığlık atmaması için işlem için sıraya girmeniz de gerekir. Neden bana bu kadar çok veri (yüzlerce G dosyası gibi) veriyorsunuz. Bunu nasıl halledebilirim? Onun yüzünden onu suçlamayın. Büyük veri değil, ona veriyi tek tek kullandığınızda sıraya koyduğumu söyleyebilirsiniz, böylece şikayet etmez ve programını hemen optimize eder.
Çünkü başa çıkamayan onun işi. Verdiğiniz soru yerine. Elbette, bu aracı çevrimiçi gerçek zamanlı veri depolama veya HDFS yapmak için de kullanabiliriz. Şu anda, özellikle basit veri işleme sağlamak ve çeşitli dosyalara yazmak için kullanılan Flume adlı bir araçla kullanabilirsiniz. Veri alıcısı (Kafka gibi).
< img src = "https://pic4.zhimg.com/v2-e0be0b66c069c3e1b3de082c72b78f1b_b.jpg" data-caption = "" data-size = "normal" data-rawwidth = "900" data-rawheight = "500" class = " origin_image zh-lightbox-thumb "width =" 900 "data-original =" https://pic4.zhimg.com/v2-e0be0b66c069c3e1b3de082c72b78f1b_r.jpg " >
Kıvılcım
MapReduce'a dayalı veri işleme hızındaki eksiklikleri gidermek için kullanılır.Karakteristikliği, gelişen ve özellikle yavaş olan sabit diski okumak yerine, verileri hesaplama için belleğe yüklemektir. Özellikle yinelemeli işlemler için uygundur, bu nedenle algoritma akışı özellikle püredir. Scala ile yazılmıştır. Java dili veya Scala, her ikisi de JVM kullandığından onu çalıştırabilir.
Bunları biliyorsanız, profesyonel bir büyük veri geliştirme mühendisi olacaksınız 2W aylık maaş küçük bir çiseleme.
Büyük veriyi öğrenmenin iki temeli JAVA ve Linux'tur ve öğrenmenin sırası ilgisizdir. Büyük veri kurslarına devam etmeden önce aynı zamanda ustalaşmanız gerekir.
Büyük Veri Dersi Taslağı
< img src = "https://pic1.zhimg.com/v2-4fa12f40bbb996274fae2d9ef5267358_b.jpg" data-caption = "" data-size = "normal" data-rawwidth = "670" data-rawheight = "378" class = " origin_image zh-lightbox-thumb "width =" 670 "data-original =" https://pic1.zhimg.com/v2-4fa12f40bbb996274fae2d9ef5267358_r.jpg " >
< img src = "https://pic4.zhimg.com/v2-a7d04ead16148903756dc2061c09cf1f_b.jpg" data-caption = "" data-size = "normal" data-rawwidth = "670" data-rawheight = "377" class = " origin_image zh-lightbox-thumb "width =" 670 "data-original =" https://pic4.zhimg.com/v2-a7d04ead16148903756dc2061c09cf1f_r.jpg " >
< img src = "https://pic1.zhimg.com/v2-8c3269bcac4e0f9bb99dd7c9668996d8_b.jpg" data-caption = "" data-size = "normal" data-rawwidth = "669" data-rawheight = "349" class = " origin_image zh-lightbox-thumb "width =" 669 "data-original =" https://pic1.zhimg.com/v2-8c3269bcac4e0f9bb99dd7c9668996d8_r.jpg " >
< img src = "https://pic2.zhimg.com/v2-ef86d7a06a6db46cfef1b1318fce9131_b.jpg" data-caption = "" data-size = "normal" data-rawwidth = "668" data-rawheight = "395" class = " origin_image zh-lightbox-thumb "width =" 668 "data-original =" https://pic2.zhimg.com/v2-ef86d7a06a6db46cfef1b1318fce9131_r.jpg " >
< img src = "https://pic3.zhimg.com/v2-77b9c28957787ffcb7321c6148ce3902_b.jpg" data-caption = "" data-size = "normal" data-rawwidth = "670" data-rawheight = "375" class = " origin_image zh-lightbox-thumb "width =" 670 "data-original =" https://pic3.zhimg.com/v2-77b9c28957787ffcb7321c6148ce3902_r.jpg " >
< img src = "https://pic2.zhimg.com/v2-d92b22459e1b4f1fdb681c5b9a7a7b79_b.jpg" data-caption = "" data-size = "normal" data-rawwidth = "629" data-rawheight = "455" class = " origin_image zh-lightbox-thumb "width =" 629 "data-original =" https://pic2.zhimg.com/v2-d92b22459e1b4f1fdb681c5b9a7a7b79_r.jpg " >