Daha az çabayla büyük verileri analiz etmek için pratik kullanım Hive

Genelde büyük veriyi analiz ettiğimizde aklımıza Spark ve Storm geliyor olabilir ama JAVA gibi programlama dillerini bilmeliyiz, aksi takdirde verileri analiz edemeyiz. Hive bu sorunu çözer ve sadece mapreduce'un büyük veri analizi görevini yapmak için Sql dilini bilmesi gerekir. Bugün test verilerini oluşturuyoruz ve mapreduce'un gerçek analizi için Hive'ı kullanıyoruz.

1. Önce Hive ve Mysql ortamını kurun

1. Dünün hdf'leri temelinde, Hive ve Mysql'i kurun.

2. Hive, meta verileri depolamak için Mysql'e ve hücre verilerini depolamak için Hdfs'ye güvendiğinden, Mysql hesabını ve parolayı Hive'da yapılandırın.

3. Mysql'de bir Hive veritabanı oluşturun ve Mysql için bir veritabanı hesabı ve parola oluşturun.

İki, test verileri oluşturun

1. Dosya test verileri oluşturun

cd / usr / local / hadoop

mkdir girişi

echo "merhaba dünya" > file1.txt

echo "merhaba hadoop" > file2.txt

2. Kovanı girin ve dosyayı kovan veri tablosuna aktarın

kovan > tablo belgeleri oluştur (satır dizesi); // Yalnızca bir sütun öğesi içeren bir tablo oluşturun

kovan > veriyi yükle yerel girdisi '/ usr / local / hadoop / input' tablo belgelerinin üzerine yaz; // girdi dizinindeki dosya1 ve dosya2'yi kovan belgeleri tablosuna dökün.

Verilerin başarıyla içe aktarıldığını onaylamak için belgelerden * seçimini kullanın.

Üç, bir test analizi görevi oluşturun

1. Kelime sayısını analiz etmek ve işlemek için sql deyimini kullanın.

tablo word_count oluşturun, kelime seçin, sayı olarak sayın (1) (dokümanlardaki kelime olarak patlat (böl (satır, '')) seçin) w kelime sırasına göre gruplayın;

2. Mapreduce görevini kontrol edin

Mapreduce sürecini kontrol edin, yukarıdaki ifade mapreduce görevini başlatır.

3. İnceleme sonuçları

Kelime sayımı görevinin başarıyla tamamlandığını bulmak için word_count'tan * seçin.

Dört, özet

1. Hive, meta verileri depolamak için mysql'e ve veritabanı dosyalarını depolamak için hdfs'ye güvenir.

2. Hive, gerçek zamanlı olmayan veri analizi ve işleme için uygun olan mapreduce görevleri oluşturmak için SQL deyimlerini kullanır.

Son olarak, büyük veriyi öğrenmek istiyorsanız, sınırlı bir süre için ücretsiz materyaller ve kurslar almaktan bahsedeyim.

Nasıl alınır:

Hala eski kurallar

1. Yorum yazıları, kelime sınırı yoktur, tek kelime yeterlidir!

2. Xiaobian hayranı olun!

3. Özel Mesaj Editörü: "Büyük Veri Geliştirme Eğitimi"!

Hepinize teşekkür eder, iyi çalışmalar dilerim! (Öğreticiyi aldıktan sonra, sıkı çalışmalı ve daha fazla pratik yapmalısınız!)

Hadoop'tan Spark'a, büyük veri çerçevesinin gelişimine bakın
önceki
Linux'ta en iyi 5 veri görselleştirme aracını kullanacak mısınız? (Büyük veri linux eğitimi ile)
Sonraki
Büyük Veriye Adım Atmak | Linux sistemiyle ilgili bir problemden sonra nasıl kurtarırsınız?
Milyonlarca json ve python komut dosyalarının kullanımı için örnek-ayrıştırma kovanı
Hadoop, 3.x çağını başlattı: Eski büyük veri hegemonu, bulut bilişimin zorluklarına nasıl yanıt veriyor?
Windows sistemi ve Linux sistemindeki "büyük veri kuru malları" için jar paketi ve içe aktarma ifadesinin analizi
"Linux'u bilmiyorsam ne kadar korkunç" Gelişmiş teknoloji geliştirme: Bu temelde öğrenilmesi gereken bir beceridir
2020 büyük veri öğrenimi için olmazsa olmaz
Yıllık maaşı 500.000 olan büyük bir veri geliştirme mühendisi işe alamaz mısınız? İnanıyormusun?
Big Data Learning Route 2020 Sürümü
Hadoop dosya sıkıştırma savaşı (komut dosyaları ve kaynak kodu dahil)
Gerçeğin bıçağı
ToB Industry Investment Logic'ten Alıntı
YARI: Küresel silikon levha geliri geçen yıl% 2 düştü | Bir haftalık sektör verileri özeti
To Top