Veri ambarı nedir? Anlayışım hakkında konuş

Metnin okunması yaklaşık 3 dakika sürer.

Hepimizin bildiği gibi, veritabanları web geliştirmede daha sık kullanılmaktadır. Ancak veri ambarı nedir? Onların arasındaki fark ne? Başlamadan önce küçük bir hikaye paylaşın:

1.

Çok uzun zaman önce, dünyada insanlar, cüceler ve elfler dahil birçok ırk vardı ... Farklı inançları, farklı kültürleri vardı ve birbirleriyle barış içindeydiler. Ancak, tüm dünyaya hükmetmek isteyen düz çelik bir adam var.

Farklı kültürel inançlara sahip bu kadar çok ırk nasıl yönetilir? Zavallı adam, birkaç sihirli yüzük yaratmak ve onları farklı ırkların liderlerine ücretsiz vermek, böylece kabilelerini daha iyi yönetebilmeleri için kötü bir fikir buldu.

Her ırkın liderleri kendi sihirli yüzüklerini takıp hayatın zirvesine çıktıklarında, sefil adam benzersiz bir yüce sihirli yüzük yarattı. Yüzüklerin Yüce Efendisinin gücünü tüm yüzükleri kontrol etmek için kullandı, böylece çeşitli ırkların liderlerini kontrol etti ve sonra tüm dünyayı kontrol etti.

Bu hikaye bize şunu anlatır: veritabanı ve veri ambarı arasındaki ilişki.

O dünyadaki her bir bireysel yaşam bir veri kaydı ise, o zaman sıradan Yüzüklerin Efendisi'nin durumu bir veritabanı gibidir ve Yüzüklerin Yüce Efendisi'nin durumu bir veri ambarı gibidir.

2.

Veri ambarı nedir?

Bir tanım mı veriyorsun?

Veri ambarı, İngilizce adı Veri Ambarı, DW olarak kısaltılır. Veri ambarı, adından da anlaşılacağı gibi, geniş bir veri depolama koleksiyonudur. karar verme Amacı desteklemek, çeşitli iş verilerini filtrelemek ve entegre etmek için oluşturulmuştur. Şirketlere iş süreci iyileştirmesine rehberlik etmek, zamanı, maliyeti, kaliteyi ve kontrolü izlemek için belirli BI (iş zekası) yetenekleri sağlar.

Bunu görünce, ne yaptığı konusunda çok net olmayabilirsiniz, ancak karar odaklı bir yön konusunda net olmalısınız.

Veri ambarının giriş tarafı çeşitli veri kaynaklarıdır ve nihai çıktı, kurumsal veri analizi, veri madenciliği ve veri raporlama yönünde kullanılır.

Peki bir veri ambarının özellikleri nelerdir?

1. Tematik

Veri ambarı, bir veya daha fazla projeye karşılık gelen geleneksel veri tabanından farklı olarak, farklı veri kaynaklarından gelen verileri, kullanıcıların gerçek ihtiyaçlarına göre daha yüksek bir soyutlama düzeyinde bütünleştirir ve tüm veriler belirli bir tema etrafında düzenlenir.

Buradaki konu nasıl anlaşılır ? Örneğin, şehirler için "hava ve nem analizi" bir temadır ve Taobao için "kullanıcı tıklama davranışı analizi" bir temadır.

2. Entegrasyon

Veri ambarında depolanan veriler, birden çok veri kaynağının entegrasyonundan türetilir.Orijinal veriler, farklı veri kaynaklarından gelir ve depolama yöntemleri farklıdır. Nihai veri toplamaya entegre etmek için, veri kaynağından bir dizi çıkarma, temizleme ve dönüştürme işlemi gereklidir. Yukarıdaki şekilden de görebileceğiniz gibi, veriler Mysql, MongoDB ve diğer üçüncü taraf veri kaynaklarından gelir.

3. Kararlılık

Veri ambarında depolanan veriler bir dizi geçmiş anlık görüntüdür ve değiştirilemez. Kullanıcılar yalnızca analiz araçlarıyla sorgulayabilir ve analiz edebilir. Burada bir noktayı açıklamak için, veri ambarı temelde kullanıcıların işlemleri değiştirmesine veya silmesine izin vermez. Çoğu senaryo, verileri sorgulamak ve analiz etmek için kullanılır.

4. Zamanla değişen

Veri ambarı, düzenli olarak yeni entegre verileri alacak ve en son veri değişikliklerini yansıtacaktır. Bu özelliklerle tutarsız değildir. Bunun gerçek zamandan farklı olduğunu unutmayın.

3.

Genel kullanıma yönelik açık kaynak veri ambarı: Hive

Büyük veri uygulamalarında Hive daha çok kullanılıyor çünkü ne? Bedava. Performans tamam. Diğer ticari veri ambarlarında olduğu gibi, performans Hive'dan çok daha yüksektir, ancak küçük ve orta ölçekli şirketlerin ticari veri ambarlarını kullanmak için çok fazla maliyet harcamasına gerek yoktur.

Hive bir veri ambarı olarak ne yaptı?

Kısacası: Hive'ın ana işlevi, yapılandırılmış verileri Hive veritabanı tablolarına eşlemek ve çalıştırmak için MapReduce görevlerine dönüştürülebilen HQL sorgu ifadeleri sağlamaktır.

Kesin olmak gerekirse, Hive, HDFS'de depolanan dosya veri kümelerini sorgulayıp analiz edebilen Hadoop tabanlı bir veri ambarı aracıdır. Hive, sorgu yaparken HQL ifadelerini MapReduce görevlerine dönüştüren ve bunları Hadoop katmanında yürüten, SQL'e benzer bir sorgu dili olan HiveQL'i sağlar.

Başka bir bakış açısıyla, programlama dillerini anlamayan bir DBA, veri istatistikleri için HQL ifadeleri yazmak için Hive'ı da kullanabilir. Veri analizine daha fazla ucuzluk getiriyor.

Yukarıda görünen terimlerin açıklaması:

1.HDFS

Hadoop'un dağıtılmış dosya sistemi, burada veri ambarının depolama katmanı olarak kullanılır. Şekildeki Veri Düğümü, HDFS'nin birçok çalışan düğümüdür.

2. Harita Küçültme

Devasa veriler için çevrimdışı dağıtılmış paralel bir hesaplama modeli, basitçe birden çok veri parçasının veri dönüşümü ve birleştirilmesi olarak anlaşılabilir.

3. Hbase

HBase-Hadoop Veritabanı, son derece güvenilir, yüksek performanslı, sütun odaklı, ölçeklenebilir dağıtılmış bir depolama sistemi ve açık kaynaklı bir veritabanıdır. HBase teknolojisini kullanarak, ucuz bir PC Sunucusunda büyük ölçekli yapılandırılmış bir depolama kümesi oluşturulabilir.

4.

Yukarıdakiler veri ambarı ve ilke perspektifinden veri ambarının açık kaynak araçlarından biri olan Hive'dir.

Uygulamada amacımız veri işleme yapmaktır. Veri işlemenin kabaca iki kategoriye ayrılabileceğini biliyorsunuz: çevrimiçi işlem işleme OLTP (çevrimiçi işlem işleme), çevrimiçi analitik işleme OLAP (Çevrimiçi Analitik İşleme). OLTP, temel olarak banka işlemleri gibi temel ve günlük işlem işlemleri için geleneksel ilişkisel veritabanlarının ana uygulamasıdır. OLAP, veri ambarı sisteminin ana uygulamasıdır, karmaşık analiz işlemlerini destekler, karar desteğine odaklanır ve sezgisel ve anlaşılması kolay sorgu sonuçları sağlar.

Aşağıdaki şekil, iki veri işleme yönteminin bir karşılaştırmasıdır; burada veri tabanını ve veri ambarını özel olarak karşılaştırabilirsiniz.

İki karşılaştırma aracılığıyla, sırasıyla geleneksel veri tabanlarının ve veri ambarlarının kullanıldığı senaryoları görebiliriz.

Gerçek zamanlı (ikinci seviye ve daha hızlı senaryolar) ve kullanılan veritabanı (OLTP) modelini gerektiren iş gereksinimleri.

Geçmiş verileri ve çok sayıda veri kaynağı verilerini bütünleştiren ve yanıt süresi gerektirmeyen senaryolar bir veri ambarı (OLAP) kullanır.

5.

Gerçek kullanımda, Hive ayrıca ilişkisel veritabanları ile birlikte kullanılmalıdır. Hive çalışırken, meta veri bilgileri, genellikle bir Mysql veritabanında depolanan ilişkisel bir veritabanında saklanır.

Java iş parçacıkları işletim sistemi iş parçacıklarına nasıl eşlenir
önceki
Çin'deki birçok eyalet, Wenshan Huihai'yi düzeltmek için işe alıyor En pratik eyalet Shandong
Sonraki
Asya moda yüzlerinin listesi açıklandı Listenin başında Ni Ni nerede?
İlk sekreter milyonlarca "sadaka"! Lingang köyü büyük bir şey yapmak zorunda!
ThreadLocal ilkesini anlamak için bir resim
Harika! Lingang'daki bir başka büyük proje başarıyla devreye alındı! İkinci aşama otomotiv endüstrisine girecek ~
Bu itfaiyecinin özçekimi üzücü
Toplamak! Nanjing Snacks Haritası
Büyük veri kariyer planlaması için doğru duruş
Java dizesi oluşturmak için "" veya yapıcı kullanılsın mı?
Kadın Mercedes-Benz otomobil sahipleri 4S mağazası ile uzlaştı, diğer otomobil sahipleri finansal hizmet ücretlerini iade etmeyi reddetti
BAT Mülakat Soruları Serisi: JVM bellek alanının derinlemesine analizi ve bellek taşması analizi
Şehrin eğitim konferansı düzenlendi ve belediye parti komitesi sekreteri bu endişe verici konulara herkese yanıt verdi
Sıcaktan kaçmak için yazın buraya gelin! Haiyang, 2018'de Çin'in en iyi 100 yazlık tatil bölgesi arasında yer aldı
To Top