Veri ambarının konseptini, özelliklerini, farklılıklarını, MPP mimari seçimini vb. Tek bir makalede anlayın

Genel Bakış

Son zamanlarda veri görselleştirme projesi ile iletişime geçip bir veri ambarı yapmayı planlıyorum, böylece veri ambarının MPP mimarisinin içeriğini özetliyorum.

1. Veri Ambarına Giriş

Veri ambarı, İngilizce adı Veri Ambarı'dır ve DW veya DWH olarak kısaltılabilir. Veri ambarı, işletmenin tüm seviyelerinde karar verme süreci için her türlü veri desteğini sağlayan stratejik bir koleksiyondur. Analitik raporlama ve karar destek amacıyla oluşturulmuş tek bir veri deposudur.

Veri ambarının amacı, işletmelere karar desteği sağlamak için analiz odaklı entegre bir veri ortamı oluşturmaktır. aslında Veri ambarının kendisi herhangi bir veri "üretmez" veya herhangi bir veriyi kendisi "tüketmesine" gerek yoktur. Veriler harici kaynaklardan gelir ve harici uygulamalara açıktır. Bu nedenle "fabrika" yerine "depo" olarak adlandırılır. . Bu nedenle, veri ambarının temel yapısı, temelde veri girişi ve çıkışı sürecini içerir ve bu süreç, üç katmanlı kaynak verisi, veri ambarı ve veri uygulamasına bölünebilir.

Veri ambarının ana görevi, çeşitli veri kaynaklarından veri elde etmektir ve veri ambarındaki veri dönüşümü ve akışı, ETL (Ekstra Aktar, Aktarım Aktar, Yük Yükü) süreci olarak kabul edilebilir. ETL, veri ambarının işlem hattıdır veya Veri ambarındaki verilerin metabolizmasını koruyan veri ambarının kanı olarak düşünün ve veri ambarının günlük yönetimi ve bakımındaki enerjinin çoğu ETL'yi normal ve istikrarlı tutmaktır.

Büyük veri sorunlarının ortaya çıkmasıyla birlikte, büyük yönetim yetenekleri, çoklu türler, hızlı değişiklikler, yüksek kullanılabilirlik, düşük maliyet, üst düzey ölçeklenebilirlik ve diğer gereksinimler, kurumsal veri stratejilerine büyük zorluklar getirdi. Kurumsal veri ambarlarının ve veri merkezlerinin teknik seçimi özellikle önemli hale geldi!

İki, veri ambarı özellikleri

1. Konu odaklı

İşletmedeki belirli bir makro analiz alanında yer alan analiz nesnesine karşılık gelen, kurumsal sistem bilgilerinde veri sentezi, sınıflandırma ve analizinin bir soyutlamasıdır.

Örneğin, alışveriş bir konudur, ardından alışveriş; kullanıcı, sipariş, ödeme, lojistik ve diğer veri entegrasyonunu içerir. Bu veriler sınıflandırılmalı ve analiz edilmeli ve nesne verilerinin eksiksiz ve tutarlı bir açıklaması analiz edilmelidir. Tam ve birleşik olabilir Nesne tarafından tasarlanan verileri bölün.

Şu anda bir kullanıcı için gezinmeden ödemenin tamamlanmasına kadar geçen süreyi saymak istiyorsanız, alışveriş temasında ödeme verileri veya sipariş verileri eksikse, nesne verilerinin bütünlüğü ve tutarlılığı garanti edilemeyebilir.

2. Veri entegrasyonu

Veri ambarının verileri, orijinal dağınık veri tabanındaki verilerden çıkarılır.

Operasyonel veriler ve Karar Analizi (DSS) verileri çok farklıdır ve burada çok sayıda veri temizleme ve veri sıralama çalışması gerekir.

Birincisi: Her konunun kaynak verilerinin orijinal dağınık veri tabanında birçok tekrarları ve tutarsızlıkları vardır ve farklı veri tabanlarının verileri farklı uygulama mantığına bağlıdır.

İkincisi: Veri ambarındaki kapsamlı veriler doğrudan orijinal veri tabanı sisteminden elde edilemez, bu yüzden veri veri ambarına girmeden önce birleştirilmeli ve entegre edilmelidir. (Alanlar, farklı anlamlarla aynı ada, aynı anlama sahip farklı adlara, uzunluklara vb. Sahiptir.)

3. Güncellenemez

Veri ambarının verileri esas olarak karar verme analizi için kullanılır. Tasarlanan veriler esas olarak veri sorgulama içindir.Normal şartlar altında değiştirilmez.Bu veriler, uzun bir süre için geçmiş verilerin içeriğini yansıtır. Değiştirilen bir parça tüm geçmişi etkiler. Verilerin işlenmesi verileri.

Veri ambarının sorgu hacmi genellikle çok büyüktür, bu nedenle veri sorgulama için daha yüksek gereksinimler ortaya konulur, çeşitli karmaşık indeksleme teknolojileri gerekir ve veri sorgusunun kullanıcı dostu olması ve verilerin belirginliği için daha yüksek gereksinimler ortaya konur.

4. Zaman içinde sürekli değişen

Veri ambarındaki güncellenemeyen veriler uygulamalar içindir.Veri ambarındaki veriler, veri girişinden silinmesine kadar tüm yaşam döngüsü boyunca asla değişmez.

Veri ambarının verileri, zaman değiştikçe sürekli olarak yeni veriler ekliyor.

Veri ambarları, zaman değiştikçe uzun vadeli veri içeriğini silmeye devam eder, veri ambarı verileri de zaman sınırlıdır, veritabanı veri süresi sınırı genellikle 60 ila 90 gündür ve veri ambarı verileri genellikle 5 yıl ila 10 yıldır.

Veri ambarı büyük miktarda kapsamlı veri içerir. Bu verilerin çoğu zamanla ilgilidir. Bu veri özellikleri, verilerin geçmiş dönemini gösteren zaman öğeleri içerir.

üç, Veri ambarı ve veritabanı arasındaki fark

Veritabanı operasyonu: Genellikle OLAP (On-Line Transaction Processing) olarak adlandırılır, belirli bir işletme için bir veritabanında bulunan çevrimiçi bir işlemdir.Küçük miktarda verinin özelliklerine sahiptir ve genellikle az miktarda veri kaydını sorgular ve değiştirir.

Veri ambarı işlemleri: genellikle Çevrimiçi Analitik İşleme (OLAP) olarak anılır, yönetim karar verme sürecini desteklemek için belirli konulardaki (kapsamlı veriler) geçmiş verileri analiz eder.

Dört, veri ambarı-MPP mimarisi

1. Geleneksel veri ambarı

Veri ambarı şu özelliklere sahiptir: konu odaklı, entegrasyon, zaman farkı, değişmezlik ve her özelliğin kullanım derecesi ve eğilimi, veri ambarının yeteneğini belirleyecektir, ancak aynı zamanda iş yöneliminin varlığı nedeniyle de Veri ambarını, veri ambarının kendisini şişiren, sorgu verimliliği azaltan ve ayrıntılı verileri analiz etmek daha zor hale gelen bir veri pazarına dönüştüren lider rolü üstlenir.

Bunun için, birkaç özelliğini analiz etmeye ve yeni değişiklikler aramaya odaklanın.

1) Konu Odaklı

Veri ambarı genel OLTP sisteminden farklıdır.Veri ambarının veri modeli tasarımı, verileri anlamlarına göre aynı konu alanına kategorize etmeye odaklanır, bu nedenle konu odaklı olarak adlandırılır. Örneğin, Parti, Düzenleme, Etkinlik, Ürün vb.

2) Birleşik

Veriler, kuruluşun veri ambarında entegre ve tutarlı olan çeşitli OLTP sistemlerinden gelir.

3) Zaman Değişkeni

Verilerdeki değişiklikler, veri ambarında kaydedilebilir ve izlenebilir, bu da zamanla değişebilen verilerin izini yansıtmaya yardımcı olur.

4) Uçucu Olmayan (Uçucu Olmayan)

Verilerin yazılması onaylandıktan sonra, veriler yanlış olsa bile değiştirilmeyecek veya silinmeyecektir. Buradan, veri ambarının sürekli olarak veri toplama ve şekilde gösterildiği gibi karşılık gelen kurallara göre birleştirme ve birleştirme süreci olduğu görülebilir.

Şekil: Veri ambarı toplama veri paneli

Yukarıdaki şekle bakarak, bu süreçte kaybedilenin yalnızca deponun kendisi ve ETL'nin performansı olduğunu ve deponun performansının iletişim, I / O kabiliyeti ve donanım performansına bağlı olduğunu ve ETL performansının da buna bağlı olduğunu bilebiliriz. Bu nedenle, günümüzün güçlü donanım performansında, bu üç göstergenin nasıl iyileştirileceği, ambarın performansını kendisi belirler, bu nedenle, özellikle veri miktarının sürekli arttığı günümüzde, çalışmak için uygun bir mimari özellikle önemli olacaktır. Kurumsal veri ambarının destekleme kapasitesini belirleyecektir.

2. MPP mimarisi veri ambarı

Günümüzde büyük verilerin popülaritesi ile birlikte, çeşitli mimarilerin veritabanları görünmeye devam etmektedir.Aşağıdaki şekil, kullanım kolaylığından ölçeklenebilirliğe kadar şu anda kullanımda olan çeşitli yapıların bir karşılaştırma çizelgesidir.

Şekil: Büyük veri teknolojisi yığını karşılaştırması

Hem kullanım kolaylığı hem de ölçeklenebilirlik açısından, MPP mimari veritabanı nispeten büyük bir avantaja sahiptir. Yukarıdaki şeklin sonuçlarını birleştirdiğimizde, yüksek veri hacimlerini işleyebilen MPP mimari veri tabanı şu anda en iyi seçimdir.Peki MPP tam olarak nedir?

MPP, Massively Parallel Processor anlamına gelir. MPP sisteminde, her SMP düğümü kendi işletim sistemini, veritabanını vb. De çalıştırabilir. Başka bir deyişle, her düğümdeki CPU başka bir düğümün belleğine erişemez. Düğümler arasındaki bilgi etkileşimi, düğüm ara bağlantı ağı aracılığıyla gerçekleştirilir ve bu işlem genellikle Veri Yeniden Dağıtımı olarak adlandırılır.

Geleneksel SMP mimarisinden açıkça farklıdır Genel olarak, MPP sistemi farklı işlem birimleri arasında bilgi iletmek zorundadır, bu nedenle verimliliği SMP'den biraz daha kötüdür, ancak bu mutlak değildir çünkü MPP sistemi kaynakları paylaşmaz. Bu nedenle SMP'den daha fazla kaynağa sahiptir.İşlenecek işlem belirli bir ölçeğe ulaştığında MPP'nin etkinliği SMP'den daha iyidir. Bu, iletişim süresinin hesaplama süresine oranına bağlıdır, iletişim süresi daha uzunsa, MPP sistemi baskın değildir, aksine, iletişim süresi daha kısaysa, MPP sistemi, kaynakların avantajlarına tam anlamıyla katkıda bulunabilir ve yüksek verimlilik sağlayabilir. Şu anda kullanılan OTLP programında kullanıcı merkezi bir veri tabanına erişir SMP sistem yapısı benimsenirse etkinliği MPP yapısına göre çok daha hızlıdır. MPP sistemi karar destek ve veri madenciliğinde avantajlar göstermiştir.İşlemler birbiriyle ilişkili değilse ve işlem birimleri arasındaki iletişim görece küçükse MPP sisteminin daha iyi olduğu söylenebilir, aksine uygun değildir. .

Bir veritabanı paylaşılmayan kümede, her düğüm bağımsız bir disk depolama sistemine ve bir bellek sistemine sahiptir İş verileri, veritabanı modeli ve uygulama özelliklerine göre her düğüme bölünür Her bir veri düğümü, özel bir ağ veya ticari bir genel ağ aracılığıyla birbirine bağlanır. İşbirliğine dayalı bilgi işlem, bir bütün olarak veritabanı hizmetleri sağlar. Paylaşılmayan veritabanı kümeleri, tam ölçeklenebilirlik, yüksek kullanılabilirlik, yüksek performans, mükemmel maliyet performansı ve kaynak paylaşımı gibi avantajlara sahiptir.

Şekil: Devasa Paralel İşleme (MPP) mimarisi

MPP mimarisi veritabanı, Hiçbir şey paylaşılmayan mimariyi (paylaşılmayan küme) benimser Her düğümün kendi işletim sistemi, veritabanı ve donanım kaynakları vardır. Düğümler ağ üzerinden iletişim kurar. Yüksek bant genişliğine sahip ağa sahip iç ortamda, her kaynak, yüksek çıktı performansı elde etmek için en iyi işletim ortamına sahip olabilir.

Şekil: Hiçbir şey paylaşılmayan mimari

Bu nedenle, geleneksel veritabanları ve diğer mimari veritabanları ile karşılaştırıldığında, MPP mimari veritabanları aşağıdaki avantajlara sahiptir:

1) Büyük veri analizi ihtiyaçları

Geleneksel veritabanları büyük ölçekli kümeleri ve PB düzeyindeki verileri destekleyemez ve sınırlı performans ve ölçeklenebilirliğe sahiptir. MPP mimari verileri büyük ölçekli kümeleri ve PB düzeyinde verileri destekler. Performans, genişletilmiş düğümlerin performansına göre doğrusaldır.

2) Hepsi bir arada yazılım ve donanım pahalıdır ve genişletme açısından sınırlıdır

Yüksek performanslı bağımsız bir sunucunun maliyeti çok yüksektir. Üretim genişletme, test etme, geliştirme ve felaket kurtarma işlemlerinin tümü, aynı modelden yeni bir hepsi bir arada makinenin (kabin) satın alınmasını gerektirir ve nesil arası uyumluluk sorunu tam olarak çözülmemiştir. MPP yapısı veritabanı, gerektiğinde sonsuz şekilde genişletilebilir.

3) Bellek içi teknoloji çok pahalı ve olgunlaşmamış

Bellek maliyeti çok yüksek, TB seviyesinin altında, büyük veri hacimleri için uygun değil; MPP mimarisinin maliyeti kontrol edilebilir ve büyük veri hacimleri için çok uygun olan TB seviyesi verileri için mükemmel bir desteğe sahip.

4) Hadoop teknolojisinin doğuştan gelen eksikliği

Hive gibi hadoop üzerinde sql performansı çok yavaş, SQL uyumluluğu ve desteği yetersiz ve veri güvenliği garanti edilemiyor. MPP yapısı veritabanı, ortak standart SQL'i destekler, veriler yedekli olarak yedeklenebilir ve yüksek kullanılabilirliğe ve yüksek güvenliğe sahiptir.

Beş, ana akım dağıtılmış veritabanı seçimi-GreenPlum

1. Altyapı

Greenplum, büyük verilerin işlenmesinde geleneksel veritabanlarından daha büyük avantajlara sahip olan Hadoop tabanlı dağıtılmış bir veritabanı ürünüdür.

Greenplum'un genel yapısı aşağıdaki gibidir:

Şekil: GreenPlum genel mimari diyagramı

Veritabanı, Ara Bağlantı aracılığıyla Ana Sunucular ve Segment Sunucuları ile birbirine bağlanır.

Ana ana bilgisayar şunlardan sorumludur: müşteri ile bağlantı ve yönetim kurmak; SQL analiz etmek ve bir yürütme planı oluşturmak; yürütme planını bölümün yürütme sonuçlarını toplamak için bölüme dağıtmak; ana makine iş verilerini depolamaz, yalnızca veri sözlüğü.

Segment ana bilgisayarı şunlardan sorumludur: iş verilerinin depolanması ve erişimi; SQL kullanıcı sorgusunun yürütülmesi.

2. Ana özellikler

Greenplum bir bütün olarak aşağıdaki teknik özelliklere sahiptir:

1) Paylaşılmayan mimari

Toplu veritabanları, en kolay genişletilebilir Hiçbir şey paylaşılmayan mimariyi kullanır.Her düğümün kendi işletim sistemi, veritabanı ve donanım kaynakları vardır. Düğümler ağ üzerinden iletişim kurar.

2) gNet Software Interconnect'e göre

Veritabanının dahili iletişimi, genel gNet (GigE, 10GigE) NIC'lerine / anahtarlarına dayanan süper hesaplamaya dayalı "yazılım Anahtarı" dahili bağlantı katmanı aracılığıyla düğümler arasında mesajları ve verileri aktarır ve 1.000'den fazla düğüme genişletmeyi desteklemek için yüksek ölçeklenebilirlik protokolü kullanır.

3) Paralel yükleme teknolojisi

Paralel veri akışı motorunu kullanarak, veri yükleme tamamen paraleldir ve yükleme verileri 4,5 T / saate ulaşabilir (ideal konfigürasyon). Ayrıca, SQL ifadeleri aracılığıyla harici tabloları doğrudan değiştirebilirsiniz .

4) Satır ve sütun sıkıştırma depolama teknolojisini destekleyin

Kitle veritabanları ZLIB ve QUICKLZ sıkıştırmayı destekler ve sıkıştırma oranı 10: 1'e ulaşabilir. Verilerin sıkıştırılması performans düşüşüne neden olmaz Sıkıştırılmış tablolar, boş CPU kaynaklarını kullanarak G / Ç kaynak tüketimini azaltır. Ana satır depolama moduna ek olarak, büyük veritabanı aynı zamanda sütun depolama modunu da destekler. Yaygın olarak kullanılan sorgu tabloda yalnızca az sayıda alan alıyorsa, sütun modu daha verimlidir.Örneğin, sorgunun tabloda çok sayıda alan alması gerekir ve satır modu daha verimlidir. Büyük veritabanlarının çoklu sıkıştırmalı depolama teknolojileri, veri depolama kapasitesini artırabilirken, aynı zamanda farklı uygulama gereksinimlerine göre sorgu verimliliğini artırabilir.

3. Ana sınırlamalar

1) Kullanıcı işlemin sunulmasını esnek bir şekilde kontrol edemez Kullanıcı tarafından sunulan işlem otomatik olarak genel işlem, genel sunum ve genel geri dönüş olarak kabul edilecektir.

2) Veritabanının temizlik ve bakım için fazladan alana ihtiyacı vardır, bu da veritabanı bakımına fazladan iş yükü getirir.

3) Kullanıcılar, sunucu kaynaklarını esnek bir şekilde tahsis edemez veya kontrol edemez ve sunucu bunları otomatik olarak tahsis eder ve dağıtır.

4) Disk G / Ç için nispeten yüksek gereksinimler vardır.

4. GreenPlum diğer veri tabanlarına kıyasla

GreenPlum veritabanının diğer veritabanları ile karşılaştırıldığında en büyük avantajı, maliyetini büyük ölçüde düşüren açık kaynak olmasıdır.4 ila 5 milyonun üzerindeki önceki maliyetle karşılaştırıldığında, artık yalnızca fiyatın üçte birinden daha azını gerektirmektedir. İşletmede başarıyla kullanılabilir ve kendi işletmesinin özelliklerine göre geliştirilebilir.

GreenPlum hakkında daha fazlasını daha sonra paylaşacağım ve ilgilenen arkadaşlar buna dikkat edebilir ~

Günlük sınır! Günlük sınırın aksine! Bunun ağır bir faydası olduğu ortaya çıktı ve Xiongan Fund da vurdu
önceki
MySQL çoğaltma topolojisi yönetim aracı nasıl dağıtılır - Orchestrator
Sonraki
Bir Oracle betiğini paylaşın - tek bir tıklama ile mevcut oturumun temel bilgilerini alın, sql'yi çalıştırın, vb.
Story House, Net Red Bookstore, Xinxiangxiang Alley, Drama Club Çayevi ... "Eski Chengdu Etiketi" Mengchaiwan yükseltildi
PG kullanıcısı, rolü ve yetki yönetimi bölüm iki süper ayrıntılı özeti
Docker ve kalıcı PG verilerini temel alan PostgreSQL 11.5'i dağıtın
Kabuk betiği gelişmiş komutları - getopt ve getoptların karşılaştırmalı analizi
Murakami Giyotin Yolu ne zaman sertleşecek? Zhongjiang İlçesi, Deyang'daki "Baba Konferansı" kadroları köylülere olay yerinde cevaplar verdi.
PG kullanıcısı, rolü ve yetki yönetimi bölüm bir süper ayrıntılı özeti
Centos7 sistemine dayalı PG yönetim aracı-pgadmin'i kurun ve dağıtın
Dilin ucundaki baştan çıkarma Kimchi festivali 17. güne kadar sürecek, kaçırılmaması gereken lezzetli
Centos7 altındaki yum tabanlı Postgresql11 hizmetini kurun
"2019 (3.) Çin Demiryolu İnşaat Kupası Binicilik Süper Grand Prix ve Horse Life Festivali" başarıyla sona erdi
Pazar avantajları! Veri Madenciliği Bilmeniz gereken 32 klasik vaka
To Top