Yerel bir mobil ofis, ayrıntılı telekomünikasyon işletme faturalarını işlemek için Impala bileşenlerini kullanır. Her gün yaklaşık 100 TB ayrıntılı fatura işler. Ayrıntılı fatura tablosu günde on milyardan fazla kaydı kaydeder. Impala kullanma sürecinde aşağıdaki sorunlar mevcuttur:
Yukarıdaki sorunlar dizisine yanıt olarak, mobil site müşterileri bizden uygun çözümler sunmamızı istedi. Büyük veri ekibimiz yukarıdaki sorunları analiz etti ve teknik seçim yaptı. Bu süreçte, mobil sitenin birkaç Tipik bir iş senaryosu, Spark + CarbonData, Impala2.6, HAWQ, Greenplum ve SybaseIQ'nun prototipini oluşturmak ve doğrulamak, performans ayarı yapmak, iş senaryolarımız için CarbonData'nın veri yükleme performansını optimize etmek, sorgu performansı ve CarbonData açık kaynak topluluğuna katkıda bulunmak için girdi olarak kullanılır. Sonunda, aynı zamanda tipik bir SQL On Hadoop çözümü olan ve geleneksel veri ambarı on Hadoop'a geçiş eğilimini dolaylı olarak doğrulayan Spark + CarbonData çözümünü seçtik. Doğrulama testimiz ve anlayışımızla birlikte topluluk resmi web sitesi bilgilerine bakın: CarbonData, büyük bir veri Hadoop ekolojik yüksek performanslı veri depolama çözümüdür, özellikle veri miktarı büyük olduğunda önemli ölçüde hızlanır. Spark ile derinlemesine entegredir ve Spark ekosisteminin tüm işlevleriyle uyumludur ( SQL, ML, DataFrame, vb.), Spark + CarbonData, birden fazla iş senaryosunun ihtiyaçlarını karşılamak için tek bir veri parçası için uygundur. Aşağıdaki özellikleri içerir:
Ayrıntılı anahtar teknoloji tanıtımı ve kullanımı için lütfen https://carbondata.apache.org/ belgesini okumak ve görüntülemek için resmi web sitesine gidin.
Nihai çözüm olarak neden SQL on Hadoop teknolojisinin seçildiğini açıklamak için bir ek.
Büyük veriye maruz kalan herkes büyük verinin 5V özelliğine sahip olduğunu bilir.Geleneksel İnternet verilerinden mobil İnternet verilerine, artık çok popüler IoT'ye, aslında her sektör ilerlemesiyle birlikte iki tür veri hacmi olacaktır. Üç kat büyüme. Dahası, mevcut veri büyümesi hızlanmış bir büyüme eğilimi gösteriyor, bu yüzden şimdi mobil İnternet ve Nesnelerin İnterneti dahil olmak üzere İnternet büyük verisinin 5 ana özelliğini ortaya koyduk: Hacim, Hız, Çeşitlilik, Değer, Doğruluk. Veri miktarı arttıkça, geleneksel veri ambarları giderek daha fazla zorlukla karşı karşıya kalır.
Geleneksel veri ambarlarının karşılaştığı zorluklar:
Aynı zamanda, veri sistemi sürekli gelişiyor
Depolama yöntemlerinin evrimi: çevrimdışı, yakın hat > Hepsi çevrimiçi
Depolama mimarisinin evrimi: merkezi depolama- > Dağıtılmış depolama
Depolama modelinin evrimi: sabit yapı- > Esnek yapı.
Veri işleme modellerinin evrimi
Sabit model sabit algoritma- > Esnek model ve esnek algoritma
Veri işleme türlerinin evrimi
Yapılandırılmış merkezi tek kaynaklı bilgi işlem- > Çok yapılandırılmış dağıtılmış çok kaynaklı bilgi işlem
Veri işleme mimarisinin evrimi
Veritabanı statik işleme- > Gerçek zamanlı veri / akış / toplu işleme
Yukarıda bahsedilen değişiklik veritabanının babası Kimball bir noktaya değindi:
Kimball'un temel görüşü:
Hadoop, geleneksel veri ambarının veri işleme mekanizmasını değiştirdi. Geleneksel veritabanının bir işleme birimi, Hadoop'ta üç katmana ayrıldı:
Depolama katmanı: HDFS
Meta veri katmanı: Hcatalog
Sorgu katmanı: Hive, Impala, Spark SQL
Şema Okuma, kullanıcılara daha fazla seçenek sunar:
Veriler, depolama katmanına orijinal biçiminde içe aktarılır
Meta veri katmanı aracılığıyla hedef veri yapısını yönetin
Sorgu katmanı, verilerin ne zaman çıkarılacağına karar verir
Uzun süreli keşif ve verilere alıştıktan sonra, kullanıcılar ara tabloları sağlamlaştırmak ve sorgu performansını iyileştirmek için Yazma Üzerinde Şema modunu benimseyebilir
Seri numarası
RDBMS'ye dayalı veri işleme modu
Hadoop'a dayalı veri işleme modu
1
Güçlü tutarlılık
Nihai tutarlılık, işleme verimliliği veri doğruluğundan daha yüksektir
2
Veriler dönüştürülmelidir, aksi takdirde sonraki işlem devam edemez
Veriler, dönüştürülmeden uzun süre orijinal formatta saklanabilir
3
Veriler temizlenmeli ve normalleştirilmelidir
Veri temizleme ve normalleştirme için tavsiye edilmez
4
Veriler temelde fiziksel tabloda saklanır, dosya erişim verimliliği düşüktür
Verilerin çoğu dosyalarda saklanır ve fiziksel tablolar yapılandırılmış dosyalara eşdeğerdir
5
Meta veriler sözlük tablolarıyla sınırlıdır
HCatalog hizmetine meta veri uzantısı
6
Veri işleme motorunda yalnızca SQL var
Açık veri işleme motoru: SQL, NOSQL, Java API
7
Veri işleme süreci tamamen BT personeli tarafından kontrol edilir
Veri mühendisleri, veri bilimcileri ve veri analistlerinin tümü veri işlemeye katılabilir
Hadoop veri ambarı teknolojisinde SQL
Veri işleme ve analiz
Hadoop üzerine SQL
Kudu + Impala, Spark, HAWQ, Presto, Hive vb.
Veri modelleme ve depolama
Okunduğunda Şema
Avro ve ORC ve Parquet ve CarbonData
Akış işleme
Flume + Kafka + Spark Akışı
SQL-on-Hadoop teknolojisinin gelişimi ve olgunluğu değişimi destekler
Yukarıdaki teknik analizden sonra, nihayet platformumuzun gelecekteki veri ambarı gelişim yönü olarak SQL on Hadoop teknolojisini seçtik.Birisi burada sormalı, neden MPPDB teknolojisini seçmiyor? Burada ayrıca Hadoop ve MPPDB üzerinde SQL kullanıyoruz. Karşılaştırmalı analizden sonra (Impala'nın aslında MPPDB'ye benzer bir teknoloji olduğunu unutmayın):
Site, Impala'yı değiştirdikten sonra Eylül 2018'in sonunda Spark + CarbonData'yı başlattı.Her gün 100 TB'tan fazla makbuz işledi.İşlerin en yoğun olduğu dönemde, veri yükleme performansı tek bir impala için 60 MB / sn'den tek bir platform için 100 MB / sn'ye değişti. Performans: Bir sitedeki tipik bir iş senaryosunda, Spark + CarbonData'nın sorgu performansı, 20 eşzamanlı sorgu altında Impala + parke'nin iki katından fazladır.
Aynı zamanda aşağıdaki problemler çözüldü:
Uygulama sırasında dikkat edilecek noktalar: