Blink açık kaynak Spark3.0, büyük veri alanına kim hakim olabilir?

2018 ve 2019, büyük veri alanında iki yıllık güçlü bir gelişimdir. 2019'un başından bu yana, gerçek zamanlı akış hesaplama teknolojisi sıradan geliştiricilerin gözüne girmeye başladı. Büyük şirketler, yeni akış hesaplama çerçevesini, gerçek zamanlı akış hesaplama motoru Spark'ı denemek için hiçbir çabadan kaçınmıyorlar. Akış, Kafka Yayını, Beam ve Flink popüler olmaya devam ediyor.

Son zamanlarda, Spark topluluğunda, Databricks, NVIDIA, Google ve Alibaba'dan mühendisler, Apache Spark 3.0'a yerel GPU planlama desteği ekliyor. Bakınız (SPARK-24615 ve SPARK-24579). Bu çözüm, GPU kaynaklarında Spark'ın görev planlamasını dolduracaktır. Bu boşluk, Spark'ın derin öğrenme ve sinyal işlemedeki uygulama senaryolarını büyük ölçüde genişletir.

Veri öğrenme değişim grubunu artırın: 957205962, ücretsiz materyalleri ve kursları ücretsiz alın

Aynı zamanda, Ocak 2019'un sonunda, Alibaba'nın dahili versiyonu Blink resmi olarak açık kaynaklıydı! Bir taş binlerce dalgaya neden oldu ve Blink açık kaynak haberi anında arkadaş çevresini patlattı.Büyük veri hesaplamanın tüm alanı her zaman Spark tarafından yönetildi ve anında iki gücün hegemonya için savaştığı bir çağ haline geldi. Peki Spark ve Blink'in gelecekteki gelişimi ne tür kıvılcımlarla çarpışacak? Büyük verinin gerçek zamanlı bilgi işlem alanında en parlak yıldız kim olacak?

Spark ve Flink arasındaki avantajlara ve dezavantajlara ve temel farklılıklara bir göz atalım.

Altta yatan mekanizma

Spark'ın veri modeli, Esnek Dağıtılmış Veri Kümeleri'dir (Esnek Dağıtılmış Veri Kümeleri) Bu bellek veri yapısı, Spark'ın sabit bellek aracılığıyla büyük ölçekli hesaplamalar yapmasını sağlar. Spark Streaming'in ilk günlerinde, veriler toplu işlere (mikro yığınlar) aktarılıyordu, yani belirli bir süre içinde (zaman aralığı) gelen tüm veriler toplanıyordu ve üzerinde rutin toplu işlem gerçekleştiriliyordu, bu nedenle tam anlamıyla, şu şekilde sayılamaz: Yayın Akışı. Bununla birlikte, Spark, zamana dayalı işlemeyi ve uçtan uca tutarlılığı destekleyen sürüm 2.x'ten bu yana Sürekli İşleme Moduna dayalı Yapılandırılmış Akışı kullanıma sunmuştur, ancak yine de uçtan uca tam olarak bir kerelik anlambilim desteği gibi bazı işlevsel kusurlar vardır.

Tipik bir Spark DAG'nin şematik diyagramı

Flink, birleşik bir akış ve toplu işlem çerçevesidir. Temel veri modeli, bir veri akışı ve bir dizi olaydır. Tasarımının başlangıcından itibaren, Flink bir bakış açısına sahiptir: toplu iş, özel bir akış durumudur. Her veri parçası hesaplama mantığını başlatabilir, bu nedenle Flink'in akış özelliği gecikme açısından doğal bir avantaja sahiptir.

Tipik bir Flink iş akışı diyagramı

Flink ayrıca, bir durumla başa çıkmak için kullanılan, durum bilgili hesaplama adı verilen benzersiz bir konsept sunar: veri işleme, önceden işlenmiş veriler veya olaylarla ilgilidir. Örneğin, toplama işlemleri yapılırken, toplu veri toplama işleminin sonucu, daha önce işlenen partilere bağlıdır. Erken Kıvılcım kullanıcıları genellikle bu tür sorunlardan rahatsız olurlardı ve Yapılandırılmış Akışın ortaya çıkmasına kadar çözülmemişti.

Flink, bu sorunu çözmek için baştan beri devlet kavramını tanıttı. Durum hesaplaması için genel bir çözüm sağlar.

Çevreleyen ekoloji

Büyük veri alanında, herhangi bir projenin popülaritesi eksiksiz bir teknoloji yığınından ayrılamaz. Spark ve Flink, temelde yatan verilerin ve hesaplama planlamasının oldukça soyut bir çekirdeğine dayalı toplu işleme, akış işleme ve yapılandırılmış veriler geliştirdiler. Grafik verileri ve makine öğrenimi gibi farklı paketler, veri analizi alanını birleştirmek amacıyla veri analizi alanındaki çoğu senaryo için desteği tamamlar.

Hem Flink hem de Spark, Scla ve Java karma programlama tarafından uygulanır, Spark'ın temel mantığı Scala tarafından tamamlanır ve Flink'in ana çekirdek mantığı Java tarafından tamamlanır. Üçüncü taraf dilleri için destek açısından, Spark daha kapsamlı bir şekilde destekler ve Spark, Scala, Java, Python ve R dili programlamayı neredeyse mükemmel şekilde destekler.

Çevreleyen ekolojiyi kıvılcım (resmi web sitesinden resim)

FlinkSpark aynı zamanda HDFS, S3, kaynak yönetimi / zamanlama Yarn, Mesos, K8s vb. Depolama sistemleri, Hbase veritabanı, Cassandra, mesajlaşma sistemi Amazon, Kinesis, Kafka vb. Gibi depolama sistemleri ile entegrasyonu resmi olarak desteklemektedir.

Ekolojiyi çevreleyen Flink (resmi web sitesinden resim)

Son Spark + AI Zirvesinde, Databricks, kullanıcıların tek bir sistemde mümkün olduğunca çok sayıda veri ihtiyacını çözmesini sağlamak amacıyla kendi Birleşik Analitik Platformunu başlattı. Flink'in hedefi Spark ile aynıdır. Yapay zekayı içeren birleşik bir platform, aynı zamanda Flink'in gelişiminin yönüdür. Teknik açıdan, Flink, makine öğrenimi ve derin öğrenmenin entegrasyonunu tam olarak destekleyebilir, ancak şu anda, Flink'in hala gidecek uzun bir yolu var Gitmek.

Gelecek eğilim

2018, makine öğrenimi ve derin öğrenmenin ilk yılıdır ve makine öğrenimi, veri işleme alanında giderek daha önemli hale gelmektedir. Spark ve Flink gerçek zamanlı bilgi işlem konusunda iyi bir iş çıkarırken, bu fırsatı yakalayabilenler gelecekteki geliştirmelerde başı çekebilir. Buna ek olarak, 5G'nin geliştirilmesiyle, ağ iletimi artık darboğaz olmadığında, IOT'nin patlayıcı gelişimi, gerçek zamanlı bilgi işlem talebinin patladığı zaman da olacaktır. O zaman, Flink'in akışlı hesaplamadaki doğal avantajları tam olarak kullanılacaktır. Blink'in açık kaynağı Ve Alibaba'nın Blink'i kutsaması şüphesiz Flink'in gelecekteki gelişimi için bir güçlendirici enjekte edecek.

sonuç olarak

Spark ve Flink, temelde gerçek zamanlı bilgi işlem alanındaki fiili standartlardır. Her ikisi de kullanım kolaylığı ve ekosistem inşası için çok fazla kaynak yatırdı ve şimdi ve gelecekte büyük veri alanında en güçlü rakipler. İkisinin gelişimine rekabette karşılıklı tanıtım eşlik ediyor.Makine öğreniminin entegrasyonu ve birleşik bir işleme platformunun inşasında her iki tarafın da kendi avantajları ve dezavantajları var. Eksikleri mümkün olan en kısa sürede telafi edebilenler, gelecekteki gelişmede bir avantaja sahip olacak. Genel büyük veri alanındaki geliştiriciler için şimdiki zaman, iki büyük veri motorunun güçlü gelişimine tanık olmak için en iyi zamandır. Öğrenmekten başka seçenekleri yok.Bu bir tür şans değil mi?

Veri öğrenme değişim grubunu artırın: 957205962, ücretsiz materyalleri ve kursları ücretsiz alın

Orta sınıf cep telefonu pazarı güçlü bir düşmana yol açtı. Vivo Z5x bir savaşçı mı yoksa top yemi mi?
önceki
"Dragon Quest" duyurulan yeni mobil oyun "Dragon Quest 12" hazırlanıyor
Sonraki
Efsaneye göre insanlar intihara meyilli halüsinasyonlar yaşayabilir. 7 yılda bir çiçek açan ceset konjac gerçekten var mı?
Kaldırma ve indirme arasındaki sıfır sınır deneyimini açın: vivo X27, gücüyle çağdaş bir model haline geldi
Yaoshan sitesinin fotoğraf günlüğü - fakir dağlık bölgelerdeki okulların değişimi
Shinji Mikami, E3'e katılacak veya "Evil Possession" ın yeni çalışmasını duyuracak
Çin'in "en çok mağdur edilen" şehri, adı çok dünyevi olduğu için netizenler tarafından genellikle küçük bir şehir olarak kabul edilir.
Büyük veri yeteneklerinin istihdam beklentileri nelerdir? İstihdam maaşı 15K'dan başlıyor
190604 Chen Linong, saat yapmaya çalışırken işe gitmek için erken kalkar
Redmi K20 / OPPO K3 / vivo Z5x beklemeye değer mi? Xiaomi 9 / Honor V20 / iQOO satın almaya değer mi?
190605 Zhu Zhengting evcil köpeklerinin fotoğraflarını çekiyor ve köpek dövüşü başlamak üzere
İQOO Knight Black'in fiyatı son derece dikkatli, aynı fiyata en uygun maliyetli amiral gemisi telefonu!
Dünyanın en düşük profilli başkenti olan şehir, toplam nüfusu yalnızca 700.000 olan Çin'de yalnızca altıncı büyüklüğe sahiptir.
5G döneminin gelişi ne anlama geliyor? Bu sadece hız değil
To Top