2018 ve 2019, büyük veri alanında iki yıllık güçlü bir gelişimdir. 2019'un başından bu yana, gerçek zamanlı akış hesaplama teknolojisi sıradan geliştiricilerin gözüne girmeye başladı. Büyük şirketler, yeni akış hesaplama çerçevesini, gerçek zamanlı akış hesaplama motoru Spark'ı denemek için hiçbir çabadan kaçınmıyorlar. Akış, Kafka Yayını, Beam ve Flink popüler olmaya devam ediyor.
Son zamanlarda, Spark topluluğunda, Databricks, NVIDIA, Google ve Alibaba'dan mühendisler, Apache Spark 3.0'a yerel GPU planlama desteği ekliyor. Bakınız (SPARK-24615 ve SPARK-24579). Bu çözüm, GPU kaynaklarında Spark'ın görev planlamasını dolduracaktır. Bu boşluk, Spark'ın derin öğrenme ve sinyal işlemedeki uygulama senaryolarını büyük ölçüde genişletir.
Veri öğrenme değişim grubunu artırın: 957205962, ücretsiz materyalleri ve kursları ücretsiz alın
Aynı zamanda, Ocak 2019'un sonunda, Alibaba'nın dahili versiyonu Blink resmi olarak açık kaynaklıydı! Bir taş binlerce dalgaya neden oldu ve Blink açık kaynak haberi anında arkadaş çevresini patlattı.Büyük veri hesaplamanın tüm alanı her zaman Spark tarafından yönetildi ve anında iki gücün hegemonya için savaştığı bir çağ haline geldi. Peki Spark ve Blink'in gelecekteki gelişimi ne tür kıvılcımlarla çarpışacak? Büyük verinin gerçek zamanlı bilgi işlem alanında en parlak yıldız kim olacak?
Spark ve Flink arasındaki avantajlara ve dezavantajlara ve temel farklılıklara bir göz atalım.
Altta yatan mekanizma
Spark'ın veri modeli, Esnek Dağıtılmış Veri Kümeleri'dir (Esnek Dağıtılmış Veri Kümeleri) Bu bellek veri yapısı, Spark'ın sabit bellek aracılığıyla büyük ölçekli hesaplamalar yapmasını sağlar. Spark Streaming'in ilk günlerinde, veriler toplu işlere (mikro yığınlar) aktarılıyordu, yani belirli bir süre içinde (zaman aralığı) gelen tüm veriler toplanıyordu ve üzerinde rutin toplu işlem gerçekleştiriliyordu, bu nedenle tam anlamıyla, şu şekilde sayılamaz: Yayın Akışı. Bununla birlikte, Spark, zamana dayalı işlemeyi ve uçtan uca tutarlılığı destekleyen sürüm 2.x'ten bu yana Sürekli İşleme Moduna dayalı Yapılandırılmış Akışı kullanıma sunmuştur, ancak yine de uçtan uca tam olarak bir kerelik anlambilim desteği gibi bazı işlevsel kusurlar vardır.
Tipik bir Spark DAG'nin şematik diyagramı
Flink, birleşik bir akış ve toplu işlem çerçevesidir. Temel veri modeli, bir veri akışı ve bir dizi olaydır. Tasarımının başlangıcından itibaren, Flink bir bakış açısına sahiptir: toplu iş, özel bir akış durumudur. Her veri parçası hesaplama mantığını başlatabilir, bu nedenle Flink'in akış özelliği gecikme açısından doğal bir avantaja sahiptir.
Tipik bir Flink iş akışı diyagramı
Flink ayrıca, bir durumla başa çıkmak için kullanılan, durum bilgili hesaplama adı verilen benzersiz bir konsept sunar: veri işleme, önceden işlenmiş veriler veya olaylarla ilgilidir. Örneğin, toplama işlemleri yapılırken, toplu veri toplama işleminin sonucu, daha önce işlenen partilere bağlıdır. Erken Kıvılcım kullanıcıları genellikle bu tür sorunlardan rahatsız olurlardı ve Yapılandırılmış Akışın ortaya çıkmasına kadar çözülmemişti.
Flink, bu sorunu çözmek için baştan beri devlet kavramını tanıttı. Durum hesaplaması için genel bir çözüm sağlar.
Çevreleyen ekoloji
Büyük veri alanında, herhangi bir projenin popülaritesi eksiksiz bir teknoloji yığınından ayrılamaz. Spark ve Flink, temelde yatan verilerin ve hesaplama planlamasının oldukça soyut bir çekirdeğine dayalı toplu işleme, akış işleme ve yapılandırılmış veriler geliştirdiler. Grafik verileri ve makine öğrenimi gibi farklı paketler, veri analizi alanını birleştirmek amacıyla veri analizi alanındaki çoğu senaryo için desteği tamamlar.
Hem Flink hem de Spark, Scla ve Java karma programlama tarafından uygulanır, Spark'ın temel mantığı Scala tarafından tamamlanır ve Flink'in ana çekirdek mantığı Java tarafından tamamlanır. Üçüncü taraf dilleri için destek açısından, Spark daha kapsamlı bir şekilde destekler ve Spark, Scala, Java, Python ve R dili programlamayı neredeyse mükemmel şekilde destekler.
Çevreleyen ekolojiyi kıvılcım (resmi web sitesinden resim)
FlinkSpark aynı zamanda HDFS, S3, kaynak yönetimi / zamanlama Yarn, Mesos, K8s vb. Depolama sistemleri, Hbase veritabanı, Cassandra, mesajlaşma sistemi Amazon, Kinesis, Kafka vb. Gibi depolama sistemleri ile entegrasyonu resmi olarak desteklemektedir.
Ekolojiyi çevreleyen Flink (resmi web sitesinden resim)
Son Spark + AI Zirvesinde, Databricks, kullanıcıların tek bir sistemde mümkün olduğunca çok sayıda veri ihtiyacını çözmesini sağlamak amacıyla kendi Birleşik Analitik Platformunu başlattı. Flink'in hedefi Spark ile aynıdır. Yapay zekayı içeren birleşik bir platform, aynı zamanda Flink'in gelişiminin yönüdür. Teknik açıdan, Flink, makine öğrenimi ve derin öğrenmenin entegrasyonunu tam olarak destekleyebilir, ancak şu anda, Flink'in hala gidecek uzun bir yolu var Gitmek.
Gelecek eğilim
2018, makine öğrenimi ve derin öğrenmenin ilk yılıdır ve makine öğrenimi, veri işleme alanında giderek daha önemli hale gelmektedir. Spark ve Flink gerçek zamanlı bilgi işlem konusunda iyi bir iş çıkarırken, bu fırsatı yakalayabilenler gelecekteki geliştirmelerde başı çekebilir. Buna ek olarak, 5G'nin geliştirilmesiyle, ağ iletimi artık darboğaz olmadığında, IOT'nin patlayıcı gelişimi, gerçek zamanlı bilgi işlem talebinin patladığı zaman da olacaktır. O zaman, Flink'in akışlı hesaplamadaki doğal avantajları tam olarak kullanılacaktır. Blink'in açık kaynağı Ve Alibaba'nın Blink'i kutsaması şüphesiz Flink'in gelecekteki gelişimi için bir güçlendirici enjekte edecek.
sonuç olarak
Spark ve Flink, temelde gerçek zamanlı bilgi işlem alanındaki fiili standartlardır. Her ikisi de kullanım kolaylığı ve ekosistem inşası için çok fazla kaynak yatırdı ve şimdi ve gelecekte büyük veri alanında en güçlü rakipler. İkisinin gelişimine rekabette karşılıklı tanıtım eşlik ediyor.Makine öğreniminin entegrasyonu ve birleşik bir işleme platformunun inşasında her iki tarafın da kendi avantajları ve dezavantajları var. Eksikleri mümkün olan en kısa sürede telafi edebilenler, gelecekteki gelişmede bir avantaja sahip olacak. Genel büyük veri alanındaki geliştiriciler için şimdiki zaman, iki büyük veri motorunun güçlü gelişimine tanık olmak için en iyi zamandır. Öğrenmekten başka seçenekleri yok.Bu bir tür şans değil mi?
Veri öğrenme değişim grubunu artırın: 957205962, ücretsiz materyalleri ve kursları ücretsiz alın