g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Büyük veri geliştirmenin tarihini biliyor musunuz?

içindekiler

Kaynağın izini sürmek - büyük veri teknolojisinin doğuşu
Büyük veri kavramlarının her şey dahil anlayışı
Patlama - büyük verinin yükselişi
Büyük verinin potansiyelini ileriye taşımak

Büyük veri teknolojisinin doğuşu:

Hepimizin bildiği gibi, büyük veri sadece bilişim sektöründe yeni ortaya çıkan bir teknoloji değil, aynı zamanda çeşitli şirketlerin yaratmaya kararlı olduğu bir marka imajıdır.Bugün büyük verinin gelişiminden bahsedeceğiz.

Şu anda sık sık bahsettiğimiz büyük veri teknolojisi, aslında Google tarafından 2004 civarında yayınlanan ve sıklıkla bahsettiğimiz "troika" olan üç makaleden kaynaklanıyor: dağıtılmış dosya sistemi GFS (Google Dosya Sistemi), Büyük veri dağıtılmış hesaplama çerçevesi MapReduce ve NoSQL veritabanı sistemi BigTable.

2004 yılında, çeşitli endüstrilerdeki tek boynuzlu at devleri bile tek bir makinenin depolama ve bilgi işlem yeteneklerine odaklandı, tek bir makinenin performansını nasıl artıracaklarını düşünüyor ve daha pahalı ve daha iyi sunucular arıyorlardı.

Ve zaman bağlamında Google'ın üç makalesi, bir su kaynağı gibidir ve başka bir düşünme şekli yaratır: büyük ölçekli bir sunucu kümesi dağıtın ve bu kümede "dağıtılmış" bir şekilde büyük miktarda veri depolayın. Ardından veri hesaplamaları yapmak için kümedeki tüm makineleri kullanın. Bunun en büyük avantajı, aslında çok fazla pahalı sunucu satın almamıza gerek kalmaması, veri depolama ve hesaplamaları taşımak için bazı sıradan makineleri bir araya getirmemizdir.

Bu zaten çok güçlü, "yetenekli" bir işçiden "çok kişili" bir proje ekibine çok büyük ve zahmetli bir görevi yaymaya eşdeğerdir ve iş baskısı ve yükü birden çok kişiye eşit olarak yayılır. , Ve belirli bir kişinin bir sorunu olsa bile, devralması için diğer personele görevler atayabilir Bu, onun desteği olarak güçlü bir organizasyona sahip olmakla eşdeğerdir, bu bizim işimizle aynıdır. Ne kadar çok çalışırsanız çalışın, çıktınız her zaman sınırlıdır ve bir kişinin baskıya ve taşıma kapasitesine dayanma yeteneği darboğazdır, bu da büyük bir ekiple karşılaştırılamayacak kadar uzundur.

Ancak, o dönemde Google'ın önerdiği fikir bir coşku dalgası yaratsa da, o zamanlar çok fazla büyük veri teknolojisi yoktu ve hiç kimse enerjisini ilgili araştırmaya koymadı. Bu sırada, Doug Cutting adlı dahi bir programcı, bir arama motoru geliştirirken, Google'ın (arama motoru sektörünün lideri) bir makalesini gördü. Gazetedeki fikirler onu derinden etkiledi, bu yüzden Tamamen Java teknolojisine dayanan tezdeki teorik ilkeler, başlangıçta kendi projelerinde GFS ve MapReduce benzeri işlevleri uygulamıştır.

2006 yılında, Doug Cutting bu iki işlevi projeden ayırdı ve geliştirme ve bakıma adanmış bağımsız bir proje başlattı.Bu daha sonra, esas olarak Hadoop dağıtılmış dosya sistemi HDFS ve büyük veri hesaplama motorunu içeren ünlü Hadoop oldu. Harita indirgeme. 2008 yılında, Hadoop resmi olarak Apache'nin en üst düzey projesi oldu ve Doug Cutting'in kendisi de Apache Vakfı'nın başkanı oldu. Bu sırada bazı İnternet şirketleri, kendi şirketlerinin belirli depolama ve bilgi işlem yeteneklerini taşımak için Hadoop'u kullanmaya başladı. Hadoop gerçekten başladı Herkes tarafından tanınır.

Büyük veri kavramlarının anlaşılması:

Şimdi "büyük veri" den bahsediyoruz. Aslında çoğu zaman büyük veri teknolojisinden değil, "büyük veri kavramından" bahsediyoruz.

Sözde "büyük veri kavramı" derken "büyük veri" nin ayrı ayrı yani "büyük" ve "veri" olarak yorumlanması ve sonra birleştirilmesi gerektiğini düşünüyorum, aslında büyük verinin yorumlanması da elde edilebilir.

"Büyük" ile ilgili olarak, şahsen üç yönden söylenebileceğini düşünüyorum:

Birincisi: kelimenin tam anlamıyla, "büyük miktarda veriye" atıfta bulunarak;

İkincisi: "Veri türleri çeşitli ve çeşitlidir";

Üçüncüsü: "Veriler", kısa bir süre içinde "patlayıcı" bir şekilde hızla büyüyecek;

"Veri" ile ilgili olarak, "veri nedir" hakkında konuşmayacağız. Verilerin üretilmesi, verilerin depolanması ve verilerin değeri hakkında konuşalım:

İlk olarak, verilerin kaynağı:

Kağıtsız ofis + İnternetin yükselişi: OA sistemi, CRM sistemi (müşteri ilişkileri yönetim sistemi), ERP sistemi (kurumsal kaynak yönetim sistemi), finansal sistem, faturalama sistemi, fabrika yönetim sistemi ... İnternet verileri, kullanıcı davranış günlüğü vb.

İkincisi, verilerin büyük veriden önce depolanması:

Geleneksel endüstrilerdeki ve İnternet endüstrisindeki yazılım sistemlerinin verileri nerede? 2010'dan önce, o zamanlar en popüler olan sözde büyük veri değildi. O zamanlar en popüler olanı DBA idi. Oracle DBA nispeten üst düzey bir pozisyondu. O zamanlar, Oracle'ın, ister İnternet ister geleneksel endüstriler olsun, veritabanı endüstrisinin lideri olduğu kabul edildi. Veriler Oracle'da saklanır, ancak Mysql nispeten küçüktür.

Yine, verilerin kullanımı:

Verilere bakıldığında, en önemli nokta, şirketin tüm seviyelerindeki çalışanların şirketin operasyonunun ve gelişiminin tüm yönlerini anlamalarına yardımcı olmaktır, böylece şirket yöneticileri şirketi daha iyi anlayabilir ve yönetebilir.

Büyük verinin yükselişi:

Büyük veri neden popüler?

Bu soruyu cevaplamadan önce, büyük verinin arifesinde genel ortama bir göz atalım.

Birincisi, büyük verilerin oluşturulması

İnternet endüstrisi hızla büyüyor:

2010 yılından sonra, özellikle akıllı telefonların yaygınlaşmasının ardından, çok sayıda insan her gün telefonlarını internete ve internet şirketlerinin arka uç sistemlerine erişmek için kullanmaya çok zaman ayırıyor İnternet şirketlerinin kullanıcı sayısı artmıştır. Büyük şirketlerde yaygın olan tek bir projenin kullanıcı sayısı yıldan yıla 10 kat artmaktadır.

İş hacmindeki muazzam artış ve artan kullanıcı hacmiyle birlikte, "veri üretiminin kaynağı" olarak, İnternet kullanıcılarının İnternet üzerindeki çeşitli işlemleri "büyük verinin temelini" - "devasa veriyi" üretmiştir.

İkincisi, veriler nasıl saklanıyor?

Özellikle aşağıdakileri ifade eden "IO E" yi sık sık duyuyoruz:

I (IBM, sunucu sağlayıcısı, sağladıkları sunucu genellikle "mini bilgisayar" olarak adlandırılır)

O (Oracle, veritabanı sağlayıcısı, yazılımları ünlü "Oracle İş Veritabanı" dır)

E (EMC, depolama ekipmanı sağlayıcısı, "merkezi depolama" sağlarlar)

Büyük veri popüler hale gelmeden önce, sunuculara ve yazılıma çok para harcamak neredeyse tüm büyük şirketler için unutulmaz bir olaydı, çünkü ister mini bilgisayar, ister merkezi depolama, isterse daha önce bahsettiğimiz Oracle veritabanı olsun, olağanüstü iki tane vardı. Özellikler: "pahalı", "kullanımı özellikle kolay değil".

İlki "pahalı":

O zamanlar, mini bilgisayarların fiyatı yüzbinlerce ila birkaç milyon yuan arasında değişiyordu; ticari veritabanı yazılımının maliyeti neredeyse on milyonlarca artı büyük bir bakım ücreti idi. Tek başına makine ve yazılım satın almanın maliyeti büyük bir şirketi iflas ettirmek için yeterliydi. , Çoğu şirket, hızla yükselen işin getirdiği kârın ekipman satın alımını zar zor tutabildiği bir durumdadır ki bu çok acı verici bir durumdur.

O halde "kullanımı kolay değil":

2008'den 2010'a kadar olan dönemde, büyük internet şirketlerinin iş büyümesi, her yıl on veya yirmi kattan fazla büyüme oranıyla çok hızlıydı.IOE'lerin tamamı Amerikan şirketleri olmasına rağmen, yabancı uydunun daha yuvarlak olmayacağı ortaya çıktı. , Sistemleri yüz milyonlarca netizene bu kadar büyük ölçekte hizmet etme testine dayanmadı, şu anda kullanımı çok zor hale geldi.

Hiç kimse, büyük şirketlerin daha da gelişmesinin önündeki en büyük engelin piyasadaki bir oyun, bir politika değişikliği değil, aslında BT altyapısındaki bir darboğaz olduğunu düşünmezdi.

Üçüncü olarak, veriler nasıl hesaplanır?

Veri raporu nereden geliyor?

Verilerin merkezi olarak görüntülenmesi ile başlayalım: bir veri analiz platformu.

2010'dan önce Çin'de BI sistemlerini kullanan çok fazla şirket yoktu. O zamanlar, raporlar oluşturmak için doğrudan Oracle ve raporlar oluşturmak için Mysql kullanmak normaldi. Büyük ve karmaşık bir SQL'i birkaç yüz satır ve birkaç yüz satırla doğrudan yazmak çok normal bir şeydi. Binlerce satır, doğrudan kitaplığı kontrol edin, SSH çerçevesine (Struts2 + Spring3 + Hibernate + java sistemi) dayalı küçük bir sistem yazın ve düzenli olarak planlayın.

Veri miktarı nispeten büyükse, örneğin, kitaplıkta yüz binlerce veri veya milyonlarca veri depolanırsa ve SQL çalıştırmak çok yavaşsa, genellikle her günün sabahında, sistem kullanılmaz ve Oracle için zaman alır. On dakika, hatta bir veya iki saat sonra, bir veri raporu üretmek için büyük bir SQL başarıyla çalıştırıldı ve ertesi sabah işe gittiğimde ilgili rapor görülebildi.

Veri miktarı çok küçükse, binlerce veya onbinlerce, her zaman ve her yerde, lider raporu görmek istediği sürece, doğrudan rapor sisteminin bir düğmesine tıklar ve ardından Oracle'da sorgulamak için yerinde yüzlerce satır bulunan büyük bir SQL'i doğrudan yürütür. Rapor biraz daha yavaş olabilir ve onlarca saniye veya birkaç dakika sürebilir.

Genel olarak, veri hesaplama ve çıktısının hızı yeterince hızlı değildir ve esneklik de çok zayıftır.

Büyük verinin öncülü

Önceki açıklamaya göre şu sonuca varabiliriz:

Büyük verinin öncülü = çeşitli veri görme ihtiyaçları + yüzlerce satırlık büyük SQL + ilişkisel veritabanı

kriz

Bilgi işlem gücü eksikliğinin potansiyel riski - yetersiz beyin gücü

21. yüzyılın başında, hala kendi işletim sistemimiz yok, kendi çipimiz yok ve kendi bilgi işlem güç sistemimiz yok. Bu nedenle, yabancı ekipman satın almak, tüm büyük yerli internet şirketleri ve devlete ait işletmeler için neredeyse tek seçenektir.

Daha önce, IOE'nin büyük gizli tehlikelerinden bahsetmiştik. IOE kullanımının çok büyük bir riski olmasına rağmen, büyük şirketler hala bunlara hava gibi güveniyor.IOE'nin kartopu benzeri bağlantı etkisinden kaçınmak için, büyük şirketler kendi yenilerini başlatmaya başladılar. Teknik mimari, orijinal "eski motor" un yerini almak için kullanılır.

Yeni motor

Yeni teknik mimari:

Yeni teknik mimarinin "ucuz ve kullanımı kolay" temel niteliklerini karşılaması gerekiyor ve aynı zamanda ticarileştirilebilirse mükemmel olarak adlandırılabilir.

Sonuç olarak, büyük İnternet şirketleri yavaş yavaş kendi "bulut bilişim sistemlerini" uygulamaya başladılar. Bu, büyük veri popüler olmadan önce genel BT sektörü ortamına genel bakış.

Büyük veri teknolojisinin potansiyeli:

Açık kaynak ve kendi kendine araştırma

1. Bir veri hesaplama sistemi geliştirmek için bazı açık kaynaklı yazılım ve teknolojileri kullanın;

2. Java ağına ve diğer temel teknolojilere dayalı bir dizi veri hesaplama sistemini kendi geliştirdi;

Büyük veri daha popülerdir, ancak aslında o kadar uzun değildir. İster açık kaynak teknolojisine isterse saf kendi kendine araştırmaya dayansın, şirketin işleyişini ve gelişimini desteklemek ve "veri" sorununu çözmek için güçlü bir veri hesaplama sistemi kurmak gerekir. Saklama ve hesaplama ".

Verilerin depolanması ve hesaplanması, hemen hemen her şirketin çözmesi gereken bir sorundur.Bu nedenle, büyük veri her şirketin iletişim kurması ve geliştirmesi gereken yöndür.Büyük bir potansiyele sahiptir ve sürekli öğrenmemize ve yatırımımıza değer.

Sonunda yazılı:

Devamında, bazı büyük veri teknolojilerini paylaşmaya ve size daha fazla büyük veri bilgisini anlatmak için en yaygın ve yetenekli kelimeleri kullanmaya devam edeceğim. Umarım size yardımcı olur. İlginiz ve paylaşımınız için teşekkür ederim.

Büyük veri geliştirme ve yüksek maaş [ücretsiz erişim] için eksiksiz bir gerekli kaynak seti

Oracle'ın kıdemli teknik direktörü, büyük veri geliştirmeye tam olarak yardımcı olacak şekilde, uzun yıllar boyunca dikkatli bir şekilde eksiksiz bir müfredat sistemi seti [büyük veri, yapay zeka geliştirme görmelidir] oluşturdu Sıfır temel + giriş + iyileştirme + proje = yüksek maaş !