Büyük veri öğreniminin yolunu sistematik olarak nasıl planlayabilirim?

Büyük veri alanı çok geniştir ve genellikle büyük veriyi ve ilgili teknolojileri öğrenmeye başlamak isteyen insanları yıldırır. Yeni başlayanların nereden başlayacaklarını seçmelerini zorlaştıran birçok büyük veri teknolojisi türü vardır.

İşte tam da bu yüzden bu makaleyi yazmak istiyorum. Bu makale, büyük veriyi öğrenme yolculuğunuza başlamanıza ve büyük veri sektöründe iş bulmanıza yardımcı olacaktır. . Şu anda karşı karşıya olduğumuz en büyük zorluk, ilgi alanlarımıza ve becerilerimize göre doğru rolü seçmektir.

Burada hala kendi kendime yaptığım büyük veri öğrenme alışverişi qq eteğini tavsiye etmek istiyorum: 957205962, etek hepsi büyük veri geliştirmeyi öğreniyor, eğer büyük veriyi öğreniyorsanız, editör sizi katılmaya davet ediyor, herkes bir yazılım geliştirme partisidir, 2018'de kendim tarafından derlenen en son büyük veri gelişmiş materyallerin ve gelişmiş geliştirme eğitimlerinin bir kopyası dahil olmak üzere kuru malları zaman zaman paylaşın (yalnızca büyük veri geliştirmeyle ilgili). Büyük veride daha derine inmek isteyen gelişmiş ve küçük ortaklara hoş geldiniz

Bu sorunu çözmek için, mühendislerin ve bilgisayar bilimi mezunlarının farklı rollerini göz önünde bulundurarak, bu makalede büyük veriyle ilgili her bir rolü detaylandırdım.

İnsanların büyük veriyi öğrenme sürecinde karşılaştığı veya karşılaşabileceği her soruyu yanıtlamak için elimden gelenin en iyisini yaptım. İlgi alanlarınıza göre bir geliştirme yolu seçmenize yardımcı olmak için, bir dizi ağaç diyagramı ekledim ve bunun doğru yolu bulmanıza yardımcı olacağına inanıyorum.

Not: öğrenme yolunun ağaç diyagramı

Bu ağaç diyagramının yardımıyla, ilgi alanlarınıza ve hedeflerinize göre yolu seçebilirsiniz. Ardından, büyük veriyi öğrenme yolculuğuna başlayabilirsiniz.

İçindekiler

1. Nasıl başlamalı?

2. Büyük veri alanında iş gereksinimleri nelerdir?

3. Tarlanız nedir ve hangi yön için uygundur?

4. Büyük verideki rolünüzü ana hatlarıyla belirtin

5. Nasıl büyük veri mühendisi olunur?

o Büyük veri endüstrisi terimi nedir?

o Bilmeniz gereken sistem ve yapı

o Çözüm tasarlamayı ve ilgili teknolojileri öğrenmeyi öğrenin

6. Büyük veri öğrenme yolu

7. Kaynaklar

1. Nasıl başlamalı?

İnsanlar büyük veriyi öğrenmeye başlamak istediklerinde en sık sorulan soru, "Hadoop'u öğrenmeliyim (hadoop, çoğunlukla dağıtılmış depolama ve bilgi işlem için kullanılan açık kaynaklı bir yazılımdır. HDFS ve MapReduce hesaplama çerçevelerinden oluşur. Googleın GFS ve MapReduce uygulamalarının açık kaynaklı uygulamalarıdır. Kullanım kolaylığı ve ölçeklenebilirliği nedeniyle Hadoop, büyük veri işleme için popüler bir çerçeve haline gelmiştir. Hadoop kelimesi, mucidinin oğlu tarafından oyuncak fillere verilen addan gelmektedir. .), dağıtılmış hesaplama, Kafka (Kafka, LinkedIn tarafından geliştirilen dağıtılmış bir yayınlama / abone olma mesajlaşma sistemidir), NoSQL (ilişkisel olmayan veritabanlarına atıfta bulunur) veya Spark (Spark, Hadoop'a benzer bir açık kaynak kümesidir. Bilgisayar ortamı, ancak ikisi arasında hala bazı farklılıklar var)? "

Ve genellikle tek bir cevabım var: "Ne yapmak istediğine bağlı."

Öyleyse bu sorunu metodik bir şekilde çözelim. Bu öğrenme yolunu adım adım keşfedeceğiz.

2. Büyük veri endüstrisindeki profesyonel ihtiyaçlar nelerdir?

Büyük veri endüstrisinde birçok alan var. Genel olarak iki kategoriye ayrılabilirler:

  • Büyük veri mühendisliği
  • Büyük veri analizi

Bu alanlar bağımsız ve birbiriyle ilişkilidir.

Büyük veri mühendisliği, büyük miktarda verinin tasarımını, dağıtımını, edinimini ve bakımını (korunması) içerir. Büyük veri mühendislerinin, ilgili verilerin farklı tüketiciler ve dahili uygulamalar için kullanılabilmesi için böyle bir sistemi tasarlaması ve devreye alması gerekir.

Büyük veri analizinin işi, büyük veri mühendisleri tarafından tasarlanan sistemin sağladığı büyük verileri kullanmaktır. Büyük veri analizi trend, model analizi ve farklı sınıflandırma ve tahmin sistemlerinin geliştirilmesini içerir.

Bu nedenle kısaca büyük veri analizi, verilerin gelişmiş bir hesaplamasıdır. Büyük veri mühendisliği, sistem tasarımı, dağıtımı ve bilgi işlem işletim platformunun üst düzey yapısıdır.

3. Tarlanız nedir ve hangi yön için uygundur?

Artık sektördeki mevcut meslek türlerini anladığımıza göre, sizin için hangi alanın doğru olduğunu belirlemenin bir yolunu bulalım. Bu sayede bu sektördeki konumunuzu belirleyebiliriz.

Genel olarak konuşursak, eğitim geçmişinize ve sektör deneyiminize göre aşağıdaki şekilde sınıflandırabiliriz:

  • Eğitim arkaplanı

Burada hala kendi kendime yaptığım büyük veri öğrenme alışverişi qq eteğini tavsiye etmek istiyorum: 957205962, etek hepsi büyük veri geliştirmeyi öğreniyor, eğer büyük veriyi öğreniyorsanız, editör sizi katılmaya davet ediyor, herkes bir yazılım geliştirme partisidir, 2018'de kendim tarafından derlenen en son büyük veri gelişmiş materyallerin ve gelişmiş geliştirme eğitimlerinin bir kopyası dahil olmak üzere kuru malları zaman zaman paylaşın (yalnızca büyük veri geliştirmeyle ilgili). Büyük veride daha derine inmek isteyen gelişmiş ve küçük ortaklara hoş geldiniz

(İlgi alanları dahil, üniversite eğitiminizle ilgili olması gerekmez)

  • bilgisayar Bilimi
  • Matematik
    • Sektör deneyimi
    • Yeni gelen
    • Veri bilimci
    • Bilgisayar mühendisi (verilerle ilgili alanlarda çalışan)

    Bu nedenle, yukarıdaki sınıflandırma yoluyla alanınızı aşağıdaki gibi konumlandırabilirsiniz:

    Örnek 1: "Bilgisayar bilimleri mezunuyum, ancak sağlam matematik becerilerim yok."

    Bilgisayar bilimi veya matematiğe ilgi duyuyorsanız, ancak daha önce deneyiminiz yoksa, yeni gelen olarak tanımlanacaksınız.

    Örnek 2: "Bilgisayar bilimleri mezunuyum ve şu anda veritabanı geliştirme ile uğraşıyorum."

    İlgi alanınız bilgisayar bilimidir ve bilgisayar mühendisi rolüne uygunsunuz (veri ile ilgili mühendislik).

    Örnek 3: "İstatistik alanında bir veri bilimcisi olarak çalışıyorum."

    Bir veri bilimcinin profesyonel rolüne uygun matematik alanıyla ilgileniyorsunuz.

    Bu nedenle, tarlanızın konumuna bakın.

    (Burada tanımlanan alanlar, büyük veri endüstrisindeki öğrenme yolunuzu belirlemeniz için çok önemlidir.)

    4. Alana göre rolünüzü planlayın

    Artık alanınızı belirlediğinize göre, bir sonraki adımda çaba göstereceğiniz hedef konumu planlayalım.

    Mükemmel programlama becerileriniz varsa ve bilgisayarların ağ üzerinde nasıl çalıştığını (temel) anlıyorsanız ve matematik ve istatistikle ilgilenmiyorsanız, bu durumda, büyük bir veri mühendisliği pozisyonu için çalışmalısınız.

    Programlamada iyiyseniz ve eğitim geçmişiniz varsa veya matematik veya istatistikle ilgileniyorsanız, büyük veri analisti pozisyonu için çalışmalısınız.

    5. Nasıl büyük veri mühendisi olunur

    Önce endüstri tarafından tanınan bir büyük veri mühendisinin öğrenmesi ve anlaması gerektiğini tanımlayalım. İlk ve en önemli adım ihtiyaçlarınızı teyit etmektir. Kişisel ihtiyaçlarınızı bilmeden doğrudan büyük veriyi öğrenmeye başlayamazsınız. Aksi takdirde, file körü körüne dokunmaya devam edeceksiniz.

    İhtiyaçlarınızı netleştirmek için, yaygın olarak kullanılan büyük veri terimlerini anlamalısınız. Öyleyse, büyük verinin gerçekte ne anlama geldiğine bir göz atalım.

    5.1 Büyük veri terminolojisi

    Büyük veri mühendisliği genellikle iki yönü içerir - veri gereksinimleri ve işleme gereksinimleri.

    5.1.1 Veri gereksinimleri terminolojisi

    yapı: Verilerin tablolarda veya dosyalarda saklanabileceğini bilmelisiniz. Önceden tanımlanmış bir veri modelinde (yani sahiplik yapısı) depolanan verilere yapılandırılmış veri denir. Veriler bir dosyada saklanıyorsa ve önceden tanımlanmış bir model yoksa, buna yapılandırılmamış veriler denir. (Tip: yapılandırılmış / yapılandırılmamış).

    kapasite: Veri miktarını tanımlamak için kapasite kullanıyoruz. (Tür: S / M / L / XL / XXL / Akış)

    Havuz işleme hızı: Havuz verimini tanımlamak için sistemin kabul edebileceği veri hızını kullanın. (Tür: H / M / L)

    Kaynak işleme hızı: Verilerin güncellenme ve sisteme dönüştürülme hızı olarak tanımlanır. (Tür: H / M / L)

    5.1.2 Talep koşullarının işlenmesi

    Sorgu zamanı: Sistem sorgusu için gereken süre. (Tip: uzun / orta / kısa)

    İşlem süresi: Verileri işlemek için gereken süre. (Tip: uzun / orta / kısa)

    Doğruluk: Veri işlemenin doğruluğu. (Tür: doğru / yaklaşık)

    5.2 Bilmeniz gereken sistem ve mimari

    Senaryo 1:

    Bir şirketin satış performansını analiz etmek için, bir sistem tasarlamak, yani müşteri verileri, liderlik verileri, müşteri hizmetleri merkezi verileri, satış verileri, ürün verileri, bloglar vb. Gibi birden çok veri kaynağından gelen bir veri havuzu oluşturmak gerekir.

    5.3 Çözümler ve teknolojiler tasarlamayı öğrenin

    Bölüm 1 için çözüm: Satış veri havuzu

    (Bu benim kişisel çözümüm, daha akıllı bir çözüm düşünüyorsanız, lütfen aşağıda paylaşın)

    Peki, bir veri mühendisi bu sorunu nasıl çözer?

    Unutulmaması gereken bir nokta, bir büyük veri sisteminin amacının sadece çeşitli kaynaklardan gelen verileri sorunsuz bir şekilde entegre etmek ve kullanılabilir hale getirmek olmadığı, aynı zamanda uygulama sistemini geliştirmek için kullanılan verilerin analizini ve kullanımını basit ve hızlı hale getirebilmelidir. Ve elde edilmesi kolay (bu durumda, akıllı kontrol paneli).

    Nihai hedefi tanımlayın:

    1. Çeşitli kaynaklardan gelen verileri entegre ederek bir veri havuzu oluşturun.

    2. Verileri düzenli aralıklarla otomatik olarak güncelleyin (bu durumda haftada bir olabilir).

    3. Analiz için mevcut veriler (kayıt sırasında, hatta her gün)

    4. Elde edilmesi kolay mimari ve sorunsuz bir şekilde dağıtılan analiz kontrol paneli.

    Artık nihai hedefimizi bildiğimize göre, gereksinimlerimizi resmi terimlerle formüle etmeye çalışalım.

    Burada hala kendi kendime yaptığım büyük veri öğrenme alışverişi qq eteğini tavsiye etmek istiyorum: 957205962, etek hepsi büyük veri geliştirmeyi öğreniyor, eğer büyük veriyi öğreniyorsanız, editör sizi katılmaya davet ediyor, herkes bir yazılım geliştirme partisidir, 2018'de kendim tarafından derlenen en son büyük veri gelişmiş materyallerin ve gelişmiş geliştirme eğitimlerinin bir kopyası dahil olmak üzere kuru malları zaman zaman paylaşın (yalnızca büyük veri geliştirmeyle ilgili). Büyük veride daha derine inmek isteyen gelişmiş ve küçük ortaklara hoş geldiniz

    5.3.1 Veriyle ilgili gereksinimler

    yapı: Çoğu veri yapılandırılmıştır ve tanımlanmış bir veri modeline sahiptir. Ancak web günlükleri, müşteri etkileşimi / çağrı merkezi verileri, satış kataloglarındaki görüntü verileri, ürün reklam verileri vb. Gibi veri kaynakları yapılandırılmamıştır. Görüntü ve multimedya reklam verilerinin kullanılabilirliği ve gereksinimleri, bireysel şirketlere bağlı olabilir.

    sonuç olarak: Yapılandırılmış ve yapılandırılmamış veriler

    boyut: L veya XL (Hadoop'u seçin)

    Havuz işleme hızı: yüksek

    kalite: Orta (Hadoop & Kafka)

    Tamlık: eksik

    5.3.2 İlgili gereksinimleri işleme

    Sorgu zamanı: Orta ila uzun

    İşlem süresi: Ortadan kısaya

    Doğruluk: doğru

    Birden fazla veri kaynağının entegrasyonu ile, farklı verilerin sisteme farklı oranlarda gireceğini unutmamak önemlidir. Örneğin, web günlükleri sisteme sürekli yüksek tanecikli akışla girebilir.

    Sistem gereksinimlerimizin yukarıdaki analizine dayanarak, aşağıdaki büyük veri sistemini önerebiliriz.

    6. Büyük veri öğrenme yolu

    Artık, büyük veri endüstrisindeki büyük veri uygulayıcılarının farklı rollerini ve gereksinimlerini anladınız. Bakalım büyük veri mühendisi olmak için hangi yolu izlemelisiniz.

    Büyük veri alanının birden fazla teknolojiyle dolu olduğunu biliyoruz. Bu nedenle, büyük veri iş rolünüzle ilgili teknolojileri öğrenmeniz çok önemlidir. Bu, belirli yerlerden başlayabileceğiniz ve bu alandaki tüm işi tamamlamak için çok çalışabileceğiniz veri bilimi ve makine öğrenimi gibi herhangi bir geleneksel alandan biraz farklıdır.

    Aşağıda, kendi yolunuzu bulmak için geçmeniz gereken bir ağaç diyagramı bulacaksınız. Dendrogramdaki bazı teknikler veri bilimcilerinin güçlü yönlerine işaret etse bile, bir yol izlerseniz "yaprak düğümüne" kadar olan tüm teknikleri bilmek her zaman iyidir. Ağaç diyagramı, lambda mimari paradigmasından türetilmiştir.

    Not: öğrenme yolunun ağaç diyagramı

    Bir uygulamayı dağıtmak isteyen herhangi bir mühendisin bilmesi gereken temel kavramlardan biri Bash komut dosyası programlamasıdır. Linux ve bash betik programlamayla ilgili rahat olmalısınız. Bu, büyük veriyi işlemek için temel gereksinimdir.

    Çekirdek, çoğu büyük veri teknolojisinin Java veya Scala'da yazılmasıdır. Ancak endişelenmeyin, bu dillerde kod yazmak istemiyorsanız, Python veya R'yi seçebilirsiniz çünkü çoğu büyük veri teknolojisi artık Python ve R'yi desteklemektedir.

    Bu nedenle, yukarıdaki dillerden herhangi birinde başlayabilirsiniz. Python veya Java'yı seçmenizi öneririm.

    Ardından, bulut çalışmasına aşina olmanız gerekir. Bunun nedeni, bulutta büyük verileri işlemiyorsanız, kimsenin ciddiye almayacağıdır. Lütfen AWS, softlayer veya başka herhangi bir bulut sağlayıcısında küçük veri kümelerini uygulamaya çalışın. Çoğu, öğrencilerin pratik yapması için ücretsiz bir seviyeye sahiptir. İsterseniz şimdilik bu adımı atlayabilirsiniz, ancak herhangi bir görüşme yapmadan önce bulutta çalıştığınızdan emin olun.

    Ardından, dağıtılmış bir dosya sistemini anlamanız gerekir. En popüler dağıtılmış dosya sistemi, Hadoop dağıtılmış dosya sistemidir. Bu aşamada, alanınızla ilgili bulduğunuz bazı NoSQL veritabanları hakkında da bilgi edinebilirsiniz. Aşağıdaki şekil, ilgi alanınıza göre öğrenmek için bir NoSQL veritabanı seçmenize yardımcı olabilir.

    Şimdiye kadarki yol, her büyük veri mühendisinin bilmesi gereken zor temel bilgidir.

    Artık veri akışlarıyla mı yoksa büyük miktarlarda bekleyen veriyle mi uğraşmak istediğinize karar veriyorsunuz. Bu, büyük veriyi (Hacim, Hız, Çeşitlilik ve Doğruluk) tanımlamak için kullanılan dört V'den ikisi arasında bir seçimdir.

    Öyleyse, gerçek zamanlı veya gerçek zamanlıya yakın analiz sistemleri geliştirmek için veri akışlarını kullanmaya karar verdiğinizi varsayalım. O zaman Kafka (kafka) yolunu kullanmalısınız, ya da Mapreduce yolunu da kullanabilirsiniz. Sonra kendi yarattığınız yolu takip edersiniz. Mapreduce yolunda aynı anda domuz ve kovanı öğrenmenize gerek olmadığını lütfen unutmayın. Bunlardan sadece birini öğrenmek yeterli.

    Özet: bir ağaç diyagramı aracılığıyla.

  • Kök düğümden başlayın ve önce derinlik geçişi yöntemi uygulayın.
  • Her düğümde bağlantıda verilen kaynakları kontrol etmeyi bırakın.
  • Yeterli bilgiye sahipseniz ve teknolojiyi kullanma konusunda büyük bir güveniniz varsa, lütfen bir sonraki düğüme geçin.
  • Her düğümde en az 3 programlama sorusunu tamamlamaya çalışın.
  • Sonraki düğüme geçin.
  • Yaprak düğümüne ulaşın.
  • Alternatif yolla başlayın.
  • Son adım (# 7) sizi engelliyor! Dürüst olmak gerekirse, hiçbir uygulamada yalnızca akış veya yavaş gecikmeli veri işleme yoktur. Bu nedenle, eksiksiz bir lambda mimarisinin uygulanmasında teknik olarak usta olmanız gerekir.

    Ayrıca, büyük veri teknolojisini öğrenmenin tek yolunun bu olmadığını lütfen unutmayın. İstediğiniz zaman kendi yolunuzu oluşturabilirsiniz. Ancak bu herkesin kullanabileceği bir yoldur.

    Büyük veri analizi dünyasına girmek istiyorsanız, aynı yolu takip edebilirsiniz, ancak her şeyi mükemmelleştirmeye çalışmayın.

    Büyük verileri idare edebilen veri bilimcileri için aşağıdaki ağaç şemasına bazı makine öğrenimi kanalları eklemeniz ve aşağıda verilen ağaç diyagramı yerine makine öğrenimi kanallarına odaklanmanız gerekir. Ancak makine öğrenimi kanallarını daha sonra tartışabiliriz.

    Yukarıdaki ağaç şemasında kullandığınız veri türüne göre seçtiğiniz NoSQL veritabanını ekleyin.

    Bu tablo, veri depolama türü gereksinimlerini ve ilgili yazılım seçimini gösterir

    Gördüğünüz gibi, aralarından seçim yapabileceğiniz çok sayıda NoSQL veritabanı var. Bu nedenle, genellikle kullanacağınız veri türüne bağlıdır.

    Ve ne tür NoSQL veritabanının kullanılacağına net bir yanıt vermek için, gecikme, kullanılabilirlik, esneklik, doğruluk ve tabii ki şu anda işlediğiniz veri türü gibi sistem gereksinimlerinizi göz önünde bulundurmanız gerekir.

    Oyna Oyna Oyna Jingdong akıllı hoparlör Dingdong Play, CES'te parlıyor
    önceki
    Cep telefonuna giriş yapmıyoruz! "Warhammer: The Bane of Chaos" reklamlarla "Diablo Immortal" ile alay etti
    Sonraki
    Huang Shengyinin kelime anlamı harika, ama oğlunun kaç yaşında olduğunu bile bilmiyor. Anne olmak harika.
    Liu Yifei mürettebat tarafından ezildi ve Yi Nengjing, "O harika bir çocuk" u desteklemek için uzun bir mesaj gönderdi.
    Teknoloji, Kuş Yuvası'nın güzelliğini aydınlatıyor, Shunzhou Akıllı Kuş Yuvası Akıllı Aydınlatma Reformu Projesi resmen başlatıldı
    Saf kuru ürünler! Büyük veriyi öğrenmek, teknolojide uzmanlık gerektirir!
    "Conception: Born for Me Plus" ın Çince versiyonu 31 Ocak 2019'da eşzamanlı olarak yayınlanacak.
    "Başlangıç Çizgisi" "Lolipop Ayartması" nı Ortaya Çıkarıyor Aile Eğitimiyle İlgili Gizli Büyük Yanlış Anlamalar
    Göz modeli tanıma yüz tanımanın yerini alarak "şifresiz" bir toplum açabilir
    Koleksiyon Büyük veri uygulamaları ve çözümleri (tam sürüm) mp.weixin.qq.com
    Horizon Li Xingyu: Otonom sürüşe ilişkin aşırı beklentiler tüm sektöre zarar verebilir
    İleride yüksek enerji! Heyecan verici ve garip FPS oyunu "Atomic Heart" için yeni fragman
    Evinizin müzik seti oturma odasında görünmez olabilir mi? Amina'nın görünmez oturma odası Çin zarafetine kavuşuyor
    "Tanıştığımıza memnun oldum" "Yönetmenin Büyük Çocukları" Özel Sürümü Gu Changwei sette oynadı ve gençliğine geri döndü
    To Top