g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Büyük veri öğrenme rotası (kendi sıfır temelimden mevcut özete)

Büyük veri nasıl öğrenilir: veri bilimi özellikleri ve büyük veri öğrenme yanlış anlaşılmaları. Editöre dikkat etmeyi seviyorum, büyük verilerle ilgili özel sohbette daha fazla öğrenme materyali olacaktır (1) Büyük veri öğrenimi beceriye dayalı değil işlem odaklı olmalıdır: veri biliminin merkezi olabilir sorunları çözme. Büyük verinin merkezi politikası, ister bilimsel bir tartışma konusu, ister bir iş çözüm planı sorunu, ister hükümetin ele aldığı bir sorun olsun, ayrıntılı konuları ele alması gereken veri odaklı istihbarattır. Bu nedenle, öğrenmeden önce, problemi netleştirmeli, problem odaklı, politika odaklı denen problemi anlamalı ve bundan sonra kullanılacak uygun becerileri tartışmalı ve seçmelisiniz, böylece hedeflenebilir.Örneğin, hadoop ve kıvılcımın büyük veri analizi ihtiyatlı olmamalıdır. Farklı işletme kategorileri, farklı yönlerdeki teorilerin, becerilerin ve şeylerin desteğini gerektirir. Örneğin, metin ve web sayfaları doğal dilde modellenmeli ve veri akışı her zaman modellenmelidir.Resimli ses ve video çoğunlukla uzay-zamansal hibrit modellemedir; talep tarayıcı toplama, içe ve dışa aktarma, ön işleme ve diğer destek, depolama gereksinimleri gibi büyük veri işleme Dağıtılmış bulut depolama, bulut muhasebe kaynak yönetimi vb., Muhasebe gereksinimlerinin sınıflandırılması, tahmin edilmesi ve tanımlanması için model desteği ve talep görselleştirme, sağduyu veritabanı ve karar planı incelemeleri için destek. Bu nedenle, işi becerilere dayalı olarak ele almaktan ziyade, iş karar becerileridir.Bu, büyük veri öğrenmenin engellemesi gereken ilk yanlış anlamadır. (2) Büyük veri öğrenimi, açık kaynağı iyi bir şekilde kullanmalı ve tekerleği tekrar etmemelidir: veri biliminin beceri geni açık kaynakta yatmaktadır. BT sınırlarının açık kaynağı geri döndürülemez bir eğilim haline geldi. Android açık kaynak, akıllı telefonları popüler hale getirdi ve mobil İnternet çağına girdik. Akıllı donanım açık kaynak, Nesnelerin İnterneti çağına yol açacak. Hadoop ve Spark tarafından temsil edilen büyük veri Açık kaynak ekosistemi, IOE'ye (IBM, ORACLE, EMC) gitme sürecini hızlandırdı ve geleneksel BT devlerini açık kaynağı benimsemeye zorladı. Google'ın ve OpenAI Alliance'ın derin öğrenme açık kaynağı (Tensorflow, Torch, Caffe, vb. Tarafından temsil edilir) yapay zeka becerilerinin gelişimini hızlandırıyor. Veri biliminin standart dilleri olan R ve Python, açık kaynak nedeniyle doğdu ve açık kaynak sayesinde gelişti, Nokia ise açık kaynak eğilimini kavrayamadığı için düştü. Neden açık kaynak? Bu, BT'nin sanayileşmesi ve bileşenleşmesinden kaynaklanmaktadır. Çeşitli alanlardaki temel beceri yığını ve araç kitaplığı artık çok karmaşıktır. Bir sonraki aşama, ne olursa olsun hızlı bir şekilde nasıl monte edileceği, blokları nasıl inşa edileceği ve hızlı bir şekilde nasıl üretileceğidir. Bu linux, anroid hala tensorflow, temel bileşen kütüphanesi temelde mevcut açık kaynak kütüphanesini kullanmak, kombinasyonu tamamlamak ve inşa etmek için yeni beceriler ve yöntemler ile birleştirilerek nadiren tekerleği tekrar ediyor. Ek olarak, bir kitle kaynak geliştirme biçimi olan açık kaynak, grup zekası programlamasının bir tezahürüdür.Bir şirket, küresel mühendislerin geliştirme zekasını biriktiremez, ancak GitHub'daki yıldız bir açık kaynak projesi yapabilir, bu nedenle açık kaynak ve grup zeka programlamasından iyi yararlanın. Tekerleği tekrar etmeyin, bu büyük veri öğrenmenin engellemesi gereken ikinci yanlış anlamadır. (3) Büyük verinin öğrenilmesi, büyük şeyler için açgözlü değil, noktalara dayanmalıdır: veri bilimi, parçalanma ve sistemde ustalaşmalıdır. Büyük veri teknolojisi sisteminin önceki analizine dayanarak, büyük veri becerilerinin derinliğinin ve genişliğinin geleneksel bilgi becerileriyle karşılaştırılmasının zor olduğunu görebiliriz. Enerjimiz çok sınırlıdır. Kısa sürede birden fazla alanda büyük veri teorileri ve becerilerine hakim olmak zordur. Veri biliminin parçalanma ve sistemik bağlantılarda ustalaşması gerekir. Parçalanma nedir? Bu parçalama işlem düzeyini ve beceri düzeyini içerir. Büyük veri yalnızca Google, Amazon, BAT ve diğer İnternet şirketleriyle ilgili değildir.Her meslek ve şirketin verilere dikkat etme izleri vardır: üretim hattında gerçek zamanlı bir sensör Veriler, araçlardaki sensör verileri, yüksek hızlı demiryolu ekipmanlarının çalışma durumu verileri, ulaştırma departmanlarının veri izleme verileri, tıbbi kurumların vaka verileri, devlet dairelerinin büyük verileri vb. Büyük verilerin işlem senaryoları ve analiz politikaları parçalı ve Analiz politikaları birbirinden çok farklıdır, ayrıca beceriler açısından büyük veri becerileri her derde devadır.Veri analizi ve karar planlamaya hizmet eden tüm beceriler bu kategoriye girer ve beceri sistemleri de parçalanır. Öyleyse sistemde nasıl ustalaşılır? Farklı büyük veri kullanım kategorilerinin ortak temel becerileri vardır ve sistem becerileri mimarisi de sistemin yüksek ölçeklenebilirliği, yatay veri genişletme becerisi ve dikey iş genişletmesi gibi benzerliklere sahiptir. Yüksek hata toleransı ve çok kaynaklı heterojen ortam desteği, orijinal sistemin uyumluluğu ve entegrasyonu vb. İle her büyük veri sistemi yukarıdaki konuları dikkate almalıdır. Büyük verinin parçalı öğrenme ve sistematik planlamasında nasıl ustalaşılacağı, yukarıda bahsedilen iki yanlış anlamadan ayrılamaz.Kullanımdan başlanması, yüzeye işaret edilmesi, pratik bir kullanım kategorisinin ihtiyaçlarından başlanması, bir beceri puanı elde edilmesi ve ardından belirli bir temele sahip olunması savunulmaktadır. , Ve sonra benzetme ve yatay genişleme yoluyla yavaş yavaş sistemik becerilerini anlar. (4) Büyük veri öğrenimi, pratik yapmak için cesur olmalı, oturup konuşmayın: veri bilimi hala veri mühendisliği mi? Büyük verilerin, değer üretmek için yalnızca belirli alanların kullanımıyla birleştirilmesi gerekir. Veri mühendisliği, veri mühendisliğinin büyük veri öğrenmede net olması için hala önemli bir konudur. Akademik makaleler ve veri bilimiyle ilgilenmek sorun değildir, ancak büyük verilerin kullanımı uygulanmalıdır. Veri bilimi etkili ise Pratik kullanım için veri mühendisliğine dönüştürmek çok zordur, bu nedenle birçok şirket veri biliminin değerini sorgulamaktadır. Talebi dönüştüren bu süreçten bahsetmeye bile gerek yok, uygulayıcıların kendilerinin de gözden geçirmesi ve düşünmesi gerekir. Sektör, araştırma istihbaratının devlet kurumlarına nasıl dahil edileceğini, veri analizinin nasıl dönüştürüleceğini ve değerin nasıl gerçekleştirileceğini içerir? Veri bilimi araştırmacıları ve kurumsal büyük veri sistemi geliştirme mühendisleri bu temel konular hakkında düşünmek zorundadır. Veri mühendisliğinin şu anda uğraşması gereken temel sorunların ana satırı verilerdir > Sağduyu (Bilgi) > Hizmet (Hizmet), veri toplama ve yönetimi, sağduyu elde etmek için keşif ve analiz ve çözüm planlarını desteklemek ve kullanmak ve bunları sürekli hizmetlere dönüştürmek için sağduyu kuralları. Bu üç problemin iyi bir şekilde ele alınması, büyük verinin uygulanması olarak kabul edilebilir.Öğrenme perspektifinden, DWS, büyük veri öğrenmede problemlerle başa çıkmak için genel bir politikadır.Veri biliminin pratik kullanımına özel dikkat gösterilmeli ve uygulama teoriden daha önemli olmalıdır. Model, özellik, hata, deney, testten kullanıma kadar her adım, gerçek dünyadaki sorunları çözüp çözemeyeceğini, modelin yorumlanabilir olup olmadığını, cesurca test edip yineleyip uygulayamayacağını, modellerin ve yazılım paketlerinin kendilerinin çok güçlü olmadığını ve büyük verilerin kullanımını dikkate almalıdır. Sağlamlık ve etkinliğe dikkat edin Sera modeli işe yaramaz Uygulama seti ve test seti iyi mi? Büyük veri laboratuvardan ve mühendislik uygulamasından nasıl çıkar? Birincisi, kapalı kapılar ardında yapılamaz.Model bir kez birleştiğinde her şey yoluna girecek; ikincisi, endüstrinin pratik çözüm planına tam olarak bağlanmak için laboratuvardan çıkmak; üçüncüsü, ilgili ve nedensel bağlantı eksikliği olmamalıdır. Nedensel bağlantıları tanımlayamayan modeller, gerçek dünyadaki problemlerle başa çıkmada yardımcı olmaz; dördüncüsü, model yinelemesine ve ürünleştirmeye önem verir, yükseltmeye ve optimize etmeye devam eder ve yeni verilerin ve dinamik model ayarlamalarının aşamalı öğrenimi ile ilgilenir. Bu nedenle, büyük veri öğrenimi için veri bilimi mi yoksa veri mühendisliği mi yaptığımı, hangi beceri ve yeteneklere ihtiyacım olduğunu ve şu anda hangi aşamada olduğumu bilmeliyim.Aksi takdirde, beceri ve beceriler için büyük veriyi öğrenmek ve kullanmak zordur. Büyük veri uzun zamandır popülerdi.Bunu hep öğrenmek istedim ve öğrenmenin sonuçları için zamanım yok.Yeni Yıldan sonra nihayet vaktim oldu.Bazı malzemeleri anladıktan ve kendi durumumu birleştirdikten sonra bir öğrenme yolu düzenlemeye başladım. Bir sorun varsa, umarım Tanrı çağırır . Learning Road Linux (shell, yüksek eşzamanlılık mimarisi, lucene, solr) Hadoop (Hadoop, HDFS, Mapreduce, iplik, kovan, hbase, sqoop, zookeeper, flume) Makine öğrenimi (R, mahout) Storm (Storm, kafka, redis) Spark (scala, spark, spark core, spark sql, spark streaming, spark mllib, spark graphx) Python (python, spark python) Bulut bilişim kanalları (docker, kvm, openstack) İsim açıklaması 1. Linux lucene: Tam metin arama motoru mimarisi solr : Lucene tabanlı tam metin arama sunucusu, sorgu işlevleri için donatılmış, genişletilebilir ve optimize edilmiştir ve eksiksiz bir işlevsel yönetim arabirimi sağlar. 2. Hadoop hadoop ortak HDFS: NameNode ve DataNode dahil olmak üzere dağıtılmış depolama sistemi. NameNode: Meta Veriler, DataNode. DataNode: Verileri saklayın. İplik: MapReduce'un armoni mekanizması olarak anlaşılabilir, özü, ResourceManager NodeManager'a bölünmüş olan Hadoop'un işleme ve analiz mekanizmasıdır. MapReduce: Yazılım yapısı ve programlama. Hive: Veri ambarı SQL sorgusu kullanabilir, Map / Reduce programını çalıştırabilir. Eğilimleri veya web sitesi günlüklerini hesaplamak için kullanılır.Gerçek zamanlı sorgulama için kullanılmaz ve sonuçları döndürmek için uzun bir süre gerektirir. HBase: veritabanı. Büyük verilerin gerçek zamanlı sorgulanması için çok uygundur. Facebook, ses verilerini depolamak ve gerçek zamanlı ses analizi gerçekleştirmek için Hbase'i kullanır ZooKeeper: Büyük ölçekli dağıtım için güvenilir ve uyumlu bir sistem. Hadoop'un dağıtılmış senkronizasyonu, çoklu NameNode, aktif bekleme anahtarlaması gibi Zookeeper tarafından tamamlanır. Sqoop: veri tabanlarını birbirine aktarın, veri tabanını birbirine bağlayın ve HDFS aktarımını birbirine bağlayın Mahout: ölçeklenebilir makine öğrenimi ve veri madenciliği kitaplığı. Yönlendirme keşfi, toplama, sınıflandırma ve sık ürün seti keşfi yapmak için kullanılır. Chukwa: Açık kaynak toplama sistemi, HDFS ve Map / Reduce yapısı üzerine inşa edilmiş büyük ölçekli dağıtılmış sistemi denetler. Sonuçları görselleştirin, denetleyin ve analiz edin. Ambari: Web'e göre Hadoop kümelerini donatmak, yönetmek ve denetlemek için kullanılır, arayüz dostudur. 2. Cloudera Cloudera Manager: Cloudera CDH'yi yönetin, izleyin, onaylayın, entegre edin: (Cloudera'nın Dağıtımı, Apache Hadoop dahil) Cloudera, Hadoop'ta ilgili değişiklikleri yaptı ve sürüm CDH olarak adlandırıldı. Cloudera Flume: Veri toplamak için günlük sistemindeki çeşitli veri göndericilerin özelleştirilmesini destekleyen günlük toplama sistemi. Cloudera Impala: Apache Hadoop'un HDFS ve HBase'de depolanan veriler için doğrudan sorgu ve etkileşimli SQL sağlar. Cloudera hue: hue ui, hui sunucusu, hui db dahil web yöneticisi. Hue, tüm CDH bileşenlerinin kabuk arayüz arayüzünü sağlar ve mr yazabilir. 3. Makine öğrenimi / RR: İstatistiksel analiz ve grafikleme için dil ve çalışma ortamı. Artık Hadoop-R mahout var: Kümeleme, sınıflandırma, yönlendirme filtreleme ve sık alt öğeler dahil olmak üzere klasik ölçeklenebilir makine öğrenimi algoritmasının tamamlanmasını sağlar Keşif vb. Ve Hadoop aracılığıyla buluta genişletilebilir. 4. Storm Storm: Gerçek zamanlı analiz, çevrimiçi makine öğrenimi, bilgi akışı işleme, sürekli muhasebe, dağıtılmış RPC, bilgilerin gerçek zamanlı işlenmesi ve veritabanının güncellenmesi için kullanılabilen dağıtılmış, hataya dayanıklı gerçek zamanlı akışlı muhasebe sistemi. Kafka: Tüketiciler tarafından planlanan web sitesindeki tüm eylem akışı verilerini (okuma, arama vb.) İşleyebilen, yüksek verimli dağıtılmış bir yayınlama-abone olma ses sistemi. Hadoop günlük verileri ve çevrimdışı analiz ile karşılaştırıldığında, gerçek zamanlı işlem tamamlanabilir. Şimdi, Hadoop'un paralel yükleme mekanizması sayesinde, çevrimiçi ve çevrimdışı ses işleme tutarlıdır.Redis: C dilinde yazılmıştır, ağı destekler ve belleğe dayalı olabilir ve dayanıklı olabilir. 5. Spark Scala: Java'ya benzer tamamen nesne yönelimli bir programlama dili. Spark: Spark, Scala dilinde tamamlanan Hadoop MapReduce'a benzer genel bir paralel yapıdır.Hadoop MapReduce'un avantajlarına ek olarak, iş merkezinin çıktısının bellekte saklanabilmesi ve daha sonra HDFS okuma ve yazmaya gerek kalmaması açısından MapReduce'tan farklıdır. Bu nedenle Spark, veri madenciliği ve makine öğrenimi için yinelemeli MapReduce algoritması için daha uygundur. Hadoop dosya sistemi ile paralel olarak çalışabilir ve Mesos'un üçüncü taraf küme yapısı bu davranışı destekleyebilir. Spark SQL: Beni takip etmeyi seviyorum, diğerleri Spark Streaming: Spark'ın büyük veri akışı verilerini işleme yeteneğini genişleten Spark üzerine inşa edilmiş gerçek zamanlı bir muhasebe yapısı. Spark MLlib: MLlib, Spark'ta yaygın olarak kullanılan makine öğrenimi algoritmalarının eksiksiz kitaplığıdır. Artık (2014.05) ikili sınıflandırma, regresyon, kümeleme ve işbirliğine dayalı filtrelemeyi desteklemektedir. Ayrıca, temel bir gradyan iniş optimizasyon algoritması içerir. MLlib'den beri Jblas lineer cebir kütüphanesi, jblas'tan beri uzun mesafeli Fortran programları. Spark GraphX: GraphX, Spark'ta grafik ve grafik paralel hesaplama için bir API'dir. Spark üzerinde tek noktadan veri işleme çözümü sağlayabilir ve grafik hesaplama için bir dizi boru hattı işlemini uygun ve verimli bir şekilde tamamlayabilir. jblas: Hızlı bir doğrusal cebir kitaplığı (JAVA). BLAS ve LAPACK'in profesyonel standartlarına, matris muhasebe uygulamasına ve gelişmiş altyapı olanaklarının ve diğer muhasebe prosedürlerinin kullanımına göre, ATLAS sanatının tamamlanması onu çok hızlı hale getirir. Fortran: Bilimsel ve mühendislik muhasebesinde yaygın olarak kullanılan yüksek kaliteli bilgisayar programlama dilinin en eski sunumu. BLAS: Doğrusal cebir işlemleri üzerine yazılmış birçok programla temel doğrusal cebir alt yordam kitaplığı. LAPACK: Doğrusal denklemleri, doğrusal en küçük kareler problemlerini, özdeğer problemlerini ve tekil değer problemlerini çözmek gibi bilim ve mühendislik muhasebesinde en yaygın sayısal lineer cebir problemlerini çözmeyi içeren iyi bilinen bir açıklama yazılımı. ATLAS: BLAS doğrusal algoritma kitaplığının optimize edilmiş versiyonu. Spark Python: Spark, scala dilinde yazılmıştır, ancak promosyon ve uyumluluk için java ve python arayüzleri sağlanır. 6. Python Python: nesne yönelimli, açıklayıcı bir bilgisayar programlama dili. 7. Bulut muhasebesi kanalı Docker: Açık kaynak konteyner motoru kvm: (Klavye Video Fare) openstack: Açık kaynak bulut muhasebesi işleme kanalı projesi

Büyük veri geliştirme ve yüksek maaş [ücretsiz erişim] için eksiksiz bir gerekli kaynak seti

Oracle'ın kıdemli teknik direktörü, büyük veri geliştirmeye tam olarak yardımcı olmak için yıllarca dikkatli bir şekilde eksiksiz bir kurs sistemi oluşturdu [büyük veri ve yapay zeka geliştirme için görülmesi gereken bir şey] Sıfır temel + giriş + iyileştirme + proje = yüksek maaş !