g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Büyük veri geliştirme ve öğrenme için yol haritasını öğrendiniz mi?

Giriş bilgisi

Önerilen kitaplar

1. Schönberg'in "Büyük Veri Çağı";

2. Barabassi'den "Salgın";

3. Tu Zipei'den "Büyük Veri";

4. Wu Jun "Akıllı Zamanlar";

5. "Büyük Veri Mimarisinin Ticari Yolu: İşletme Gereksinimlerinden Teknik Çözümlere"

Araç becerileri

1. Hadoop: genellikle çevrimdışı karmaşık büyük veri işleme için kullanılır

2. Spark: genellikle çevrimdışı hızlı büyük veri işleme için kullanılır

3. Storm: genellikle çevrimiçi gerçek zamanlı büyük veri işleme için kullanılır

4. HDFS: Hadoop dağıtılmış dosya sistemi. HDFS, yüksek hata toleransı ile karakterizedir ve düşük maliyetli donanımlara yerleştirilmek üzere tasarlanmıştır. Ve çok büyük veri kümelerine sahip uygulamalar için uygun olan uygulama verilerine erişmek için yüksek verim sağlar.

5. Hbase: Dağıtık, sütun yönelimli bir açık kaynak veritabanıdır. Teknoloji, Fay Chang tarafından yazılan "Bigtable: Yapılandırılmış Veriler için Dağıtılmış Depolama Sistemi" başlıklı Google makalesinden geliyor. Bigtable'ın Google Dosya Sistemi (Dosya Sistemi) tarafından sağlanan dağıtılmış veri depolamasını kullanması gibi, HBase de Hadoop'un üzerinde Bigtable'a benzer yetenekler sağlar. HBase, Apache'nin Hadoop projesinin bir alt projesidir. HBase, genel ilişkisel veritabanından farklıdır, yapılandırılmamış veri depolamaya uygun bir veritabanıdır. Diğer bir fark, HBase'in satır tabanlı değil sütun tabanlı olmasıdır.

6. Hive: Hive, yapılandırılmış veri dosyalarını bir veritabanı tablosuna eşleyebilen ve SQL ifadelerini işlem için MapReduce görevlerine dönüştürebilen basit SQL sorgu işlevleri sağlayan Hadoop tabanlı bir veri ambarı aracıdır. Avantajları, düşük öğrenme maliyetleri, basit MapReduce istatistikleri, SQL benzeri ifadeler aracılığıyla hızlı bir şekilde gerçekleştirilebilir, özel MapReduce uygulamaları geliştirmeye gerek yoktur ve veri ambarlarının istatistiksel analizi için çok uygundur.

7. Kafka: Tüketici ölçekli web sitelerindeki tüm eylem akışı verilerini işleyebilen, yüksek verimli dağıtılmış bir yayınlama-abone olma mesajlaşma sistemidir. Bu tür eylemler (web'de gezinme, arama ve diğer kullanıcı eylemleri), modern web'deki birçok sosyal işlevde anahtar faktördür. Bu veriler genellikle işleme hızı gereksinimleri nedeniyle günlüklerin işlenmesi ve günlük toplama yoluyla çözülür. Günlük verileri ve Hadoop gibi çevrimdışı analiz sistemleri için, ancak gerçek zamanlı işlemenin sınırlamaları nedeniyle bu, uygulanabilir bir çözümdür. Kafka'nın amacı, Hadoop'un paralel yükleme mekanizması aracılığıyla çevrimiçi ve çevrimdışı mesaj işlemeyi birleştirmek ve kümeler aracılığıyla gerçek zamanlı tüketim sağlamaktır.

8. Redis: Redis, bir anahtar-değer depolama sistemidir. Memcached'e benzer şekilde, dize (dize), liste (bağlantılı liste), küme (koleksiyon), zset (sıralı küme sıralı küme) ve karma (karma türü) dahil olmak üzere daha fazla depolanmış değer türünü destekler. Bu veri türlerinin tümü push / pop, add / remove, intersection, union ve fark ve daha zengin işlemleri destekler ve bu işlemlerin tümü atomiktir.

Veri madenciliği için on klasik algoritma

1: C4.5

C4.5, çekirdek algoritma ID3'ün geliştirilmiş bir algoritması olan bir karar ağacı algoritmasıdır (karar ağacı, bir ağaç gibi karar verme düğümlerinin organizasyonudur, aslında ters çevrilmiş bir ağaçtır), bu yüzden temelde anlıyorum Karar ağacı yapım yönteminin yarısı onu inşa edebilir. Karar ağacı oluşturma yöntemi aslında her seferinde geçerli düğümün sınıflandırma koşulu olarak iyi bir unsur ve bölme noktası seçmektir. C4.5, ID3'e göre geliştirildiğinde:

ID3, alt ağacın bilgi kazanımını kullanarak özniteliği seçer (bilgiyi tanımlamanın birçok yolu vardır, ID3, entropinin değişim değeri olan entropiyi kullanır (entropi, bir safsızlık ölçüsüdür)) ve C4 .5 bilgi kazanma oranını kullanır. Bu ekstra bir oran. Genel olarak, hız dengelemek için kullanılır, tıpkı varyansın da benzer bir rol oynaması gibi.Örneğin, iki koşucu varsa, biri 100 m / s'den başlar ve 1 saniyeden sonra 110 m / s; diğeri hızlanır 1 m / sn ve 1 sn sonra 11 m / sn'dir. Sadece ivme (birim zamanda hız artışı) sayılırsa ikisi aynıdır; ancak ölçmek için hız artış oranı (hız artış oranı) kullanılırsa iki kişi arasındaki fark çok büyüktür. Burada, öznitelikleri seçmek için bilgi kazanımını kullanırken daha fazla değere sahip öznitelikleri seçmenin eksikliklerinin üstesinden gelir. Budama, ağaç yapım sürecinde yapılır Karar ağacını oluştururken, birkaç öğeli bu düğümlerden gerçekten nefret ediyorum. Bu tür bir düğüm için, en iyisini düşünmeyin, aksi takdirde kolayca aşırı uyuma yol açar. Ayrık olmayan verileri işleyebilir Bu aslında sürekli değerin bölündüğü yere bağlı olarak bir formüldür. Bu, sürekli verileri işleme için ayrı değerlere dönüştürmektir. Eksik verileri işleyebilmek önemli ve önemlidir, ancak aslında o kadar da önemli değildir, sadece eksik verileri doldurmak için bazı yöntemler kullanın.

2: SEPET

CART aynı zamanda bir karar ağacı algoritmasıdır! Tek bir düğüm altında birden çok alt ağaç içeren birden çok sınıflandırmanın koşullu gerçekleştirilmesiyle karşılaştırıldığında, CART yalnızca uygulanması biraz daha kolay olan iki alt ağacı sınıflandırır. Bu nedenle, CART algoritması tarafından oluşturulan karar ağacı, basit bir yapıya sahip ikili bir ağaçtır.

3: KNN (K En Yakın Komşular)

Bu çok basit, çevrenizdeki K insanlarının (örneklemlerin) hangi kategorisinin en çok hesaba katıldığına ve hangisinin daha fazla olduğuna bağlı, o zaman ben daha çok kişiyim. Gerçekleşme, Top-K eğitim örnekleri olan her eğitim örneğine olan benzerliği hesaplamak ve K örneklerinden hangisinin daha fazla kategoriye sahip olduğunu ve kimin daha fazla olduğunu görmektir.

4: Naif Bayes

(Naif Bayes NB)

NB, her özelliğin bağımsız olduğuna ve hiç kimse için önemli olmadığına inanır. Dolayısıyla, bir örnek ("veri yapısı" iki kez görünür ve "dosya" bir kez görünür gibi bir dizi özellik değeri), belirli bir kategoride görünen özelliklerinin tümünün olasılığıyla çarpılabilir. Örneğin, sınıf 1'de "veri yapısı" görünme olasılığı 0,5 ve sınıf 1'de "dosya" görünme olasılığı 0,3'tür, dolayısıyla sınıf 1'e ait olma olasılığı 0,5 * 0,5 * 0,3 olarak düşünülebilir.

5: Destek Vektör Makinesi (SVM)

SVM, en iyi sınıflandırmaya sahip bir sınıflandırma çizgisi / sınıflandırma yüzeyi bulmaktır (en yakın iki numune türü bu "çizgiden" en uzak olanıdır). Bu detaylı bir şekilde uygulanmadı.Öğretmen son kez SVM'yi uyguladığını iddia etti ve araştırma ruhuna hayran kaldı. Yaygın olarak kullanılan araç kitleri LibSVM, SVMLight, MySVM'dir.

6: EM (Beklenti maksimizasyonu)

Sanırım bu, verilerin birkaç Gauss dağılımından oluştuğu varsayımına dayanıyor, bu nedenle sonunda birkaç Gauss dağılım parametresi gerekiyor. En iyi uyumu beklemek için önce birkaç değeri varsayarak ve ardından yinelemeli yinelemeler yoluyla.

7: Apriori

Bu, ilişkilendirme kuralları içindir. Neden bilmiyorum, ilişkilendirme kurallarını iyileştirir geliştirmez alışveriş sepeti verilerini düşünüyorum. Bu uygulanmadı, ancak yine de iki miktar destek ve güven ile çalıştığını anlamam gerekiyor, ancak Apriori için, sık kullanılan öğe kümelerinin bazı kurallarını kullanıyor (sık kullanılan öğe kümelerinin bir alt kümesi, sık öğe kümeleri olmalıdır, vb.) Hesaplama karmaşıklığını azaltmak için bekleyin.

8: PageRank

Herkes ünlü PageRank'i bilmeli (Google bu patentle bir servet kazanıyor, ancak bir servet kazandığı söylenemez!). Bu algoritmayı anladığım şey şudur: Eğer size işaret edersem (web sayfaları arasındaki bağlantı), bu, sizi kabul ettiğim anlamına gelir ve öneminizi hesaplarken, önemimin bir kısmını ekleyebilirim (ne kadarı benim Kaç kişiyi birlikte tanıyorum). Bunu tekrarlayarak, her bir kişinin (web sayfası) öneminin sabit bir değeri elde edilebilir. Ancak burada bazı kısıtlamalar olmalı (bir kişinin varsayılan önemi başlangıçta her zaman 1'dir), aksi takdirde bu değerler giderek büyür.

9: K-Ortalamalar

K-Means, en klasik ve en yaygın kullanılan kümeleme yöntemlerinden biridir ve buna dayalı birçok geliştirilmiş model vardır. K-Means fikri çok basittir.Kümeleme görevi için (doğal düşünceye göre kaç tane sınıfın kümeleneceğini belirtmeniz gerekir, tabii ki sınıf sayısını belirtmenize gerek yoktur. Bu problem aynı zamanda mevcut kümeleme görevleri için çalışmaya değer bir konudur) , Önce rastgele K küme merkezlerini seçin ve ardından tüm küme merkezleri değişmeyene kadar (küme kümesi değişmez) aşağıdaki işlemi tekrar tekrar hesaplayın: Adım 1: Her nesne için, her bir küme merkezi arasındaki benzerliği hesaplayın ve Kendisine en çok benzeyen kümeye koyun.

Adım 2: Küme merkezini güncelleyin Yeni küme merkezi, kümeye ait tüm nesnelerin ortalama değeri hesaplanarak elde edilir.

K-ortalamalar algoritmasının çalışma süreci şu şekilde açıklanmaktadır: İlk olarak, başlangıç küme merkezleri olarak n veri nesnesinden keyfi olarak k nesne seçilir; kalan nesneler için bu küme merkezlerine olan benzerliklerine (uzaklıklarına) göre, Bunları kendilerine en çok benzeyen kümelere atayın (küme merkezleri tarafından temsil edilir); ardından her yeni kümenin küme merkezlerini hesaplayın (kümedeki tüm nesnelerin ortalaması); bu işlemi sürekli tekrarlayın Standart ölçü işlevi birleşmeye başlayana kadar. Genel olarak, ortalama kare hatası standart ölçüm işlevi olarak kullanılır. K kümeleri aşağıdaki özelliklere sahiptir: her kümenin kendisi olabildiğince kompakttır ve her küme mümkün olduğunca ayrıdır.

10: AdaBoost

AdaBoost genel olarak sınıflandırma ile bilinir, artırıcı bir yöntemdir. Bunun bir algoritma olduğu söylenemez, bir yöntem olmalıdır, çünkü herhangi bir sınıflandırma algoritması üzerine kurulabilir, bu bir karar ağacı, NB, SVM vb. Olabilir.

Adaboost, yinelemeli bir algoritmadır. Temel fikri, aynı eğitim seti için farklı sınıflandırıcılar (zayıf sınıflandırıcılar) eğitmek ve daha sonra bu zayıf sınıflandırıcıları daha güçlü bir son sınıflandırıcı (güçlü sınıflandırıcı) oluşturmak için gruplamaktır. Algoritmanın kendisi veri dağılımını değiştirerek gerçekleştirilir.Her bir eğitim setindeki her bir numunenin sınıflandırmasının doğru olup olmadığına ve önceki genel sınıflandırmanın doğruluğuna göre her numunenin ağırlığını belirler. Değiştirilmiş ağırlıklara sahip yeni veri seti eğitim için alt sınıflandırıcıya gönderilir ve son olarak her eğitimden elde edilen sınıflandırıcılar nihai karar sınıflandırıcı olarak birleştirilir. Adaboost sınıflandırıcının kullanılması, bazı gereksiz eğitim verilerini ortadan kaldırabilir ve anahtarı temel eğitim verilerine yerleştirebilir.