Veri bilimi ortamına genel bir bakış: yasalar, algoritmalar, problem türleri ...

Eser sahibi: Pradeep Menon

Çeviri: Wang Ruixi

Redaksiyon: Liang Fuqi

Bu makale hakkında 3000 kelime , Önerilen okuma süresi 8 dakika .

Pradeep Menon, büyük veri, veri bilimi ve veri mimarisi alanlarında kapsamlı deneyime ve etkiye sahip bir uzmandır. Bu, kendisi tarafından bu yıl yazılan bir dizi kısa veri bilimi makalesinin ilkidir. Esas olarak veri bilimindeki temel yasaları, ortak algoritmaları ve problem türlerini tanıtır. Okuyucular, veri biliminin panoramasına bir göz atabilir.

2016 yılında, İngiliz matematikçi ve Tesco Kulübü mimarı Clive Humbly, "veri yeni bir enerjidir" ifadesini öne sürdü. Dedi ki:

"Veri yeni bir enerjidir. Son derece yüksek bir değere sahiptir, ancak kullanılmadan önce rafine edilmesi gerekir. Tıpkı petrol gibi, gerçek rolünü oynaması için gaza, plastiğe veya kimyasallara vb. Dönüştürülmesi gerekir; bu nedenle veriler yalnızca kullanılabilir Değer yalnızca ayrıştırma ve analizden sonra elde edilebilir. "

İPhone devrimi ve mobil ekonominin büyümesi, büyük veri teknolojisinin geliştirilmesi için mükemmel bir fırsat yarattı. 2012'de HBR (Harvard Bussiness Review) veri bilimcilerini ön plana çıkaran bir makale yayınladı. Bu makalenin başlığı "Veri Bilimcisi: 21. Yüzyılın En Seksi İşi" (https://hbr.org/2012/10/data-scientist-the-sexiest-job- 21. yüzyılın) bu "yeni insan" grubu olarak etiketlendi: veri korsanları, analistler, iletişimciler ve itibar danışmanlarından oluşan bir karışım.

Her şirket şu anda daha "veriye dayalı" olmaya çalışıyor. Makine öğrenimi teknolojisi çok yardımcı oldu. Bunların çoğu çok profesyonel ve anlaşılması zor. Bu nedenle, bu makale dizisi veri bilimini basitleştirecektir. Yazar, veri bilimini basit ve anlaşılması kolay bir biçimde sunan Stanford Üniversitesi derslerine ve İstatistik Öğrenmeye Giriş ders kitabına ( / ~ gareth / ISL /) başvurmaya çalışır. Okuyucuya.

Veri bilimi, aşağıdakileri içeren çok disiplinli bir alandır:

  • Iş bilgisi

  • İstatistiksel öğrenme, makine öğrenimi olarak da bilinir (İstatistiksel Öğrenim aka Makine Öğrenimi)

  • Bilgisayar Programlama

Bu serinin odak noktası, veri biliminde makine öğrenimi bilgisini basitleştirmektir. Bu makale öncelikle veri biliminde temel yasaları, yaygın olarak kullanılan algoritmaları ve problem türlerini tanıtacaktır.

Temel yasa

(Fotoğraf (Menon, 2017) 'den alınmıştır)

Veriler stratejik bir kaynaktır: Bu kavram örgütsel bir düşüncedir. Soru şu: "Topladığımız ve sakladığımız tüm verileri kullanıyor muyuz? Ondan anlamlı kaynaklar çıkarabilir miyiz?" Bu soruların cevabının "Hayır" olduğundan oldukça eminim. Bulut tabanlı şirketler, veriye dayalı olarak çalışır. Verileri stratejik bir kaynak olarak ele almak zorundadırlar. Ancak bu kavram çoğu kurum için geçerli değildir.

Sistematik bilgi edinme süreci: Veri madenciliği, her adım için net adımlar ve net ulaşılabilir hedefler içeren yapılandırılmış bir süreç gerektirir. Sektörler Arası Veri Madenciliği Standart Süreci (CRISP-DM) (https://en.wikipedia.org/wiki/ Cross_Industry_Standard_Process_for_Data_Mining) gibi.

Verilerle uyu: İlgili kurumlar, veri konusunda tutkulu profesyonellere yatırım yapmalıdır. Veriyi kaynağa dönüştüren simya değildir. Bu dünyada her şeye gücü yeten bir simyacı yok. İhtiyaç duydukları şey, verilerin değerini anlayan ve veri kaynaklarını belirleyip oluşturabilen inananlardır. Ve veri, teknoloji ve finansmanı birbirine bağlayabilen profesyoneller.

Belirsizliği kabul edin: Veri bilimi sihirli bir değnek değildir (özel efekt silahı). Kristal bir küre değil, geleceği tahmin etmek için kullanılabilir. Raporlar ve temel performans göstergeleri gibi, bir karar vericidir. Veri bilimi bir araç, amaca yönelik bir araç değil. Mutlak değildir, ancak olasılık kategorisine aittir. Yönetimin ve karar vericilerin bu gerçeği kabul etmesi gerekir. İhtiyaçları var Ölçülen belirsizlik Karar verme sürecine katılın. Ancak ilgili kurumlar deneysel bir kültürü benimsediğinde ve Başarısızlıktan çabucak öğrenin , Belirsizliğe dayalı büyümek için.

BAB Hukuku (İş-Analitik-İş): Bence bu en önemli kanun. Veri bilimi literatürünün çoğu modellere ve algoritmalara odaklanır. Denklemin kendisi bir iş geçmişinden yoksundur. BAB bunun ticari kısmını vurguluyor. Algoritmayı yerleştirin İş tecrübesi Çin çok önemlidir. İş problemlerini tanımlayın, bunları çözmek için analizi kullanın ve son olarak cevapları iş süreçlerine entegre edin. Bu sözde BAB: iş-analiz-iş, böyle bir süreç.

İşlem

(Fotoğraf (Menon, 2017) 'den alınmıştır)

İkinci yasa ile ilgili olarak, bu paragraf veri biliminin süreç bölümünü tanıtmaya odaklanacaktır. Tipik bir veri bilimi projesinin aşamaları şunlardır:

1. İş Problemini Tanımlayın

Einstein bir keresinde şöyle demişti: "Her şey özünü korur ve en basiti olmaya çalışır." Bu referansın bir iş problemini tanımlamanın anahtarı olduğu söylenebilir. Sorunun tanımı hassas bir şekilde işlenmeyi gerektirir ve ulaşılacak hedef açıkça tanımlanmalıdır. Tecrübelerime göre, iş ekibi eldeki görevle çok meşgul, ancak ele alınması gereken zorlukları görmezden geliyor. Beyin fırtınası oturumları, seminerler ve röportajların tümü bu zorlukları belirlemeye ve hipotezleri formüle etmeye yardımcı olabilir. Örneğin, bir telekomünikasyon şirketinin müşteri tabanındaki düşüş nedeniyle yıllık gelir düşüşü yaşadığını varsayalım. Bu durumda iş problemi şu şekilde tanımlanabilir:

  • Şirketin müşteri kaybını azaltırken yeni müşteri tabanları geliştirerek müşteri tabanını genişletmesi gerekiyor.

2. Makine Öğrenimi Görevlerine Ayrıştırın

İyi tanımlanmış iş problemlerinin çeşitli makine öğrenimi görevlerine atanması gerekir. Yukarıdaki örnek için, bir şirketin yeni pazarlar geliştirerek ve müşteri kaybını azaltarak müşteri tabanını genişletmesi gerekiyorsa, bunu bir makine öğrenimi problemine nasıl bölebiliriz? Aşağıdaki bir ayrıştırma şemasıdır:

  • Müşteri kaybını% x azaltın.

  • Hedef pazarlama için yeni müşteri grupları belirleyin.

3. Veri Hazırlama

İş problemini formüle ettikten ve onu makine öğrenimi görevlerine ayırdıktan sonra, uygun analiz stratejilerini formüle etmek için ilgili verileri derinlemesine anlamamız gerekir. Verinin kaynağı, kalitesi, verinin sapması gibi ana konulara dikkat edilmesi gerekmektedir.

4. Keşifsel Veri Analizi

Tıpkı evreni keşfeden bir astronot gibi, bir veri bilimcisinin de veri modelindeki bilinmeyeni keşfetmesi, gizli özellikleri hakkında bilgi edinmesi ve yeni keşifleri kaydetmesi gerekir. Keşifsel veri analizi (EDA) heyecan verici bir görevdir. Verileri daha iyi anlayabilir, nüanslarını araştırabilir, gizli kalıpları keşfedebilir, yeni özellikler geliştirebilir ve modelleme stratejileri geliştirebiliriz.

5. Modelleme

Keşifsel veri analizinden sonra modelleme yapacağız. Bu aşamada, ortak regresyon, karar ağacı, rastgele orman ve diğer algoritmalar gibi belirli makine öğrenimi problemleri için en uygun algoritmayı seçiyoruz.

6. Dağıtım ve Değerlendirme (Dağıtım ve Değerlendirme)

Son olarak, kurulan modelleri devreye alıp sürekli olarak izliyor, performanslarını gerçekte gözlemliyor ve hedeflenen kalibrasyonu gerçekleştiriyoruz.

Genellikle, modelleme ve dağıtım kısmı toplam çalışmanın yalnızca% 20'sini oluşturur ve çalışmanın kalan% 80'i veri araştırması ve derinlemesine anlayıştır.

Makine öğrenimi problemlerinin türleri

(Fotoğraf (Menon, 2017) 'den alınmıştır)

Basitçe söylemek gerekirse, makine öğrenimi iki kategoriye ayrılır: denetimli öğrenme ve denetimsiz öğrenme.

1. Denetimli Öğrenim

Denetlenen öğrenme görevinin önceden tanımlanmış bir amacı vardır. Modelciler, belirli hedeflerine ulaşmak için makine öğrenimi modelleri oluşturma sürecini hedeflenmiş bir şekilde gözlemler ve etkiler. Denetimli öğrenim ayrıca iki kategoriye ayrılabilir:

  • Regresyon:

Regresyon modelleri, makine öğrenimi görevlerinde çok yaygındır ve sayısal bir değişkeni tahmin etmek ve tahmin etmek için kullanılır. İki örnek verin:

  • Önümüzdeki çeyrek için tahmini potansiyel gelir nedir?

  • Önümüzdeki yıl kaç işlem yapılabilir?

  • Sınıflandırma:

Adından da anlaşılacağı gibi, sınıflandırma modeli hedefleri ayırır ve onları birkaç spesifik türe ayırır. Her türlü uygulama için uygundur. Birkaç tipik örnek verin:

  • İstenmeyen postaları filtrelemek ve alınan e-postaları belirli özelliklere göre istenmeyen posta ve alınabilecek olarak sınıflandırmak için sınıflandırma modelini kullanın.

  • Churn tahmini, sınıflandırma modellerinin bir başka önemli uygulamasıdır. Telefon şirketleri, kullanıcıların ayrılmayı (yani hizmeti kullanmayı bırakıp bırakmayacağını) tahmin etmek için genellikle Churn Modelini kullanır.

2. Denetimsiz öğrenme (Denetimsiz Öğrenme)

Denetimsiz öğrenmenin belirlenmiş hedefleri yoktur, bu nedenle üretilen sonuçların yorumlanması bazen zor olabilir. Pek çok denetimsiz öğrenme görevi türü vardır. En yaygın olanları:

Kümeleme: Hedefleri benzerliğe göre gruplayın. Örneğin, müşteri segmentasyonu, kümeleme algoritmalarını kullanır.

Dernek (Dernek): İlişkilendirme algoritmaları, birbiriyle eşleşen ürünleri bulmak için kullanılır. Pazar Sepeti Analizi, satış için ürünleri paketlemek için korelasyon algoritmalarının kullanılmasıdır.

Bağlantı Tahmini: Bağlantı tahmini, veri öğeleri arasındaki bağlantıları bulmak için kullanılır. Örneğin, Facebook, Amazon ve Netflix gibi web siteleri, ilgili arkadaşları, meraklı ürünleri ve filmleri önermek için büyük ölçekte bağlantı tahmin algoritmalarını kullanır.

Veri Azaltma: Veri kümesindeki özelliklerin sayısını azaltmak için veri azaltma yöntemleri kullanılır. Daha az özniteliğe sahip çok sayıda özniteliğe sahip büyük bir veri kümesi sunar.

Algoritmaya modellemek için makine öğrenimi görevi

İş problemi makine öğrenimi görevlerine ayrıştırıldığında, bir veya daha fazla algoritma belirli bir makine öğrenimi görevini çözebilir. Genellikle, bir model birden çok algoritma kullanılarak eğitilir. Dağıtım için en iyi sonuçları sağlayan algoritmayı veya algoritmalar koleksiyonunu seçin.

Microsoft Azure Machine Learning, makine öğrenimi modellerini eğitmek için kullanılabilecek 30'dan fazla önceden oluşturulmuş algoritmaya sahiptir.

(Fotoğraf (Menon, 2017) 'den alınmıştır)

Azure Machine Learning hile sayfası bu algoritmaları keşfetmenize yardımcı olabilir.

Daha heyecan verici içerik için lütfen Tsinghua-Qingdao Veri Bilimi Enstitüsü "THU Data Pie" resmi WeChat hesabını takip edin

sonuç olarak

Veri bilimi çok geniş bir alandır. Heyecan verici, bu bir bilim ve bir sanat. Bu yazıda buzdağının sadece görünen kısmını keşfettik. "Neden" ilkesini anlamadan yöntemini "nasıl" araştırmak anlamsızdır. Sonraki makalelerde, makine öğrenimi yöntemlerinin "nasıl" olduğunu tartışmaya devam edeceğiz.

Orjinal başlık:

Veri Bilimi Basitleştirilmiş Bölüm 1: İlkeler ve Süreç

Orijinal bağlantı:

https://www.linkedin.com/pulse/data-science-simplified-principles-process-pradeep-menon (Menon, 2017)

Editör: Huang Jiyan

1996 günlerini bekledim! Sonunda Süper Lig'de ilk gollerini attılar ve seyirci insanlarla doluydu!
önceki
Double Eleven'dan önce, geleneksel iş bölgeleri iş için rekabet ediyor
Sonraki
GIF - eskiden ulusal gençlik ana gücü ve Çin Premier Ligi'ndeki en iyi yeni oyuncuydu, 4 atış onun Çin Süper Ligi'nde gerçekten kötü oynadığını gösteriyor
Eski Google çalışanları, bir işletme kurduktan sonra Google tarafından satın alındı. Eski şirketlerine geri dönmeye istekli olabilirler mi?
Özel Akıllı ulaşım büyük veri platformunun oluşturma süreci ve uygulama durumu (PPT indirmeli)
Özel Bir makalede Adaboost'u anlayın
"Küçük Chang Gölü", Shahu Gölü'ndeki su bitkileri hakkında bir rapor verdi ve gölün korunması için bir araştırma öğretmenine dönüştü.
Wonder Woman'ı kim yendi?
Özel Temettü indirimi modelini açıklamak için R dili nasıl kullanılır (PPT indirme ile)
Hamilelik gerçekten tehlikelidir! Bu bir bilim kurgu filmi
Özel Çağ Yanıyor: Ulusal Fitness Egzersiz Niyeti Üzerine Büyük Veri Raporu
Google'ın yeni hırsları insan ölümü sorununu çözmeyi amaçlıyor ve 1,5 milyar dolar yaşam ve ölümün kapısını açıyor
Youku'da "Country Love 11" hitleri, diziyi izlemenin ana gücü 90'lar sonrası ve 2000'ler sonrası.
Dongpo Kimchi "C Pozisyonu" New York Times Meydanı'nda Görünüyor
To Top