Microsoft Research, önümüzdeki 40 yıla bakarak (PDF indirme ile) "Veri Bilimi Temelleri" ni üretir

Kaynak: Xinzhiyuan

Bu makale hakkında 1000 kelime 5 dakika okumanız tavsiye edilir.

Bu makale, "Veri Biliminin Temelleri" nin ana içeriğini tanıtır ve PDF kaynaklarını paylaşır.

Bilgisayar bilimi bir bilim olarak 1960'larda başladı. Bilgisayar biliminin odak noktası programlama dilleri, derleyiciler, işletim sistemleri ve bu alanları destekleyen matematiksel teorilerdir. Teorik bilgisayar bilimi dersleri, sonlu otomata, düzenli ifadeler, bağlamsal olmayan dil ve hesaplanabilirliği kapsar.

1970'lerden bu yana, algoritma araştırması yavaş yavaş teorik bilgisayar biliminin önemli bir parçası haline geldi. Algoritma araştırmasının önemli amacı, bilgisayarların kullanışlılığını artırmaktır. Bugün, bilgisayar biliminin gelişimi köklü değişikliklerden geçiyor ve araştırmacılar daha çok uygulamalara odaklanıyor.

Bu değişikliğin birçok nedeni vardır ve bilgi işlem ve iletişim teknolojisinin entegrasyonu bu süreçte önemli bir rol oynamıştır. Aynı zamanda, doğa bilimleri, işletme ve diğer alanlarda, veri toplama ve saklama yeteneği artmaya devam ediyor, bu da verilerin anlaşılması ve modern bir ortamda verilerin nasıl işleneceği konusunda daha yüksek talepler getiriyor. Günlük yaşamda internetin ve sosyal ağların temel statüsünün teşviki, teorik bilgisayar bilimi teorilerinin geliştirilmesi için yeni fırsatlar ve zorluklar da sağlar.

Geleneksel bilgisayar bilimi alanı hala çok önemli olsa da, gelecekte, gittikçe daha fazla sayıda araştırmacı, uygulamalarda görünen büyük miktardaki veriden mevcut bilgileri anlamak ve çıkarmak için bilgisayarları kullanacak. Bunu aklımızda tutarak, bu kitabın önümüzdeki 40 yıl içinde faydalı olmasını beklediğimiz teorileri kapsayacağını umarak yazdık.Bu kitap ile benzer veriler arasındaki temel değişikliklerden biri, olasılık, istatistik ve sayısal yöntemlere yapılan vurgulardan biridir.

Her bölümün içindekiler ve giriş tablosu

Bu kitabın önceki sürümleri lisans ve lisansüstü derslerin öğretiminde kullanılmıştır. Lisans dersleri için gerekli olan temel materyaller ekte verilmiştir. Bilgi işleme, arama ve makine öğrenimi dahil olmak üzere çeşitli alanlardaki modern veriler, genellikle çok sayıda bileşeni olan vektörlerle temsil edilir. Vektör gösterimi, yalnızca kayıtların birçok alanını saklamak için kullanılan bir defter tutma aracı değildir. Aslında, vektörlerin iki önemli yönü: geometri (uzunluk, iç çarpım, ortogonal, vb.) Ve doğrusal cebir (korelasyon, sıra, tekil değer vb.) Sonuçları ilişkilidir.

Bölüm 2 ve Bölüm 3, sırasıyla geometri ve doğrusal cebirin temellerini attı. Daha spesifik olarak, yüksek boyutlar söz konusu olduğunda, iki veya üç boyutlu uzay için sezgimiz beklenmedik şekilde önyargılı olabilir.

Bölüm 2, bu tür bir sapmayı anlamak için gereken temel bilgileri açıklamaktadır. Bu bölümün ve tüm kitabın odak noktası, belirli uygulamalardan çok bilgi, fikir ve matematiksel temellere odaklanmaktır.

Bölüm 3, tekil değer ayrıştırmasına (SVD) odaklanmaktadır. Bu, matris verilerini işlemek için temel araçtır. Bu bölüm, SVD matematiği ve algoritmalarının temel tanımını verir. Tekil değer ayrıştırma uygulamaları, şu anda yaygın olarak kullanılan bir teknik olan temel bileşen analizinin yanı sıra olasılık yoğunluğu, ayrık optimizasyon ve istatistiği istatistiklerle birleştiren modern uygulamaları içerir.Bu tür uygulamaların açıklaması nispeten ayrıntılıdır. Web veya büyük sistemlerin yapılandırma alanı gibi büyük ölçekli yapıları keşfetmek için deterministik yöntemleri kullanmak çok maliyetli olabilir. Rastgele yürüyüş (Markov zinciri olarak da bilinir) genellikle daha verimli bir işleme yöntemidir. Gezinmenin bu sabit dağılımı, ağ araması fiziksel sistem simülasyonu gibi uygulamalar için çok önemlidir.

Rastgele yürüyüşün temel matematiksel teorisi ve elektrik ağlarıyla bağlantısı, Bölüm 4'ün temel içeriğidir. Son yirmi yılda bilgisayar bilimindeki en büyük gelişmelerden biri, geçmişte yalnızca belirli alanlarda kullanılan bazı yöntemlerin artık birçok farklı alandaki sorunları başarıyla çözebilmesidir. Makine öğrenimi, önemli bir örnektir.

Bölüm 5, makine öğreniminin temellerini açıklar, Örnek algoritmalar, belirli bir eğitim örneğini optimize etmek için kullanılabilir ve bu algoritma optimizasyonunun yeni bilinmeyen veriler üzerinde iyi performans sağlayabileceği anlaşılabilir ve öngörülebilir. Bu, Vapnik-Chervonenkis boyutu gibi bazı önemli ölçütleri ve algılayıcı algoritmaları, stokastik gradyan inişi, pekiştirmeli öğrenme ve derin öğrenme gibi bazı önemli algoritmaları ve düzenlenme ve aşırı uyum gibi önemli kavramları içerir. Algoritma alanı, geleneksel olarak, problemin girdi verilerinin rastgele erişim belleğinde sunulacağını ve algoritmaya tekrar tekrar erişilebileceğini varsayar. Büyük miktarda veri içeren problemler için bu yaklaşım uygulanabilir değildir. Bu durumda, örnekleme hayati bir rol oynar ve dinamik örnekleme yapılmalıdır.

Bölüm 6, temel olarak yüksek kaliteli örneklerin nasıl etkili bir şekilde çizileceğini ve bu örneklerin istatistiksel ve doğrusal cebir değişkenlerini tahmin etmek için nasıl kullanılacağını tartışır. Bölüm 5'in içeriği denetimli öğrenmeye odaklansa da, etiketli eğitim verilerinden öğrenme, denetimsiz öğrenme veya etiketlenmemiş verilerden öğrenme eşit derecede önemlidir. Denetimsiz öğrenmenin temel sorunlarından biri, Bölüm 7'de tartışacağımız kümelenmedir. .

Bazı temel kümeleme yöntemlerini tartıştıktan sonra (k-ortalama algoritması gibi), Bölüm 7, bu algoritmaların modern geliştirme sürecinin yanı sıra farklı türdeki kümeleme problemlerini analiz etmek için yeni algoritmalar ve genel çerçevelerin anlaşılmasına odaklanmaktadır. Büyük ölçekli mimarilerin (ağlar ve sosyal ağlar gibi) anlaşılmasının özü, bu mimarilerin temel özelliklerini yakalayabilen etkili bir model oluşturmaktır. En basit model, Erd¨os ve Renyi tarafından geliştirilen ve Bölüm 8'de ayrıntılı olarak tanıtacağımız rastgele bir grafiktir.

Bölüm 9, verilerden rasyonellik arayan bazı doğrusal cebir problemlerine, özellikle konu modellemesine ve negatif olmayan matris çarpanlara ayırmaya odaklanmaktadır. İyi bilinen modelleri tartışmanın yanı sıra, bu bölümde modeller ve algoritmalarla ilgili bazı güncel araştırma gelişmeleri de açıklanmaktadır.

Bölüm 10, sıralama ve sosyal seçim gibi seyrek temsil meselelerinin yanı sıra sıkıştırılmış algılama konularını tartışır. Ek olarak, doğrusal programlama ve yarı kesin programlama kısaca tartışılmaktadır.

Mikrodalga, çeşitli uygulamalarda sinyalleri temsil etmek için kullanılan önemli bir yöntemdir. Bölüm 11, mikrodalgaların bazı temel matematiksel özelliklerini tartışmaktadır. Ekte bir dizi arka plan malzemesi verilmiştir.

Bu kitabın pdf versiyonu indirilmeye açık, adres:

https://www.cs.cornell.edu/jeh/book.pdf

Referans bağlantısı:

https://twitter.com/MSFTResearch/status/1128511321295736833

Editör: Wen Jing redaksiyon: Lin Yilin
- Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

"CCTV Endişesi" Heshan Aile İçi Şiddet Mağdurlarının Dövülmesinin Gerçek Sebepleri Açıklandı
önceki
"Sweeping Drugs 2" Two Heroes Confrontation Poster Special Double Shots Andy Lau ve Gu Tian mutlu bir düello
Sonraki
2019 Tour of the Towers'ın ilk etabı başlıyor
Maliye Bakanı Liu Kun, "Hakikat Arayışı" başlıklı bir makale yazdı: Verimliliği artırmak ve proaktif bir mali politika uygulamak için çabaları artırın
Gelin ve en güzel çocuk tablosunun doğuşunu görün
Duşlar durdu ve hava açıldı
HD grafikler: sinir ağı, makine öğrenimi, veri bilimi hepsi bir arada (PDF indirme ile)
Bir kız üniversite öğrencisi banyo yaparken samimi bir kamera buldu, kamera banyo alanına bakıyordu
Bacaklara basmak, bacakları tekmelemek ... Bu insanlar açık havada dövüş sanatları yapıyor
Böyle bir operasyon var mı? Adam otelde yaşadı ve televizyonu götürdü ...
Viyana, Çinin "ikinci büyükelçisi" dev pandası "Yuanyuan" ın girmesini resmen karşıladı
Hırsız, gece yarısı piyango dükkanına dokundu, tüm piyango biletlerini kazıdı ve yanlışlıkla bir not bıraktı
Hongkun Fortune Guangzhou Fortune Center Büyük Açılışı
Nehir sahilinde gün batımı çok güzel
To Top