Deneydeki makine öğrenimi modelini düzeltmeyi öğretin (öğrenme kaynakları ile)

Yazar: Seth DeLand

Çeviri: Wang Weili

Düzeltme: Wan Wenjing

Bu makale hakkında 1800 kelime, 8 dakika okumanız tavsiye edilir.

Bu makale, verilerin nasıl ön işlemden geçirileceğini ve ondan özelliklerin nasıl oluşturulacağını içeren adım adım bir kılavuzdur. Makine öğrenimi yöntemlerini ve diğer örnekleri keşfetmenize yardımcı olacak diğer örnek kaynaklara bağlantılar da içerir.

Makine öğrenimine giden yol deneme yanılma ile doludur. Bu alanda acemi mühendisler ve bilim adamları, algoritmalarını ve modellerini sürekli olarak ayarlayacaklar. Bu süreçte, özellikle verilerle uğraşırken ve en uygun modeli belirlerken zorluklar ortaya çıkacaktır.

Bir makine öğrenimi modeli oluştururken, gerçek dünya verilerinin mükemmel olmadığını bilmek önemlidir, bu nedenle farklı veri türleri farklı işleme yöntemleri ve araçları gerektirir ve en uygun modeli belirlerken kaçınılmaz olarak ödünleşmeler olacaktır.

Aşağıdaki sistem akışı, aşağıdakiler için eğitimli bir modelin nasıl geliştirileceğini açıklayacaktır. Mobil sağlık izleme uygulaması Uygulama, gün boyunca kullanıcıların etkinliklerini izler. Giriş, cep telefonuna kaydedilen sensör verilerini içerir. Çıktı, kullanıcının etkinliği olacaktır: yürüme, ayakta durma, oturma, koşma veya dans etme. Bu bir sınıflandırma problemi olduğundan, bu örnek denetimli öğrenmeyi uygulayacaktır.

Verilere erişin ve verileri yükleyin

Kullanıcı telefonla oturacak, sensör verilerini kaydedecek ve "otur" etiketli bir metin dosyasında saklayacaktır. Bundan sonra, kullanıcı telefonla ayağa kalkar, sensör verilerini kaydeder ve "ayakta" etiketli bir metin dosyasına kaydeder. Koşu, yürüyüş ve dans verilerini kaydetmek için aynı yöntemi kullanın.

Veri ön işleme

Makine öğrenimi algoritmaları gürültü ve verilerin değerli kısımlarını ayırt edemediğinden, modeli eğitmeden önce verileri temizlemek gerekir. Veri ön işleme, MATLAB gibi veri analizi araçlarıyla uygulanabilir. Verileri temizlemek için, kullanıcılar verileri içe aktarabilir ve aykırı değerleri gidermek için grafik oluşturabilir. Bu örnekte, aykırı değerler, veri kaydedilirken yanlışlıkla telefonun hareket ettirilmesinden kaynaklanıyor olabilir. Kullanıcıların ayrıca eksik değerleri kontrol etmesi gerekir.Kayıp değerler, diğer örneklerin yaklaşık değerleri veya referans verileri ile değiştirilebilir.

Şekil 1 Aykırı değerleri, yani verinin ana bölümünün dışında bulunan veri noktalarını ortadan kaldırmak için veri ön işleme.

Veriler temizlendikten sonra, veri seti iki kısma bölünür, bir kısım eğitim seti ve diğer kısım test ve çapraz doğrulama için "ayrılmış" veriler olacaktır.

Özellikler oluşturmak için önceden işlenmiş verileri kullanın

Ham veriler, makine öğrenimi algoritmaları tarafından kullanılabilecek bilgilere dönüştürülmelidir. Bunu başarmak için, kullanıcıların cep telefonundaki verileri ayırt edebilen özellikler oluşturması gerekir.

Bu örnekte, mühendisler ve bilim adamları, algoritmanın yürüme (düşük frekans) ve koşma (yüksek frekans) arasında ayrım yapmasına yardımcı olmak için özellikleri sınıflandırmalıdır.

veri türü

Özellik seçim hedefi

beceri

Sensör verileri

Daha yüksek düzeyde bilgi oluşturmak için sinyal özelliklerini ham sensör verilerinden çıkarın

Tepe analizi-baskın frekansı belirlemek için Fourier değişikliğini uygulayın

Yükselme süresi, düşme süresi, yerleşme süresi gibi darbe ve geçiş matrisi alma sinyal özellikleri

Spektrum ölçüm-arsa sinyal gücü, bant genişliği, ortalama frekans, medyan frekans

Görüntü ve video verileri

Kenar konumu, çözünürlük, renk gibi özellikleri ayıklayın

Görsel kelime çantası - kenarlar, köşeler, bağlantılı bölgeler gibi görüntü özelliklerinin histogramını oluşturur

Yönlü gradyan histogramı-gradyan yön histogramı oluştur

Minimum özdeğer algoritması-görüntü köşelerini izleyin

Kenar algılama - görüntü parlaklığındaki en hızlı değişiklikle pikselin konumunu tespit edin

Işlem verileri

Geliştirilmiş verilerdeki bilgilerin türetilmiş değerini hesaplayın

Zaman damgası ayrıştırma-zaman damgalarının günlere veya aylara ayrışması

Entegrasyon değerini hesaplayın - belirli bir zamandaki toplam oluşum sayısı gibi daha yüksek seviyeli özellikler oluşturun

Tablo 1 Ham verileri makine öğrenimi modelleri tarafından kullanılabilecek üst düzey bilgilere dönüştürebilen veri türlerine dayalı özellikler türetin Modeli oluşturun ve eğitin

Basit bir karar ağacı ile başlayın:

Şekil 2 Özelliklere dayalı karar ağacı sınıflandırma modeli

Modelin etkisini gözlemlemek için karışıklık matrisini çizin.

Şekil 3 Matris, modelin dans etmek ve koşmak arasında ayrım yapmada sorun yaşadığını göstermektedir

Yukarıdaki karışıklık matrisine dayanarak, bu, karar ağacının bu tür veriler için uygun olmadığı veya farklı bir algoritmanın kullanılması gerektiği anlamına gelir.

K-en yakın komşu algoritması (KNN) tüm eğitim verilerini depolar, yeni veri noktalarını eğitim verileriyle karşılaştırır, en benzer K örneklerini alır ve bu benzer örneklerin en sık kullanılan sınıflarını döndürür. Bu algoritma daha yüksek doğruluk gösterir.

Şekil 4 KNN algoritmasına geçiş, doğruluğu artırır - yine de iyileştirme olasılığı vardır

Diğer bir seçenek, çok sınıflı bir destek vektör makinesidir (SVM):

Şekil 5 SVM'nin doğruluğu her sınıflandırma etiketinde% 99'a yakındır

Bu süreç, hedefe deneme yanılma yoluyla daha iyi ulaşılabileceğini kanıtladı.

Modeli geliştirin

Model, dans etmek ve koşmak arasında güvenilir bir ayrım yapamazsa, modelin iyileştirilmesi gerekir. Verileri daha karmaşık hale getirerek veya fazla sığdırma olasılığını azaltmak için basitleştirerek modeli geliştirin.

Modeli basitleştirmek için aşağıdaki yöntemlerle özelliklerin sayısı azaltılabilir:

  • Korelasyon matrisi , Zayıf bir şekilde alakalı özellikleri kaldırmak için;
  • PCA boyutsallığında azalma Artıklığı ortadan kaldırmak için;
  • Özellikleri düzenli olarak azaltın , Model etkisi artık gelişmeyene kadar.

Modeli daha karmaşık hale getirmek için mühendisler ve bilim adamları, daha büyük bir model elde etmek veya daha fazla veri kaynağı eklemek için birden çok basit modeli bir araya getirebilir.

Eğitim ve ayarlama tamamlandıktan sonra, model test setine uygulanabilir (verilerin ön işleme sırasında tutulan verilerin bir kısmı). Model etkinlikleri güvenilir bir şekilde sınıflandırabiliyorsa, mobil uygulamalarda kullanılabilir.

Mühendisler ve bilim adamları, makine öğrenimi modellerini ilk kez eğitirken zorluklarla karşılaşacaklar, ancak deneme yanılmanın sürecin bir parçası olduğunu anlamaları gerekiyor.

Yukarıdaki iş akışı, makine öğrenimi modelleri oluşturmak için bir yol haritası sağlar ve kestirimci bakım, doğal dil işleme ve otonom sürüş gibi diğer farklı sorunlara uygulanabilir.

Daha fazla makine öğrenimi yöntemi ve örneği öğrenmek için şu kaynakları keşfedin:

  • Denetimli Öğrenme İş Akışı ve Algoritmalar: Denetimli öğrenme sürecindeki iş akışını ve adımları öğrenin
  • https://www.mathworks.com/help/stats/supervised-learning-machine-learning-workflow-and-algorithms.html?s_tid=srchtitles_eid=PEP_19715.html
  • MATLAB Makine Öğrenimi Örnekleri: Örnekleri, makaleleri ve eğiticileri keşfederek makine öğrenimine başlayın
  • https://www.mathworks.com/solutions/machine-learning/getting-started.htmls_eid=PEP_19715.html
  • MATLAB ile Makine Öğrenimi: Gelişmiş teknikler ve algoritmalarla birlikte makine öğreniminin temellerini sağlayan adım adım kılavuz için bu e-kitabı indirin
  • https://www.mathworks.com/campaigns/offers/machine-learning-with-matlab.html?s_iid=nd_bb15s_eid=PEP_19715.html

Orjinal başlık:

Deneme ve Hata Yoluyla Makine Öğrenimi Modeli Oluşturma

Orijinal bağlantı:

https://www.kdnuggets.com/2018/09/mathworks-building-machine-learning-model-through-trial-error.html

Çevirmen Profili

Wang Weili , Hong Kong Bilim ve Teknoloji Üniversitesi'nde büyük veri teknolojisi okuyan iş av köpeği. Veri biliminin çok zor ve ilginç olduğunu hissediyorum ve hala öğreniyorum (tu) ve öğreniyorum (tou). Bir kişinin karaciğerini hareket ettirmeyen bir belge, bir takipçiyi birlikte göndermek için verilere gelir.

- Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Ünlü Çinli-Amerikalı donanım hackerları Shenzhen'den bahsediyor, "Çin tarzı açık kaynak" Batı'ya kaybetmiyor
önceki
Üst üste dört galibiyet ve 0 gol, takım tarihindeki en iyi başlangıç! Çin Süper Ligi favorileri bu gece çıkıyor
Sonraki
Tsinghua Mezunlar Derneği AI Büyük Veri Özel Komitesi (Hazırlık) İlk konsey başarıyla gerçekleştirildi
GIF-Savunan şampiyon 4 dakikada 2 golle skoru eşitledi ve Hulk dünya çözümsüzlük dalgasına girdi!
An Xiaopeng: "Veri + algoritma" ile tanımlanan yeni dünyayı kucaklayın
DG, Çince özür dilemek için çıktı! Ama "Ben Değil" sosyal çağda bir holiganlıktır
Üç büyük havayolu bu yıl Hubei'de 250 pilotu işe alıyor ve 60.000 pilot 00'dan sonra ön incelemeye katılacak.
Tsinghua'nın Zhu Wenwu ekibi NIPS 2018 AutoML Challenge'da ikinciliği kazandı ve üniversiteler arasında birinci oldu
GIF- Süper Lig'deki ilk katil geri döndüğünde, Chongqing'in SIPG 2-0 öne geçmesine yardım etmek için pas geç!
Python ile (kodla) basit bir sinir ağı oluşturmayı öğretir
Wuhan'daki çeşitli bölgelerin en son performans sıralaması, bu bölge art arda üç ilke imza attı Günaydın Wuhan (sesli versiyon)
Dünyanın en iyi konuşma tanıma bilimcisi Dr. Huang Xuedong CCL 2018 açılış raporu (PPT ile)
Dünya elemeleri - Kane iki gol attı, İngiltere 4-0 Hummels, yedi maçta Almanya 2-1 galibiyet aldı
8:1 Li Keqiang Musk ile tanışıyor; 100 milyon kullanıcı üç gün boyunca arkadaş çevresinde görülebilir; Youku, Toutiao tarafından satın alındığını reddediyor
To Top