Yazar: Seth DeLand
Çeviri: Wang Weili
Düzeltme: Wan Wenjing
Bu makale hakkında 1800 kelime, 8 dakika okumanız tavsiye edilir.
Bu makale, verilerin nasıl ön işlemden geçirileceğini ve ondan özelliklerin nasıl oluşturulacağını içeren adım adım bir kılavuzdur. Makine öğrenimi yöntemlerini ve diğer örnekleri keşfetmenize yardımcı olacak diğer örnek kaynaklara bağlantılar da içerir.
Makine öğrenimine giden yol deneme yanılma ile doludur. Bu alanda acemi mühendisler ve bilim adamları, algoritmalarını ve modellerini sürekli olarak ayarlayacaklar. Bu süreçte, özellikle verilerle uğraşırken ve en uygun modeli belirlerken zorluklar ortaya çıkacaktır.
Bir makine öğrenimi modeli oluştururken, gerçek dünya verilerinin mükemmel olmadığını bilmek önemlidir, bu nedenle farklı veri türleri farklı işleme yöntemleri ve araçları gerektirir ve en uygun modeli belirlerken kaçınılmaz olarak ödünleşmeler olacaktır.
Aşağıdaki sistem akışı, aşağıdakiler için eğitimli bir modelin nasıl geliştirileceğini açıklayacaktır. Mobil sağlık izleme uygulaması Uygulama, gün boyunca kullanıcıların etkinliklerini izler. Giriş, cep telefonuna kaydedilen sensör verilerini içerir. Çıktı, kullanıcının etkinliği olacaktır: yürüme, ayakta durma, oturma, koşma veya dans etme. Bu bir sınıflandırma problemi olduğundan, bu örnek denetimli öğrenmeyi uygulayacaktır.
Verilere erişin ve verileri yükleyinKullanıcı telefonla oturacak, sensör verilerini kaydedecek ve "otur" etiketli bir metin dosyasında saklayacaktır. Bundan sonra, kullanıcı telefonla ayağa kalkar, sensör verilerini kaydeder ve "ayakta" etiketli bir metin dosyasına kaydeder. Koşu, yürüyüş ve dans verilerini kaydetmek için aynı yöntemi kullanın.
Veri ön işlemeMakine öğrenimi algoritmaları gürültü ve verilerin değerli kısımlarını ayırt edemediğinden, modeli eğitmeden önce verileri temizlemek gerekir. Veri ön işleme, MATLAB gibi veri analizi araçlarıyla uygulanabilir. Verileri temizlemek için, kullanıcılar verileri içe aktarabilir ve aykırı değerleri gidermek için grafik oluşturabilir. Bu örnekte, aykırı değerler, veri kaydedilirken yanlışlıkla telefonun hareket ettirilmesinden kaynaklanıyor olabilir. Kullanıcıların ayrıca eksik değerleri kontrol etmesi gerekir.Kayıp değerler, diğer örneklerin yaklaşık değerleri veya referans verileri ile değiştirilebilir.
Şekil 1 Aykırı değerleri, yani verinin ana bölümünün dışında bulunan veri noktalarını ortadan kaldırmak için veri ön işleme.Veriler temizlendikten sonra, veri seti iki kısma bölünür, bir kısım eğitim seti ve diğer kısım test ve çapraz doğrulama için "ayrılmış" veriler olacaktır.
Özellikler oluşturmak için önceden işlenmiş verileri kullanınHam veriler, makine öğrenimi algoritmaları tarafından kullanılabilecek bilgilere dönüştürülmelidir. Bunu başarmak için, kullanıcıların cep telefonundaki verileri ayırt edebilen özellikler oluşturması gerekir.
Bu örnekte, mühendisler ve bilim adamları, algoritmanın yürüme (düşük frekans) ve koşma (yüksek frekans) arasında ayrım yapmasına yardımcı olmak için özellikleri sınıflandırmalıdır.
veri türü
Özellik seçim hedefi
beceri
Sensör verileri
Daha yüksek düzeyde bilgi oluşturmak için sinyal özelliklerini ham sensör verilerinden çıkarın
Tepe analizi-baskın frekansı belirlemek için Fourier değişikliğini uygulayın
Yükselme süresi, düşme süresi, yerleşme süresi gibi darbe ve geçiş matrisi alma sinyal özellikleri
Spektrum ölçüm-arsa sinyal gücü, bant genişliği, ortalama frekans, medyan frekans
Görüntü ve video verileri
Kenar konumu, çözünürlük, renk gibi özellikleri ayıklayın
Görsel kelime çantası - kenarlar, köşeler, bağlantılı bölgeler gibi görüntü özelliklerinin histogramını oluşturur
Yönlü gradyan histogramı-gradyan yön histogramı oluştur
Minimum özdeğer algoritması-görüntü köşelerini izleyin
Kenar algılama - görüntü parlaklığındaki en hızlı değişiklikle pikselin konumunu tespit edin
Işlem verileri
Geliştirilmiş verilerdeki bilgilerin türetilmiş değerini hesaplayın
Zaman damgası ayrıştırma-zaman damgalarının günlere veya aylara ayrışması
Entegrasyon değerini hesaplayın - belirli bir zamandaki toplam oluşum sayısı gibi daha yüksek seviyeli özellikler oluşturun
Tablo 1 Ham verileri makine öğrenimi modelleri tarafından kullanılabilecek üst düzey bilgilere dönüştürebilen veri türlerine dayalı özellikler türetin Modeli oluşturun ve eğitinBasit bir karar ağacı ile başlayın:
Şekil 2 Özelliklere dayalı karar ağacı sınıflandırma modeliModelin etkisini gözlemlemek için karışıklık matrisini çizin.
Şekil 3 Matris, modelin dans etmek ve koşmak arasında ayrım yapmada sorun yaşadığını göstermektedirYukarıdaki karışıklık matrisine dayanarak, bu, karar ağacının bu tür veriler için uygun olmadığı veya farklı bir algoritmanın kullanılması gerektiği anlamına gelir.
K-en yakın komşu algoritması (KNN) tüm eğitim verilerini depolar, yeni veri noktalarını eğitim verileriyle karşılaştırır, en benzer K örneklerini alır ve bu benzer örneklerin en sık kullanılan sınıflarını döndürür. Bu algoritma daha yüksek doğruluk gösterir.
Şekil 4 KNN algoritmasına geçiş, doğruluğu artırır - yine de iyileştirme olasılığı vardırDiğer bir seçenek, çok sınıflı bir destek vektör makinesidir (SVM):
Şekil 5 SVM'nin doğruluğu her sınıflandırma etiketinde% 99'a yakındırBu süreç, hedefe deneme yanılma yoluyla daha iyi ulaşılabileceğini kanıtladı.
Modeli geliştirinModel, dans etmek ve koşmak arasında güvenilir bir ayrım yapamazsa, modelin iyileştirilmesi gerekir. Verileri daha karmaşık hale getirerek veya fazla sığdırma olasılığını azaltmak için basitleştirerek modeli geliştirin.
Modeli basitleştirmek için aşağıdaki yöntemlerle özelliklerin sayısı azaltılabilir:
Modeli daha karmaşık hale getirmek için mühendisler ve bilim adamları, daha büyük bir model elde etmek veya daha fazla veri kaynağı eklemek için birden çok basit modeli bir araya getirebilir.
Eğitim ve ayarlama tamamlandıktan sonra, model test setine uygulanabilir (verilerin ön işleme sırasında tutulan verilerin bir kısmı). Model etkinlikleri güvenilir bir şekilde sınıflandırabiliyorsa, mobil uygulamalarda kullanılabilir.
Mühendisler ve bilim adamları, makine öğrenimi modellerini ilk kez eğitirken zorluklarla karşılaşacaklar, ancak deneme yanılmanın sürecin bir parçası olduğunu anlamaları gerekiyor.
Yukarıdaki iş akışı, makine öğrenimi modelleri oluşturmak için bir yol haritası sağlar ve kestirimci bakım, doğal dil işleme ve otonom sürüş gibi diğer farklı sorunlara uygulanabilir.
Daha fazla makine öğrenimi yöntemi ve örneği öğrenmek için şu kaynakları keşfedin:
Orjinal başlık:
Deneme ve Hata Yoluyla Makine Öğrenimi Modeli Oluşturma
Orijinal bağlantı:
https://www.kdnuggets.com/2018/09/mathworks-building-machine-learning-model-through-trial-error.html
Çevirmen Profili
Wang Weili , Hong Kong Bilim ve Teknoloji Üniversitesi'nde büyük veri teknolojisi okuyan iş av köpeği. Veri biliminin çok zor ve ilginç olduğunu hissediyorum ve hala öğreniyorum (tu) ve öğreniyorum (tou). Bir kişinin karaciğerini hareket ettirmeyen bir belge, bir takipçiyi birlikte göndermek için verilere gelir.
- Bitiş -Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.