Modelimiz çok basitse ve az sayıda parametresi varsa, yüksek yanlılığa ve düşük varyansa sahip olabilir. Öte yandan, modelimizin çok sayıda parametresi varsa, muhtemelen yüksek varyansa ve düşük önyargıya sahip olacaktır.
Not: Parametrik algoritma ve parametrik olmayan algoritma tanımı
Makine öğrenimi algoritmalarının parametrelendirilmesi, şekilde gösterildiği gibi genellikle sapma ve varyans arasında bir denge kurmaya çalışır.
Belirli bir algoritma için sapma-sapma dengesini yapılandırmanın iki örneği:
Makine öğrenimindeki önyargı ve varyans negatif olarak ilişkilidir, biri artar ve diğeri azalır.
Aslında, gerçek sapma ve varyans hatası terimlerini hesaplayamayız çünkü gerçek örtük amaç fonksiyonunu bilmiyoruz. Bununla birlikte, bir çerçeve olarak önyargı ve varyans, öngörücü performans arayışındaki makine öğrenimi algoritmalarının davranışını anlamak için araçlar sağlar.
İki kavram: yön ve boyut.
Gradyan iniş yönteminin amacı şudur: Amaç işlevi en aza indirin . Algoritmanın özü, minimum hata değerini elde etme sürecidir. Benzer şekilde bu, vadiye doğru yürümek ve bulmaya çalışmak olarak da görülebilir. altın (En düşük hata değeri). Bu zamanda, görüşmeci, yalnızca çevredeki vadileri görebildiğimizde, birçok vadiye sahip bir işlevde en derin vadiyi nasıl buluruz diye sorabilir. Ama bir yolumuz var.
Amaç kayıp fonksiyonundaki en küçük hatayı (en derin vadi) bulmak için modelin parametrelerini ayarlamamız gerekir. Parametreleri nasıl ayarladık veya ne kadar ayarladık? Analiz kullanarak, bir fonksiyonun eğiminin, fonksiyonun değere göre türevi olduğunu biliyoruz. Bu eğim her zaman en yakın vadiyi gösterir.
Artık ince ayar ağırlıklarının yönünü biliyoruz, ancak ince ayar ağırlıklarının boyutu henüz belirlenmedi.Burada bir hiperparametre olan öğrenme hızını kullanıyoruz.
Öğrenme oranı doğru yönde bir adım olarak görülebilir ve yönü dJ / dw'den gelir.
Şimdi, makine öğrenimi modelimizin nasıl öğrendiğini ve yeni verileri nasıl genellediğini kontrol etmek istediğimizi varsayalım. Test sırasında, makine öğrenimi algoritmalarının düşük performansının ana nedenleri olan aşırı uydurma ve yetersiz uydurma meydana gelir.
Yetersiz uyum: İstatistiksel bir model veya makine öğrenimi algoritması, verilerin temel eğilimini yakalayamadığında, yetersiz uyuma sahip olduğu söylenir. Yetersiz uyum, makine öğrenimi modelinin doğruluğunu yok eder. Görünüşü, modelimizin veya algoritmamızın verilere tam olarak uyamayacağı anlamına gelir. Bu genellikle doğru bir model oluşturmak için daha az veri kullandığımızda ve doğrusal olmayan verileri kullanarak doğrusal bir model oluşturmaya çalıştığımızda olur. Az miktarda veri için model birçok yanlış tahmin yapabilir. Daha fazla veri kullanarak ve özellik seçimi yoluyla özellikleri azaltarak, yetersiz uyum önlenebilir.
Aşırı uyum gösterme: Model büyük miktarda veriyle eğitildiğinde, veri setindeki gürültü ve hatalı veri girişlerinden öğrenmeye başlar. Daha sonra model, çok fazla ayrıntı ve gürültü nedeniyle verileri doğru bir şekilde sınıflandırmadı. Aşırı uydurmanın nedeni parametrik olmayan ve doğrusal olmayan yöntemlerdir, çünkü bu tür makine öğrenimi algoritmaları veri setlerine dayalı modeller oluştururken daha fazla özgürlüğe sahiptir, bu nedenle gerçekten gerçekçi olmayan modeller oluşturabilirler. Doğrusal verileri kullanırsak veya maksimum derinlik gibi parametreler kullanırsak (eğer karar ağacı ise), aşırı uyumu önleyebiliriz.
Yaygın yanıt yöntemleri :
1) Modelin genelleme yeteneğini geliştirmek için çapraz doğrulama .
2) Mümkün olduğunca çabuk durun: bu Kurallar, öğrenme başlamadan önce kaç tane yineleme çalıştırabileceğimiz konusunda bize yol gösterebilir.
3) Budama: İlgili modeller oluşturulurken budama yaygın olarak kullanılır. Sadece eldeki problem üzerinde çok az öngörü gücü olan düğümleri siler.
4) Düzenlilik: Bazı değişkenlerin katsayıları eğitim yoluyla sıfıra indirilir ve model sadeleştirilir. .
Çok bariz iki çözüm:
1) Algoritmayı değiştirin
2) Verinin boyutsallığını azaltın
1) Hangi algoritmanın kullanılacağı sorusunu içerir.Bazı algoritmalar birçok boyutu kabul edebilir ve güçlü kapasiteye sahip olabilir.
2) Bu boyut azaltmadır, olağan boyut azaltma yöntemleri iyi çalışır. SVD, neredeyse her zaman denenecek ilk şeydir (PCA, SVD'nin bir tezahürüdür). Ek olarak, şunlar da vardır:
Düzenlileştirme teknolojisinin arkasındaki ana fikir, karmaşık modelleri cezalandırmak, yani modelin karmaşıklığını ölçmek için bir ceza fonksiyonu tanımlamaktır. (Model ne kadar karmaşıksa ceza o kadar büyük olur). Çoğu eğitim algoritması kaybı en aza indirmenin bir optimizasyon problemi olarak kabul edildiğinden, ceza terimleri ekliyor ve tüm ifadeyi en aza indiriyoruz. Örneğin:
Doğrusal regresyon amaç fonksiyonunun düzenlenmesi aşağıdadır:
Aşağıda, lojistik regresyon hedef fonksiyonunun düzenlenmesi yer almaktadır:
L1 regresyonunun regresyonuna Lasso denir , L2 regresyonunun regresyonuna sırt regresyonu denir . L1 ve L2 düzenleyicilerde, L2 her w değeri için farklıdır, bu nedenle bu en popüler düzenleme tekniğidir.
PCA birkaç temel kavramı içerir:
varyans: Bir veri setinin dalgalanma aralığının bir ölçüsü olan değişkenliğin bir ölçüsüdür. Matematiksel olarak, kare sapmanın ortalamasıdır. Varyans var (x) 'i hesaplamak için aşağıdaki formülü kullanıyoruz.
Kovaryans: İki sıralı veri kümesindeki karşılık gelen öğelerin aynı yönde hareket etme derecesini ölçer. X ve y'nin kovaryansı olarak cov (x, y) ile ifade edilir. Burada xi, i'inci boyuttaki x'in değeridir. x çubuğu ve y çubuğu, karşılık gelen ortalama değerleri temsil eder. Kovaryansı gözlemlemenin bir yolu, iki veri setinin birbiriyle nasıl ilişkili olduğudur.
Pozitif kovaryans, X ve Y'nin pozitif olarak ilişkili olduğu, yani X arttıkça Y'nin de arttığı anlamına gelir. Negatif kovaryans, tamamen zıt ilişkiyi gösterir. Sıfır, X ve Y'nin ilişkili olmadığı anlamına gelir.
süreç:
Şimdi veri analizi için gereksinimleri ele alalım. Veri setinde örüntüler bulmaya çalıştığımız için verinin her boyuta dağıtılmasını istiyoruz. Ayrıca boyutların bağımsız olmasını istiyoruz. Bu şekilde, veriler bazı n boyutlarda ifade edildiğinde yüksek kovaryansa sahipse, bu boyutları bu n boyutların doğrusal kombinasyonlarıyla değiştiririz. Artık veriler yalnızca ilgili n boyutların doğrusal kombinasyonuna bağlı olacaktır. (Korelasyon = yüksek kovaryans)
Peki, Temel Bileşen Analizi (PCA) ne yapar?
PCA, tüm boyutlar ortogonal (ve dolayısıyla doğrusal olarak bağımsız) olacak şekilde yeni bir boyut kümesi (veya temel) bulur ve bunlar boyunca verilerin varyansına göre sıralanır. Bu, daha önemli boyutların önce göründüğü anlamına gelir.
PCA algoritması adımları
1. Veri noktalarının kovaryans matrisini X hesaplayın.
2. Özvektörü ve karşılık gelen öz değeri hesaplayın.
3. Özvektörleri öz değerlerine göre azalan sırada sıralayın.
4. Yeni k boyutu olacak ilk k unsuru vektörlerini seçin.
5. Orijinal n boyutlu veri noktasını k-boyutuna dönüştürün.
PCA'nın iki hedefi:
1. Veri noktalarını kayıpsız olarak temsil edebilen ortogonal boyutları (uzay vektörü temeli) bulun.
2. Yeni oluşturulan bu alanlar, orijinal boyutları yeniden inşa etmemize izin vermelidir. Projeksiyon hatası en aza indirilmelidir.
Aşağıdaki resim daha iyi.
ReLU'nun iki ana faydası, gradyan dispersiyonunu ve seyrekliği önlemektir. .
ReLU'nun tanımının h = max (0, a) olduğunu hatırlayın, burada a = Wx + b.
Gradyan dağılımından kaçının . Bir düşünün > 0 durumunda, gradyan sabit bir değere sahiptir. Aksine, x'in mutlak değeri arttıkça, sigmoids aktivasyon fonksiyonunun gradyanı gittikçe küçülür. ReLU'nun sabit eğimi, daha hızlı öğrenmeye yol açar.
Kıtlık. Sinir ağında sıfırdan küçük veya sıfıra eşit bir transfer değeri göründüğünde, etkinleştirmeden sonra sıfır olur. Katmanda bu birimler ne kadar çok bulunursa, ortaya çıkan gösterim o kadar seyrek olur. Öte yandan, Sigmoids her zaman bazı sıfır olmayan değerler üretebilir ve bu da yoğun bir temsil ile sonuçlanır. Seyrek temsil, yoğun temsilden daha faydalı görünmektedir.