g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Derin Öğrenme Mülakat Soruları (1)

1. Önyargı ve varyans nasıl tartılır?

Denetimli öğrenmede, model verinin temel modelini yakalayamadığında, bu gerçekleşecektir. Yetersiz uyum . Bu modeller genellikle yüksek önyargı ve düşük varyans özelliklerine sahiptir. Bu, doğru bir model oluşturduğumuzda, veri miktarı çok azsa veya doğrusal olmayan verileri kullanarak doğrusal bir model oluşturmaya çalıştığımızda gerçekleşir. Ek olarak, bu modellerin doğrusal ve lojistik regresyon gibi verilerdeki karmaşık kalıpları yakalamak çok kolaydır.
Denetimli öğrenmede, modelimiz verilerdeki gürültüyü ve temel kalıpları yakaladığında gerçekleşir Aşırı uyum gösterme . Bu, modelimizi gürültülü bir veri kümesi üzerinde eğittiğimizde olur. Bu modeller düşük sapmaya ve yüksek varyansa sahiptir. Bu modeller, aşırı uyuma eğilimli karar ağaçları gibi çok karmaşıktır.

Modelimiz çok basitse ve az sayıda parametresi varsa, yüksek yanlılığa ve düşük varyansa sahip olabilir. Öte yandan, modelimizin çok sayıda parametresi varsa, muhtemelen yüksek varyansa ve düşük önyargıya sahip olacaktır.

Parametrik veya doğrusal makine öğrenimi algoritmaları genellikle yüksek önyargılı ancak düşük varyansa sahiptir.
Parametrik olmayan veya doğrusal olmayan makine öğrenimi algoritmaları genellikle düşük önyargılı ancak yüksek varyansa sahiptir.

Not: Parametrik algoritma ve parametrik olmayan algoritma tanımı

Makine öğrenimi algoritmalarının parametrelendirilmesi, şekilde gösterildiği gibi genellikle sapma ve varyans arasında bir denge kurmaya çalışır.

Belirli bir algoritma için sapma-sapma dengesini yapılandırmanın iki örneği:

K-en yakın komşu algoritması düşük yanlılığa ve yüksek varyansa sahiptir, ancak değiş tokuş k değeri artırılarak değiştirilebilir, bu da tahmin etmeye yardımcı olan komşuların sayısını artırır ve dolayısıyla modelin yanlılığını artırır.
Destek vektörü makine algoritmasının düşük sapması ve yüksek varyansı vardır, ancak takas, C parametresini artırarak değiştirilebilir. C, eğitim verilerindeki sınırı ihlal eden veri noktalarının etkisini değiştirebilir, bu da önyargıyı artırır, ancak varyansı azaltır.

Makine öğrenimindeki önyargı ve varyans negatif olarak ilişkilidir, biri artar ve diğeri azalır.

Sapmayı artırmak farkı azaltacaktır
Varyansı artırmak önyargıyı azaltacaktır

Aslında, gerçek sapma ve varyans hatası terimlerini hesaplayamayız çünkü gerçek örtük amaç fonksiyonunu bilmiyoruz. Bununla birlikte, bir çerçeve olarak önyargı ve varyans, öngörücü performans arayışındaki makine öğrenimi algoritmalarının davranışını anlamak için araçlar sağlar.

2. Gradyan inişi nedir?

İki kavram: yön ve boyut.

Gradyan iniş yönteminin amacı şudur: Amaç işlevi en aza indirin . Algoritmanın özü, minimum hata değerini elde etme sürecidir. Benzer şekilde bu, vadiye doğru yürümek ve bulmaya çalışmak olarak da görülebilir. altın (En düşük hata değeri). Bu zamanda, görüşmeci, yalnızca çevredeki vadileri görebildiğimizde, birçok vadiye sahip bir işlevde en derin vadiyi nasıl buluruz diye sorabilir. Ama bir yolumuz var.

Amaç kayıp fonksiyonundaki en küçük hatayı (en derin vadi) bulmak için modelin parametrelerini ayarlamamız gerekir. Parametreleri nasıl ayarladık veya ne kadar ayarladık? Analiz kullanarak, bir fonksiyonun eğiminin, fonksiyonun değere göre türevi olduğunu biliyoruz. Bu eğim her zaman en yakın vadiyi gösterir.

Artık ince ayar ağırlıklarının yönünü biliyoruz, ancak ince ayar ağırlıklarının boyutu henüz belirlenmedi.Burada bir hiperparametre olan öğrenme hızını kullanıyoruz.

Öğrenme oranı doğru yönde bir adım olarak görülebilir ve yönü dJ / dw'den gelir.

3. Fazla ve yetersiz oturtmayı ve bununla nasıl başa çıkılacağını açıklayın?

Şimdi, makine öğrenimi modelimizin nasıl öğrendiğini ve yeni verileri nasıl genellediğini kontrol etmek istediğimizi varsayalım. Test sırasında, makine öğrenimi algoritmalarının düşük performansının ana nedenleri olan aşırı uydurma ve yetersiz uydurma meydana gelir.

Yetersiz uyum: İstatistiksel bir model veya makine öğrenimi algoritması, verilerin temel eğilimini yakalayamadığında, yetersiz uyuma sahip olduğu söylenir. Yetersiz uyum, makine öğrenimi modelinin doğruluğunu yok eder. Görünüşü, modelimizin veya algoritmamızın verilere tam olarak uyamayacağı anlamına gelir. Bu genellikle doğru bir model oluşturmak için daha az veri kullandığımızda ve doğrusal olmayan verileri kullanarak doğrusal bir model oluşturmaya çalıştığımızda olur. Az miktarda veri için model birçok yanlış tahmin yapabilir. Daha fazla veri kullanarak ve özellik seçimi yoluyla özellikleri azaltarak, yetersiz uyum önlenebilir.

Aşırı uyum gösterme: Model büyük miktarda veriyle eğitildiğinde, veri setindeki gürültü ve hatalı veri girişlerinden öğrenmeye başlar. Daha sonra model, çok fazla ayrıntı ve gürültü nedeniyle verileri doğru bir şekilde sınıflandırmadı. Aşırı uydurmanın nedeni parametrik olmayan ve doğrusal olmayan yöntemlerdir, çünkü bu tür makine öğrenimi algoritmaları veri setlerine dayalı modeller oluştururken daha fazla özgürlüğe sahiptir, bu nedenle gerçekten gerçekçi olmayan modeller oluşturabilirler. Doğrusal verileri kullanırsak veya maksimum derinlik gibi parametreler kullanırsak (eğer karar ağacı ise), aşırı uyumu önleyebiliriz.

Yaygın yanıt yöntemleri :

1) Modelin genelleme yeteneğini geliştirmek için çapraz doğrulama .

2) Mümkün olduğunca çabuk durun: bu Kurallar, öğrenme başlamadan önce kaç tane yineleme çalıştırabileceğimiz konusunda bize yol gösterebilir.

3) Budama: İlgili modeller oluşturulurken budama yaygın olarak kullanılır. Sadece eldeki problem üzerinde çok az öngörü gücü olan düğümleri siler.

4) Düzenlilik: Bazı değişkenlerin katsayıları eğitim yoluyla sıfıra indirilir ve model sadeleştirilir. .

4. Boyutsal felaketi nasıl çözersiniz?

Çok bariz iki çözüm:

1) Algoritmayı değiştirin

2) Verinin boyutsallığını azaltın

1) Hangi algoritmanın kullanılacağı sorusunu içerir.Bazı algoritmalar birçok boyutu kabul edebilir ve güçlü kapasiteye sahip olabilir.

2) Bu boyut azaltmadır, olağan boyut azaltma yöntemleri iyi çalışır. SVD, neredeyse her zaman denenecek ilk şeydir (PCA, SVD'nin bir tezahürüdür). Ek olarak, şunlar da vardır:

Özellik seçim algoritması, hatta özelliklerin manuel seçimi;
Doğrusal olmayan boyutluluk azaltma yöntemleri: ISOMAP, Laplace özellik haritalama, MDS, vb.
Özellik karması / rastgele projeksiyon.

5. Düzenlilik nedir, neden kullanılıyor ve bazı yaygın örnekler veriliyor?

Düzenlileştirme teknolojisinin arkasındaki ana fikir, karmaşık modelleri cezalandırmak, yani modelin karmaşıklığını ölçmek için bir ceza fonksiyonu tanımlamaktır. (Model ne kadar karmaşıksa ceza o kadar büyük olur). Çoğu eğitim algoritması kaybı en aza indirmenin bir optimizasyon problemi olarak kabul edildiğinden, ceza terimleri ekliyor ve tüm ifadeyi en aza indiriyoruz. Örneğin:

Doğrusal regresyon amaç fonksiyonunun düzenlenmesi aşağıdadır:

Aşağıda, lojistik regresyon hedef fonksiyonunun düzenlenmesi yer almaktadır:

L1 regresyonunun regresyonuna Lasso denir , L2 regresyonunun regresyonuna sırt regresyonu denir . L1 ve L2 düzenleyicilerde, L2 her w değeri için farklıdır, bu nedenle bu en popüler düzenleme tekniğidir.

6. Lütfen Temel Bileşen Analizini (PCA) açıklayınız?

PCA birkaç temel kavramı içerir:

varyans: Bir veri setinin dalgalanma aralığının bir ölçüsü olan değişkenliğin bir ölçüsüdür. Matematiksel olarak, kare sapmanın ortalamasıdır. Varyans var (x) 'i hesaplamak için aşağıdaki formülü kullanıyoruz.

Kovaryans: İki sıralı veri kümesindeki karşılık gelen öğelerin aynı yönde hareket etme derecesini ölçer. X ve y'nin kovaryansı olarak cov (x, y) ile ifade edilir. Burada xi, i'inci boyuttaki x'in değeridir. x çubuğu ve y çubuğu, karşılık gelen ortalama değerleri temsil eder. Kovaryansı gözlemlemenin bir yolu, iki veri setinin birbiriyle nasıl ilişkili olduğudur.

Pozitif kovaryans, X ve Y'nin pozitif olarak ilişkili olduğu, yani X arttıkça Y'nin de arttığı anlamına gelir. Negatif kovaryans, tamamen zıt ilişkiyi gösterir. Sıfır, X ve Y'nin ilişkili olmadığı anlamına gelir.

süreç:

Şimdi veri analizi için gereksinimleri ele alalım. Veri setinde örüntüler bulmaya çalıştığımız için verinin her boyuta dağıtılmasını istiyoruz. Ayrıca boyutların bağımsız olmasını istiyoruz. Bu şekilde, veriler bazı n boyutlarda ifade edildiğinde yüksek kovaryansa sahipse, bu boyutları bu n boyutların doğrusal kombinasyonlarıyla değiştiririz. Artık veriler yalnızca ilgili n boyutların doğrusal kombinasyonuna bağlı olacaktır. (Korelasyon = yüksek kovaryans)

Peki, Temel Bileşen Analizi (PCA) ne yapar?

PCA, tüm boyutlar ortogonal (ve dolayısıyla doğrusal olarak bağımsız) olacak şekilde yeni bir boyut kümesi (veya temel) bulur ve bunlar boyunca verilerin varyansına göre sıralanır. Bu, daha önemli boyutların önce göründüğü anlamına gelir.

PCA algoritması adımları

1. Veri noktalarının kovaryans matrisini X hesaplayın.

2. Özvektörü ve karşılık gelen öz değeri hesaplayın.

3. Özvektörleri öz değerlerine göre azalan sırada sıralayın.

4. Yeni k boyutu olacak ilk k unsuru vektörlerini seçin.

5. Orijinal n boyutlu veri noktasını k-boyutuna dönüştürün.

PCA'nın iki hedefi:

1. Veri noktalarını kayıpsız olarak temsil edebilen ortogonal boyutları (uzay vektörü temeli) bulun.

2. Yeni oluşturulan bu alanlar, orijinal boyutları yeniden inşa etmemize izin vermelidir. Projeksiyon hatası en aza indirilmelidir.

Aşağıdaki resim daha iyi.

7. ReLU, sinir ağlarında neden Sigmoid'den daha iyi?

ReLU'nun iki ana faydası, gradyan dispersiyonunu ve seyrekliği önlemektir. .

ReLU'nun tanımının h = max (0, a) olduğunu hatırlayın, burada a = Wx + b.

Gradyan dağılımından kaçının . Bir düşünün > 0 durumunda, gradyan sabit bir değere sahiptir. Aksine, x'in mutlak değeri arttıkça, sigmoids aktivasyon fonksiyonunun gradyanı gittikçe küçülür. ReLU'nun sabit eğimi, daha hızlı öğrenmeye yol açar.

Kıtlık. Sinir ağında sıfırdan küçük veya sıfıra eşit bir transfer değeri göründüğünde, etkinleştirmeden sonra sıfır olur. Katmanda bu birimler ne kadar çok bulunursa, ortaya çıkan gösterim o kadar seyrek olur. Öte yandan, Sigmoids her zaman bazı sıfır olmayan değerler üretebilir ve bu da yoğun bir temsil ile sonuçlanır. Seyrek temsil, yoğun temsilden daha faydalı görünmektedir.

Bu şekilde yazılan bu yatırımcı spoiler metni lider tarafından azarlanacak mı?

"Duvarın üzerinden uçabiliyor" ve 15 yaşında dünyanın en iyi kadın kaya tırmanıcısı oldu.