Kuru ürünler Çapraz doğrulamayı yeniden öğrenmek için üç dakika

AI Technology Review Press : Makalenin yazarı Georgios Drakos bir veri bilimcisi, bu makalenin yazarı aracılığıyla bize temel kavramları, işlevleri ve çapraz doğrulamanın nasıl kullanılacağını anlattı. AI Technology Review, orijinal metne göre derlendi.

Doğrulama muhtemelen veri bilimcileri tarafından kullanılan en önemli tekniklerden biridir, çünkü doğrulama işlemleri modelin kararlılığını anlamamıza yardımcı olur - modelin yeni verilere genelleme yeteneğini keşfetmemize yardımcı olur. Modelin modellerin çoğunu verilerden doğru bir şekilde öğrendiğinden ve verilerdeki gürültüden aşırı derecede rahatsız edilmediğinden, yani modelin sapması ve varyansının düşük bir değerde tutulabileceğinden emin olmalıyız. Bu makalenin amacı, çapraz doğrulama (Çapraz doğrulama) kavramını tanıtmaktır.

Unsplash'tan Franck V tarafından çekildi

Çapraz doğrulama nedir?

"Çapraz doğrulama", istatistiksel analiz (model) sonuçlarının diğer bağımsız veri kümeleri üzerindeki genelleme yeteneğini değerlendirmek için kullanılabilen bir model doğrulama tekniğidir. Esas olarak tahmin için kullanılır ve bunu pratikte tahmin modelinin doğruluğunu değerlendirmek için kullanabiliriz.

Çapraz doğrulamanın amacı, modelin eğitim aşamasında (örneğin, doğrulama veri seti) test edilebilmesi için bir veri seti tanımlamaktır, böylece modelin fazla uydurma ve uyumsuzluğunu sınırlamak ve modeli diğer bağımsız veri setlerinde anlamamıza yardımcı olmaktır. Genelleme yeteneği. Bahsetmeye değer, Doğrulama seti ve eğitim seti, bağımsız ve aynı dağıtım koşulunu karşılamalıdır Aksi takdirde, çapraz doğrulama yalnızca sonucu daha da kötüleştirir.

Çapraz doğrulama neden yardımcı olur?

  • Doğrulama, modelin kalitesini değerlendirmemize yardımcı olur

  • Doğrulama, tahmin veri kümesinde en iyi performansı elde edebilecek modelleri seçmemize yardımcı olur

  • Doğrulama, gereğinden fazla ve yetersiz uydurmaktan kaçınmamıza yardımcı olur

Fazla uydurma / yetersiz uydurma nedir?

  • Yetersiz uyum Bu, modelin eğitim verilerinden yeterince kalıp öğrenemediği anlamına gelir. Şu anda modelin eğitim seti ve test setindeki performansı çok zayıf.

  • Aşırı uyum gösterme İki durum vardır: birincisi, model çok fazla gürültü öğrenir; ikincisi, model tarafından öğrenilen modelin genelleme yeteneği zayıftır. Bu noktada, model eğitim setinde çok iyi bir performans sergiliyor ancak test setinde çok kötü performans gösteriyor (sınıflandırma görevleri için, model aynı kategorinin farklı örnekleri arasındaki farkı öğrenmiş ve bunları sınıflandırma olarak kullanmış olarak görülebilir. Bu nedenle, yeni bir durumla karşılaşıldığında sınıflandırma performansı iyi değildir).

En iyi model, hem eğitim setinde hem de test setinde iyi performans gösterebilmelidir.

Farklı doğrulama stratejileri

Genellikle, veri setinin bölünme şekline bağlı olarak farklı doğrulama stratejileri olacaktır.

Eğitim test seti bölümü / Holdout doğrulaması - grup sayısı 2

Bu stratejide, basitçe veri setini iki gruba ayırıyoruz: eğitim seti ve test seti ve eğitim seti ile test seti arasında örtüşme olmamasını şart koşuyoruz. Çakışma varsa, doğrulama yöntemi geçersiz olacaktır. Nihai modeli yayınlamaya hazırlanmadan önce, herhangi bir hiperparametreyi değiştirmeden modeli tüm veri seti üzerinde yeniden eğitebiliriz.

Ancak bu bölünmede büyük bir kusur var:

Ya bölünmemiz rastgele değilse? Örneğin, verilerimizin bir alt kümesi yalnızca belirli bir eyaletten kişileri içeriyorsa veya bir alt kümede yalnızca belirli bir gelir düzeyine sahip çalışanlar varsa veya alt kümede yalnızca kadınları veya belirli bir yaştaki kişileri içeriyorsa, ne yapmalıyız? ? Bunlardan kaçınmak için elimizden gelenin en iyisini yapmaya çalışsak da, bu durumlar modelin gereğinden fazla takılmasına yol açacaktır, çünkü şu anda doğrulama setinde hangi veri noktalarının görüneceğini belirlemek imkansızdır ve farklı veri setleri için modelin tahmin sonuçları da tamamen farklı olabilir. Bu nedenle, bu yaklaşım yalnızca yeterli veriye sahip olduğumuzda uygundur.

Python uygulaması: sklearn.model_selection.train_test_split

k puan bölümü - grup sayısı k

Modeli eğitmek için hiçbir zaman yeterli veri olmayacağından, veri setinin belirli bir kısmı doğrulama için bölünürse, modelin yetersiz kalmasına da neden olur. Eğitim verisi örneklerinin azalması nedeniyle, modelimiz önemli kalıpları / eğilimleri kavrama fırsatlarını kaybetme riskiyle karşı karşıyadır ve dolayısıyla önyargıdan kaynaklanan hataları artırır. Bu nedenle, sadece eğitim modeli için yeterli veri örnekleri sağlayamayan, aynı zamanda doğrulama adımı için belirli miktarda veriyi tutabilen bir yönteme ihtiyacımız var. K-kat çapraz doğrulama tam da ihtiyacımız olan şey.

K-skoru çapraz doğrulaması, birden çok kez gerçekleştirilen basit bir ikiye bölme doğrulaması olarak kabul edilebilir ve ardından k farklı basit bölme doğrulamasını gerçekleştirdikten sonra puanların ortalamasını almaya devam ederiz. Veri setindeki her veri noktası, doğrulama setinde yalnızca bir kez ve eğitim setinde k-1 kez görünebilir. Bu yaklaşım, modeli eğitmek için neredeyse tüm verileri kullandığımız için yetersiz uydurma olgusunu büyük ölçüde azaltacaktır ve aynı zamanda, verilerin çoğu doğrulama için de kullanıldığından aşırı uydurma olgusunu önemli ölçüde azaltabilir.

Veri hacmimiz küçük olduğunda veya model performansımız veya optimum parametrelerimiz farklı bölümlenmiş veri kümelerinde büyük ölçüde farklılık gösterdiğinde, k-skor çapraz doğrulama iyi bir seçimdir. Normal koşullar altında, k = 5 veya k = 10 olarak belirledik. Bu değerler deneyimlerden türetilmiştir. Çok sayıda deney, k bu değerleri aldığında, doğrulama sonuçlarının çok yüksek yanlılığa veya varyansa sahip olmayacağını göstermiştir.

Python uygulama kodu: sklearn.model_selection.KFold

Bir yöntem-sayı grubu eğitim veri seti boyutu bırakın

K, veri kümesindeki örneklerin sayısına eşit olduğunda, Biri dışarıda bırak yöntemi aslında k noktası çapraz doğrulamasının özel bir durumu olarak kabul edilebilir. Bu, her k-1 numunesinin eğitim numuneleri olarak kullanıldığı ve doğrulama numuneleri olarak 1 numunenin bırakıldığı ve daha sonra veri setinin bu şekilde dolaşıldığı anlamına gelir.

Veri hacmimiz çok küçükse ve modelin eğitim hızı çok hızlıysa bu yöntem düşünülebilir.

Python uygulama kodu: sklearn.model_selection.LeaveOneOut

Ek ek-Tabakalaşma

Genellikle, eğitim seti / test seti bölümü veya k-noktası çapraz doğrulama kullanılırken, rastgele eğitim / doğrulama seti bölümü elde etmek için veri setini rastgele yeniden düzenleyeceğiz. Bu durumda, farklı bölünmüş alanlara farklı hedef dağılımları uygulanabilir. Hiyerarşik yöntem sayesinde, verileri bölerken, farklı bölünmüş bölgelerde benzer hedef dağılımları elde edebiliriz.

Bu yöntem aşağıdaki durumlarda etkilidir:

  • Küçük veri seti

  • Veri dengesizliği

  • Çoklu sınıflandırma sorunu

Genel olarak konuşursak, dengeli kategorilere sahip büyük bir veri kümesi için hiyerarşik bölme yöntemi temelde basit rastgele bölme ile aynıdır.

Ne Zaman Kullanılır?

Yeterli veriye sahipsek ve farklı bölme yöntemleri için benzer sonuçlar ve optimal parametre modelleri elde edebiliriz, o zaman eğitim seti / test seti ikilemi iyi bir seçimdir. Tersi ise, yani farklı bölme yöntemleri için, test sonuçları ve modelin optimal parametreleri büyük farklılıklar içeriyorsa, k-skor çapraz doğrulamasını seçebiliriz. Toplam veri miktarı çok azsa, birini dışarıda bırak yöntemini kullanmayı düşünebilirsiniz. Ek olarak, tabakalandırma yöntemi, doğrulama sonuçlarının daha istikrarlı olmasına yardımcı olur ve özellikle küçük ve dengesiz veri kümeleri için kullanışlıdır.

K noktası çapraz doğrulama için k'nin değeri nedir?

K değeri daha büyük olduğunda, sapmanın neden olduğu hata azalacak ve varyansın neden olduğu hata artacak ve hesaplama maliyeti de artacaktır. Açıkçası, hesaplamak için daha fazla zamana ihtiyacınız var ve daha fazla hafıza tüketeceksiniz.

K değeri daha küçük olduğunda, varyansın neden olduğu hata azalacak ve sapmanın neden olduğu hata artacaktır. Ek olarak, gerekli bilgi işlem kaynakları da şu anda azaltılacaktır.

Büyük veri kümeleri için, genellikle k'yi 3 veya 5'e ayarlarız, ancak küçük veri kümeleri için yine de birini dışarıda bırak yöntemini öneriyoruz.

sonuç olarak

Çapraz doğrulama, veri bilimcilerinin bir modelin etkililiğini, özellikle de aşırı uyan ve uymayan problemleri çözmek için değerlendirmesinde çok yararlı bir araçtır. Ek olarak, modelin optimal hiperparametrelerinin belirlenmesinde de çok faydalıdır.

AI Technology Review tarafından derlenen, directiondatascience.com/cross-validation aracılığıyla.

Stephen Chow bir düzineden fazla ünlü aktrisle çalıştı, ancak Wang Zuxian neden yanlışlıkla kayıp?
önceki
Harbin Bahar Şenliği ulaşımı tarihin en zor yılını yaşayabilir ve gökten ve yerden bilet almak kolay değildir!
Sonraki
Zhang Jiahui, Zhang Qidi olmadan önce, Guan Yonghe bu adamın arkasındaki kadın oldu.
Guo Jingming'in "Legacy" sinden 15 yıl önce olan "Final Fantasy" neden sadece göklerde "yayınlandı"?
Akademik Çevre | Didi KDD 2018 Bildiri Ayrıntılı Açıklama: Takviye Öğrenme Teknolojisine Dayalı Akıllı Sipariş Gönderme Modeli
Bu topluluk olağanüstü! Yaşlılar ve çocuklar "flash mob" çalıyor ve "Vatanım ve Ben" şarkısını birlikte söylüyor
Akıllı bilgi işlem yükseltmesinin ardında: Huawei "tuğlaları taşımak istemiyor"
Orijinal özlemlerinizi unutmayın ve yola çıkmaya hazırlanın. Redmi marka bağımsızlığı, Xiaominin gelişiminin kaçınılmaz trendi
"Muhteşem Weiyang" ve "Üç Hayat Üç Dünya" açıkça kopyalanmış ve "Sıcak Kanlı Chang'an" daki bir özür insanların kalbini mi kazanıyor?
KDD 2018 Sergisi: Akademik konferanslarda yetenek savaşı
NIKE Air Max 97 kamuflaj serisi yakında çıkacak! Yüksek çözünürlüklü büyük resme bakın, seçim fobisi yapmayın!
Kontrol Kralı Black Shark Gaming Phone 2, Snapdragon 855 + 12GB lütuf, güçlü performans ile piyasaya sürüldü
Mate 20 serisi cep telefonlarına ek olarak Huawei, dikkate değer bu özelliklere sahip
25'ten fazla akıllı sürüş konuğu ve 1000'den fazla sektör profesyonelinin bir araya gelmesiyle Suzhou Xiangcheng'in cazibesi nedir?
To Top