On yıllık makine öğrenimi sonuçları güvenilmez mi? Berkeley MIT çalışması 30 klasik modeli sorguladı

Xinzhiyuan Raporu

Kaynak: arxiv

Yazar: Li Jingyi, Xiao Qin

Xin Zhiyuan Rehberi Makine öğreniminin geliştirilmesine ilişkin anlayışımız, büyük ölçüde CIFAR-10, ImageNet veya MuJoCo gibi birkaç standart ölçütlere bağlıdır. Bu, çok önemli bir soruyu gündeme getiriyor: Makine öğrenimi ilerlemesine ilişkin mevcut ölçümlerimiz ne kadar güvenilir?

Son yıllarda, yapay zekanın gelişimi, birbiri ardına "insan seviyesinin ötesinde" ilerleme ve küçük, hatta neredeyse her gün (Arxiv sayesinde) gibi çeşitli gazetelerde sürekli yenilenmiştir. "Son teknoloji ürünü" "son teknoloji ürünü", insanlara alanın refahını iç geçirir.

Ancak gerçek durum o kadar iyi olmayabilir.

Son on yılda önerilen bazı klasik sınıflandırıcıları (VGG ve ResNet gibi) yeniden test ettikten sonra Berkeley ve MIT tarafından ortaklaşa yürütülen yeni bir çalışma, test setinin aşırı uyumu nedeniyle birçok sınıflandırıcının doğruluğunun iddia edilmediğini ortaya çıkardı. Yeni veri setindeki test sonuçları, bu sınıflandırıcıların doğruluğunun genellikle% 4'ten% 10'a kadar düştüğünü göstermektedir.

Araştırmacılar, bu sonucun, modelin doğruluğunun güvenilmez ve veri dağılımındaki küçük doğal değişikliklere karşı savunmasız olduğunun kanıtı olarak kabul edilebileceğini söyledi.

Bu yeni araştırma aynı zamanda düşünmeye değer bir soruyu gündeme getiriyor. Makine öğreniminin ilerlemesini ölçmek için şu anda kullandığımız yöntemler ve yöntemler ne kadar güvenilir?

Aynı test setinin tekrar tekrar kullanılması, yeni verilere genellenemez

Yazar makalesinde son beş yılda makine öğreniminin deneysel bir alan haline geldiğini yazdı. Derin öğrenme ile yönlendirilen çoğu yayınlanmış makale aynı rutini benimsemiştir; bu, yeni bir yöntemin birkaç temel kriterde ne kadar performans geliştirdiğini görmek içindir. Başka bir deyişle, değerlerin basit ve kaba bir karşılaştırmasıdır ve çok az kişi nedenini açıklar.

Değerleri karşılaştırırken, çoğu çalışmanın değerlendirilmesi CIFAR-10, ImageNet veya MuJoCo gibi birkaç standart ölçütlere bağlıdır. Sadece bu da değil, Temel gerçeğin veri dağılımını elde etmek genellikle zor olduğundan, araştırmacılar modelin performansını yalnızca ayrı bir test setinde değerlendirebilirler.

"Şimdi, algoritma ve model tasarım süreci boyunca, aynı test setini birden çok kez tekrar tekrar kullanma uygulaması genel olarak kabul edilmektedir. Yeni modeli önceki sonuçlarla karşılaştırmak doğal bir fikir olsa da, mevcut araştırma yönteminin baltaladığı açıktır. Sınıflandırıcının test kümesinden bağımsız olduğuna dair temel varsayım. "

Bu uyumsuzluk bariz bir zarara yol açar, çünkü araştırmacılar yalnızca belirli bir test setinde iyi çalışan ancak aslında yeni verilere genellenemez bir modeli kolayca tasarlayabilir.

CIFAR-10 tekrarlanabilirlik deneyi: VGG ve ResNet gibi klasik modellerin doğruluğu genellikle azalır

Bu fenomenin sonuçlarını incelemek için araştırmacılar, CIFAR-10 ve ilgili sınıflandırıcıları yeniden araştırdılar. Araştırmanın temel amacı, yeni bir sınıflandırıcının aynı dağılımdan bilinmeyen yeni verilere ne kadar iyi genelleştirebileceğini ölçmektir.

Standart CIFAR-10 veri kümesi seçildi çünkü şeffaf oluşturma süreci onu bu görev için özellikle uygun hale getiriyor. Ek olarak, CIFAR-10 son 10 yılda bir araştırma etkin noktası haline geldi.Uyarlanabilirliğin aşırı uyuma neden olup olmadığını araştırmak için iyi bir test vakasıdır.

Deneyde, araştırmacılar önce modelin daha önce görmediği yaklaşık 2000 yeni görüntü kullanarak yeni bir test seti yaptılar ve orijinal CIFAR-10 veri setiyle yeni test setinin alt kategori dağılımını dikkatlice yaptılar. Eşleştirin ve mümkün olduğunca tutarlı olun.

Ardından, klasik VGG, ResNet, yakın zamanda önerilen ResNeXt, PyramidNet, DenseNet ve ICLR 2018'de yayınlanan Shake-Drop dahil olmak üzere 30 görüntü sınıflandırıcının performansı yeni test setinde değerlendirildi. Yöntem, mevcut son teknolojiyi elde etmek için önceki sınıflandırıcıları birleştirir.

Sonuçlar aşağıdaki tabloda gösterilmiştir. Orijinal CIFAR-10 test setinin ve yeni test setinin model doğruluğu, Gap ikisinin doğruluğu arasındaki farktır. Rank, sıralamadaki değişikliği gösterir; "-2" gibi, yeni test setindeki sıralamanın iki konum düştüğü anlamına gelir.

Sonuçlardan, yeni test setindeki modelin doğruluğunun orijinal test setinden önemli ölçüde düşük olduğu görülmektedir. Örneğin, Orijinal veri setindeki iki modelin, VGG ve ResNet'in doğruluğu% 93'tür, ancak yeni test setinde yaklaşık% 85'e düşer. . Ayrıca yazarlar, modelin mevcut test setindeki performansının yeni test setine göre daha öngörücü olduğunu bulduklarını da belirtmişlerdir.

Bu sonucun nedenlerine gelince, yazar bir dizi hipotez kurdu ve bunları tek tek tartıştı.İstatistiksel hatalar ve parametre ayarlarına ek olarak, asıl sebep aşırı uyumdur.

Yazarlar, sonuçlarının makine öğrenimindeki mevcut ilerlemenin beklenmedik bir yönünü gösterdiğini belirtti. CIFAR-10 test seti yıllarca sürekli olarak adapte edilmiş (adapte edilmiş) olsa da, bu eğilim durmadı. En iyi performans gösteren model hala yakın zamanda önerilen Shake-Shake ağıdır (Kesikli düzenleme). Ayrıca, yeni test setinde Shake-Shake'in standart ResNet'e göre avantajı% 4'ten% 8'e yükseldi. Bu da bir test setini hedefleyen araştırma yönteminin gereğinden fazla uyum sağlamada çok etkili olduğunu göstermektedir.

Aynı zamanda, bu sonuç, mevcut sınıflandırıcının sağlamlığı konusunda da şüphe uyandırmaktadır. Yeni veri seti yalnızca küçük değişiklikler (dağıtım kayması) yapmış olsa da, yaygın olarak kullanılan mevcut modellerin sınıflandırma doğruluğu genellikle önemli ölçüde azalmıştır. Örneğin, VGG ve ResNet'in yukarıda belirtilen doğruluk kaybı, CIFAR-10'un çok yıllık ilerlemesine karşılık gelir.

Yazarlar, deneylerinin neden olduğu dağılımsal kaymanın ne olumsuz ne de farklı veri kaynaklarının sonucu olmadığını özellikle belirtiyorlar. Bu nedenle, iyi huylu bir ortamda bile, dağıtım değişikliği ciddi zorluklar getirecektir.Araştırmacılar, mevcut modelin gerçekten ne ölçüde genelleştirilebileceğini düşünmelidir.

Makine öğrenimi araştırmasının da tekrarlanabilirliğe dikkat etmesi gerekiyor

Python Machine Learning kitabının yazarı Sebastian Raschka, bu çalışma hakkında yorum yaptı ve bunun makine öğrenimi araştırmacılarına test setlerinin tekrar tekrar kullanılması (ve bağımsızlık ihlali) sorununa dikkat etmelerini hatırlattığına inanıyor.

Google beyin araştırma bilimcisi ve Twitter hesabı hardmaru, makine öğrenimi araştırmalarının güvenilir bir şekilde değerlendirilmesi için yöntemlerin çok önemli olduğunu söyledi. Metin ve çeviri üzerine benzer araştırmaları ve PTB, wikitext, enwik8, WMT'14 EN-FR, EN-DE ve diğer yapıların aynı dağıtımdan yeni test setine nasıl aktarıldığını görmeyi dört gözle bekliyor.

Ancak Hardmaru, PTB'de benzer sonuçlar elde edilirse, derin öğrenme araştırma topluluğu için aslında iyi bir şey olduğunu, çünkü PTB'nin küçük veri setindeki tipik süper optimizasyon sürecinin insanların genelleme performansını keşfetmesini sağlayacağını söyledi. Daha iyi bir yeni yöntem.

Yazar, gelecekteki deneylerin diğer veri setlerinin (ImageNet gibi) ve diğer görevlerin (dil modellemesi gibi) aşırı uyuma eşit derecede dirençli olup olmadığını araştırması gerektiğini belirtti. Ek olarak, doğal olarak meydana gelen hangi dağılım değişikliklerinin görüntü sınıflandırıcılar için zorlayıcı olduğunu anlamalıyız.

Genelleme problemini gerçekten anlamak için, daha fazla araştırma, anlayışlı yeni veriler toplamalı ve bu veriler üzerindeki mevcut algoritmaların performansını değerlendirmelidir. Tıbbi veya psikolojik tekrarlanabilirlik deneyleri için yeni katılımcılar almaya benzer şekilde, makine öğrenimi araştırması da model performansının tekrarlanabilirliği konusunda daha fazla araştırma gerektirir.

  • İlgili makale: CIFAR-10 Sınıflandırıcıları CIFAR-10'a Genelleştiriyor mu
  • Adres: https://arxiv.org/pdf/1806.00451.pdf
Yeni nesil Honda CR-V: Kuzey Amerika'da en çok satan SUV'daki büyük değişiklikler neler?
önceki
Sen Çin'in nimetisin!
Sonraki
Yerli üretimden önce, yeni nesil Tiguan Tiguan, artışı önemsemeyecek ya da etmeyecek.
Qingdao'nun en sıcak çiçek görüntüleme stratejisinin bir kopyasını kontrol etmeniz gerekiyor
BYD Tang: Çevre korumaya ek olarak, yeni enerji araçları da eğlenmeli
Yeni yılın ilk günü sizlere en güzel şiir kutsamalarını göndermek istiyorum!
CBA finali: Shandong topu kaybeder ve Jiangsu ile savaşmak için dördüncüyü kilitler, Guangdong, Xinjiang, Liaoning ile buluşur.
Büro Partisi Sekreteri ve Direktörü Chen Kedong, aşılama çalışmalarını denetledi
Yılbaşı Gecesinde, Yılbaşı Gecesine Anavatan'a eşlik ediyorum
Cadillac XT5: Amerikan metropolüne hitap etmek için doğmuş, Çin şövalyeliğini de tutabilir
Bu, Yeni Yıl Günü Çin!
Citroen Elysee: Araba yeterince iyi olmadığı için satışlar yeterince yüksek değil
Şiir | Bir işaret yak ve bir dilek tut!
Yaz aylarında, özen ve endişe dolu bir soğukluk gönderen Komünist Gençlik Birliği Belediye Komitesi, Wantan Sanhe Köyü sakinlerini ziyaret ediyor
To Top