ImageNet'in yüz bin etiket hatası olduğunu biliyor muydunuz?

Yazar | L7

Derleme | JocelynWang

ImageNet, CIFAR, MNIST veya IMDB gibi veri kümelerini kullanırken, bilinçaltında bu veri kümelerindeki sınıf etiketlerinin doğru olduğunu varsayıyor musunuz?

Ancak şunu bilmiyor olabilirsiniz: ImageNet veri kümesindeki en az yüz bin etiket sorunludur.

ImageNet'i kullanan çok sayıda çalışma olmasına rağmen, veri setinde çok fazla etiket hatası bulamadılar. Bunun nedeni, büyük verilerden etiket hatalarını bulmanın ve tanımlamanın zor olmasıdır; ilgili yöntemler olsa bile, uygulama kapsamı son derece sınırlıdır.

Etiket hatalarının nasıl tanımlanacağı ve etiket gürültüsünün nasıl karakterize edileceği önemli ancak nadiren üzerinde çalışılan bir çalışmadır.

Bu makalede, etiket hatalarını tanımlamak, etiket sesini karakterize etmek ve adı kullanmak için kullanılabilecek yeni ortaya çıkan bir temel çerçeveyi tartışacağım. Güvenle öğrenme (Confident Learning, CL) öğrenme için gürültü etiketi.

Bu çerçeve ImageNet ve CIFAR'daki birçok etiketleme problemi tanımlanabilir ve standart ResNet'in performansı temiz bir veri seti eğitimi ile iyileştirilebilir.

Çerçeve, cleanlab Python paketi olarak açık kaynaklı ve ilgili bağlantı (Github adresi):

https: // github .com / cgnorthcutt / cleanlab

Derin öğrenme çerçevesi PyTorch'a benzer şekilde, CLEANLAB hata etiketleri içeren bir makine öğrenimi ve derin öğrenme çerçevesidir. CLEANLAB hakkında daha fazla bilgi CLEANLAB'ın belge bağlantısında aşağıdaki gibi bulunabilir:

https: //l7.curtisnorthcutt .com / cleanlab-python-paketi

Cleanlab kullanın Artı Kendinden emin öğrenme-çoğaltma repo, CL kağıdındaki sonuçları yeniden üretebilir.

https: // github .com / cgnorthcutt / confidentlearning-reproduce

Resim, 2012 ILSVRC ImageNet eğitim setinde güven öğrenimi kullanılarak belirlenen ilk 32 etiket problemini göstermektedir. Kırmızı kutu etiket hatasını, yeşil kutu ontoloji problemini ve mavi kutu çok etiketli görüntüleri temsil eder.

Yukarıdaki şekil 2012 ILSVRC ImageNet eğitim setinde inanç öğrenimi kullanılarak bulunan ilk 32 etiketleme problemini göstermektedir. Açıklama kolaylığı için, CL kullanarak ImageNet'te bulunan etiketleme sorunlarını aşağıdaki üç kategoriye ayıracağız:

  • Çok etiketli görüntü (mavi): Görüntüde birden çok etiket vardır;

  • Ontolojik sorular (yeşil): İki ilişki vardır: "Evet" (örneğin: bir küveti varil olarak işaretleyin) veya "Evet" (örneğin: bir osiloskobu CRT ekranı olarak işaretleyin) Bu durumlarda, veri seti bunlardan birini içermelidir;

  • Etiket hatası (kırmızı): Veri kümesindeki başka bir sınıfın etiketi, verilen sınıf etiketinden bir örnek için daha uygun olduğunda, bir etiket hatası görüntülenir

İnanç öğrenmeyi kullanarak, herhangi bir uygun modelin herhangi bir veri kümesinde etiket hatalarını bulabiliriz. Aşağıda, ortak veri kümelerindeki diğer üç gerçek örnek verilmiştir:

Amazon Reviews, MNIST ve QuickDraw veri kümelerinde şu anda mevcut olan etiket hatalarının örnekleri, farklı veri formları ve modelleri için güven öğrenimiyle belirlenir.

1. İnanç öğrenimi nedir?

Güven öğrenimi (CL), aşağıdaki noktalara uygulanabilecek, denetimli öğrenme ve zayıf denetimin bir alt alanı haline geldi:

  • Parazit etiketlerini açıklama

  • Etiket hatalarını bulun

  • Gürültü etiketi öğrenmeyi kullanın

  • Ontolojik sorunları aramak

CL gürültü verilerini budama ilkesine dayanır (etiket hatalarını düzeltme veya kayıp işlevini değiştirmenin aksine) Gürültüyü sayarak değerlendirir ve güven eğitimi için örnekleri sıralar (kesin olasılıkla ağırlıklandırma yerine).

Burada, CL'yi Angluin ve Laird sınıflandırma gürültüsü varsayımına dayalı olarak gürültü etiketi (verilen) ve kayıpsız etiket (bilinmeyen) arasındaki ortak dağılımı doğrudan tahmin etmek için genelleştiriyoruz.

Gürültülü (verilen) etiket ile hasarsız (bilinmeyen) etiket arasındaki güven ortak dağılımı ve güven öğrenme süreci ve tahmini ortak dağılım örnekleri. y ~, gözlemlenen gürültülü etiketi temsil eder ve y *, potansiyel olarak kayıpsız etiketi temsil eder.

Yukarıdaki şekilden de görülebileceği gibi, CL iki giriş gerektirir:

  • Örneklem dışı tahmin olasılığı ( matris Boyut: # # Örnek numarası).

  • Gürültü etiketi (vektör uzunluğu: örnek sayısı).

Zayıf denetim amacıyla, CL üç adım içerir:

1. Kategori koşulları altında etiket gürültüsünü tam olarak tanımlamak için gürültülü (verilen) etiketlerin ve potansiyel (bilinmeyen) kayıpsız etiketlerin ortak dağılımını tahmin edin.

2. Etiket hataları olan gürültü örneklerini bulun ve kesin.

3. Yanlış etiketli numuneleri çıkardıktan sonra eğitim gerçekleştirin ve numuneleri önceden tahmin edilen potansiyele göre yeniden tartın.

2. Güvenle Öğrenmenin Faydaları

Çoğu makine öğrenimi yönteminin aksine, inanç öğrenimi hiperparametreler gerektirmez. Örneklem dışı tahmin edilen olasılıkları elde etmek için çapraz doğrulama kullanıyoruz. İnanç öğrenmenin başka pek çok faydası vardır: Aşağıdaki avantajları vardır:

  • Gürültünün ve gerçek etiketlerin ortak dağılımını doğrudan tahmin edebilir

  • Çok kategorili veri setleri için uygundur

  • Etiket hatalarını bulun (hatalar en olasıdan en az olası olana doğru sıralanır)

  • Yineleme gerekmez (ImageNet'teki eğitim setinin etiket hatalarını bulmak 3 dakika sürer)

  • Teorik olarak makuldür (gerçek koşullar altında, etiket hataları ve tutarlı ortak dağıtım tahminleri doğru bir şekilde bulunabilir)

  • Rastgele ve tek tip etiket gürültüsü hakkında varsayımlarda bulunmaya gerek yok (genellikle pratikte gerçekçi değildir)

  • Yalnızca olasılık ve gürültülü etiketleri tahmin etmeniz gerekir (herhangi bir model kullanılabilir)

  • Orijinal (garantili kayıpsız) etiketlere gerek yok

  • Doğal olarak çok etiketli veri setlerine genişletilebilir

  • Etiket hatalarını tanımlamak, bulmak ve öğrenmek için kullanılabilir.CLEANLAB Python paketi ücretsiz ve açık kaynaklıdır.

3. Güvenle Öğrenmenin İlkeleri

CL, gürültü etiketleri ile ilgili literatürde belirlenen ilkelere dayanmaktadır:

1. Budama yoluyla aramak Yanlış etiket , Örneğin: Natarajan ve ark. ( 2013 ); van Rooyen ve diğerleri (2015); Patrini ve diğerleri (2017), yinelemeli yeniden etiketlemenin yakınsama tuzağından kaçınmak için yumuşak budama gerçekleştirmek için kayıp ağırlıklandırma kullanarak çalışır. İlgili çalışma bağlantıları aşağıdaki gibidir:

https://papers.nips.cc/paper/5073-learning-with-noisy-labels.pdf

https: // ar xi v.org/abs/1505.07634

https: // ar xi v.org/abs/1609.03683

2. Temiz veriler üzerinde eğitim istatistikleri gerçekleştirin , Eksik olasılık tahmini durumunda kaybın yeniden ağırlıklandırılmasının (Natarajan vd., 2017) neden olduğu öğrenme modeli ağırlıklarının hata yayılmasını önlemek ve Forman (2005, 2008) gibi bazı öncü çalışmalara genelleştirmek; Lipton vd. (2018)), ilgili çalışma bağlantıları aşağıdaki gibidir:

http : // www. jmlr.org/papers/volume18/15-226/15-226.pdf

https://dl.acm.org/citation.cfm?id=1403849

https: // ar xi v.org/abs/1802.03916

3. PageRank'in ünlü sağlamlık araştırma sonuçlarına göre (Page ve diğerleri, 1997) ( http : //ilpubs.stanford.edu: 8090/422/1 / 1999-66.pdf) ve MentorNet (Jiang ve diğerleri, 2018) müfredat öğrenme felsefesi (https: // ar xi v.org/abs/1712.05055), düzensiz olasılık veya SVM karar sınır mesafesi kullanarak öğrenmeye izin vermek için eğitim sırasında kullanılan örnekleri sıralayın.

4. İnanç öğrenmede teorik bulgular

CL algoritması, teorisi ve kanıtı hakkında daha fazla bilgi için lütfen orijinal makalemize bakın. Bu yazıda ben ana Makaleyi özetleyin ana Görünüm.

Orijinal kağıda bağlantı: https: // ar xi v.org/abs/1911.00068

Teorik bir bakış açısıyla, etiket hatalarını doğru bir şekilde bulmak ve gürültü ile gerçek etiketlerin ortak dağıtımı için gerçekçi koşulları tutarlı bir şekilde tahmin etmek için CL'ye (Teorem 2: Genel durum bazında sağlamlık) veriyoruz. Belirlediğimiz koşullarda, her bir numunenin ve her bir sınıfın tahmin edilen olasılığında hatalara izin veriyoruz.

5. İnanç öğrenimi nasıl başarılır?

CL'nin nasıl çalıştığını anlamak için, artık köpeklerin, tilkilerin ve ineklerin resimlerini içeren bir veri kümemiz olduğunu varsayalım. CL, gürültü etiketlerinin ve gerçek etiketlerin ortak dağılımını tahmin eder (aşağıdaki şeklin sağ tarafındaki Q) matris ) Çalışmak.

Sol: Güven sayımı örneği. Bu anormal bir ortak tahmindir. Sağ: Üç tür veri setiyle gürültü etiketleri ve gerçek etiketlerin ortak dağılımına bir örnek.

Bu örneğe bakmaya devam edelim. CL köpek olarak işaretlenmiş 100 resim saydı. Bu resimler, yukarıdaki şeklin sol tarafındaki C'de gösterildiği gibi muhtemelen köpek kategorisine ait olacak. matris Benzer şekilde, CL ayrıca köpek kategorisine ait olma olasılığı yüksek ancak tilki olarak etiketlenmiş 56 resim ve köpek kategorisine ait olma olasılığı bulunan ancak sığır olarak etiketlenmiş 32 resim de saydı.

Yukarıdaki matematiksel ilkelerin işleyişini merak edenler için sayma süreci şu şekillerde anlaşılabilir:

Ayrıca, orijinal makalemizi okuyarak sembollerin anlamını anlamayı da teşvik ediyoruz.Buradaki ana fikir şu şekilde anlaşılabilir: Bir numunenin tahmin edilen olasılığı her bir sınıfın eşik değerinden daha büyük olduğunda, numunenin gerçekte aşağıdaki gruba ait olacağından eminiz. Eşiğin kategorisi. Her kategori için eşik, o kategorideki tüm numunelerin ortalama tahmin edilen olasılığıdır. Bu eşik formu ÜB'den öğrenecektir (Elkan ve Noto, 2008, http : //cseweb.ucsd.edu/~elkan/posonly.pdf) İyi bilinen Çok kategorili zayıf denetime genelleştirilmiş sağlamlığın sonucu.

Etiket sorunlarını bulmak için etiket gürültüsünün ortak dağılımını kullanın:

Yukarıdaki resmin sağ tarafından matris Tahmini etiket problemi:

1. Eklemi dağıtın matris Örnek sayısı ile çarpın. Veri setimizde 100 örnek olduğunu varsayalım. Dolayısıyla, yukarıdaki şekilde (sağdaki Q matris ) Köpek olarak etiketlenmiş ama aslında tilki olan 10 resim var.

2. Gerçekte tilki kategorisine ait olma olasılığı yüksek olan, ancak etiket hatası olan köpekler olarak işaretlenen yukarıdaki 10 resmi işaretleyin.

3. Evet matris İçindeki tüm çapraz olmayan öğeler için bu işlemi tekrarlayın.

Not: Orijinal belgede kullanılan yöntem burada basitleştirilmiştir, ancak özü yakalanmıştır.

6. İnanç öğrenmenin pratik uygulaması

Yüksek gürültülü etiketler söz konusu olduğunda, CL öğrenme düzeyini diğer yöntemlere kıyasla% 10'dan daha fazla geliştirir; yüksek gürültü ve yüksek seyreklik durumunda, CL diğer yöntemlere göre daha fazla iyileşir 30 % Öğrenme seviyesi.

Yukarıdaki tablo, CL ile gürültü etiketleri aracılığıyla en son çok sınıflı öğrenme yöntemi CIFAR-10 arasındaki karşılaştırmayı göstermektedir. Yüksek seyreklik (bir sonraki paragrafa bakın) ve% 40 ve% 70 etiket gürültüsü altında, CL'nin performansı Google tarafından geliştirilen en iyi performans gösteren MentorNet'ten daha iyidir ve Ortak Öğretim ve Facebook araştırma ekipleri tarafından geliştirilen Mix-up yöntemi, 30 Öğrenme seviyesinin yüzdesi. Güven öğrenmeden önce, ilgili yöntemler kıyaslamayı çok daha az geliştirdi (yaklaşık sadece birkaç yüzde puanı).

Seyreklik ( matris Q) 'daki sıfır puanı, ImageNet gibi gerçek dünya veri setindeki bazı kategorilerin yanlış bir şekilde diğer kategoriler olarak etiketlenemeyeceği kavramını özetler.Örneğin, p (kaplan, osiloskop) şu şekilde kabul edilebilir: matris Q'daki 0.

Yukarıdaki tabloda vurgulanan hücrelerde gösterildiği gibi, CL, Mixup, MentorNet, SCE-loss ve Co-Teaching gibi en son yöntemlere kıyasla seyreklik sağlamlığını önemli ölçüde artırmıştır. Bu sağlamlık, gürültü ve gerçek etiketlerin ortak dağıtımı olan Q modelinin doğrudan modellemesinden gelir.

CL ile temizlenen ImageNet üzerindeki eğitim verileri, ResNet testinin doğruluğunu artırır.

Yukarıdaki şekilde, çizgideki her nokta (soldan sağa), tahmini etiket hatasının% 20,% 40 ...,% 100'ünü kaldırdıktan sonra her yöntemin eğitim doğruluğunu gösterir. Şekildeki siyah noktalı çizgi, tüm numunelerle egzersiz yaparken doğruluğu açıklamaktadır.

Temizlenmiş ImageNet eğitim setinde eğitim için CL'yi kullanın (sentetik gürültü eklemeden). 100.000'den az eğitim örneği kaldırıldığında, ResNet kullanıldığında doğrulama doğruluğunun arttığı gözlemlenir; 100.000'den fazla eğitim örneği kaldırıldığında , CL ile temizledikten sonra verilerin, numunelerin rastgele çıkarılmasının sonuçlarına kıyasla nispeten daha iyi olduğunu gözlemleyin (şekilde kırmızı noktalı çizgi ile gösterilmiştir).

CIFAR veri setinde etiket gürültüsü eklenmiş iyi etiket gürültüsü karakterizasyonu

Yukarıdaki şekil, CIFAR'da CL kullanılarak tahmin edilen etiket gürültüsünün ortak dağılımını ve etiket gürültüsünün% 40 arttığını göstermektedir. Şekil (b) 'deki CL tahmininin şekil (a) ve (c)' deki gerçek dağılıma ne kadar yakın olduğunu gözlemleyin. matris Her öğedeki her mutlak farkın düşük hatası. Burada olasılık 100 kat büyütülmüştür.

ImageNet'te ontoloji (sınıf adlandırma) sorunlarının otomatik keşfi

CL, etiket gürültüsünün birleşik dağılımını doğrudan tahmin ederek veri kümesindeki ontoloji sorunlarını otomatik olarak keşfeder. Yukarıdaki tabloda, ImageNet tek sınıf veri setindeki etiket gürültüsünün ortak dağılımını tahmin ederken köşegenden maksimum sapmayı gösteriyoruz. Her satırda gürültü etiketi, gerçek etiket, görüntü kimliği, istatistiksel miktar ve ortak olasılık listelenir. Bunlar köşegen dışında olduğundan, gürültü kategorisi ve gerçek kategori farklı olmalıdır, ancak aslında 7. satırda, ImageNet'in her ikisi de "maillot" olarak işaretlenmiş iki farklı kategoriye sahip olduğunu görüyoruz. .

Ayrıca kelimelerin kötüye kullanıldığını da gözlemledik: ilk sıradaki işaretli mermi ve füzenin "evet" ilişkisi var, yani mermi aslında bir füzedir ve benzer şekilde ikinci sıradaki işaretli küvet bir namludur. Ayrıca dokuzuncu satırda mısır ve başak gibi bir kelimenin çoklu tanımlarının neden olduğu sorunlar gözlendi.

7. Son düşünceler

Teorik ve deneysel sonuçlarımız, ImageNet ve CIFAR'daki birçok etiketleme problemini tanımlamak ve temiz bir veri seti üzerinde eğitim yoluyla standart ResNet'in performansını geliştirmek gibi güven öğrenmenin pratikliğini vurgulamaktadır.

Güven öğrenimi, insanları, veri setinin etiketindeki belirsizlik tahminini, eğitim setini ve test setini temizleme yöntemini ve veri setindeki ontoloji ve etiket problemini tanımlama yöntemini daha iyi anlamanın gerekli olduğunu fark etmelerini sağlar.

üzerinden https: //l7.curtisnorthcutt .com / kendine güvenen-öğrenme

AAAI 2020 | Nanjing Üniversitesi: Farklı çeviriler oluşturmak için çok başlı dikkat mekanizmasını kullanma
önceki
Tushen genellikle diferansiyel denklemler, GNN'nin becerilerini sürekli derinlik alanında göstermesi nasıl sağlanır?
Sonraki
Bitkiler kitlesel yok olma döneminde nasıl hayatta kaldı?
AAAI 2020 | Multimodal kıyaslamalar tarafından yönlendirilen üretken çok modlu otomatik özetler
En üst düzey konferans raporu teklif için nasıl gerekli bir koşul haline geldi?
En gelişmiş nesne dedektörü fillere göz yumuyor
"duman" mı? Bekle, bir düşün
2019'da uzayda hangi uzay çevre olayları oldu?Arama Alanı
Kum sabitleyen çalılardan kurtulmanın yolu
90'larda doğan on milyonlarca insan olan Ningbo evlendi ve sadece 4 sofra şarabı vardı! Tören bir saatten az sürdü ve nedimeler yoktu! Gelin dedi ki ...
Evdeki tuvalet bakıma muhtaç ve adam yarım ay boyunca alt kata dışkı atıyor.
Adam banyo yaparken trafik kazasında yakalandı ama iki kilometre uzakta öldü mü?
Büyük Veri Wuhan halkı, yaklaşan Bahar Festivali tatilinde başlangıçta nereye uçtu?
Gökbilimciler kuasarların ilk geometrik mesafe ölçümünü gerçekleştirdi
To Top