ImageNet'in yüz bin etiket hatası olduğunu biliyor muydunuz?

ImageNet, CIFAR, MNIST veya IMDB gibi veri kümelerini kullanırken, bilinçaltında bu veri kümelerindeki sınıf etiketlerinin doğru olduğunu varsayıyor musunuz?

Ancak şunu bilmiyor olabilirsiniz: ImageNet veri kümesindeki en az yüz bin etiket sorunludur.

ImageNet'i kullanan çok sayıda çalışma olmasına rağmen, veri setinde çok fazla etiket hatası bulamadılar. Bunun nedeni, büyük verilerden etiket hatalarını bulmanın ve tanımlamanın zor olmasıdır; ilgili yöntemler olsa bile, uygulama kapsamı son derece sınırlıdır.

Etiket hatalarının nasıl tanımlanacağı ve etiket gürültüsünün nasıl karakterize edileceği önemli ancak nadiren üzerinde çalışılan bir çalışmadır.

Bu makalede, etiket hatalarını tanımlamak, etiket sesini karakterize etmek ve Confident Learning (CL) adı verilen gürültü etiketlerini kullanmayı öğrenmek için kullanılabilecek yeni ortaya çıkan bir temel çerçeveyi tartışacağım. Bu çerçeve, ImageNet ve CIFAR'daki birçok etiketleme problemini tanımlayabilir ve temiz bir veri seti üzerinde eğitim vererek standart ResNet'in performansını artırabilir.

Çerçeve, cleanlab Python paketi olarak açık kaynaklı ve Github adresi:

  • https://github.com/cgnorthcutt/cleanlab

Derin öğrenme çerçevesi PyTorch'a benzer şekilde, CLEANLAB hata etiketleri içeren bir makine öğrenimi ve derin öğrenme çerçevesidir. CLEANLAB hakkında daha fazla bilgi CLEANLAB'ın belge bağlantısında aşağıdaki gibi bulunabilir:

  • https://l7.curtisnorthcutt.com/cleanlab-python-package

CL kağıdındaki sonuçları yeniden üretmek için cleanlab plus kendinden emin öğrenme-yeniden üretme reposunu (https://github.com/cgnorthcutt/confidentlearning-reproduce) kullanın.

Resim, 2012 ILSVRC ImageNet eğitim setinde güven öğrenimi kullanılarak belirlenen ilk 32 etiket problemini göstermektedir. Kırmızı kutu etiket hatasını, yeşil kutu ontoloji problemini ve mavi kutu çok etiketli görüntüleri temsil eder.

Yukarıdaki şekil 2012 ILSVRC ImageNet eğitim setinde inanç öğrenimi kullanılarak bulunan ilk 32 etiketleme problemini göstermektedir. Açıklama kolaylığı için, CL kullanarak ImageNet'te bulunan etiketleme sorunlarını aşağıdaki üç kategoriye ayıracağız:

  • Çok etiketli görüntü (mavi): Görüntüde birden çok etiket vardır;

  • Ontolojik sorular (yeşil): İki ilişki vardır: "Evet" (örneğin: bir küveti varil olarak işaretleyin) veya "Evet" (örneğin: bir osiloskobu CRT ekranı olarak işaretleyin) Bu durumlarda, veri seti bunlardan birini içermelidir;

  • Etiket hatası (kırmızı): Veri kümesindeki başka bir sınıfın etiketi, verilen sınıf etiketinden bir örnek için daha uygun olduğunda, bir etiket hatası görüntülenir

İnanç öğrenmeyi kullanarak, herhangi bir uygun modelin herhangi bir veri kümesinde etiket hatalarını bulabiliriz. Aşağıda, ortak veri kümelerindeki diğer üç gerçek örnek verilmiştir:

Amazon Reviews, MNIST ve QuickDraw veri kümelerinde şu anda mevcut olan etiket hatalarının örnekleri, farklı veri formları ve modelleri için güven öğrenimiyle belirlenir.

1. İnanç öğrenimi nedir?

Güven öğrenimi (CL), aşağıdaki noktalara uygulanabilecek, denetimli öğrenme ve zayıf denetimin bir alt alanı haline geldi:

  • Parazit etiketlerini açıklama

  • Etiket hatalarını bulun

  • Gürültü etiketi öğrenmeyi kullanın

  • Ontolojik sorunları aramak

CL gürültü verilerini budama ilkesine dayanır (etiket hatalarını düzeltme veya kayıp işlevini değiştirmenin aksine) Gürültüyü sayarak değerlendirir ve güven eğitimi için örnekleri sıralar (kesin olasılıkla ağırlıklandırma yerine).

Burada, CL'yi Angluin ve Laird sınıflandırma gürültüsü varsayımına dayalı olarak gürültü etiketi (verilen) ve kayıpsız etiket (bilinmeyen) arasındaki ortak dağılımı doğrudan tahmin etmek için genelleştiriyoruz.

Gürültülü (verilen) etiket ile hasarsız (bilinmeyen) etiket arasındaki güven ortak dağılımı ve güven öğrenme süreci ve tahmini ortak dağılım örnekleri. y ~, gözlemlenen gürültülü etiketi temsil eder ve y *, potansiyel olarak kayıpsız etiketi temsil eder.

Yukarıdaki şekilden de görülebileceği gibi, CL iki giriş gerektirir:

  • Örneklem dışı tahmin olasılığı (matris boyutu: # # örnek sayısı).

  • Gürültü etiketi (vektör uzunluğu: örnek sayısı).

Zayıf denetim amacıyla, CL üç adım içerir:

1. Kategori koşulları altında etiket gürültüsünü tam olarak tanımlamak için gürültülü (verilen) etiketlerin ve potansiyel (bilinmeyen) kayıpsız etiketlerin ortak dağılımını tahmin edin.

2. Etiket hataları olan gürültü örneklerini bulun ve kesin.

3. Yanlış etiketli numuneleri çıkardıktan sonra eğitim gerçekleştirin ve numuneleri önceden tahmin edilen potansiyele göre yeniden tartın.

2. Güvenle Öğrenmenin Faydaları

Çoğu makine öğrenimi yönteminin aksine, inanç öğrenimi hiperparametreler gerektirmez. Örneklem dışı tahmin edilen olasılıkları elde etmek için çapraz doğrulama kullanıyoruz. İnanç öğrenmenin başka pek çok faydası vardır: Aşağıdaki avantajları vardır:

  • Gürültünün ve gerçek etiketlerin ortak dağılımını doğrudan tahmin edebilir

  • Çok kategorili veri setleri için uygundur

  • Etiket hatalarını bulun (hatalar en olasıdan en az olası olana doğru sıralanır)

  • Yineleme gerekmez (ImageNet'teki eğitim setinin etiket hatalarını bulmak 3 dakika sürer)

  • Teorik olarak makuldür (gerçek koşullar altında, etiket hataları ve tutarlı ortak dağıtım tahminleri doğru bir şekilde bulunabilir)

  • Rastgele ve tek tip etiket gürültüsü hakkında varsayımlarda bulunmaya gerek yok (genellikle pratikte gerçekçi değildir)

  • Yalnızca olasılık ve gürültülü etiketleri tahmin etmeniz gerekir (herhangi bir model kullanılabilir)

  • Orijinal (garantili kayıpsız) etiketlere gerek yok

  • Doğal olarak çok etiketli veri setlerine genişletilebilir

  • Etiket hatalarını tanımlamak, bulmak ve öğrenmek için kullanılabilir.CLEANLAB Python paketi ücretsiz ve açık kaynaklıdır.

3. Güvenle Öğrenmenin İlkeleri

CL, gürültü etiketleri ile ilgili literatürde belirlenen ilkelere dayanmaktadır:

1. Budama yaparak yanlış etiketleri arayın, örneğin: Natarajan ve diğerleri (2013); van Rooyen ve diğerleri (2015); Patrini ve diğerleri (2017) örneklerini takip edin, kaçınmak için yumuşak budama yapmak için kayıp ağırlığı kullanın Yinelemeli yeniden etiketleme yakınsama tuzağı. İlgili çalışma bağlantıları aşağıdaki gibidir:

  • https://papers.nips.cc/paper/5073-learning-with-noisy-labels.pdf

  • https://arxiv.org/abs/1505.07634

  • https://arxiv.org/abs/1609.03683

2. Eksik olasılık tahmini durumunda yeniden ağırlıklandırma kaybının (Natarajan vd., 2017) neden olduğu öğrenme modeli ağırlıklarının hata yayılmasını önlemek için temiz veriler üzerinde eğitim istatistikleri gerçekleştirin ve bazı öncü çalışmalara genelleştirin Forman (2005, 2008); Lipton vd. (2018)) gibi ilgili iş bağlantıları aşağıdaki gibidir:

  • https://dl.acm.org/citation.cfm?id=1403849

  • https://arxiv.org/abs/1802.03916

3. PageRank (Page ve diğerleri, 1997) ( ve MentorNet'in (Jiang ve diğerleri,) ünlü sağlamlık araştırma sonuçlarına göre 2018) kurs öğrenme kavramı (https://arxiv.org/abs/1712.05055), düzensiz olasılık veya SVM karar sınır mesafesini kullanarak öğrenmeye izin vermek için eğitim sırasında kullanılan örnekleri sıralayın.

4. İnanç öğrenmede teorik bulgular

CL algoritması, teorisi ve kanıtı hakkında daha fazla bilgi için lütfen orijinal makalemize bakın. Bu yazıda esas olarak tezin ana noktalarını özetledim.

  • Orijinal makaleye bağlantı: https://arxiv.org/abs/1911.00068

Teorik bir bakış açısıyla, etiket hatalarını doğru bir şekilde bulmak ve gürültü ile gerçek etiketlerin ortak dağıtımı için gerçekçi koşulları tutarlı bir şekilde tahmin etmek için CL'ye (Teorem 2: Genel durum bazında sağlamlık) veriyoruz. Belirlediğimiz koşullarda, her bir numunenin ve her bir sınıfın tahmin edilen olasılığında hatalara izin veriyoruz.

5. İnanç öğrenimi nasıl başarılır?

CL'nin nasıl çalıştığını anlamak için, artık köpeklerin, tilkilerin ve ineklerin resimlerini içeren bir veri kümemiz olduğunu varsayalım. CL, gürültülü etiketlerin ve gerçek etiketlerin (aşağıdaki şeklin sağ tarafındaki Q matrisi) ortak dağılımını tahmin ederek çalışır.

Sol: Güven sayımı örneği. Bu anormal bir ortak tahmindir. Sağ: Üç tür veri setiyle gürültü etiketleri ve gerçek etiketlerin ortak dağılımına bir örnek.

Bu örneğe bakmaya devam edelim. CL, köpek olarak etiketlenmiş 100 resmi sayıyor. Bu resimler, yukarıdaki şeklin sol tarafındaki C matrisinde gösterildiği gibi büyük olasılıkla köpek kategorisine aittir; benzer şekilde, CL de köpek kategorisine ait olma olasılığı yüksek olan 56 resmi sayar Ancak tilki olarak işaretlenen resimler ve köpek kategorisine ait olması muhtemel ancak sığır olarak işaretlenen 32 resim.

Yukarıdaki matematiksel ilkelerin işleyişini merak edenler için sayma süreci şu şekillerde anlaşılabilir:

Ayrıca, orijinal makalemizi okuyarak sembollerin anlamını anlamayı da teşvik ediyoruz.Buradaki ana fikir şu şekilde anlaşılabilir: Bir numunenin tahmin edilen olasılığı her bir sınıfın eşik değerinden daha büyük olduğunda, numunenin gerçekte aşağıdaki gruba ait olacağından eminiz. Eşiğin kategorisi. Her kategori için eşik, o kategorideki tüm numunelerin ortalama tahmin edilen olasılığıdır. Bu eşik formu, PU öğrenmedeki iyi bilinen sağlamlık sonuçlarını (Elkan ve amp; Noto, 2008, çok kategorili zayıf denetime genelleştirir.

Etiket sorunlarını bulmak için etiket gürültüsünün ortak dağılımını kullanın:

Yukarıdaki şeklin sağ tarafındaki matristen, etiketleme problemini tahmin edin:

1. Ortak dağılım matrisini örnek sayısı ile çarpın. Veri setimizde 100 örnek olduğunu varsayalım. Yani yukarıdaki resimde (sağdaki Q matrisi) köpek olarak etiketlenmiş ama aslında tilki olarak etiketlenmiş 10 resim var.

2. Gerçekte tilki kategorisine ait olma olasılığı yüksek olan, ancak etiket hatası olan köpekler olarak işaretlenen yukarıdaki 10 resmi işaretleyin.

3. Bu işlemi matristeki tüm diyagonal olmayan öğeler için tekrarlayın.

Not: Orijinal belgede kullanılan yöntem burada basitleştirilmiştir, ancak özü yakalanmıştır.

6. İnanç öğrenmenin pratik uygulaması

Yüksek gürültülü etiketler söz konusu olduğunda, CL öğrenme düzeyini diğer yöntemlere kıyasla% 10'dan fazla geliştirir; yüksek gürültü ve yüksek seyreklik durumunda, CL öğrenme düzeyini diğer yöntemlere kıyasla% 30'dan daha fazla geliştirir.

Yukarıdaki tablo, CL ile gürültü etiketleri aracılığıyla en son çok sınıflı öğrenme yöntemi CIFAR-10 arasındaki karşılaştırmayı göstermektedir. Yüksek seyreklik (bir sonraki paragrafa bakın) ve% 40 ve% 70 etiket gürültüsü altında, CL'nin performansı Google tarafından geliştirilen en iyi performans gösteren MentorNet'ten daha iyidir ve Ortak Öğretim ve Facebook araştırma ekipleri tarafından geliştirilen Mix-up yöntemi% 30'dan fazla iyileşir Öğrenme seviyesi. Güven öğrenmeden önce, ilgili yöntemler kıyaslamayı çok daha az geliştirdi (yaklaşık sadece birkaç yüzde puanı).

Seyreklik (Q matrisindeki sıfır puanı), ImageNet gibi gerçek dünya veri kümesindeki bazı kategorilerin diğer kategoriler olarak yanlış etiketlenmesinin olası olmadığı kavramını özetler.Örneğin, p (kaplan, osiloskop) bir matris olarak kabul edilebilir Q'daki 0.

Yukarıdaki tabloda vurgulanan hücrelerde gösterildiği gibi, CL, Mixup, MentorNet, SCE-loss ve Co-Teaching gibi en son yöntemlere kıyasla seyreklik sağlamlığını önemli ölçüde artırmıştır. Bu sağlamlık, gürültü ve gerçek etiketlerin ortak dağıtımı olan Q modelinin doğrudan modellemesinden gelir.

CL ile temizlenen ImageNet üzerindeki eğitim verileri, ResNet testinin doğruluğunu artırır.

Yukarıdaki şekilde, çizgideki her nokta (soldan sağa), tahmini etiket hatasının% 20,% 40 ...,% 100'ünü kaldırdıktan sonra her yöntemin eğitim doğruluğunu gösterir. Şekildeki siyah noktalı çizgi, tüm numunelerle egzersiz yaparken doğruluğu açıklamaktadır.

Temizlenmiş ImageNet eğitim setinde eğitim için CL'yi kullanın (sentetik gürültü eklemeden). 100.000'den az eğitim örneği kaldırıldığında, ResNet kullanıldığında doğrulama doğruluğunun arttığı gözlemlenir; 100.000'den fazla eğitim örneği kaldırıldığında , CL ile temizledikten sonra verilerin, numunelerin rastgele çıkarılmasının sonuçlarına kıyasla nispeten daha iyi olduğunu gözlemleyin (şekilde kırmızı noktalı çizgi ile gösterilmiştir).

CIFAR veri setinde etiket gürültüsü eklenmiş iyi etiket gürültüsü karakterizasyonu

Yukarıdaki şekil, CIFAR'da CL kullanılarak tahmin edilen etiket gürültüsünün ortak dağılımını ve etiket gürültüsünün% 40 arttığını göstermektedir. Şekil (b) 'deki CL tahmininin, şekil (a) ve (c)' deki gerçek dağılıma ne kadar yakın olduğunu, matristeki her mutlak farkın düşük hatasını gözlemleyin. Burada olasılık 100 kat büyütülmüştür.

ImageNet'te ontoloji (sınıf adlandırma) sorunlarının otomatik keşfi

CL, etiket gürültüsünün birleşik dağılımını doğrudan tahmin ederek veri kümesindeki ontoloji sorunlarını otomatik olarak keşfeder. Yukarıdaki tabloda, ImageNet tek sınıf veri setindeki etiket gürültüsünün ortak dağılımını tahmin ederken köşegenden maksimum sapmayı gösteriyoruz. Her satırda gürültü etiketi, gerçek etiket, görüntü kimliği, istatistiksel miktar ve ortak olasılık listelenir. Bunlar köşegen dışında olduğundan, gürültü kategorisi ve gerçek kategori farklı olmalıdır, ancak aslında 7. satırda, ImageNet'in her ikisi de "maillot" olarak işaretlenmiş iki farklı kategoriye sahip olduğunu görüyoruz. .

Ayrıca kelimelerin kötüye kullanıldığını da gözlemledik: ilk sıradaki işaretli mermi ve füzenin "evet" ilişkisi var, yani mermi aslında bir füzedir ve benzer şekilde ikinci sıradaki işaretli küvet bir namludur. Ayrıca dokuzuncu satırda mısır ve başak gibi bir kelimenin çoklu tanımlarının neden olduğu sorunlar gözlendi.

7. Son düşünceler

Teorik ve deneysel sonuçlarımız, ImageNet ve CIFAR'daki birçok etiketleme problemini tanımlamak ve temiz bir veri seti üzerinde eğitim yoluyla standart ResNet'in performansını geliştirmek gibi güven öğrenmenin pratikliğini vurgulamaktadır.

Güven öğrenimi, insanları, veri setinin etiketindeki belirsizlik tahminini, eğitim setini ve test setini temizleme yöntemini ve veri setindeki ontoloji ve etiket problemini tanımlama yöntemini daha iyi anlamanın gerekli olduğunu fark etmelerini sağlar.

https://l7.curtisnorthcutt.com/confident-learning Lei Feng Wang Lei Feng Wang Lei Feng Wang aracılığıyla

Federal öğrenme, derin sahte, şoförsüz ... Önümüzdeki on yıl içinde ne olacak?
önceki
"Baharı Bekliyor" serisi sıcak kalp biter, bulut rüzgarı altında yeni bir eğlence sahnesi yaratır
Sonraki
Otoyol geçiş ücretleri ne zaman devam edecek? Kararı kim etkiliyor?
Bir damla eski tadı, koku daha uzun sürecek
Vali Luoyuan Son sessizliği hatırlıyor musunuz? Yeni yüzyıldan bu yana kaç "Ulusal Yas Günü" yaşandı?
Eğlenmek için Linyi'ye "uçmak" için Sarı Nehir ve Tai Dağı üzerinden 1200 yuan uçmaya ne dersiniz?
Malezya, salgınla mücadelede Çin'i desteklemek için kaligrafi etkinliği düzenledi
Huawei'nin Samsung katlanır ekranları kullanacağı açık; Alipay aşırı yıllık faturalara yanıt veriyor; Lenovo dünyanın ilk 5G bilgisayarını piyasaya sürüyor | Lei Feng Morning Post
Özel Röportaj DJI Incubation Livox Lidar'a Girdi: Başarıdan Başarı Nasıl Kopyalanır? | CES 2020
Bilgisayar yapay zeka performansı artırılacak, Intel, 10 nm Tiger Lake işlemci yapay zeka motoru haberlerini açıkladı
Bitmain, yapay zeka iş CEO'su Zhan Ketuan'ı atadı: İşten çıkarmalara karşı çıkın! İntihar oynayamayız
Today's Paper | Streamline BERT; yüz değişimi; 3D nokta bulutu; DeepFakes ve 5G vb.
LeCun, Zhou Zhihua, Li Kaifu ve diğerleri 2020'de yapay zeka için ne bekliyor?
Xiaojiao'nun kurucusu Xiaoyan Wang, Xiaomi'ye Çin başkan yardımcısı olarak katıldı
To Top