CVPR 2020 Oral | İkili Şube Ağı BBN: Uzun Kuyruk Dağıtımı ile Gerçek Dünya Görevlerinin Üstesinden Gelmek

Bu makale, Megvii tarafından CVPR 2020'de yayınlanan bir sözlü makaledir. Uzun kuyruk problemini çözmek için yeniden dengeleme yönteminin özünü ve eksikliklerini ortaya çıkarır: Sınıflandırıcının performansını artırsa da modelin temsil kabiliyetini bir ölçüde bozar. Eksikliklerine cevaben, bu makale uzun kuyruk problemi olan İkili Şube Ağı (BBN) için hem temsil öğrenmeyi hem de sınıflandırıcı öğrenmeyi hesaba katan yeni bir ağ çerçevesi önermektedir. Megvii Araştırma Enstitüsü, bu yöntem sayesinde, ayrıntılı tanıma alanında yetkili bir etkinlik olan FGVC 2019'daki iNaturalist Challenge pistinde dünya şampiyonluğunu kazandı. Ağ çerçevesinin kodu açık kaynaklıdır.

Yazar | Mağlup

Editör | Jia Wei

Kağıt bağlantısı:

Açık kaynak kodu: https://github.com/Megvii-Nanjing/BBN

Derin evrişimli sinir ağı (CNN) araştırmasının ilerlemesiyle, görüntü sınıflandırmasının performansı inanılmaz bir ilerleme kaydetti. Bu başarı, ImageNet ILSVRC 2012, MS COCO ve Places gibi yüksek kaliteli büyük ölçekli mevcut veri setlerinden ayrılamaz. veri kümesi. Bu görsel tanıma veri setlerinin kategori etiketi dağılımı kabaca tek tiptir. Göreceli olarak konuşursak, gerçek dünya veri setlerinin her zaman önyargılı bir durumu vardır, uzun kuyruklu bir dağıtım modeli gösterir, yani az sayıda kategoride (baş kategorileri) çok fazla veri vardır ve Şekil 1'de gösterildiği gibi çoğu kategorinin (kuyruk kategorileri) yalnızca birkaç örneği vardır.

Şekil 1: Büyük ölçekli gerçek dünya veri kümeleri genellikle uzun kuyruk dağılımını gösterir

Ek olarak, bilgisayarla görme topluluğu, iNaturalist, LVIS ve RPC gibi son yıllardaki gerçek sorunları yansıtan giderek daha fazla uzun kuyruklu veri setleri oluşturdu. Bu tür görsel verilerle uğraşırken, derin öğrenme yöntemleri mükemmel bir tanıma doğruluğu elde etmek için yeterli değildir.İki neden vardır: Birincisi, derin modelin kendisinin çok fazla veri gerektirmesi ve diğeri, uzun kuyruklu veri dağılımının aşırı bir kategori dengesizliği problemine sahip olmasıdır.

Uzun kuyruklu dağılımın aşırı dengesizliği, sınıflandırma eğitiminin özellikle uzun kuyruklu kategori için iyi sonuçlar almasını zorlaştıracaktır. Kategori yeniden dengeleme stratejisi, modelin uzun kuyruk probleminde daha iyi performans göstermesini sağlar. Bu makale, bu stratejilerin mekanizmasının sınıflandırıcının öğrenmesini önemli ölçüde geliştirmek olduğunu, ancak aynı zamanda öğrenilen derin özelliklerin temsil kabiliyetine beklenmedik bir şekilde bir ölçüde zarar vereceğini ortaya koymaktadır.

Şekil 1'de gösterildiği gibi, yeniden dengelemeden sonra, karar sınırı (siyah düz yay), kuyruk verilerini (kırmızı kare) daha doğru bir şekilde sınıflandırma eğilimindedir. Bununla birlikte, her kategori içindeki dağılım daha gevşek hale gelecektir. Geçmiş araştırmalarda, uzun kuyruk problemiyle başa çıkmanın önemli ve etkili bir yolu, eğitim verilerindeki aşırı dengesizliği hafifletebilen kategori yeniden dengelemedir.

Genel olarak, iki tür sınıf yeniden dengeleme yöntemi vardır: 1) yeniden örnekleme yöntemleri ve 2) maliyete duyarlı yeniden ağırlıklandırma yöntemleri. Bu yöntemler, ağ eğitimini ayarlamak için test dağıtımıyla tutarlı olmaları umuduyla mini partideki numuneleri yeniden örnekleyebilir veya bu numunelerin kaybını yeniden ağırlıklandırabilir. Bu nedenle, kategori yeniden dengeleme, derin ağın sınıflandırıcı ağırlığının güncellenmesini etkili bir şekilde doğrudan etkileyebilir, yani sınıflandırıcının öğrenmesini teşvik edebilir. Bu nedenle, yeniden dengeleme yöntemi, uzun kuyruk verilerinde tatmin edici bir tanıma doğruluğu sağlayabilir.

Bununla birlikte, yeniden dengeleme yöntemleri sonunda iyi tahmin sonuçları elde edebilse bile, bu yöntemler yine de istenmeyen etkiler üretecek, yani bir dereceye kadar derinlik özelliklerinin karakterizasyon yeteneğine beklenmedik bir şekilde zarar verecektir.

1. Giriş

Bu makalede, Megvii Araştırma Enstitüsü ilk olarak yukarıdaki argümanları doğrulama deneyleri yoluyla kanıtlıyor. Spesifik olarak, yeniden dengeleme stratejisinin nasıl çalıştığını analiz etmek için, derin ağ eğitim süreci iki aşamaya bölünmüştür: 1) Temsil öğrenme; 2) Sınıflandırıcı öğrenme.

Temsili öğrenme aşamasında, Megvii Araştırma Enstitüsü tarafından benimsenen geleneksel eğitim yöntemi (çapraz entropi kaybı), yeniden ağırlıklandırma ve yeniden örnekleme, ilgili temsillerini öğrenmek için üç öğrenme yöntemidir.

Daha sonra, sınıflandırıcı öğrenme aşamasında, benimsenen yöntem, önceki aşamadaki (yani omurga ağ katmanı) yakınsak temsil öğrenme parametrelerini sabitlemek ve ardından bu ağların sınıflandırıcılarını (yani, tamamen bağlı katman) sıfırdan eğitmektir. Yukarıdaki üç öğrenme yöntemi de kullanılmaktadır.

Şekil 2: İki büyük ölçekli uzun kuyruklu veri seti CIFAR-100-IR50 ve CIFAR-10-IR50 üzerinde farklı temsil öğrenme ve sınıflandırıcı öğrenme yöntemlerini kullanma

Şekil 2, CIFAR-100-IR50 ve CIFAR-10-IR50 karşılaştırmalı iki uzun kuyruk veri setinde elde edilen tahmin hata oranlarını göstermektedir. Açıktır ki, temsil öğrenme yolu sabitlendiğinde, yeniden dengeleme yöntemleri makul ölçüde daha düşük hata oranlarına ulaşabilir, bu da sınıflandırıcı öğrenmeyi gerçekten destekleyebileceklerini gösterir.

Öte yandan, sabit sınıflandırıcı öğrenme yöntemiyle, basit çapraz entropi kaybı, yeniden dengeleme stratejisinden daha düşük bir hata oranı elde edebilir, bu da yeniden dengeleme stratejisinin temsil öğrenmesine bir dereceye kadar zarar verdiğini gösterir. Bu perspektiften Megvii Araştırma Enstitüsü, hem temsil öğrenmeyi hem de sınıflandırıcı öğrenmeyi aynı anda hesaba katarak uzun kuyruk problemlerinin tanıma performansını büyük ölçüde artıran birleşik bir ikili şube ağı (BBN) önerdi.

Şekil 3'te gösterildiği gibi, BBN modeli, Geleneksel Öğrenme Şubesi ve Yeniden Dengeleme Şubesi olmak üzere iki koldan oluşur. Genel olarak, BBN'nin her şubesi kendi temsil öğrenme ve sınıflandırıcı öğrenme görevlerini gerçekleştirir. Adından da anlaşılacağı gibi, normal öğrenme dalı, tanıma görevi için genel temsilleri öğrenmek için kullanılabilen, orijinal veri dağıtımı için tipik bir tek tip örnekleyici ile donatılmıştır; yeniden dengeleme dalı, hedefi olan tersine çevrilmiş bir örnekleyici ile birleştirilir. Kuyruk verilerini modelleyin.

Daha sonra, bu ikili dalların tahmin çıktılarını toplamak için kümülatif öğrenme (Kümülatif Öğrenme) kullanılır. Kümülatif öğrenme, mevcut eğitim dönemlerinin sayısına göre "Adaptör" tarafından otomatik olarak oluşturulan uyarlanabilir bir değiş tokuş parametresi kullanır. İlk olarak orijinal dağıtımdan ortak özellikleri öğrenmek için tüm BBN'yi ayarlayabilir ve ardından aşamalı olarak kuyruk verilerine odaklanabilir. Ek olarak, adım adım 1'den 0'a değişmez, ancak kademeli olarak azalır, böylece iki dal eğitim süreci boyunca aynı anda öğrenme durumunu koruyabilir ve modelin sonraki yinelemelerde öğrenilenlere zarar vermeden kuyruk verilerine odaklanmasına izin verir. Evrensel karakterizasyon.

2. Argümanın kanıtı

Megvii Araştırma Enstitüsü, yeniden dengeleme stratejilerinin temsil öğrenimi ve sınıflandırıcı öğrenimi üzerindeki etkisini keşfetmek için, derin öğrenme modelini bir temsil çıkarıcı ve bir sınıflandırıcıya ayırmak için iki aşamalı bir doğrulama deneyi tasarladı.

Özellikle, ilk aşama, bir sınıflandırma ağını eğitmek için öğrenme yöntemleri olarak sıradan eğitim yöntemlerini (yani, çapraz entropi) veya yeniden dengeleme yöntemlerini (yani yeniden ağırlıklandırma / yeniden örnekleme) kullanır; daha sonra, bu öğrenme yöntemlerine karşılık gelen farklı temsil türleri elde etmek Ekstraktör.

İkinci aşamada, önceki aşamada öğrenilen karakterizasyon çıkarıcısının parametrelerini düzeltin ve ardından sınıflandırıcıyı sıfırdan yeniden eğitmek için yukarıda belirtilen üç öğrenme yöntemini kullanın. Şekil 2'de gösterildiği gibi, Megvii Araştırma Enstitüsü, yukarıda bahsedilen argümanı CIFAR-100-IR50 veri seti üzerinde kontrollü bir deneyle doğruladı (bu, 50 dengesizlik oranına sahip uzun kuyruklu CIFAR-100'dür). Her veri setinde, farklı permütasyonlara ve kombinasyonlara dayalı olarak 9 sonuç setinin elde edilebileceği görülebilir. Buna dayanarak iki gözlem elde edilebilir:

  • Sınıflandırıcı: Aynı temsil öğrenme yöntemi uygulandığında (dikey yönde üç hücrenin hata oranını karşılaştırın), yeniden dengeleme işlemi nedeniyle RW / RS'nin sınıflandırma hata oranının CE'ninkinden her zaman daha düşük olduğu bulunabilir. Sınıflandırıcı ağırlıklarının güncelleme süreci, test dağılımına uyacak şekilde ayarlanacaktır;
  • Karakterizasyon: Aynı sınıflandırıcı öğrenme yöntemini uygularken (yatay yönde üç hücrenin hata oranını karşılaştırın), CE'nin hata oranının her zaman RW / RS'den daha düşük olduğunu bulmak şaşırtıcı olabilir. Bu, eğitim için CE kullanımının daha iyi temsil elde edebileceğini ve RW / RS'nin öğrenilen derinlik özelliklerinin temsil yeteneğini bir dereceye kadar bozduğunu gösterir.

Ayrıca, Şekil 2'nin soldaki görüntüsünde gösterildiği gibi, karakterizasyon öğrenmede CE uygulanarak ve sınıflandırma öğrenmede RS uygulanarak, CIFAR-100-IR50 doğrulama setinde elde edilen hata oranı en düşüktür.

3. Yöntem

Şekil 3'te gösterildiği gibi, BBN modeli üç ana bileşen içerir: 1) normal öğrenme dalı, 2) yeniden dengeleme dalı ve 3) kümülatif öğrenme stratejisi.

Şekil 3: BBN çerçevesinin şematik diyagramı

Özellikle, düzenli öğrenme dalı ve yeniden dengeleme dalı, sırasıyla temsil öğrenme ve sınıflandırıcı öğrenme için kullanılır. Bu iki dal, son kalan modül haricinde aynı artık ağ yapısını kullanır, iki dalın ağ parametreleri paylaşılır. Megvii Araştırma Enstitüsü, iki şubeyi tek tip bir örnekleyici ve ters örnekleyici ile donattı ve iki örnek aldı

ile

Giriş verisi olarak, ilki normal öğrenme dalı için kullanılırken, ikincisi yeniden dengeleme dalı için kullanılır. Bu iki örneği ilgili dallarına gönderdikten sonra, özellik vektörü, evrişimli sinir ağı ve küresel ortalama havuzlama (GAP) yoluyla elde edilir.

ile

Bundan sonra, Megvii Araştırma Enstitüsü tarafından özel olarak tasarlanan ve eğitim aşamasında öğrenmenin "dikkatini" iki dal arasında kademeli olarak değiştirebilen kümülatif öğrenme stratejisidir. Spesifik yöntem, f (c) ve f (r) 'nin ağırlığını ve ağırlıklı özellik vektörünü kontrol etmek için uyarlanabilir bir takas parametresi kullanmaktır.

f (c) ve a f (r) sırasıyla sınıflandırıcıya gönderilecektir

ile

, Ve sonra çıktısını eleman bazında birikimle entegre edin. Bu çıktı logitinin formülü şöyledir:

onların arasında

Tahmin edilen çıktı, yani

. Her bir i {1, 2, ..., C} kategorisi için softmax işlevi, aşağıdaki formüle göre kategorinin olasılığını hesaplayabilir:

Ardından, çapraz entropi fonksiyonunu temsil etmek için E (·, ·) kullanın ve çıktı olasılık dağılımını şu şekilde kaydedin:

BBN modelinin ağırlıklı çapraz entropi sınıflandırma kaybı şu şekildedir:

Dahası, BBN ağ modelinin tamamı uçtan uca eğitilebilir. İkili şube yapısı ve kümülatif öğrenme stratejisinin tasarımı ile ilgili ayrıntılar için lütfen orijinal belgeye bakın.

4. Deney

Megvii Araştırma Enstitüsü, 10, 50 ve 100 dengesizlik oranlarına sahip üç uzun kuyruklu CIFAR veri kümesi üzerinde kapsamlı deneyler gerçekleştirdi ve sonuçlar aşağıdaki gibidir:

Tablo 1, BBN modelini farklı ayarlara sahip CIFAR veri setindeki diğer yöntemlerle karşılaştırmaktadır.

Tablo 1: ResNet'in uzun kuyruklu CIAFR-10 ve CIFAR-100 veri kümelerindeki ilk 1 hata oranı

Yeni önerilen BBN modelinin tüm veri setlerinde en iyi sonuçları elde ettiği ve karşılaştırma yöntemlerinin önceki en iyi CB-Focal ve LDAM-DRW yöntemlerini içerdiği görülebilir.

Tablo 2, iki büyük ölçekli uzun kuyruk veri seti iNaturalist 2018 ve iNaturalist 2017'nin sonuçlarını göstermektedir.

Tablo 2: ResNet-50'nin iNaturalist 2018 ve iNaturalist 2017'deki ilk 1 hata oranı

Önceki sonuçlar gibi, yeni önerilen BBN hala daha iyi. Ek olarak, iNaturalist veri setinin büyük ölçeği nedeniyle, Megvii Araştırma Enstitüsü deneyler yapmak için 2 kat zamanlayıcıyı da kullandı. Aynı zamanda, adil bir karşılaştırma yapmak için, araştırmacılar daha önce en iyi LDAM-DRW'yi eğitmek için 2 × zamanlayıcıyı da kullandılar. 2 × zamanlayıcı kullanan BBN performansının, 2 × zamanlayıcı kullanmayan BBN'den önemli ölçüde daha iyi olduğu açıkça görülebilir. Ek olarak, BBN (2 ×) performansı da LDAM-DRW'den (2 ×) önemli ölçüde daha iyidir.

5. Sonuç

Bu makale ilk olarak kategori yeniden dengeleme stratejilerinin temsili öğrenme ve derin ağların sınıflandırıcı öğrenmesi üzerindeki etkisini araştırıyor ve bu stratejilerin sınıflandırıcı öğrenmeyi önemli ölçüde teşvik etmesine rağmen, temsil öğrenimi üzerinde belirli bir olumsuz etkiye sahip olduğunu ortaya koyuyor. Buna dayanarak, bu makale, hem temsil öğrenmeyi hem de sınıflandırıcı öğrenmeyi dikkate alabilen ve uzun kuyruk tanıma görevlerinin performansını büyük ölçüde geliştiren kümülatif bir öğrenme stratejisine sahip çift dallı bir BBN ağı önermektedir.

Kapsamlı deneysel doğrulamadan sonra Megvii Araştırma Enstitüsü, BBN'nin büyük ölçekli iNaturalist veri seti dahil olmak üzere uzun kuyruklu kıyaslama veri setlerinde en iyi sonuçları elde edebileceğini kanıtladı. Gelecekte, Megvii Araştırma Enstitüsü, BBN modelinin uzun kuyruklu tespit problemine uygulanmasını keşfetmeye devam edecek ve BBN açık kaynak projesi aracılığıyla topluluğun uzun kuyruk problemi üzerine keşif ve araştırmasını teşvik etmeyi umuyor.

güncel! Tsinghua ve birkaç yetkili kuruluş, tüm ağdaki en yeni koroner pnömoni veri kaynağını yayınladı
önceki
ICLR 2020 | Reformer, verimli bir Transformatör
Sonraki
Shan Shiguang: Yapay zeka metodolojisinin güncellenmesi gerekiyor Salgından sonra yapay zeka nasıl gelişecek?
Today Paper | DeepCap; metin sınıflandırması; frekans etki alanı grafik dikkat ağı; 3D insan poz tahmini vb.
Canlı | Yang Qiang, WeBank Yapay Zeka Başkanı: Neden federal öğrenmeye ihtiyacımız var?
Süpüren robotun "gözlerinin" evrimsel tarihi
Canlı | Microsoft Super Mahjong AI Suphx Ar-Ge ekibi teknik ayrıntıları derinlemesine açıklıyor
Today Paper | ScrabbleGAN; UnrealText; izleme modeli; G2L-Net, vb.
Today Paper | Güçlendirmeli Öğrenme; Yeniden Yapılandırılabilir GAN'lar; BachGAN; Zaman Serisi Sınıflandırması, vb.
Today Paper | COVID-19; Derin İlgi Ağı; COVIDX-NET; Sahne Metni Geçişi, vb.
NLP'nin en iyi konferansları birbiri ardına ertelendi, COLING bunu Mart ayında ertelemeyi tercih etti ve ayrıca çevrimdışı konferanslar düzenledi
Evde kalırken egzersiz yapmak istersen ne yapmalı? Neden bu koşu bandını denemiyorsunuz | Titanium Geek
Bankacılık sektörü 2019'da 1.531 bilet çıkardı ve dönüşümün acısı devam ediyor
Hebei'den eşim Liu Yanli: Karavan kullanma ve ülke çapında canlı yayın yapma hayali
To Top