Bu makale, Megvii tarafından CVPR 2020'de yayınlanan bir sözlü makaledir. Uzun kuyruk problemini çözmek için yeniden dengeleme yönteminin özünü ve eksikliklerini ortaya çıkarır: Sınıflandırıcının performansını artırsa da modelin temsil kabiliyetini bir ölçüde bozar. Eksikliklerine cevaben, bu makale uzun kuyruk problemi olan İkili Şube Ağı (BBN) için hem temsil öğrenmeyi hem de sınıflandırıcı öğrenmeyi hesaba katan yeni bir ağ çerçevesi önermektedir. Megvii Araştırma Enstitüsü, bu yöntem sayesinde, ayrıntılı tanıma alanında yetkili bir etkinlik olan FGVC 2019'daki iNaturalist Challenge pistinde dünya şampiyonluğunu kazandı. Ağ çerçevesinin kodu açık kaynaklıdır.
Yazar | Mağlup
Editör | Jia Wei
Kağıt bağlantısı:
Açık kaynak kodu: https://github.com/Megvii-Nanjing/BBN
Derin evrişimli sinir ağı (CNN) araştırmasının ilerlemesiyle, görüntü sınıflandırmasının performansı inanılmaz bir ilerleme kaydetti. Bu başarı, ImageNet ILSVRC 2012, MS COCO ve Places gibi yüksek kaliteli büyük ölçekli mevcut veri setlerinden ayrılamaz. veri kümesi. Bu görsel tanıma veri setlerinin kategori etiketi dağılımı kabaca tek tiptir. Göreceli olarak konuşursak, gerçek dünya veri setlerinin her zaman önyargılı bir durumu vardır, uzun kuyruklu bir dağıtım modeli gösterir, yani az sayıda kategoride (baş kategorileri) çok fazla veri vardır ve Şekil 1'de gösterildiği gibi çoğu kategorinin (kuyruk kategorileri) yalnızca birkaç örneği vardır.
Şekil 1: Büyük ölçekli gerçek dünya veri kümeleri genellikle uzun kuyruk dağılımını gösterir
Ek olarak, bilgisayarla görme topluluğu, iNaturalist, LVIS ve RPC gibi son yıllardaki gerçek sorunları yansıtan giderek daha fazla uzun kuyruklu veri setleri oluşturdu. Bu tür görsel verilerle uğraşırken, derin öğrenme yöntemleri mükemmel bir tanıma doğruluğu elde etmek için yeterli değildir.İki neden vardır: Birincisi, derin modelin kendisinin çok fazla veri gerektirmesi ve diğeri, uzun kuyruklu veri dağılımının aşırı bir kategori dengesizliği problemine sahip olmasıdır.
Uzun kuyruklu dağılımın aşırı dengesizliği, sınıflandırma eğitiminin özellikle uzun kuyruklu kategori için iyi sonuçlar almasını zorlaştıracaktır. Kategori yeniden dengeleme stratejisi, modelin uzun kuyruk probleminde daha iyi performans göstermesini sağlar. Bu makale, bu stratejilerin mekanizmasının sınıflandırıcının öğrenmesini önemli ölçüde geliştirmek olduğunu, ancak aynı zamanda öğrenilen derin özelliklerin temsil kabiliyetine beklenmedik bir şekilde bir ölçüde zarar vereceğini ortaya koymaktadır.
Şekil 1'de gösterildiği gibi, yeniden dengelemeden sonra, karar sınırı (siyah düz yay), kuyruk verilerini (kırmızı kare) daha doğru bir şekilde sınıflandırma eğilimindedir. Bununla birlikte, her kategori içindeki dağılım daha gevşek hale gelecektir. Geçmiş araştırmalarda, uzun kuyruk problemiyle başa çıkmanın önemli ve etkili bir yolu, eğitim verilerindeki aşırı dengesizliği hafifletebilen kategori yeniden dengelemedir.
Genel olarak, iki tür sınıf yeniden dengeleme yöntemi vardır: 1) yeniden örnekleme yöntemleri ve 2) maliyete duyarlı yeniden ağırlıklandırma yöntemleri. Bu yöntemler, ağ eğitimini ayarlamak için test dağıtımıyla tutarlı olmaları umuduyla mini partideki numuneleri yeniden örnekleyebilir veya bu numunelerin kaybını yeniden ağırlıklandırabilir. Bu nedenle, kategori yeniden dengeleme, derin ağın sınıflandırıcı ağırlığının güncellenmesini etkili bir şekilde doğrudan etkileyebilir, yani sınıflandırıcının öğrenmesini teşvik edebilir. Bu nedenle, yeniden dengeleme yöntemi, uzun kuyruk verilerinde tatmin edici bir tanıma doğruluğu sağlayabilir.
Bununla birlikte, yeniden dengeleme yöntemleri sonunda iyi tahmin sonuçları elde edebilse bile, bu yöntemler yine de istenmeyen etkiler üretecek, yani bir dereceye kadar derinlik özelliklerinin karakterizasyon yeteneğine beklenmedik bir şekilde zarar verecektir.
Bu makalede, Megvii Araştırma Enstitüsü ilk olarak yukarıdaki argümanları doğrulama deneyleri yoluyla kanıtlıyor. Spesifik olarak, yeniden dengeleme stratejisinin nasıl çalıştığını analiz etmek için, derin ağ eğitim süreci iki aşamaya bölünmüştür: 1) Temsil öğrenme; 2) Sınıflandırıcı öğrenme.
Temsili öğrenme aşamasında, Megvii Araştırma Enstitüsü tarafından benimsenen geleneksel eğitim yöntemi (çapraz entropi kaybı), yeniden ağırlıklandırma ve yeniden örnekleme, ilgili temsillerini öğrenmek için üç öğrenme yöntemidir.
Daha sonra, sınıflandırıcı öğrenme aşamasında, benimsenen yöntem, önceki aşamadaki (yani omurga ağ katmanı) yakınsak temsil öğrenme parametrelerini sabitlemek ve ardından bu ağların sınıflandırıcılarını (yani, tamamen bağlı katman) sıfırdan eğitmektir. Yukarıdaki üç öğrenme yöntemi de kullanılmaktadır.
Şekil 2: İki büyük ölçekli uzun kuyruklu veri seti CIFAR-100-IR50 ve CIFAR-10-IR50 üzerinde farklı temsil öğrenme ve sınıflandırıcı öğrenme yöntemlerini kullanma
Şekil 2, CIFAR-100-IR50 ve CIFAR-10-IR50 karşılaştırmalı iki uzun kuyruk veri setinde elde edilen tahmin hata oranlarını göstermektedir. Açıktır ki, temsil öğrenme yolu sabitlendiğinde, yeniden dengeleme yöntemleri makul ölçüde daha düşük hata oranlarına ulaşabilir, bu da sınıflandırıcı öğrenmeyi gerçekten destekleyebileceklerini gösterir.
Öte yandan, sabit sınıflandırıcı öğrenme yöntemiyle, basit çapraz entropi kaybı, yeniden dengeleme stratejisinden daha düşük bir hata oranı elde edebilir, bu da yeniden dengeleme stratejisinin temsil öğrenmesine bir dereceye kadar zarar verdiğini gösterir. Bu perspektiften Megvii Araştırma Enstitüsü, hem temsil öğrenmeyi hem de sınıflandırıcı öğrenmeyi aynı anda hesaba katarak uzun kuyruk problemlerinin tanıma performansını büyük ölçüde artıran birleşik bir ikili şube ağı (BBN) önerdi.
Şekil 3'te gösterildiği gibi, BBN modeli, Geleneksel Öğrenme Şubesi ve Yeniden Dengeleme Şubesi olmak üzere iki koldan oluşur. Genel olarak, BBN'nin her şubesi kendi temsil öğrenme ve sınıflandırıcı öğrenme görevlerini gerçekleştirir. Adından da anlaşılacağı gibi, normal öğrenme dalı, tanıma görevi için genel temsilleri öğrenmek için kullanılabilen, orijinal veri dağıtımı için tipik bir tek tip örnekleyici ile donatılmıştır; yeniden dengeleme dalı, hedefi olan tersine çevrilmiş bir örnekleyici ile birleştirilir. Kuyruk verilerini modelleyin.
Daha sonra, bu ikili dalların tahmin çıktılarını toplamak için kümülatif öğrenme (Kümülatif Öğrenme) kullanılır. Kümülatif öğrenme, mevcut eğitim dönemlerinin sayısına göre "Adaptör" tarafından otomatik olarak oluşturulan uyarlanabilir bir değiş tokuş parametresi kullanır. İlk olarak orijinal dağıtımdan ortak özellikleri öğrenmek için tüm BBN'yi ayarlayabilir ve ardından aşamalı olarak kuyruk verilerine odaklanabilir. Ek olarak, adım adım 1'den 0'a değişmez, ancak kademeli olarak azalır, böylece iki dal eğitim süreci boyunca aynı anda öğrenme durumunu koruyabilir ve modelin sonraki yinelemelerde öğrenilenlere zarar vermeden kuyruk verilerine odaklanmasına izin verir. Evrensel karakterizasyon.
Megvii Araştırma Enstitüsü, yeniden dengeleme stratejilerinin temsil öğrenimi ve sınıflandırıcı öğrenimi üzerindeki etkisini keşfetmek için, derin öğrenme modelini bir temsil çıkarıcı ve bir sınıflandırıcıya ayırmak için iki aşamalı bir doğrulama deneyi tasarladı.
Özellikle, ilk aşama, bir sınıflandırma ağını eğitmek için öğrenme yöntemleri olarak sıradan eğitim yöntemlerini (yani, çapraz entropi) veya yeniden dengeleme yöntemlerini (yani yeniden ağırlıklandırma / yeniden örnekleme) kullanır; daha sonra, bu öğrenme yöntemlerine karşılık gelen farklı temsil türleri elde etmek Ekstraktör.
İkinci aşamada, önceki aşamada öğrenilen karakterizasyon çıkarıcısının parametrelerini düzeltin ve ardından sınıflandırıcıyı sıfırdan yeniden eğitmek için yukarıda belirtilen üç öğrenme yöntemini kullanın. Şekil 2'de gösterildiği gibi, Megvii Araştırma Enstitüsü, yukarıda bahsedilen argümanı CIFAR-100-IR50 veri seti üzerinde kontrollü bir deneyle doğruladı (bu, 50 dengesizlik oranına sahip uzun kuyruklu CIFAR-100'dür). Her veri setinde, farklı permütasyonlara ve kombinasyonlara dayalı olarak 9 sonuç setinin elde edilebileceği görülebilir. Buna dayanarak iki gözlem elde edilebilir:
Ayrıca, Şekil 2'nin soldaki görüntüsünde gösterildiği gibi, karakterizasyon öğrenmede CE uygulanarak ve sınıflandırma öğrenmede RS uygulanarak, CIFAR-100-IR50 doğrulama setinde elde edilen hata oranı en düşüktür.
Şekil 3'te gösterildiği gibi, BBN modeli üç ana bileşen içerir: 1) normal öğrenme dalı, 2) yeniden dengeleme dalı ve 3) kümülatif öğrenme stratejisi.
Şekil 3: BBN çerçevesinin şematik diyagramı
Özellikle, düzenli öğrenme dalı ve yeniden dengeleme dalı, sırasıyla temsil öğrenme ve sınıflandırıcı öğrenme için kullanılır. Bu iki dal, son kalan modül haricinde aynı artık ağ yapısını kullanır, iki dalın ağ parametreleri paylaşılır. Megvii Araştırma Enstitüsü, iki şubeyi tek tip bir örnekleyici ve ters örnekleyici ile donattı ve iki örnek aldı
ile
Giriş verisi olarak, ilki normal öğrenme dalı için kullanılırken, ikincisi yeniden dengeleme dalı için kullanılır. Bu iki örneği ilgili dallarına gönderdikten sonra, özellik vektörü, evrişimli sinir ağı ve küresel ortalama havuzlama (GAP) yoluyla elde edilir.
ile
Bundan sonra, Megvii Araştırma Enstitüsü tarafından özel olarak tasarlanan ve eğitim aşamasında öğrenmenin "dikkatini" iki dal arasında kademeli olarak değiştirebilen kümülatif öğrenme stratejisidir. Spesifik yöntem, f (c) ve f (r) 'nin ağırlığını ve ağırlıklı özellik vektörünü kontrol etmek için uyarlanabilir bir takas parametresi kullanmaktır.
f (c) ve a f (r) sırasıyla sınıflandırıcıya gönderilecektir
ile
, Ve sonra çıktısını eleman bazında birikimle entegre edin. Bu çıktı logitinin formülü şöyledir:
onların arasında
Tahmin edilen çıktı, yani
. Her bir i {1, 2, ..., C} kategorisi için softmax işlevi, aşağıdaki formüle göre kategorinin olasılığını hesaplayabilir:
Ardından, çapraz entropi fonksiyonunu temsil etmek için E (·, ·) kullanın ve çıktı olasılık dağılımını şu şekilde kaydedin:
BBN modelinin ağırlıklı çapraz entropi sınıflandırma kaybı şu şekildedir:
Dahası, BBN ağ modelinin tamamı uçtan uca eğitilebilir. İkili şube yapısı ve kümülatif öğrenme stratejisinin tasarımı ile ilgili ayrıntılar için lütfen orijinal belgeye bakın.
Megvii Araştırma Enstitüsü, 10, 50 ve 100 dengesizlik oranlarına sahip üç uzun kuyruklu CIFAR veri kümesi üzerinde kapsamlı deneyler gerçekleştirdi ve sonuçlar aşağıdaki gibidir:
Tablo 1, BBN modelini farklı ayarlara sahip CIFAR veri setindeki diğer yöntemlerle karşılaştırmaktadır.
Tablo 1: ResNet'in uzun kuyruklu CIAFR-10 ve CIFAR-100 veri kümelerindeki ilk 1 hata oranı
Yeni önerilen BBN modelinin tüm veri setlerinde en iyi sonuçları elde ettiği ve karşılaştırma yöntemlerinin önceki en iyi CB-Focal ve LDAM-DRW yöntemlerini içerdiği görülebilir.
Tablo 2, iki büyük ölçekli uzun kuyruk veri seti iNaturalist 2018 ve iNaturalist 2017'nin sonuçlarını göstermektedir.
Tablo 2: ResNet-50'nin iNaturalist 2018 ve iNaturalist 2017'deki ilk 1 hata oranı
Önceki sonuçlar gibi, yeni önerilen BBN hala daha iyi. Ek olarak, iNaturalist veri setinin büyük ölçeği nedeniyle, Megvii Araştırma Enstitüsü deneyler yapmak için 2 kat zamanlayıcıyı da kullandı. Aynı zamanda, adil bir karşılaştırma yapmak için, araştırmacılar daha önce en iyi LDAM-DRW'yi eğitmek için 2 × zamanlayıcıyı da kullandılar. 2 × zamanlayıcı kullanan BBN performansının, 2 × zamanlayıcı kullanmayan BBN'den önemli ölçüde daha iyi olduğu açıkça görülebilir. Ek olarak, BBN (2 ×) performansı da LDAM-DRW'den (2 ×) önemli ölçüde daha iyidir.
Bu makale ilk olarak kategori yeniden dengeleme stratejilerinin temsili öğrenme ve derin ağların sınıflandırıcı öğrenmesi üzerindeki etkisini araştırıyor ve bu stratejilerin sınıflandırıcı öğrenmeyi önemli ölçüde teşvik etmesine rağmen, temsil öğrenimi üzerinde belirli bir olumsuz etkiye sahip olduğunu ortaya koyuyor. Buna dayanarak, bu makale, hem temsil öğrenmeyi hem de sınıflandırıcı öğrenmeyi dikkate alabilen ve uzun kuyruk tanıma görevlerinin performansını büyük ölçüde geliştiren kümülatif bir öğrenme stratejisine sahip çift dallı bir BBN ağı önermektedir.
Kapsamlı deneysel doğrulamadan sonra Megvii Araştırma Enstitüsü, BBN'nin büyük ölçekli iNaturalist veri seti dahil olmak üzere uzun kuyruklu kıyaslama veri setlerinde en iyi sonuçları elde edebileceğini kanıtladı. Gelecekte, Megvii Araştırma Enstitüsü, BBN modelinin uzun kuyruklu tespit problemine uygulanmasını keşfetmeye devam edecek ve BBN açık kaynak projesi aracılığıyla topluluğun uzun kuyruk problemi üzerine keşif ve araştırmasını teşvik etmeyi umuyor.