g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

He Yuming'in son makalesi: Denetimsiz, denetimli, 7 algılama ve segmentasyon görevini yeniliyor

Aufei Tapınağı'ndan Balık ve Koyun Qubit Raporu | Genel Hesap QbitAI

Yuming'in makalesi 7 segmentasyon tespit görevini yeniledi.

Bu sefer konu Denetimsiz temsil öğrenme . Bu yöntem NLP alanında yaygın olarak kullanılmaktadır, ancak henüz bilgisayarla görmede dikkat çekmemiştir.

Bundan ilham alan He Yuming'in Facebook AI Araştırma Enstitüsü'ndeki ekibi, yorumlayıcı kayıp yöntemini benimsedi, yani anahtar (veya belirteç) görüntü verilerinden örneklendi ve bir sözlüğe uyan eğitimli bir kodlayıcı tarafından temsil edildi.

Yeni yöntem çağrıldı MoCo (Momentum Kontrastı). Ön eğitim modeli, ince ayar yapıldıktan sonra farklı görevlere aktarılabilir.

ImageNet, CoCo ve diğer veri setlerinde MoCo, bazı durumlarda denetimli eğitim öncesi modelini bile büyük ölçüde aşıyor.

Araştırma ekibi şunları söyledi:

Bu, birçok görsel görevde, denetimsiz ve denetimli temsil öğrenimi arasındaki boşluğun büyük ölçüde ortadan kaldırıldığını göstermektedir.

Yöntem ilkesi

Peki, MoCo bunu nasıl başardı?

Sözlüğe bakmak gibi kontrast öğrenme

Kontrastlı öğrenme (yapısal öğrenme), sözlük arama görevlerini tamamlamak için bir kodlayıcıyı eğitmek olarak görülebilir.

Sözlükte kodlama sorgusuyla (sorgu) eşleşen bir anahtar (anahtar, k + olarak gösterilir) olduğunu varsayalım. Karşılaştırma kaybı işlevinde, sorgu k + 'ya benzer ve diğer tüm tuşlardan farklı olduğunda işlev değeri daha düşüktür.

Bu yazıda, araştırmacılar tarafından kullanılan kontrast kaybı işlevi aşağıdaki gibidir:

Bu, sorguları ve anahtarları karakterize eden bir kodlayıcı ağını eğitmek için kullanılan denetimsiz bir amaç işlevidir.

Momentum Karşılaştırması (MoCo)

Bir cümlede, kontrastlı öğrenme, oldukça sürekli girdiler (resimler gibi) üzerinde ayrı sözlükler oluşturma yöntemidir.

MoCo yönteminin özü, yukarıdakileri birleştirmektir. Veri örnek sırası olarak sözlük Bakım için, bu şekilde, sözlük kodlanmış anahtarları yeniden kullanabilir, sözlük normalden daha büyük olabilir ve esnek ve bağımsız bir şekilde hiperparametreler olarak ayarlanabilir.

Bu, örnekleri aşamalı olarak değiştirilecek dinamik bir sözlüktür, ancak her zaman tüm verilerin örneklenmiş bir alt kümesini temsil eder.

İkincisi, dikkate alınması gereken, kodlayıcının güncellenmesidir.

Kuyrukların kullanılması sözlüğü büyütebilir, ancak aynı zamanda anahtar kodlayıcının geri yayılım yoluyla güncellenmesini zorlaştırır.

Araştırmacılar, bu zorluğun kodlayıcıdaki anahtar temsilin tutarlılığını azaltan hızlı değişikliklerden kaynaklandığını varsaydılar, bu yüzden önerdiler Momentum güncellemesi Yöntemler.

Bu formülde, yalnızca q geri yayılım yoluyla güncellenir. Momentum güncellemesi, k'nin gelişimini q'dan daha kararlı hale getirecek.

Deneyde, araştırmacılar ayrıca nispeten büyük bir momentumun (m = 0.999) küçük bir momentumdan (m = 0.9) çok daha iyi olduğunu buldular. Bu, yavaş gelişen anahtar kodlayıcının kuyrukları kullanmanın anahtarı olduğunu gösterir.

Yalnızca bir sorgu ve anahtar çifti arasındaki ilişkiyi gösteren üç farklı karşılaştırma kaybı mekanizması

Bu resimden, üç farklı kontrast kaybı mekanizması arasındaki farkı görebilirsiniz.

Uçtan uca yöntem, hesaplama sorgularının ve anahtarların temsillerinde uçtan uca güncellemeler gerçekleştirmek için geri yayılımı kullanır.

Hafıza bankası yönteminde, anahtar temsili hafıza bankasından çıkarılır.

MoCo yöntemi, momentum güncellemesine dayalı bir kodlayıcı aracılığıyla anahtarları dinamik olarak kodlar ve anahtar sırasını korur.

Deneysel sonuçlar

MoCo nasıl performans gösteriyor? Konuşmak için hala verilere ihtiyacı var.

Araştırma ekibi bunu iki veri kümesinde test etti: ImageNet-1M ve Instagram-1B.

ImageNet-1M, 1.000 farklı kategoride 1.28 milyon görüntü içeren ImageNet'in eğitim setidir. Instagram-1B veri kümesi, Instagram'da 1 milyar (940 milyon) herkese açık görüntü içeriyor.

Üç farklı mekanizmanın karşılaştırılmasında, sözlük boyutu ne kadar büyükse, üç yöntemin performansı o kadar iyi olur.

K küçük olduğunda, uçtan uca yöntemin performansı MoCo'nunkine benzer, ancak parti boyutu sınırlıdır. 832GB V100s'de, en büyük mini parti yalnızca 1024'tür. Ayrıca, depolama alanı yeterince büyük olsa bile, uçtan uca yöntemin doğrusal öğrenme oranı ölçeklendirme kuralını karşılaması gerektiğinden, aksi takdirde doğruluk azalır ve büyüme eğiliminin daha büyük bir ölçeğe genişletilip genişletilemeyeceği şüphelidir.

Bellek bankasının doğruluk oranı her zaman MoCo'dan% 2'den daha düşüktür.

ImageNet'te MoCo iyi performans gösterdi.

Ve farklı görevler için ince ayar yapıldıktan sonra, MoCo aşağı akış görevlerine iyi bir şekilde taşınabilir ve performans, denetimli eğitim öncesi modelden bile daha iyidir.

PASCAL VOC, COCO ve diğer veri kümelerindeki 7 algılama / segmentasyon görevinde, MoCo ayrıca diğer denetimli eğitim öncesi modellerden daha iyi performans gösterdi. Hatta çok bariz bir gelişme var.

Ek olarak, Instagram korpusu üzerinde önceden eğitilmiş MoCo'nun performansı her zaman ImageNet üzerinde eğitilen sonuçlardan daha iyidir, bu da MoCo'nun büyük, nispeten organize olmayan veriler için çok uygun olduğunu göstermektedir.

Facebook AI Araştırma Enstitüsü'nde Çince

Makalenin araştırma ekibi Facebook AI Araştırma Enstitüsü'nden (FAIR) geliyor.

He Yuming olarak herkes buna aşinadır. Mask R-CNN'in ana savunucusu olarak, üç kez en iyi konferansın en iyi makalesini kazandı.

He Yuming'in kutsamasıyla, makalenin diğer yazarları küçümsenmemelidir.

Carnegie Mellon Üniversitesi Robotik Okulu'ndan mezun olan Haoqi Fan, FAIR'de araştırma mühendisidir. Araştırma alanı bilgisayarla görme ve derin öğrenmedir. ICCV, CVPR, AAAI, vb. Gibi uluslararası en iyi konferanslar için birçok makale seçildi.

FAIR araştırma mühendisi Wu Yuxin, Tsinghua Üniversitesi'nden lisans derecesi ile mezun oldu ve 2017 yılında Carnegie Mellon Üniversitesi'nden bilgisayar görüşü alanında yüksek lisans derecesi aldı. Lisans döneminde Google ve Megvii'de staj yaptı.

Xie Saining, Şanghay Jiaotong Üniversitesi'nden lisans derecesi ile mezun oldu ve CS Doktora derecesini Kaliforniya Üniversitesi, San Diego'dan 18 yılda aldı. Şimdi FAIR'de araştırma bilimcisi.

Diğer bir makale yazarı Ross Girshick, aynı zamanda FAIR'de araştırma bilimcisi. Chicago Üniversitesi'nden doktora derecesi ile mezun oldu ve UC Berkeley'de doktora sonrası araştırmacı olarak çalıştı.