CVPR Spotlight raporu: Sıfır örnek öğrenme ağ verileriyle buluştuğunda

Leifeng.com AI Technology Review Not: Bu makale, Rice Üniversitesi doktora sonrası araştırmacı Niu Li tarafından AI Technology Review için sağlanan özel bir el yazmasıdır.

İnce taneli sınıflandırma, sınıflandırma problemlerinde çok zorlayıcı bir alt problemdir. Geleneksel iri taneli sınıflandırmanın aksine, ince taneli sınıflandırma farklı kategoriler arasında ayrım yapmaz, ancak farklı kedi türleri gibi alt kategorileri tek bir kategori altında ayırır. Farklı alt kategoriler arasındaki farklar çok küçük olduğundan, ince taneli sınıflandırma, iri taneli sınıflandırmaya göre daha zordur. Ayrıca, ayrıntılı sınıflandırma için eğitim verilerini toplamak, aşağıdaki nedenlerden dolayı çok zor bir iştir.

Her şeyden önce, genellikle büyük bir kategori altında çok sayıda alt kategori vardır. İstatistiklere göre dünyada 14.000 kuş türü var ve her biri için yeterli eğitim verisi toplamak zor. İkinci olarak, alt kategorileri etiketlemek profesyonel bilgi gerektirir. Örneğin, farklı kuş türlerini etiketlemek için, gaganın rengi ve şekli, kanatları ve kuyruğu gibi her kuş türünün belirli ayrıntılarını bilmeniz gerekir. Çoğu insan bu tür bir uzmanlığa sahip değildir, bu nedenle ayrıntılı açıklama yapabilen uzmanlar çok azdır.

Ayrıntılı sınıflandırma için eğitim verilerini toplamak son derece zor olduğundan, karşılık gelen eğitim verileri olmayan birçok alt kategori olması kaçınılmazdır. Belirli eğitim verisi eksikliği türleri için, mevcut araştırma çalışmaları temel olarak aşağıdaki iki alana odaklanmaktadır: İlk olarak, zayıf denetlenen verileri, yani yanlış etiketlere sahip verileri toplayın , İnternetten ücretsiz ancak gürültülü etiketli veriler almak gibi (web üzerinden denetlenen öğrenme); İkinci olarak kategoriye ait anlamsal bilgiler yardımıyla bilgi, etiketli verisi olan tipten etiketli verisi olmayan türe aktarılır. Örneğin, sıfır vuruşlu öğrenme. Ancak yukarıdaki iki alandaki araştırmanın kendi kusurları vardır. Özellikle, ağ verilerine dayalı öğrenme, etiket gürültüsünden ve ağ eğitim verileri ile test verileri arasındaki dağıtım farkından etkilenecektir ve sıfır örnek öğrenme performansı zayıftır ve büyük miktarda serbestçe kullanılabilen ağ verisi göz ardı edilir. Yukarıdaki gözlemlere dayanarak, ayrıntılı sınıflandırma için web tabanlı veri öğrenimi ile sıfır örnek öğrenmeyi birleştirmeye çalıştık. Çalışma CVPR 2018'de yayınlandı (spot): "Webly Supervised Learning Meets Zero-shot Learning: A Hybrid Approach for Fine-Grened Sınıflandırma ".

Yaklaşımımız şu şekildedir: önce manuel açıklama için bazı alt kategoriler seçin ve ardından kalan alt kategoriler için İnternet'ten resimler indirin. Açıklamanın rahatlığı için, etiketli alt kategori olarak manuel olarak etiketlenen alt kategoriyi ve ağ alt kategorisi olarak ağ resimlerini kullanan alt kategoriyi çağırıyoruz. Ek açıklama alt kategorileri ve ağ alt kategorileri tüm alt kategorileri oluşturur. Ağ verilerindeki etiket gürültüsü ve veri dağıtım farklılıkları sorunu daha önce belirtilmişti, ancak manuel olarak etiketlenen alt kategorilerde bu iki sorun bulunmamaktadır. Ağ verilerine dayalı iki öğrenme problemini çözmek için, bilgiyi açıklama alt kategorisinden ağ alt kategorisine aktarmak için kategorinin anlamsal bilgilerini kullanırız. Nitelikler ve kelime vektörleri dahil olmak üzere kategoriler için birçok anlamsal bilgi türü vardır. Özelliklerin uzmanlar tarafından açıklanması gerektiğinden, elde edilmesi daha zordur, bu nedenle ücretsiz Wikitext'den öğrenilen vektör kelimesini kullanıyoruz.

Yöntemimizin akış şeması aşağıdaki gibidir: Büyük bir kategori verildiğinde, etiketli alt kategoriler için doğru manuel açıklama verilerini topluyoruz, kalan ağ alt kategorileri için İnternet'ten resim indiriyoruz ve ardından tüm alt kategorilerin kelime vektörlerini elde ediyoruz. Kelime vektörleri yardımıyla, etiketleme alt kategorileri ile ağ alt kategorileri arasındaki bağlantıyı kuruyor ve ağ alt kategorilerindeki etiket gürültüsü ve veri dağıtım farklılıklarını çözmek için etiketleme alt kategorilerinden ağ alt kategorilerine bilgi aktarıyoruz. Aynı zamanda, ağ eğitim resimleri ile test resimleri arasındaki veri dağılımındaki farkı azaltmak için eğitim aşamasında etiketlenmemiş test resimleri de kullanıyoruz. Kısacası, öğrenme modelimiz tüm alt kategorilerin kelime vektörlerini ve etiketli alt kategorilerin, ağ alt kategorilerinin ve test resimlerinin görsel özelliklerini girdi olarak alır ve test resminin türünü çıkarır.

Adım 1: Etiketli alt kategorilere (sözlük) dayalı bir sözlük öğrenin

Etiketli alt kategorilere dayalı bir sözlük elde etmek için standart sözlük öğrenimini kullanıyoruz.

İkinci adım: ağ alt kategorisindeki sorunları çözmek için etiket alt kategorisinden ağ alt kategorisine bilgi aktarın

Yukarıdaki ifadede, birinci terim standart sözlük öğrenmesidir ve ikinci terim, etiketli alt kategoriye dayalı sözlüğü ağ alt kategorisine göre sözlüğe yaklaştırır, yani etiketli alt kategorinin bilgisini ağ alt kategorisine aktarır. Üç terim, test setindeki kelime vektör matrisinin düşük sıralı olmasını bekler, çünkü aynı alt kategorideki test görüntülerinin kelime vektörleri birbirine benzer olmalıdır.Dördüncü madde, ağırlıklı ağ verilerinin merkezine yaklaşmak için ağ eğitim görüntülerine farklı ağırlıklar atamaktır. Test verilerinin merkezi arasındaki mesafe, ağ resmi ile test resmi arasındaki veri dağılımındaki farkı azaltmaktır Beşinci öğe, etiket gürültüsü sorununu çözmek için aynı ağırlığı kullanmaktır.Sınıflandırma matrisinin belirli bir kaybını zorlamak için grup kementini kullandığımızı unutmayın. Bu satırlar seyrek, bu da belirli ağ resimlerinin sınıflandırma kaybının küçük olmaya zorlandığı anlamına geliyor. Küçük sınıflandırma kaybına sahip bu ağ resimleri, doğru etiketlere sahip resimlere karşılık gelir ve ilgili ağırlıklar daha büyük olacaktır çünkü sağlam bir sınıflandırıcı eğitimi için daha önemlidirler. Aynı zamanda, kısıtlı arama alanında en uygun ağırlıkları bulmayı umarak ağırlıklara kısıtlamalar getiriyoruz ve doğru etiketlere sahip ve test resimlerine yakın ağ resimlerini seçebiliyoruz. Yukarıdaki problemler alternatif bir yolla, yani diğer değişkenleri sabitleyerek ve kalan değişkeni çözerek çözülebilir. Yukarıdaki problemleri çözerek, test verilerinin kelime vektörünü elde edebiliriz. Son olarak, test verilerinin kelime vektörünü test alt sınıfının kelime vektörü ile karşılaştırarak, test verilerinin alt sınıf etiketini elde edebiliriz.

Deneysel bölümde, yaygın olarak kullanılan üç veritabanını öğrenmek için sıfır örnek kullandık: CUB, SUN ve Dogs. Her veritabanı için, etiketli alt kategoriler olarak görülen kategorileri ve ağ alt kategorileri olarak görülmeyen kategorileri ve alt kategorileri test ediyoruz. Sıfır örnek öğrenmeden farklı olarak, görünmeyen alt kategoriler için Flickr'dan ağ resimleri indirdik, bu da görünmeyen alt kategoriler için zayıf bir şekilde denetlenen eğitim verileri sağladığımız anlamına geliyor. Bu nedenle, öğrenme paradigmamız zayıf denetimli sıfır örnek öğrenme veya ek alt kategorilerle zayıf denetimli öğrenme olarak görülebilir. Aşağıdakiler deneysel ayarlarımız ve deneysel sonuçlarımızdır. Yalnızca web alt kategorilerini kullanma yöntemini, yalnızca etiketli alt kategorileri kullanma yöntemini ve ikisinin basit kombinasyonunu karşılaştırdık. Sonuçlar, ağ veri öğrenme ve sıfır örnek öğrenmenin basit birleşimine kıyasla, yöntemimizin etkide önemli bir gelişme sağladığını ve ayrıca etiketli alt kategoriden ağ alt kategorisine bilgi aktarımının ağ eğitim verilerinin sorunlarını çözmek için kullanıldığını göstermektedir. Bir dizi kanıtlanmış yöntem.

Nicel analize ek olarak, bazı nitel analizler de sağlıyoruz. Öğrenim modelimizin ikinci adımında, doğru etiketlere sahip ve test görüntülerine yakın ağ görüntülerini seçmeyi umarak ağ eğitim görüntülerine farklı ağırlıklar atadığımızı unutmayın. Sonra, örnek olarak Köpekler veritabanını alalım ve ağ eğitim resimlerinden en büyük ve en küçük ağırlığa sahip resimleri seçelim (ağırlık aralığını ayarladık). Yöntemimiz tarafından seçilen yüksek ağırlıklı görüntülerin tamamının doğru bir şekilde etiketlendiği ve nesnelerin görüntünün ortasının çoğunu işgal ettiği aşağıdaki şekilden görülebilmektedir ki bu da yöntemimizin etkinliğini başka bir açıdan kanıtlamaktadır. Daha fazla ayrıntı için lütfen belgemize bakın.

Legend of Blood: Unutulmaz efsane, unutulmaz anılar! Netizen: Bu fotoğraflar unutulamaz
önceki
Büyük pil kutsaması: Samsung S8 Etkin ayrıntılı yapılandırma pozlama
Sonraki
200.000 ortak girişim SUV'sinden bu 4 model kesinlikle en çok satan modeller!
"Çağdaş Walt Disney" Disney'den ayrılıyor! John Lasseter, Skydance Animation'a katıldı
Yılın ilk yarısında, amiral gemisinde doğrudan 400 yuan indirim var ve OnePlus 6T, iç pazarda düşük anahtar!
Haier Smart Community'nin yorumu: daha iyi bir hayatın görünümü
Legend of Blood: O zamanlar düşürdüğüm bu ekipmanın çok değerli olduğunu unutmayın Ejderha Slaying'in özel yasağı nedir?
Al, al, al | Kemer o kadar iyi ki kız kaçamaz!
En son ekspres sıralaması yeni yayınlandı: Birincilik belirsizlik taşımaz, ancak ikincisi ...
200.000'de en çok satın almaya değer kim? Yeni kılavuz, CR-V'yi karşılaştırır
"Dört Bahar" Yayınlanan "Sıcak Anında" Yılın Derlemesi -Çift sıcak film sürümü ısınmaya devam ediyor
Samsung'un katlanır ekranlı cep telefonunun iki gün içinde piyasaya çıkması bekleniyor ancak yerli üreticiler dünya prömiyerini tamamladı!
Kan Efsanesi: Uzun yıllardır popüler olan efsane neden hala devam ediyor? Tüm anılar
İnanılmaz değer koruma oranlarına sahip önerilen dört SUV, bir evi karşılayamıyorsanız bir araba satın alın
To Top