Sıfır örnek öğrenmede projeksiyon alanı kayması sorunu

Geleneksel makine öğreniminde, eğitim ve test aynı kategori kümesi üzerinde gerçekleştirilir. Zero-shot öğrenmede (zero-shot learning) eğitim kategori seti ile test kategori seti örtüşmez yani eğitim kategori setine ait veriler üzerinden model eğitilir ve ardından test kategori setine ait veriler üzerinde tahmin yapılır. Eğitim türü ve test türü, tüm anlamsal bilgi türleri aracılığıyla bir bağlantı kurmalıdır, böylece eğitim türündeki sınıflandırma modeli test türü için kullanılabilir. Yaygın anlamsal bilgi türleri, nitelikleri, kelime vektörlerini vb. İçerir. Bunların arasında özniteliklerin manuel olarak etiketlenmesi gerekir, ancak bunlar daha doğrudur, bu nedenle etki daha iyidir. Görüntülerin görsel özelliklerine görsel alan ve anlamsal bilgi türlerine anlamsal alan diyoruz. Sıfır örneklerin büyük bir sınıfını öğrenmek için mevcut yöntem, görsel alanı anlamsal uzayla veya anlamsal alanı görsel uzayla veya ikisini ortak altuzayla eşlemektir. Öğrenilen haritalamaya görsel-anlamsal haritalama denir. Örneğin, semantik uzayın bir niteliği has_tail'dir Görsel uzaydan bu özelliğe eşleştirmeyi öğrenmemiz gerekir, böylece yeni bir hayvan resmi verildiğinde, onun kuyruğu olup olmadığına karar verebiliriz. Bu durumda, görsel anlamsal haritalama, birkaç öznitelik sınıflandırıcıdan oluşmaya eşdeğerdir. Ancak farklı türler için görsel anlamsal haritalama çok farklıdır. Örneğin, zebraların ve domuzların kuyrukları vardır, ancak kuyruklarının görsel sunumu çok farklıdır, bu nedenle karşılık gelen nitelik sınıflandırıcılar da çok farklıdır. Tüm kategoriler için aynı görsel anlamsal haritalama kullanılırsa, test kategorisi üzerinde elde edilen etki büyük ölçüde azalacaktır. Bu probleme sıfır örnek öğrenmede projeksiyon alanı kayması problemi denir.

Eşleme alanı geçişini çözmek için kullanılan önceki yöntemlerin çoğu, eğitim aşamasında ve test türü için ortak bir eşleme öğrenmek veya eğitim türü ve test türü için bir eşleştirme öğrenmek için eğitim aşamasında etiketlenmemiş test türü verilerini kullanmaktır. Ancak, çeşitli haritalama türleri arasındaki büyük farklılıklar nedeniyle, yalnızca bir veya iki eşlemeyi öğrenmek yeterli değildir. Bu nedenle, her kategori için farklı bir kategoriye özgü görsel-anlamsal haritalama öğrenmeyi öneriyoruz. Makale Transaction on Image Processing (T-IP) (https://ieeexplore.ieee.org/document / 8476580). Spesifik olarak, ilk olarak, her bir test kategorisi için görsel bir anlamsal haritalama eğitmek için kategoriler arasındaki benzer ilişkiyi kullanan geleneksel bir yöntem olan AEZSL'yi önerdik. Ancak büyük ölçekli görevler için, bu eğitim maliyeti çok yüksektir, bu nedenle, yalnızca bir eğitimle herhangi bir test türüne uygulanabilen derin öğrenmeye dayalı bir yöntem DAEZSL önerdik. Aşağıda sırasıyla AEZSL ve DAEZSL tanıtılmaktadır.

(1) Uyarlanabilir Gömme Zero-Shot Öğrenme (AEZSL)

Yöntemimiz, Utanç Verecek Şekilde Basit Sıfır Atış Öğrenmeye (ESZSL) dayanmaktadır. ESZSL'nin ifadesi aşağıdaki gibidir,

X görsel özellik olduğunda, A anlamsal bilgidir, W görsel anlamsal eşlemedir ve Y kategori etiketi bilgisidir. ESZSL, tüm kategoriler için aynı görsel anlamsal haritalama W'yi öğrenir. Her test kategorisi ile tüm eğitim kategorileri arasındaki benzer ilişkiyi kullanarak (kategorinin anlamsal bilgilerine göre hesaplanan) ESZSL temelinde küçük bir değişiklik yaptık ve her bir test kategorisi için ayrı bir görsel anlamsal haritalama öğrendik. İfade şu şekildedir:

Wc, c-th test kategorisinin görsel anlamsal eşlemesi ve Sc, c-th test kategorisinin ve tüm eğitim kategorilerinin benzerlik matrisidir. Bu sayede görsel anlamsal haritalama, kategoriler arasındaki benzer ilişki kullanılarak her bir test kategorisine aktarılabilir. Ancak AEZSL'mizin, her test türü için görsel bir anlamsal haritalama eğitimi alması gerekiyor ve bu, büyük ölçekli görevler için çok pahalı. Bu nedenle, eğitim türüne göre yalnızca bir kez eğitilmesi gereken ve herhangi bir test türüne uygulanabilen derin öğrenme tabanlı bir yöntem olan Derin AEZSL (DAEZSL) önerdik.Ayrıntılar aşağıdaki gibidir.

(2) Derin AEZSL (DAEZSL)

Anlamsal bilgiden görsel anlamsal haritalamaya kadar bir haritalama işlevi öğrenmeyi hedefliyoruz, böylece her türlü anlamsal bilgi verildiğinde, bu tür görsel anlamsal haritalamayı kolayca elde edebiliriz. Bununla birlikte, böyle bir haritalama işlevinin karmaşıklığı nispeten yüksektir, bu nedenle, her kategorinin görsel özellikleri öğrenme ağırlığına sahip olduğunu varsayarak ve ardından semantik bilgiden görsel özelliklerin ağırlığına kadar eşleme işlevini öğrenerek alternatif bir yöntem benimsiyoruz. Her kategori için görsel özel ağırlıkları öğrenmek, her kategori için görsel anlamsal haritalamayı örtük olarak öğrenmeye eşdeğerdir. Lütfen spesifik açıklamalar için kağıda bakın. Tasarladığımız ağ yapısı aşağıda gösterilmiştir. Eğitim aşamasında, C eğitim türleri olduğunu varsayalım.Yukarıdaki alt ağda, eğitim resimlerinin görsel özellikleri C parçalarına kopyalanmaktadır.Aşağıdaki alt ağda, her türlü görsel özellik ağırlıklarını oluşturmak için MLP aracılığıyla her türlü anlamsal bilgi üretilir. , C'nin görsel özelliklerini kopyalamak için hareket eder. Ağırlıklı görsel özellikler, nihai tahmin değerini elde etmek için tamamen bağlı katman (görsel anlamsal haritalamaya eşdeğer) aracılığıyla her türlü anlamsal bilgi ile çarpılır. Test aşamasında, test resmi üst alt ağdan geçer ve tüm test türlerinin anlamsal bilgileri alt alt ağdan geçerek test resminin tahmin edilen değerini elde eder.

Üç küçük ölçekli veritabanı CUB, SUN, Dogs ve büyük ölçekli bir veritabanı olan ImageNet üzerinde birçok deney yaptık.Deneysel sonuçlar, yöntemimizin hem küçük hem de büyük ölçekli veritabanlarında en iyi sonuçları elde ettiğini göstermektedir. Nicel sonuçlara ek olarak, derinlemesine nitel analiz de sağlıyoruz. "Bit pazarı" kategorisinden iki resim seçtik: Bu iki resim AEZSL yöntemimizle başarıyla sınıflandırıldı, ancak ESZSL tarafından hatalı bir şekilde "ayakkabı dükkanı" olarak sınıflandırıldı. "Bit pazarı" ve "ayakkabı dükkanı" nın anlamsal bilgilerini karşılaştırarak, "kumaş" ve "dağınık alan" ın iki özelliği "bit pazarı" nı daha iyi temsil edebilir. Aşağıdaki şekilde, ESZSL ve AEZSL yöntemleriyle elde edilen "bez" ve "dağınık alan" niteliğindeki iki görüntünün projeksiyon değerlerini listeliyoruz. Aşağıdaki şekilden, AEZSL yöntemimizin iki öznitelik üzerinde daha yüksek bir projeksiyon değerine sahip olduğu görülebilir; bu, yöntemimizin "bez" ve "dağınık alan" ın iki niteliği üzerindeki "bit pazarı" türünü daha iyi yakalayabileceği anlamına gelir. Anlamsal bilgi.

Daha iyi bir açıklama için, "kumaş" özelliğini de içeren iki tür "badminton kortu" ve "yatak odası" ve "dağınık alan" özelliğini de içeren iki tür "geri dönüşüm tesisi" ve "çöp sahası" listeledik. Aşağıdaki şekilden de görülebileceği gibi, aynı özelliğin farklı kategorilerdeki görsel sunumu ve anlamsal bilgileri oldukça farklıdır.

"Bit pazarı" kategorisi için en benzer kategorileri çarşı, ikinci el dükkanı, market, genel mağaza (aşağıdaki şekilde gösterildiği gibi) listeledik. "Kumaş" ve "dağınık alan" ın iki niteliği için "bit pazarı" nın yukarıdaki türlere daha yakın olduğu görülebilir. Yöntemimiz, "bit pazarı" ile benzer birkaç kategoriyi ilişkilendirerek "bit pazarı" kategorisinin "kumaş" ve "dağınık alan" özelliklerinin anlamsal bilgilerini daha iyi yakalar ve bu kategori için daha uygun olan görsel bir anlamsal haritalama öğrenir. .

Özetlemek gerekirse, her kategorinin anlamsal bilgilerini daha iyi yakalamak için her kategori için ayrı bir görsel anlamsal haritalama öğrenmeyi ve böylece sıfır örnek öğrenmede etki alanı geçişini haritalama sorununu çözmeyi öneriyoruz. Özellikle, derin öğrenmeye dayalı geleneksel AEZSL yöntemini ve DAEZSL yöntemini öneriyoruz. AEZSL yöntemi, her test kategorisi için görsel bir anlamsal haritalama eğitirken, DAEZSL'in eğitim kategorisinde yalnızca bir kez eğitilmesi gerekir ve herhangi bir test kategorisine uygulanabilir. Dört veri tabanındaki nicel sonuçlar ve niteliksel analiz, yöntemimizin üstünlüğünü tam olarak göstermektedir.

Modaya uygun çevre Kıyafet satın aldıktan sonra, bu arada bir çöp kutusu satın alın, artık marka gerçekten oynayabilir ~
önceki
Yerinde | İsveç, Berlin'den doğrudan darbe: Geely ve Volvo birlikte "LYNK ve CO" otomobil markasını yayınladı
Sonraki
Yang Weidong ile röportaj: Youku ve Straw Bear arasındaki işbirliği birden fazla "Qin Arayışı" dır.
Başlamak için tam ekran amiral gemisi Xiaomi MIX 3 kayan yepyeni tam ekran form
10 yıl sonra tekrar "İnci" yi izlemek, en sinir bozucu kişiniz kim?
"Yapımcı" Ning Hao Röportajı: Neredeyse beklenmedik, Bad Monkey'in yolda 4 filmi var
Kaydırıcıya ek olarak, aslında birçok sürprizi var! Mi MIX 3 derinlemesine değerlendirme
Karlı Dağ Ceketi nihayet ortaya çıktı! Supreme x The North Face 2017 Kış Ortak Yumruğu Açıldı!
TVB13 eğitim sınıf arkadaşları 20 yıldır birbirlerini izlediler ve birbirlerine yardım ettiler, Lin Feng ve Yang Yi ünlü olma konusunda asla yalnız değiller
Meizu X8 Bright Black Layout Ödülü: Tavizsiz özel "Liu Haiping"
Jingxin Otoyolu! Çöl boyunca dünyanın en uzun otoyolu olan 500 kilometrelik ıssız araziyi geçmek
Canlı İnceleme | Yayın Baş Bilim Adamının Analizi: AI + eğitimiyle ilgili gerçekten önemli olan nedir?
Ne? ! NIKE beklenmedik bir şekilde prezervatif üretti!
Bu iki adam bir araya geldiğinde televizyonda "Ebeveyn Kuralları" yazısı belirdi!
To Top