Li Feifei ekibinin yeni çalışması: görsel bilgi veritabanını tamamlamak için yarı denetimli bir yöntem

Görsel Genom veritabanı gibi görsel bilgi kitaplıkları, görsel soru yanıtlama ve görüntü açıklama dahil olmak üzere bilgisayarla görmedeki çok sayıda uygulamayı yönlendirmiştir. Ama aynı zamanda görsel bilgi tabanında da seyreklik ve eksiklik gibi eksiklikler var. Manuel açıklama kullanmak çok pahalıdır ve doku bilgisine dayalı tamamlama yöntemi görsel verilerle uyumlu değildir. Stanford Üniversitesi'nden Li Feifei ekibi, etiketlenmemiş örneklerin olasılıksal etiketini tahmin etmek için az sayıda etiketli örnek kullanan yarı denetimli bir yöntem önerdi. Görsel ilişkinin analizine dayanan bu yöntem, grafik tabanlı bir üretici model kullanarak iki tür görüntüden bağımsız özelliği sezgisel olarak biriktirir. Az sayıda açıklamalı örnek ilişki örneği kullanılması durumunda, üretilen veriler mevcut en iyi sahne grafiği modelini eğitmek için kullanılabilir. Yazar, bu makaledeki yöntemin eğitim için sınırlı etiketleri kullanmanın pratik bir yöntemi olduğuna inanmaktadır (fiili yaklaşım). Deneysel sonuçlar, bu yöntemin sahne grafiği öngörü verilerinin eksik etiketlerini çözmede üstün performansa sahip olduğunu göstermektedir. Bu makale, AI Frontline hakkındaki 78. makaleye yönelik bir kılavuzdur.

1 Sahne grafiği tahmini nedir?

Görüntü temsilini resmileştirmek için Visual Genome, Sahne Grafiği (Sahne Grafiği). Sahne grafiği, bilgi tabanlarında yaygın olarak kullanılan temsil yöntemine benzeyen yapılandırılmış bir formdur. Sahne grafiği, düğümler olarak birden çok hedefi (örneğin: köpekler, frizbi) kodlar ve bu düğümler, eşleştirilmiş bir ilişki aracılığıyla kenarlar (örneğin: oynama) olarak bağlanır. Bu biçimsel ifade, görüntü açıklama, görüntü alma, görsel soru-cevap, ilişkisel model ve görüntü üretiminin gelişimini destekler. Bununla birlikte, yeterince etiketlenmemiş örnekler için, şimdiye kadarki tüm sahne grafiği modelleri ilişki kategorilerinin% 98'inden fazlasını göz ardı etmiştir (Şekil 1) Bu modeller temel olarak örneklerin binlerce etiketli bilgi ile ilişkilerini çözmeye odaklanmaktadır.

Şekil 1: Görsel ilişkilerin istatistiksel temsili Şu anda çoğu model, Görsel Genom veri setindeki ilk elli ilişkiyi çözmeye odaklanmaktadır. Bu ilişkiler binlerce etiketli örnek içerir. Bu, yalnızca birkaç etiketli örnek içeren görsel ilişkilerin% 98'inden fazlasının göz ardı edilmesine neden oldu.

Manüel açıklamayı desteklemek için, metin bilgisinin tamamlanmasına dayalı birçok algoritma yarı denetimli öğrenme veya zayıf denetimli (uzaktan denetimli) öğrenme yöntemleri kullanılarak ortaya çıkmıştır. Ancak bu tür bir yöntemin görsel ilişkiler için iyi bir genelleme yeteneği yoktur, bu da görsel bilgi için özel yöntemleri çözülmesi gereken acil bir sorun haline getirir.

Bu makale, eksik ilişki sınıfı etiketlerini otomatik olarak oluşturmak için bir yöntem önermektedir.Bu yöntem, aşağı akış sahne grafiği modelini eğitmek için otomatik olarak sınıf etiketleri oluşturmak için az miktarda etiketlenmiş veri kümesi kullanır (Şekil 2)

Şekil 2: Bu yazıda önerilen yarı denetimli yöntem, etiketlenmemiş verilerin olasılıklı etiketlerini oluşturabilir ve ardından aşağı akış sahne grafiği modelini eğitmek için kullanılabilir.

Bu makalenin yazarı, nasıl tanımlanacağıyla başlar Görüntüden bağımsız Özellikler (bölüm 2.2) görüntülerdeki örnekler arasındaki ilişkiyi keşfedin. Örneğin, "Yeme" eylemi genellikle yemek yiyen bir nesneden ve öncekinden daha küçük yenen başka bir nesneden oluşur. Başka bir göz atalım Bu eylem genellikle örnek ilişkisinde cep telefonlarını, dizüstü bilgisayarları ve pencereleri içerir (Şekil 3). Görsel ilişkilerde bu kurallar orijinal piksel değerlerini gerektirmez ve Görüntüden bağımsız Nesne kategorileri ve uzamsal ilişkiler gibi özellikler çıkarılır. Bu kurallar basit ve açık olsa da, eksik görsel ilişkilerin potansiyelini bulmak için kullanışlıdır. Henüz kazılmadı .

Şekil 3: "Uçmak", "yemek" ve "oturmak" gibi görsel ilişkiler, kategorileri (şekildeki s ve o sırasıyla özneyi ve nesneyi temsil eder) veya uzamsal özellikleri nedeniyle etkili bir şekilde görselleştirilebilir. Değiştirilmiş resim, bu mekansal ve kategori özelliklerinin belirli bir görsel ilişki için önemini göstermektedir.

Yukarıdaki şekilden de görülebileceği gibi, Görüntüden bağımsız Özellikler, bazı karmaşık görsel ilişkilerdeki değişiklikleri yakalayabilir. Bu görsel ilişkilerin, örnekler arasındaki farklılıklar nedeniyle doğrudan bir temsil olarak tasvir edilmesi zordur. Bu nedenle, görsellerimizin alakasız özelliklerinin önemini ölçmek için, bu makalenin yazarı alan ve kategorideki değişiklikleri ölçmek için "alt tipler" tanımlamaktadır.

2 Görsel ilişki analizi

2.1 İlgili terimler

2.2 Resimle ilgisiz özellikler

Uzamsal ve kategori özelliklerinin farklı görsel ilişkileri iyi tanımlayabildiğini göstermek için yazar, her görsel ilişki için bir karar ağacı modeli eğitmiştir. Şekil 3'te 4 görsel ilişkideki en önemli uzamsal ve kategorik özellikler çizilmiştir.Örneğin, "uçmak", öznenin ve nesnenin y ekseninin sol tarafı ile büyük bir ilişkiye sahiptir ve "görmek" esas olarak nesneye bağlıdır. Kategori (örneğin, cep telefonu, dizüstü bilgisayar, pencere) herhangi bir uzamsal yönelime bağlı değildir.

2.3 Görsel ilişkilerdeki değişiklikler

Görsel ilişkilerdeki değişiklikleri sistematik olarak incelemek için yazar, her görsel ilişkiyi belirli bir sayıya sahip olarak tanımlar. Alt tip Kombinasyon. Örneğin, Şekil 4'te, "binicilik" bir kategori alt türü içerir < İnsanlar bisiklet sürmek > Ve başka bir kategori alt türü < Köpek gezdirme sörf tahtası > . Benzer şekilde, bir kişi bir nesneyi çeşitli farklı uzaysal yollarla "tutabilir" (örneğin, kafasında, vücudun yanında). Tüm uzamsal alt kategorileri bulmak için yazar, Görsel Genom'daki tüm görsel ilişkilerden uzamsal özellikleri çıkarmak için ortalama kaydırma kümelemesini kullanır. Yazar, kategori alt kategorilerini bulmak için görsel bir ilişki içinde tüm nesne kategorilerini sayar.

Şekil 4: Aynı görsel ilişkinin farklı alt kategorileri, üst kısım "sürmek" ve alt kısım "almak".

3 yöntem

Etiketlenmemiş veri kümesi Du için yazar, olasılık etiketini elde etmek için üç adım kullanır: (1) Yazar, etiketli veri kümesi Dp'nin görüntü değişmez özelliklerini çıkarır ve Du'daki aday nesnelerin görüntüsünü çıkarmak için hedef algılama algoritmasını birleştirir. Özellikler; (2) Görüntüde değişmeyen özellikler için sezgisel üretim algoritmalarını kullanın; (3) Olasılık etiketleri toplamak ve bunları Du'daki etiketlenmemiş nesne çiftlerine atamak için faktör grafiğine dayalı üretken modelleri kullanın. Spesifik algoritma, orijinal makalenin Algoritma 1'de ayrıntılı olarak açıklanmıştır ve tüm sistemin uçtan-uca çerçevesi Şekil 5'te gösterilmektedir.

Şekil 5: Bu yazıda önerilen algoritmanın genel çerçeve diyagramı "alma" ilişkisi şekilde örnek olarak gösterilmiştir.

3.1 Özellik çıkarma

Görüntü ilgisiz özelliklerin çıkarılması, mevcut hedef algılama algoritmalarının kullanılmasını gerektirir.Burada yazar, etiketlenmemiş veri nesnesi aday kutuları oluşturmak için Mask-RCNN'yi kullanır ve ardından, etiketlenmemiş veriler içeren görüntüleri hesaplamak için Bölüm 3'te açıklanan görüntü ilgisiz özelliklerin tanımını kullanır. Alakasız özellikler. Etiketli veriler için, etiketli aday çerçeveler doğrudan görüntü ile ilgisiz özellikleri hesaplamak için kullanılır.

3.2 Sezgisel nesil

Yazar, işaretlenmiş görsel ilişkinin mekansal ve kategori özelliklerini kullanarak bir karar ağacı eğitmiştir. Aynı zamanda yazar, modelin aşırı uymasını önlemek için bu sezgisel algoritmaların karmaşıklığını sınırlar. Burada yazar, sığ bir karar ağacı ağı kullanır ve her özellik seti için farklı derinlik kısıtlamaları kullanır, böylece J farklı karar ağaçları üretir. Ardından yazar, etiketlenmemiş veri setinin etiketini tahmin etmek için bu sezgisel algoritmaları kullandı ve tüm etiketlenmemiş ilişkilerin tahmin matrisini elde etti.

.

Şekil 6: Görsel ilişkilerin bir alt kümesi Mekan ve kategori alt kategorileri farklı karmaşıklık düzeylerini belirler.

Aşırı uyumu daha da önlemek için, yazar bir güven eşiği belirleyerek ayarını yapar. Son sezgisel algoritma Şekil 5'deki örnekte gösterilmektedir. Bir özne nesnenin üzerindeyken, almak Bu eylemin sınıf etiketine pozitif bir değer atanır.

3.3 üretken model

3.4 Sahne grafiği modelinin eğitimi

Sonuçta, bu olasılık etiketleri, her türlü sahne grafiği modelini eğitmek için kullanılır. Sahne grafiği modeli genellikle çapraz entropi kaybı kullanılarak eğitilir.Yazar, üretilen modelin açıklama hatalarını hesaba katmak için bu işlevi ayarladı. Sonunda yazar, sahne grafiği modelini optimize etmek için bir gürültü algılama ampirik hata fonksiyonu kullandı:

öğrenilmesi gereken parametre olduğunda, üretken model kullanılarak öğrenilen dağılımı temsil ederken, Y gerçek sınıf etiketidir ve V, herhangi bir sahne grafiği tahmin modeli kullanılarak çıkarılan görselle ilgili özelliklerdir.

4 deney

Yazar ilk olarak, üretici modelin eksik görsel ilişkileri bulma yeteneğine sahip olup olmadığını doğrulamak için üretken modelin VRD veri kümesinde açıklama yeteneğini test etti. Daha sonra yazar, oluşturulan sınıf etiketlerini kullanarak en iyi sahne grafiği modelini eğitti. Yazar, oluşturulan etiketleri Visual Genome veri kümesinin sınıf etiketleriyle karşılaştırdı. Son olarak yazar, bu makalenin yöntemini aktarım öğrenme yöntemiyle karşılaştırır. VRD ve Görsel Genom modelleri, görsel ilişki tahmini ve sahne grafiği tanıma yönü için iki standart veri setidir. Görsel Genom veritabanı çok büyük olduğu için (108K görüntü), her sahne grafiğinin etiketi tam değildir, bu nedenle yazar, VRD veri kümesindeki yarı denetimli algoritmayı yalnızca doğruladı.

Yazar, önerdikleri yarı denetimli yöntemin eksik görsel ilişkiyi iyi bir şekilde etiketleyebileceğini doğrulamak için, VRD veri setinin test setinde doğruluk ve geri çağırma oranını hesapladı. Deneysel sonuçlar aşağıdaki tabloda gösterilmektedir:

Olasılıklı etiketlerin etkisini göstermek için, mevcut sahne grafiği modeli ayarlandı ve üç standart değerlendirme modu kullanıldı: 1) Görüntüyü giren ve sınırlayıcı kutusunu, nesne kategorisini ve tahmin kategorisini tahmin eden sahne grafiği algılama (SGDET) İşaret. 2) Sahne grafiği sınıflandırması (SGCLS), bu mod gerçek sınırlayıcı kutuyu girer ve nesne kategorisini tahmin eder ve görüntünün sınıf etiketini tahmin eder. 3) Tahmin sınıflandırması (PREDCLS) Bu mod, görüntünün dayanak sınıf etiketini tahmin etmek için gerçek sınırlayıcı kutular ve nesne kategorileri kümesini girer. Yazar, bu üç göreve ayrıntılı bir giriş için okuyucuların referansı için makaleler önermektedir. Bu makaledeki yöntemin bu üç görevle ilgili deneysel sonuçları aşağıdaki tabloda gösterilmektedir:

Bu tabloda, yazar, model performansının üst sınırı olarak ORACLE'ı kullanır, çünkü bu yöntemin deneysel sonuçları, tüm VIsual Genom üzerinde eğitim yoluyla elde edildiğinden, yazar önerilen yöntemin mümkün olduğunca ORACLE ile aynı etkiyi elde edebileceğini ummaktadır. Tablonun üst kısmında, KARAR AĞACININ görüntü ilgisiz özelliklerin çıkarılması için tek bir karar ağacı yöntemi olduğu, ETİKET YÜKSELTME yaygın olarak kullanılan yarı denetimli bir yöntem olduğu ve AKTARMA ÖĞRENME'nin genel bir aktarım öğrenme yöntemi kullandığı bazı temel yöntemler yer almaktadır. Eğitim düzenleyin.

Tablonun alt kısmı, yazar tarafından önerilen yöntemin her bir bölümünün geçerliliğini doğrulayan ablasyon deneyinin sonuçlarıdır. (CATEG.) Yalnızca kategori özelliklerinin kullanılması anlamına gelir, (SPAT.) Yalnızca uzamsal özelliklerin kullanılması anlamına gelir, (DEEP) yalnızca ResNet50 tarafından çıkarılan derinlik özelliklerinin kullanılması anlamına gelir, (CATEG. + SPAT.), Kademeli kategoriler ve uzamsal özelliklerin kullanılması anlamına gelir, ( KATEG. + SPAT. + DERİN), üçünün bir kombinasyonu anlamına gelir. (MAJORITY VOTE), kategorileri ve uzamsal özellikleri kullanan ve sezgisel işlevin çıktısını toplamak için üretici bir model kullanmak yerine basit bir çoğunluk oylama yöntemi kullanan bir yöntemdir. Bu yazıda önerilen yöntemin birden çok modda mükemmel sonuçlar verdiği görülebilir.

Yazar, bu yazıda önerilen yöntemin sınıf etiketi atamasını çizer ve bunu Şekil 3'teki ilgili görüntüyle ilgisiz özelliklerle karşılaştırır. Sınıf etiketinin görselleştirilmiş sonuçları aşağıdaki gibidir:

(A) 'da, bu makaledeki model "uçmanın" konumunu tahmin etmektedir çünkü "uçma" eyleminin y eksenindeki iki nesne arasında çok büyük bir fark olduğunu gösterdiğini öğrenmiştir. (C) 'de, bu makalede önerilen model yanlış bir tahminde bulundu, "asılı" kelimesini "otur" olarak yorumladı, çünkü model, kategori özelliklerinde "sandalye" ve "oturma" arasındaki ayrılmaz ilişkiye aşırı derecede güveniyor. .

5. Sonuç

Bu yazının yazarı ilk kez görsel bilgi veritabanını tamamlayan yarı denetimli bir yöntem önermektedir.Bu yöntem, her görsel ilişkiyi mümkün olduğunca 10'dan az etiketli örnekle açıklamak için görüntüden bağımsız özellikler kullanır. Daha sonra bu özellikler hakkında sezgisel öğrenme eğitimi ve son olarak etiketlenmemiş görüntülere olasılıklı etiketler atamak için üretken modeli kullanarak. Yazar, VRD veri seti üzerinde testler yaptı Deneysel sonuçlar, bu makalede önerilen modelin performansının, etiketlemede standart yarı denetimli yöntemlerden (etiket yayılımı gibi) 11.84 puan daha yüksek olduğunu ve F1 puanının 57.66'ya ulaştığını göstermektedir.

Yazar, sınıf etiketleri oluşturmanın rolünü daha fazla doğrulamak için, oluşturulan olasılık etiketleriyle eğitilebilmesi için en iyi sahne grafiği modeline ince ayar yaptı. Olasılıklı etiketlerle eğitilen model, yalnızca etiketli örneklerle eğitilen modele kıyasla 40,97 puanlık bir gelişme olan Visual Genom veritabanında 100'de 46,53 geri çağırmaya (100 geri çağırma oranında tanıma doğruluğu) ulaştı. Yazar aynı zamanda diğer transfer öğrenme yöntemleriyle de karşılaştırmıştır. Hatırlama oranı 100 olduğunda, bu makalede önerilen yöntem diğer transfer öğrenme yöntemlerinden yüzde 5,16 puan daha yüksektir Bunun nedeni, bu makalede önerilen yöntemin etiketlenmemiş alt sınıflar için, özellikle karmaşıklığı yüksek olanlar için daha iyi genelleme yeteneğine sahip olmasıdır. Görsel ilişki.

Orijinal İngilizce kağıt: https://arxiv.org/abs/1904.11622

Song Yanfei, küçük belini anında "ortaya çıkaran" kısa çizgili örgü harem pantolon giymekte iyidir.
önceki
Wu Lei, takım arkadaşları tarafından yine "göz ardı edildi": top için elini 3 saniye uzattı ve 6 dakika sonra kendisini kanıtlamak için onu görmezden geldi.
Sonraki
Sıcak Haber Kalp erimekte ~ Sıcak aramada "Peri Çocuk" itiraf videosu, sıcak ağlayan gişe rekorları kıran netizenler
Qiao Xin'in aşk ilişkisini ifşa ettiğinden şüpheleniliyor, Hu Ge sık sık ... yıldız "trompetinde" gizli sırları paylaşıyor.
Weibo'da mikro hizmetler için en iyi 5 uygulama
Wu Lei bir başka harika durak daha gösterdi: 40 metrelik bir pas aldıktan sonra, takım arkadaşlarının kolayca gol atmasına yardımcı olmak için mükemmel bir şekilde durdu
Guangdong Eyalet Eğitim Bakanlığı: Üniversiteye giriş sınavının göçmenlik bölümünü yönetin! 10 Mayıs'tan önce diğer illerden nakledilen öğrencilerle ilgili kapsamlı bir soruşturma
"Ruyi'nin Saraydaki Kraliyet Sevgisi" adlı beşinci ağabeyinin öz annesini oynadı, spor pantolon giyerek mizacına direnmek zor, 37 yaşındaki gibi değil
Guardiola 26. tacı kazandı! Premier Lig ustası Mourinho'nun doğuşu onun tarafından aşıldı
Büyük veri analizi için ortak tekilleştirme algoritmalarının analizi
Çin ve yabancı ülkeler tarafından ortaklaşa kurulan ilk modern üniversitedir ve başkanı iki akademinin akademisyenidir ... Şimdi ...
Tren istasyonunda bir kadın aniden trene koştu ... Nedeni öğrendikten sonra netizen kızdı!
"Işık Saati" Situ Mo kısa sürede popüler oldu, gömlek ve pembe tüylü etek, "ilk aşk yüzü" Shen Yue'yu kazandı
Meituan Dianping'de Druid SQL ve Güvenlik Uygulaması
To Top