New York Üniversitesi ve Google Brain, sistemin görsel muhakeme yeteneğini geliştirebilecek COG veri seti önerdi

[Xinzhiyuan Kılavuzu] Bilişsel psikoloji ve sinirbilimdeki zengin görsel akıl yürütme ve hafıza geleneklerinden esinlenerek, insanlarda kullanılmak üzere yapay, yapılandırılabilir bir görsel soru ve cevap veri seti (COG) geliştirdik Hayvanlarla paralel deneyler yapın. COG, video analizinin genel sorunlarından çok daha basittir, ancak vizyon, mantıksal akıl yürütme ve bellekle ilgili birçok sorunu çözer - bu sorunlar modern derin öğrenme mimarileri için hala zorlayıcıdır.

New York Üniversitesi ve Google Brain, sistemin "görsel muhakeme" yeteneğini geliştirebilecek "COG" veri kümesini önerdi

2018-03-22 Xinzhiyuan

Xinzhiyuan önerilir

Kaynak: Lake World

Yapay zekada can sıkıcı bir problemin, video analizi veya oyunlar gibi karmaşık ve sürekli değişen görsel uyaranlarda meydana gelen olayları akıl yürütmek olduğu söylenebilir. Bilişsel psikoloji ve sinirbilimdeki zengin görsel akıl yürütme ve bellek geleneklerinden esinlenerek, insanlarda ve hayvanlarda paralel deneyler için yapay, yapılandırılabilir bir görsel soru ve cevap veri kümesi (COG) geliştirdik. . COG, video analizinin genel sorunlarından çok daha basittir, ancak vizyon, mantıksal akıl yürütme ve bellekle ilgili birçok sorunu çözer - bu sorunlar modern derin öğrenme mimarileri için hala zorlayıcıdır. Ayrıca, diğer teşhis VQA veri setlerinin (CLEVR gibi) ve COG veri setlerinin basit ayarlarında çok iyi performans gösteren bir derin öğrenme mimarisi öneriyoruz. Ancak, bazı COG ayarları, veri kümesinin öğrenilmesinin gittikçe daha zor hale gelmesine neden olacaktır. Eğitimden sonra, ağ sıfır kez birçok yeni göreve genelleştirilebilir. COG üzerinde eğitilen ağ mimarisinin ön analizi, ağın görevi insan tarafından yorumlanabilir bir şekilde gerçekleştirdiğini göstermektedir.

Şekil 1: COG veri setinden görüntülerin ve talimatların örnek bir dizisi. COG veri setindeki görevler, sorunları çözmek için hedef tanıma, ilişki anlayışı ve hafızayı çalıştırır ve ayarlar. Her görev, mevcut görüntüde ve önceki görüntüde gösterilen hedefi içerebilir. Son örnekte, talimatın "son b" ye değil, "son" a atıfta bulunduğuna dikkat edilmelidir. İlki, görüntüdeki mevcut "b" harfini hariç tutar. (Beyaz ok) her görüntünün hedef gösterge yanıtını gösterir. Netlik için, yüksek çözünürlüklü resimler ve uygun İngilizce temsiller kullanın.

Yapay zekanın temel amaçlarından biri, duyusal ortamı güçlü ve esnek bir şekilde çıkarabilecek bir sistem oluşturmaktır. Görme, karmaşık uyaranlar için mantıksal akıl yürütme oluşturabilecek bir sistem kurma becerimizi kullanmak için çok zengin ve son derece uygulanabilir bir alan sağlar. Görsel muhakemeyi incelemenin bir yolu, modelin statik görüntülerle ilgili zorlu doğal dil sorularını doğru şekilde nasıl yanıtlayacağını öğrendiği görsel soru cevaplama (VQA) veri setidir. Bu çok modlu veri setlerinin araştırılmasında çok önemli sonuçlar elde edilmiş olmasına rağmen, bu veri setleri mevcut yöntemlerin bazı sınırlamalarını vurgulamaktadır. İlk olarak, MYK veri seti üzerinde eğitilen modelin eğitim seviyesi belirlenemez, problemin mantıksal bileşenleri hakkında mantık yürütmek yerine, sadece görüntüdeki doğal istatistiksel bilgileri takip eder. İkinci olarak, bu veri setleri zaman ve hafızanın karmaşıklığından kaçınır ve bu iki faktör, ajanın tasarımında ve videonun analizi ve özetinde hayati bir rol oynar.

Şekil 2: Birleşik COG veri setinin oluşturulması. COG veri seti, çeşitli görev grafikleri (B) oluşturmak için birleştirilen bir dizi operatöre (A) dayanmaktadır. (C) Görev, grafikteki tüm operatörlerin öznitelikleri belirtilerek somutlaştırılır. Görev örnekleri, görüntü dizileri ve anlamsal görev talimatları oluşturmak için kullanılır. (D) Rutin görevleri gerçekleştirmek için grafiklerin ve görüntü dizilerinin ileriye doğru yürütülmesi. (E) Minimum sapma ile tutarlı bir görüntü dizisi oluşturmak için, grafiklerden ters topolojik sırayla geçmesi ve görüntü dizisini ters zaman sırasına göre geçmesi gerekir.

Johnson ve meslektaşları, MYK veri setindeki uzamsal ilişkilerle ilgili mantıksal muhakemenin eksikliklerini çözmek için yakın zamanda CLEVR'yi diğer MYK veri kümeleriyle kullanılmak üzere temel görsel muhakeme modelini doğrudan test etmek için kullanmayı önerdiler. CLEVR veri seti, modelin mantıksal ve görsel muhakeme yapma yeteneğini kullanmak için bu görüntülerle ilgili yapay, statik görüntüler ve doğal dil sorunları sağlar. Son araştırma sonuçları, ağın mükemmele yakın doğrulukla etkileyici performans sonuçları elde ettiğini göstermektedir.

Bu araştırmada görsel muhakemede ikinci zaman ve hafıza sınırlamasını çözdük. Muhakeme aracısı, görsel geçmişinin ilgili kısımlarını hatırlamalı, ilgisiz detayları görmezden gelmeli, hafızayı yeni bilgilere göre güncellemeli ve değiştirmeli ve bu hafızayı ilerleyen zamanda kararlar vermek için kullanmalıdır. Yöntemimiz, zamanla değişen verilerde birçok karmaşıklığa sahip olan ve aynı zamanda videoyu işlerken karşılaşılan birçok görsel karmaşıklıktan ve teknik zorluklardan (örneğin, video kod çözme, Zaman içinde sorunsuz çerçeve yedekliliği). Bilişsel psikoloji ve modern sinirbilim sistemlerinde onlarca yıllık araştırmalardan ilham alıyoruz.Bu alanlarda, görsel akıl yürütme uzunca bir süredir uzaya ve mantığa dayalı olarak incelenmiştir. Muhakeme, hafıza kompozisyonu ve anlamsal anlamanın temel bileşenleri. Bu amaca ulaşmak için, insanın bilişsel deneyleriyle eş zamanlı olarak görsel akıl yürütme yapabilen yapay bir veri seti COG oluşturduk.

Şekil 3: Önerilen ağın mimari diyagramı

COG veri seti, bir dizi görev üçlüsü oluşturan bir programlama diline dayanmaktadır: bir görüntü dizisi, bir dil talimatı ve bir dizi doğru yanıt. Rastgele oluşturulan bu üçlüler, çok sayıda görevde görsel akıl yürütme gerçekleştirir ve metnin anlamsal olarak anlaşılmasını, dizideki her görüntünün görsel algılanmasını ve zamanla değişen yanıtları belirlemek için çalışma belleğini gerektirir (Şekil 1'de gösterildiği gibi). Programlama dilinde birkaç parametreyi vurguladık, böylece araştırmacılar problemin zorluğunu kolaydan zorlayıcıya ayarlayabilirler.

Son olarak, bellek görsel muhakemesi için çok modlu bir döngü mimarisi tanıttık. Ağ, görsel görevleri doğru şekilde gerçekleştirmek için görsel dikkati ve belleği ayarlamak için anlamsal ve görsel modülleri durum denetleyicileriyle birleştirir. Bir dizi çalışmadan sonra, bu modelin CLEVR veri setinde neredeyse en gelişmiş performansa ulaştığını kanıtladık. Ek olarak, ağ, bir dizi ayarda COG veri kümelerinde iyi performans elde edebilen güçlü bir temel sağlar. Ablasyon araştırması ve ağ dinamikleri analizi yoluyla, ağın bu görsel akıl yürütme görevlerini çözmek için insan tarafından yorumlanabilir dikkat mekanizmaları kullandığını gördük. COG veri setinin, ilgili mimarinin ve ilgili temellerin, zaman içinde görsel uyaran muhakemesinin incelenmesi için yararlı bir kıyaslama sağlayacağını umuyoruz.

Şekil 4: Tek bir CLEVR örneğinin dikkati ve çıktısı yoluyla bir ağ önermenin düşünce sürecini görselleştirin. (A) CLEVR doğrulama setinden örnek sorular ve resimler. (B) Her düşünme adımının etkili özellik dikkat haritası. (C) Göreceli uzamsal dikkat haritası. (D) Anlamsal dikkat. (E) En iyi beş dil çıktısı. Kırmızı ve mavi, sırasıyla daha güçlü ve zayıf olduğunu gösterir. "Küçük metal küre" nin karakteristik dikkatine ve aynı zamanda "kırmızı kauçuk nesnenin arkasındaki" uzamsal dikkatine dikkat edildikten sonra, ilgili nesnenin rengi (sarı) dil çıktısına yansıtılır. Daha sonra düşünme sürecinde, ağ "büyük mat topun" karakteristik dikkatine dikkat etti ve aynı zamanda dil çıktısında doğru cevap (evet) ortaya çıktı.

Bu araştırmada, İngilizce talimatlara göre görüntü dizileri üzerinde çeşitli görevleri yerine getirebilen bir sistem gerektiren sentetik, birleşik bir veri seti oluşturduk. COG veri setimizde yer alan görevler bir dizi bilişsel muhakeme becerisini test eder.Daha da önemlisi, bu geçmiş hedeflerin açık hafızasını gerektirir. Veri seti minimum sapmaya ve yüksek yapılandırılabilirliğe sahiptir ve çok sayıda belirlenmiş görev aracılığıyla zengin performans göstergeleri oluşturmayı amaçlamaktadır.

Ayrıca, COG veri setlerini doğal ve insani bir şekilde işlemek için dikkat mekanizmasını ve geçit mekanizmasını kullanan döngüsel bir sihirli ağ modeli oluşturduk. Ek olarak, model ayrıca CLEVR adı verilen başka bir görsel muhakeme veri kümesinde neredeyse son teknoloji performans elde etti. Model, görüntülerin ve talimatların farklı bölümlerine odaklanmak için bir döngü denetleyicisi kullanır ve yinelemeli bir şekilde dil çıktısı üretir. Bu yinelemeli dikkat sinyalleri, modelin adım adım düşünme süreci için birden çok pencere sağlar ve modelin karmaşık talimatları nasıl daha küçük hesaplamalara böldüğüne dair ipuçları sağlar. Son olarak, ağ anında tamamen eğitimsiz görevlere genelleştirilebilir, böylece yeni görevler için sıfır atış yetenekleri sergilenebilir.

Orijinal bağlantı: https://arxiv.org/pdf/1803.06092.pdf

Bu makale, izin alınarak Lake World'den yeniden basılmıştır.

Netflix tarafından satın alınan ilk Çin yemeği belgeseli. Chaoshan mutfağını hiç yemediysem hayat eksiktir.
önceki
Özel askerlerden gelen "meydan okuma kitabı", gaziler onu yakaladı!
Sonraki
Hebei'de yiyecek yok diyen çık dışarı!
Wang Dalei'nin bir fotoğrafı, gerilemenin bir gizem olup olmadığı hakkında bir tartışma başlattı. Tashen, gizemi gizlemek için karısıyla bir fotoğraf çekti
Hanchuan'da "nöbetçi" 20 yeni polis arabası
Perakende haftası | Pinduoduo'nun 3.Çeyrek geliri% 697 arttı; Hema "Etiket Kapısı" yönetimi kaldırıldı
2017 Turing Ödülü açıklandı! Mimarlığın ustaları Hennessy ve Patterson kazandı!
Japonya bir alışveriş cenneti olacak, bu nedenle pahalı olan Hokkaido'ya seyahat etmek için sezon dışı dönemden yararlanmıyoruz.
Topluluk grubu iyi bir iş mi satın alıyor?
IBM, kuantum bilişimin 5 yıl içinde ana akım haline geleceğini ve kum parçacıkları boyutundaki süper mikro bilgisayarların her yerde olduğunu tahmin ediyor
MLM organizasyonu, çalınan malları saklamak için milyonlarca villa satın aldı: ev 1,3 milyar nakit parayla kaplandı
5 dakika boyunca fotoğraf çekmek için 2 saat kuyruğa girmek, bu yüzden seyahat etmek gerçekten sıkıcı
Kırmızı Fuji elmalarının ekildikleri yıldaki yönetim tekniklerinin kilit noktaları
Amazon'un piyasa değeri dünyada ikinci, Bezos, Boston Powerdog'u Robotik Konferansı'na katılmaya yönlendiriyor
To Top