Vizyon ve Dil alanındaki en son araştırma ve ilerlemelere genel bakış

AI Technology Review Press: Bu makalenin yazarı, Adelaide Üniversitesi'nde yardımcı doçent olan Wu Qi'dir. Geçen yıl, alanlar arası görüntü tanımadan vizyondan dile araştırma fikirlerini AI Technology Review için gönderilen özel bir el yazmasında gözden geçirdi. Bu yıl bir kez daha Vizyon ve dil görevinin en son gelişimi tanıtıldı. Metin aşağıdaki gibidir.

Önsöz:

Geçen yıl, grubumuzun fikirlerinden bazılarını tanıtan ve özetleyen ve vizyon-dil etrafında çalışan "Vizyon-dil-eylem" adlı bir makale yazdım. Bu kez katılmak için VALSE'ye gittim, birçok öğrenci ve öğretmen o makaleden bahsetti ve çok ilham aldıklarını söylediler. Aynı zamanda, VALSE'de vizyon ve dil 2.0 üzerine yıllık bir ilerleme raporu hazırlayacak kadar şanslıydım, bu nedenle raporu referansınız için metne dönüştürme fikrim var. Bu makale esas olarak 2018'de bu alandaki daha ilgili makalelerden bazılarını tanıtıyor. Buna vizyon ve dil 2.0 denmesinin nedeni, bu makalelerin bazı yeni vizyon ve dil görevleri etrafında geliştirilmiş olmasıdır.

Metin:

İlk olarak, biraz arka plan tanıtımı yapın, vizyon ve dil nedir? Bilgisayarla Görme ve Doğal Dil İşlemenin her zaman iki bağımsız araştırma yönü olduğunu biliyoruz. Doğal dil işleme, yapay zeka ve dilbilimin bir dalı iken, bilgisayarla görme, makinelerin nasıl "görmesi" gerektiğini inceleyen bir bilimdir. Esas olarak, makinelerin nasıl "okunacağı" ve "yazılacağı" bilimini araştırır. Ortak noktaları, hepsinin çok sayıda makine öğrenimi, örüntü tanıma ve diğer teknolojileri kullanmaları gerektiğidir.Aynı zamanda, son yıllarda derin sinir ağlarının ilerlemesinden de yararlanırlar. Bu iki alandaki mevcut son teknoloji, sinir ağlarına dayanmaktadır ve CV'de nesne tanıma ve algılama ve NLP'de makine çevirisi gibi birçok görev pratik bir düzeye ulaşmıştır. . Bu nedenle, 2015'ten başlayarak, vizyon ve dili belirli bir dereceye kadar birleştirme eğilimi oldu ve bu da bazı yeni uygulamalar ve zorluklarla sonuçlandı. Örneğin, resim yazısı, görsel soru yanıtlama ve diğer klasik vizyon ve dil görevleri.

Bu çalışmalarla, vizyon ve dil giderek daha popüler ve ana akım bir araştırma alanı haline geldi. Bu resim, 2019'daki CVPR kağıt gönderimlerinin istatistiklerini gösteriyor. Görme dili, tüm gönderimlerin% 4'ünü oluşturuyor ki bu, daha geleneksel izleme ve eylem tanımadan bile daha yüksek. Gittikçe daha fazla insanın bu yöne dikkat ettiğini ve çalıştığını gösteriyor.

Görüntü başlıklandırma ve VQA çevresinde, makine çevirisinden ödünç alınan sekans-sekans modeli, yani cnn-rnn modeli, dikkatin tanıtımı (dikkat mekanizması) ve Öznitelikler, daha doğru altyazılar ve yanıtlar oluşturmak için bir ara katman olarak kullanılır ve daha sonra, daha sonraki MCB, modüler ağ ve CVPR'nin 18 yıllık aşağıdan yukarıya ilgisine göre hepsi çok klasik ve etkili yöntemlerdir. Ancak, gittikçe daha fazla yönteme ve daha karmaşık modellere rağmen, bunların getirdiği iyileştirmelerin çok sınırlı olduğunu gördük. Örneğin, MS COCO resim altyazısının lider panosunda, temelde aşağıdan yukarıya dikkatin ardından, büyük bir gelişme yok. Yine MYK'ya baktığımızda, her yıl bir MYK-meydan okuması var. 17 ve 18'in sonuçlarını karşılaştırdığımızda, birinci sıradaki takımlar arasındaki farkın neredeyse iki puandan daha az olduğunu görebiliyoruz. Elbette, bu iki verinin kendi sorunlarının yanı sıra (MYK veri önyargısı nispeten büyüktür ve altyazı koymanın doğru bir şekilde değerlendirilmesi daha zordur), birçok araştırmacı vizyon dilinin yalnızca görevler ve görevler nedeniyle altyazı ve MYK merkezli olmadığını anlamaya başladı. Veri sınırlaması nedeniyle, kazma alanı gittikçe küçüldü.

17 yıldan beri, çok çalışılan ve görsel temel olarak da adlandırılan ifade anlama gibi bazı yeni vizyon-dil görevlerinin önerildiğini gördük. 14 yılda benzer kavramlar önerilmiş olsa da, Temel olarak, 17 yıldan beri daha ilgili yöntemler var. Bu görevde, doğal bir dil tanımı olan bir imge ve bir ifade verildiğinde, bu tanıma tam olarak uyabilecek bir bölge elde etmeyi umuyoruz.

Bir makinenin bir resim etrafında soru-cevap diyaloğu açabilmesini gerektiren görsel diyalog da vardır. Görüntü başlığının tersi olan görüntü / video oluşturma metni de vardır ve bunlara karşılık gelen görüntüler ve videolar dil aracılığıyla oluşturulur. Bu görevler "süslü" gibi görünse de, aslında resim yazısı ve VQA'nın çeşitleridir. Örneğin, başvuran ifade görüntü bölgesi - cümle eşleşmesidir. Görsel diyalog, çok yönlü bir VQA'dır. Özünde, değişiklik büyük değil, bu nedenle resim yazısı ve VQA üzerinde çalışabilen yöntemlerin de bu görevlerde iyi performans gösterdiğini görüyoruz.

Ancak 18 yıldan beri, görme dili alanında bazı farklı görevler ortaya çıktı ve yöntemlerde daha fazla atılım yapmamızı sağladı. Bu yeni görevlere vizyon ve dil 2.0 diyorum. Bu yeni görevler kabaca üç bölüme ayrılabilir. İlk görev, esas olarak resim altyazıları ile ilgilidir. . Geçmişte, resim altyazıları temelde basitti. Bir resim için bir başlık oluşturun. Oluşturulan resim yazısına gelince, resimdeki hangi nesneye ve hangi stil altyazıya odaklanır. Eğitim verilerinin stili tarafından belirlenir ve serbestçe kontrol edilemez. . Şimdi çeşitli ve hatta kontrol edilebilir altyazılar oluşturabilmeyi umuyoruz. Sözde çeşitli araçlar, eğitim verileriyle sınırlandırılmayan altyazılar oluşturmak istediğimiz anlamına gelir Örneğin, son zamanlarda dikkatleri üzerine çeken yeni nesne başlığı, açıklanan nesnenin eğitim setinde hiç görünmediği bir durumdur. Sözde kontrol edilebilir, stil (mizah / resmi / sözlü dil, vb.) Ve açıklanan anahtar nesneler ve alanlar gibi oluşturulan altyazıyı kontrol edebileceğimizi umduğumuz anlamına gelir.Örneğin, oluşturulan başlığın görüntünün arka planını mı yoksa ön plandaki bir şeyi mi tanımladığına karar verebiliriz. Her bir obje için detay seviyesi de belirlenebilir.

Başka bir yön, görsel akıl yürütme olan akıl yürütmedir. VQA'da en yaygın yöntemin, orta süreçte bir kara kutuya yol açan uçtan uca özellik yerleştirme (cnn-rnn gibi) yoluyla bir sinir ağını eğitmek olduğunu biliyoruz ve özel gerekçeyi bilmiyoruz. Süreç nedir. Dikkatimiz (dikkat mekanizması) olsa bile, sürecin yalnızca bir kısmını daha yorumlanabilir kılar.Örneğin, dikkat, soruları yanıtlarken modelin görüntüdeki hangi nesnelere odaklandığını yansıtabilir. Ancak MYK gibi uygulamalar için akıl yürütme süreci kritiktir. Bu doğrultuda, yakın gelecekte CLEVR veri kümesi, Visual Commonsense Reasoning verileri ve yakın zamanda Chris Manning tarafından önerilen yeni bir GQA veri kümesi gibi bazı yeni veriler ve görevler var.

Üçüncü yön, 'somutlaştırmak' olarak özetlediğim d 'yani vizyon dili, etkileşime giremeyen statik resimlere veya videolara değil, etkileşime girebilen bazı gerçek veya sanal sahnelere dayalı olarak bazı sahnelerde somutlaşır. Örneğin, 18 yılda ortaya konan somutlaşmış QA ve etkileşimli QA, VQA sorularını belirli bir sahneye koyar ve soruları yanıtlamak, temsilcilerin sahnede hareket etmesini ve hatta etkileşime girmesini gerektirir. Aynı zamanda, grubumuz 18 yıl içinde bir vizyon ve dil gezinti görevi (Vision-and-Language Navigation) ve kısa süre önce önerilen Remote Embodied Referring Expression görevini önerdi ve her ikisi de vizyon dilini belirli bir Sahneler arasında.

Daha sonra, bu görevlerin ve yöntemlerin geçmişten ne kadar farklı olduğunu görmek için bu üç yönden geçen yılın temsili çalışmalarından bazılarını tanıtacağız.

1. Yeni Nesne Başlık Yazımı

Size tanıtmak istediğim ilk çalışma Georgia Tech'ten, yeni bir veri ve yeni nesne başlığı adı verilen görev önerdiler. Geleneksel resim altyazısından farklı olarak, burada bir kısıtlama yaptı, bu da test setinde görünen ve eğitim setinde hiç tanımlanmamış olan nesneleri kısıtladı. Bu kavram aslında sıfır vuruşlu öğrenme kavramına benzer . Bu çalışmada, verileri etki alanı içinde, etki alanı yakınında ve etki alanı dışında olmak üzere üç bölüme ayırdılar, bu da görüntü altyazı oluşturma modelinin daha kapsamlı bir testini kolaylaştırabilir. Etki alanı, nesnenin eğitim setinde göründüğü anlamına gelir ki bu, klasik resim altyazı koyma problemidir. Yakın alan, resimdeki en önemli nesnenin yeni bir nesne olduğu, yani eğitim setinde görünmediği ve diğer nesnelerin eğitim verilerinde tanımlanmış olabileceği anlamına gelir. Alan dışı en zor olanıdır, resimdeki tüm nesneler eğitim setinde görünmemiştir. Aslında, daha önce benzer ayarlar vardı, ancak bunların çoğu, coco görüntü altyazı verilerinden farklı ayrımlardır. Bu veriler, yeni ek açıklamalar ve farklı test alanları sunarak bir resim altyazı oluşturma modelinin daha kapsamlı bir analizini sağlar.

Bu görev için bazı yeni yöntemler önerilmiştir, bunlar arasında sinirsel bebek konuşması daha iyi bir iştir. Bu çalışma aynı zamanda Jiasen Lu tarafından önerilen Georgia Tech'ten geliyor ve CVPR 2018'den bir makale. Önceki Babytalk şablonu + alt yazı ekleme yönteminden esinlenilen bu çalışmada, yeni nesne resim açıklamasını iki adıma ayırdılar: İlk adım şablon oluşturmadır. Ancak Babytalk'ın ilk yıllarında kullanılan önceden tanımlanmış şablondan farklı olarak, buradaki şablon görüntüye göre otomatik olarak oluşturulur. Yani, her kelime üretildiğinde, kelimenin metinden mi yoksa görüntüden mi gelmesi gerektiğine karar vererek bir yargıya varır. Metindeki kelimeler şablonu oluşturur.Örneğin, aşağıdaki resimde oluşturulan şablon A'dır. < bölge 17 > oturuyor < bölge 123 > Birlikte < bölge 3 > Buradaki bölge-17 aslında görseldeki bir bölge önerisidir.

Daha sonra ikinci adımına boşlukları doldurmak için yuvaları doldurmak denir. Yukarıdaki alanları sınıflandırmak ve tanımak için harici olarak eğitilmiş bir sınıflandırıcı kullanır ve ardından tanıma sonuçlarını önceki adımda oluşturulan şablona doldurur. . Bu nedenle, şu anda, başlık oluşturma aslında hedef nesnenin tanımlanıp tanımlanmadığına değil, dışarıdan eğitilmiş bir sınıflandırıcıya bağlıdır, yani sınıflandırıcı yeterince nesne gördüğü sürece karşılık gelen bir nesneye sahip olması gerekmez. başlık verileri. Örneğin, yukarıdaki bölge-17'nin tanıma sonucu köpek yavrusu ve son başlık ise bir köpek yavrusu bir masada pastayla oturuyor.

ANU'dan Peter Anderson tarafından kısıtlı ışın araması adı verilen başka bir fikir önerildi. Görüntü açıklamasında yaygın olarak kullanılan bir numara ışın aramasıdır. Yani, bir sonraki üretken kelimeyi seçtiğimizde, sadece en yüksek olasılığa sahip olanı seçmiyoruz, aynı zamanda aday olarak en yüksek olasılığa sahip b'yi seçiyoruz, burada b, kirişin boyutudur ve sonra b adayları boyunca bağlantıları aramaya devam ediyoruz. En iyi aday kelime aşağı. Buradaki bu çalışma, kısıtlı bir ışın araması önermektedir, yani, ışın aramasından önce, ilk olarak görüntüden bazı etiketler çıkaracaktır. Bu etiket elbette dışarıdan eğitilebilir ve resim yazısı eğitim setinde görünmeyen bazı etiketler olabilir. Daha sonra bu etiketleri sonlu durum makinesi (Sonlu durum makinesi) oluşturmak için kullanır ve ardından sonlu durum makinesinin rotasına göre ışın araması yapar, böylece üretilen başlık sadece uygun gramer yapısına uymakla kalmaz, aynı zamanda gerekli etiketleri de içerir.

2. Görsel Akıl Yürütme

Yeni nesne altyazıları üzerine çalışmayı tanıttıktan sonra, görsel akıl yürütmeyle ilgili bazı çalışmaları tanıtalım. Görsel muhakeme söz konusu olduğunda, görsel muhakeme görevleri için özel olarak oluşturulmuş ilk veri kümesi olan 17 yıllık CLEVR'den (Kompozisyonel Dil ve Temel Görsel Akıl Yürütme) bahsetmek zorundayız. Bu verilerdeki resimler esas olarak farklı boyut, renk, şekil ve materyallerden oluşan geometrik cisimlerden oluşmaktadır.Görüntü kompozisyonu basit olmasına rağmen, problemin kendisi daha karmaşıktır ve daha karmaşık akıl yürütme gerektirir. Örneğin, buradaki resimdeki ilk soru, 'büyük nesnelerin ve metal topların sayısı aynı mıdır? ', bu soruyu cevaplamak için, önce büyük nesneleri ve metal topları (görerek) bulmamız ve ardından bunların miktarlarını hesaplamamız ve son olarak iki miktarın eşit olup olmadığına karar vermemiz, yani böyle bir soruyu cevaplamamız gerekir. Üç aşamalı akıl yürütmeye ihtiyacımız var.

CLEVR verileri, resim-soru-cevap etiketleri sağlamanın yanı sıra mantıksal akıl yürütme sürecinin (işlev olarak adlandırılır) etiketlenmesinden de bahseder.Örneğin, yukarıdaki soru üç aşamalı bir akıl yürütme süreci gerektirir ve üç işlevi birleştiren bir etiket olacaktır Bir akıl yürütme zincirine bağlı . Yani, akıl yürütmenin temelini sağlar, sadece modelin doğru sorulara cevap verip vermediğini kontrol etmekle kalmaz, aynı zamanda bir modelin yeterli akıl yürütme yeteneğine sahip olup olmadığını gerçekten değerlendirebiliriz. Bu makale aynı zamanda geleneksel MYK verilerinde (MCB gibi) iyi performans gösteren modellerin CLEVR'de iyi performans göstermediğini bulmuştur, bu da geleneksel VQA yapısının Uçtan Uca eğitim yoluyla çıkarım yeteneği ile donatılamayacağını göstermektedir. Yeni model, ilgili muhakemeyi tamamlayabilir.

Bu veriler önerildikten sonra birçok yeni yöntem de önerildi, örneğin Modüler Ağ bu görevde iyi bir performans gösterdi. Burada tanıtmak için MAC (Bellek, Dikkat ve Kompozisyon) adı verilen daha ünlü yöntemlerden birini seçiyoruz. MAC, NLP alanında bir dev olan Chris Manning tarafından önerildi ve ICLR18 tarafından bir makaledir.

MAC tamamen farklılaştırılabilir modüler bir muhakeme yapısı sağlar. Bir MAC ağı esas olarak üç bölüme ayrılmıştır ve giriş bölümü esas olarak görüntülerin ve sorunların kodlanmasından sorumludur. MAC tekrarlayan birim bölümü, temel olarak MAC temel birimlerinin istiflenmesi ve düzenlenmesi üzerine çoklu çıkarımlara dayanır. Son çıktı kısmı, cevabı almak için çıkarımdan sonra özellikleri birleştirmektir. Buradaki anahtar kısım, sözde MAC nöronudur. MAC nöronu, seri olarak çalışan üç işletim öğesinden oluşur: kontrol ünitesi, her yinelemede cevaplanacak sorunun bazı kısımlarına katılmak için kontrol durumunu günceller; okuma ünitesi, kontrol durumu ve hafıza durumunun rehberliği altında bilgileri çıkarır; Giriş birimi, alınan bilgiyi hafıza durumuna entegre eder ve cevabı yinelemeli olarak hesaplar. Bu modelin avantajı, tüm 'muhakeme' sürecinin birden çok turda görüntü bilgisini çıkarmak için yumuşak dikkat mekanizmasını kullanmasıdır. Tüm süreç tamamen farklıdır. Dezavantaj, tüm sürecin hala bir 'kara kutu' olması ve açık bir akıl yürütme süreci sağlayamamasıdır.

Son CVPR19'da, Chris Manning grubu, CLEVR'nin gerçek bir görüntü versiyonu olarak görülebilen GQA adlı yeni bir veri ortaya koydu. Çünkü CLEVR'deki nesneler tek biçimli basit geometrik gövdelerdir. GQA, girdi olarak gerçek yaygın görüntüleri kullanır. Soru türleri CLEVR'ye çok benzer ve her ikisi de tamamlamak için güçlü görsel akıl yürütme becerileri gerektirir . Örneğin, buradaki soru şudur: 'Küçük kızın hamburgerli küçük kızın solundaki kırmızı nesnenin üzerindeki yiyecek sarı mı kahverengi mi? . Bu soruyu cevaplamak, güçlü bir alan ve mantıksal muhakeme yeteneği gerektirir. Benzer şekilde, CLEVR'ye benzer şekilde, bu veriler de gerekli mantıksal akıl yürütme zincirinin bir açıklamasını sağlar.

Muhakeme ile ilgili bir diğer çalışma, VCR, Visual Commonsense Reasoning adlı CVPR19'da yer alacak en son çalışmadır.

Bu iş çok ilginç, resimler, alanlar ve sorular verecek.Modelin çoktan seçmeli sorularda doğru cevabı seçmesi gerekiyor. Ancak doğru cevabı seçerken cevabın sebebini de seçmeniz gerekir. Bu yeteneğe bilişsel yetenek olan Biliş diyorlar. Örneğin, bu resimde soru, 4. kişinin neden 1. kişiyi gösterdiğidir. Doğru cevap, 3. kişiye 1. kişiye krep sipariş ettiğini söylemesidir. Bu cevabı seçmenin nedeni, 3. Kişinin bu masaya servis yapması ve kimin sipariş verdiğini bilmiyor olabilir. Bu soruyu cevaplamanın sadece görsel algı değil, aynı zamanda sağduyu ve akıl yürütme gibi bilişsel yetenekleri de gerektirdiğini görebiliriz. Bu çok zordur. Bu makale ayrıca basit bir temel sağlar. Modelin tamamı üç adıma bölünmüştür: (1) soru ve cevabın anlamını anlamak için temellendirme; (2) referansı bulmak gibi görüntüyü, soruyu ve cevabı daha iyi anlamak için bağlamsallaştırma; (3) mantık yürütme, görsel alanı çıkarım Aradaki iç bağlantı. Aslında, grubumuz 2017'de önerilen FVQA gibi sağduyuyu vizyon diline nasıl dahil edeceği konusunda her zaman endişeliydi. Bu çalışma çok ileriye dönük, ancak şahsen bu görevin mevcut vizyon dili için hala çok zor olduğunu düşünüyorum, çünkü şu anda tam bir sağduyu bilgi tabanımız yok ve bu verilerin ölçeği öğrenmemiz için yeterli değil Gereken sağduyuya göre, öğrenilmiş olsa bile, fazlasıyla uyum sağlamaktır. Bence şu anki muhakeme, sağduyu ve hatta alan bilgisini bir kenara bırakmak ve bunu CLEVR ve GQA'ya benzer şekilde sadece görsel olarak yapmak en iyisi olmalıdır.

3. Somutlaştırılmış Vizyon ve Dil

Son yazımız olan "Vizyon-dil-eylem" de vizyon-dil ve eylemi birleştirmenin çok popüler ve umut verici bir yön olduğundan bahsetmiştik, grubumuz dahil birçok büyük grup bu yönde. Hareket halindeyken bir şey.

İlk olarak somutlaşmış MYK'yı tanıtıyoruz. Bu görev, çok modlu bilgileri birleştirmektir.Sanal bir ortama yerleştirilmiş bir aracıya metin tabanlı sorular sorarak, hedef konuma ulaşmak ve soruları yanıtlamak için sanal uzay ortamında gezinme ve keşif gerçekleştirmesi gerekir. Örneğin, buradaki bir soru, arabanın rengi ne? Ancak temsilci arabayı mevcut konumda göremez, bu nedenle daha fazla cevap vermek için önce arabanın konumuna ulaşmak için yolu planlaması gerekir. Bu, temsilcilerin ortamlarını anlamalarını, belirli yol planlama ve keşif yeteneklerine sahip olmalarını ve aynı zamanda soruları cevaplayabilmelerini gerektirir. Ardından, CVPR19'daki bir makalede Licheng Yu, sorunu daha da zorlaştıran Embodied VQA'ya dayanarak MT-EQA olarak adlandırdı. Bu görevde soru tek bir nesne değil, farklı odalardaki farklı nesnelerle ilgilidir.Örneğin buradaki soru, yatak odasındaki tuvalet masası ile banyodaki lavabonun aynı renk olup olmadığıdır?

Dikkate değer bir diğer alan da 2018'de CVPR'de önerdiğimiz Vision-and-Language Navigation (https://bringmeaspoon.org/). Bu görevde gerçek iç mekan çekimlerine dayalı sanal bir ortam sağlıyoruz.Bu ortamlar farklı odalar (mutfak, yatak odası, oturma odası gibi) ve objeler içeriyor. Bu ortama bir temsilci yerleştirdikten sonra, odadan çıkmak, odaya gitmek, bir nesneyle karşılaşıldığında hangi yöne dönmek, nerede durmak vb. Gibi doğal dile dayalı ayrıntılı bir navigasyon komutu vereceğiz. . O zaman bu temsilcinin bu talimatı takip etmesine ve ilgili hedefe ulaşmak için talimatla tanımlanan yolu takip etmesine ihtiyacımız var. Bu, modelin dili ve görüntüyü aynı anda anlamasını, gerçek sahne görüntüsünde dilde açıklanan konumu ve anahtar noktaları bulmasını ve ardından ilgili eylemi gerçekleştirmesini gerektirir. Bu veriler, yayınlandıktan sonra da büyük ilgi gördü ve biz de buna karşılık gelen bir zorlukla karşılaştık.

Yapay zekanın uzun vadeli hedefinin, çevredeki ortamı gözlemleyip anlayabilen, insanlarla iletişim kurabilen ve ilgili komutları uygulayabilen akıllı bir robot inşa etmek olduğunu biliyoruz. NLP, robotlara dili anlama ve üretme yeteneği verirken, bilgisayar görüşü temel olarak robotlara çevredeki ortamı algılamayı ve görmeyi öğretir. Yönlendiren ifade, en basit görüntü-dil-eylem modu olarak kabul edilebilir Görme statik bir resimdir, dil girdi sorgusudur ve eylem basit bir işaretleme veya tespit işlemidir. Görsel-dil gezintisi biraz daha karmaşık olacak Görsel girdi dinamik bir ortam haline gelir, dil uzun bir gezinme komutu olur ve eylem, sola ve sağa hareket eden bir dizi olur. Ancak dikkatlice düşünürseniz bu görev özellikle gerçekçi değildir, bu yüzden robota yolu planlamasına yardımcı olmak için bu kadar karmaşık bir talimat veriyoruz. Ve ifade etmek çok gerçekçi değil, bu yüzden bu nesneyi resimde açıkça görebiliyoruz, ama onu göstermemize yardımcı olacak bir robota ihtiyacımız var? Gerçekte, aslında istediğimiz şey, robottan henüz gözlemlemediği bir nesneyi, yani uzaktaki nesneleri bulmak için bir hedefe gitmesini istemek gibi bir amacı olan basit bir talimattır. Örneğin, oturma odasından bana bir yastık getir, gerçek sahneyi çok iyi kesebiliyor.

Bu nedenle, bu yıl, yukarıda önerilen navigasyon görevine dayanarak, RERERE: Gerçek İç Mekan Ortamlarında Uzaktan Gömülü Yönlendirme İfadeleri adı verilen, gezinme ve atıfta bulunma ifadesini birleştiren bir görev önerdik. Bu görevde, aracıyı sahnedeki bir başlangıç noktasına da yerleştireceğiz.Önceki makalede verilen uzun gezinme kılavuzunun aksine, talimatlarımız daha ayrıntılıdır ve aynı anda iki görev içerir. Hedefe gitmek ve biri tanımlanan ilgili öğeyi bulmaktır. Örneğin, 'Birinci kattaki merdivenlere git ve bana merdivenlerin tepesinin yanındaki alt resmi getir.' Şeklindeki örnekte, biz sadece öğenin bulunduğu hedefi veriyoruz, ancak belirli yolu vermeyiz. Bu, insan alışkanlıklarımızla daha uyumludur. Hedef nesneye gelince, onu diğer nesnelerden ayırt edebilecek doğal dil biçiminde bir açıklama da vereceğiz.

Aynı zamanda, bu çalışmada, navigasyonu başvuran ifadeyle birleştiren bir gezgin-işaretçi modeli de önerdik. Elbette, insan performansıyla karşılaştırıldığında, hala belli bir boşluk var.

sonuç olarak:

Son olarak özetlemek gerekirse, her şeyden önce, görsel altyazı ekleme ve MYK gibi klasik vizyon dili görevlerinde büyüme için çok az yer olduğunu ve veriler aracılığıyla şiddet içeren öğrenme aşamasından geçtiğini görüyoruz. Gerçek zorluk aslında çeşitlilik, kontrol edilebilirlik, akıl yürütme ve vizyon dilinin gerçek senaryolara nasıl uygulanacağı gibi bazı alt bölümlerdir. 2018'de birçok ilginç ve zorlu yeni görev ortaya koyduk. Önümüzdeki birkaç yıl içinde bu yeni zorlukları çözmek için birçok yeni yöntemin önerileceğine inanıyorum. Ayrıca somutlaştırılmış görsel gezinme + atıfta bulunan ifade görevimizi takip edebilir ve bu yeni veriler ve görevler üzerinde yeni algoritmalar önerebilir ve üzerinde çalışabilirsiniz.

Son olarak, bir reklam yapalım. Grubumuzun vizyon ve dil yönünde tam ödüllü iki doktora yeri var. Bu yönle ilgileniyorsanız, benimle iletişime geçebilirsiniz (Dr. Qi Wu, qi.wu01@adelaide.edu.au) .

Yazar hakkında:

Dr. Qi Wu şu anda Avustralya'daki Adelaide Üniversitesi'nde kıdemli öğretim görevlisi (yardımcı doçent) ve Avustralya Robotik Görme Merkezi'nde Yardımcı Araştırmacı (yardımcı grup lideri). Avustralya Ulusal Üstün Gençlik Fonu projesi kazandı. (Avustralya Araştırma Konseyi DECRA Üyesi), Avustralya Bilimler Akademisi'nin JG Russell Ödülü'nü ve 2018 NVIDIA Öncü Araştırma Ödülü'nü kazandı. Dr. Wu Qi, doktora derecesini İngiltere Bath Üniversitesi'nden 2015 yılında almıştır. Görüntü altyazılama, görsel soru yanıtlama, görsel diyalog vb. Dahil olmak üzere Görme-Dil ile ilgili alanlardaki araştırmalara özellikle dikkat ederek bilgisayarla görme araştırması alanına adanmıştır. Şu anda CVPR, ICCV, ECCV, AAAI ve TPAMI gibi konferans ve dergilerde 30'dan fazla makale yayınlamıştır. CVPR, ICCV, ECCV, NIPS, TPAMI, IJCV, TIP, TNN ve diğer konferans ve dergilerde hakemlik yaptı.

Tıklamak Orijinali okuyun , CVPR Top Meeting Exchange Group'a katılın

Oz Büyücüsü [03] Her Tahta Kızı Fengling-Heilongjiang Güzel Sanatlar Yayınevi 2011 Zhao Mingjun Zhao Ji [Bölüm 1]
önceki
Zhang Yingying davasının ilk gününde, sanık ölüm cezasıyla karşı karşıya ve jüri büyük bir belirsizlik içinde.
Sonraki
Harbin Longlv Şirketi "Altı Gün" Festivalinden Önce Özel Çocuklara Sevgi Gösterdi
Huang Wei liyakat için yarışıyor-Yeni Güzel Sanatlar Yayınevi 1955 Chen Luping boyanmış
Kayısı Peri-Çin Kültürü Basını 2009, Wang Xuecheng tarafından boyanmıştır.
Tarihsel araştırma ve yargı ile karşılaştırıldığında, dönüştürülebilir tahvil fonu hala satın alınabilir mi?
Qian Wang, gelgit-Zhejiang Halk Güzel Sanatlar Yayınevi'ni vuruyor 1980 Dai Ren tarafından boyandı
Liu Zuohu yalan söylemedi! OnePlus 7 Pro açıklandı: hak edilmiş ilk yerli makine kralı!
Dragon King-Zhejiang Halk Güzel Sanatlar Yayınevi ile Mücadele 1980, Dai Honghai tarafından boyanmış
Liuhe Zhenjiang-Zhejiang Halk Güzel Sanatlar Yayınevi 1980 Dai Honghai Tarafından Boyanmış
Eyalet dışındaki brüt kar marjı Yanghe'ninkinden çok daha düşük, başkan yardımcısı istifa ettikten sonra holdingleri azaltıyor ve nakde çeviriyor
En sinir bozucu nerede sigara içiyor? "Sigara içmeyi ihlal etme" nasıl bildirilir? İçeri gel ve bir bak
Oz Büyücüsü [02] Ateş Ejderhasının Efsanesi-Heilongjiang Güzel Sanatlar Yayınevi 2011 Zhao Mingjun, Zhao Ji
Sin in the Sun-China Film Press 1983 [Bölüm 2] Klasik Dedektif Filmi
To Top