CVPR tam puan kağıdı! Çinli çocuk robotlarda gezinmek için insan dilini kullanıyor ve 5000 bildiride birincilik ödülünü kazandı

İçbükey tapınaktan Annie Ganming

Qubit Üretildi | Genel Hesap QbitAI

CVPR 2019 tam puan kağıdı çıktı!

Kaliforniya Üniversitesi, Santa Barbara (UCSB) ve Microsoft Research tarafından hazırlanan bu makalenin başlığı Vizyon-Dil Navigasyonu için Güçlendirilmiş Çapraz Modal Eşleştirme ve Kendi Kendini Denetleyen Taklit Öğrenme .

CVPR 2019 inceleme sürecinde ekip, gönderilen 5.165 bildiri arasından seçildi ve 3 Kesin Kabul aldı.Skorun ilk sırada yer aldığı ve sözlü rapor kağıdı olduğu belirlendi.

Yardımcı Doçent, Bilgisayar Bilimleri Bölümü, UCSB William Wang Haberler Weibo'da açıklandı ve makalenin ilk yazarı NLP grubundaki bir sınıf arkadaşıydı. Wang Xin .

Birisi en iyi gazetenin hemen köşede olduğunu söyledi.

Makalede, pekiştirmeli öğrenmeye dayalı olarak, temsilcinin eylemini yönlendirmek için doğal dili kullanmanın yeni bir yöntemi önerilmektedir .. Karşılaştırmalı veri seti üzerinde değerlendirme, mevcut en iyi yönteme kıyasla% 10'luk performansı önemli ölçüde artırmıştır.

Taklit öğrenmenin tanıtılması, ajanın görünmez bir ortamda performansını büyük ölçüde artırır.

Bu araştırma sonucu, gerçek dünyada kullanılırsa, ev robotlarının ve kişisel sanal asistanların performansını daha da artıracaktır.Yolu bildiğiniz sürece, robot tarifinize göre doğru yolu bulabilir. Eylem daha verimli olacak.

Disiplinlerarası savaş

Daniel'in makalesinin parlaklığını anlamak için, şununla başlamalıyız: Görsel Dilde Gezinme (VLN) Bu görevden bahsetmişken.

Gerçek dünya ortamında, aracıyı yönlendirmek için doğal dili kullanmak görsel dil navigasyonu olarak anlaşılabilir. Tanımın anlaşılması gerçekten zor değil, ancak gerçek operasyonda operasyon Çok daha karmaşık Yukarı:

Temsilcinin şunları yapmasını gerektirir: Dil semantiği Derin bir anlayışa sahip ol, haklı olmalısın Görsel algı Sorun ortaya çıkıyor ve en önemli şey, gerçek dünyadaki görevleri çözmek için ikisini birleştirmektir.Bu, NLP ve CV'nin ikili disiplinleri arasında zorlu bir savaştır.

Gerçek dünyadaki belirli görevler her zaman biraz zordur Aşağıdaki şekil bir VLN görevini göstermektedir.

Bu görevde AI, "Sağa git, mutfağa git, sonra sola dön ve bir masadan sonra koridora gir" gibi bir dizi doğal dil talimatı alır. Alanın bir bölümünde bir sahne görür, ancak ihtiyacı vardır Dilde karşılık gelen nesneyi analiz etmek eylemdir ve beynin tüm uzay haritasını oluşturması gerekir.

VLN görev durumu: Resim, dil talimatlarını, kısmi görsel sahneleri ve üstten görünümden genel yörüngeyi içerir

Zorluk bu alanlarda yatmaktadır. Önceki çalışmalarda, araştırmacılar üç zor zorluk buldular:

  • Birincisi, görsel imgeleri doğal dil tanımlarına karşılık gelen sahnelerle birleştirmenin kolay olmamasıdır.
  • İkincisi, tüm görevin geri bildirim mekanizmasının oldukça kaba olması ve görevin yalnızca hedefe nihayet ulaşıldığında tamamlanmasıdır.Alanın talimatları takip edip etmediğini yargılamak zordur.
  • Üçüncüsü, ajanın bulunduğu ortamdaki büyük farklılıklar nedeniyle VLN görevinin genelleştirilmesinin zor olmasıdır.

Sonuç olarak, VLN görevini çözmek yalnızca CV ve NLP'nin iki alanında bilgi gerektirmekle kalmaz, aynı zamanda tüm sürecin çok az geribildirimi olabilir ve modelin yeni örneklere uyum sağlama yeteneği zayıftır, bu da başlaması zor ve imkansız olarak tanımlanabilir ...

Ama Tanrı tarafından rahatsız edilemez.

Temel

Temsilcinin insan dilini dinlemesi ve labirent benzeri bir alanda doğru yönü bulması nasıl sağlanır?

Bu tam puanlı belge, pekiştirmeli öğrenme (RL) ve taklit öğrenme (IL) bilgilerini birleştirir ve yeni bir tür önerir. Geliştirilmiş modlar arası eşleştirme (Güçlendirilmiş Çapraz Modal Eşleştirme, RCM ) Görünür yerel ve görünmez küresel sahneleri pekiştirmeli öğrenme yöntemleriyle birbirine bağlayan model.

RCM modelinde, Reasoning Navigator (aşağıdaki şekilde yeşil kutu) merkezi bir roldür. Temsilci, kısmi görsel görüntülerde metin talimatlarını ve modlar arası sahneleri öğrenerek olası talimatları çıkarabilir ve nereye bakılacağını anlayabilir.

Küresel sahnede, araştırmacılar ayrıca, orijinal talimatlardan sahne yeniden yapılandırmasının yürütülmesini değerlendirmek için Eşleştirme Eleştirmeni (yukarıdaki resimde mor kutu) kurdular ve Yinelenen yeniden inşa ödülü .

Yerel sahneler için, bu döngüsel yeniden yapılandırma ödülü, temsilcinin dil girdisini anlamasına yardımcı olan ve dil talimatına uymayan yanlış yörüngeyi cezalandıran dahili bir ödül sinyalidir.

çözüldü Optimal rota Sorundan sonra, ajan birçok yoldan saptı, ancak araştırmacıların dönüşümü devam ediyor.

Araştırmacılar, ajanın karışık gerçek nesneler arasındaki yararlı sahnelere odaklanmasına izin vermek için ayrıca bir Kendi kendine denetlenen taklit öğrenme (Kendinden Denetimli Taklit Öğrenme, SIL ) Temsilcinin bilinmeyen sahnelerde etiketlenmemiş verileri keşfetmesine yardımcı olmak için.

SIL mimarisi

SIL yöntemi, temsilcinin eski yoldan kazanılan deneyimi kullanmayı öğrenmesine izin vermektir.

Basitçe ifade etmek gerekirse, bu çerçevede Navigator çeşitli sunumlar gerçekleştirir ve arabellekte değerlendirilen daha iyi yörüngeyi arabellekte depolar; bu, navigatörün sonraki yolda taklit etmesi için uygundur.

Bu şekilde, gezgin kademeli olarak en iyi yola yaklaşabilir ve en iyi kararı planlayabilir.

Test sonuçları

Makalede, model performansını değerlendirmek için R2R (Odadan Odaya) veri kümesi kullanılmıştır. Bu veri setinde toplam 7189 yol, 21.567 manuel açıklama talimatı ve ortalama 29 kelimelik uzunluk bulunmaktadır.

VLN performansını değerlendirirken, başlıca beş gösterge vardır: yol uzunluğu (PL), gezinme hatası (NE), Oracle başarı oranı (OSR), başarı oranı (SR) ve ters yolun uzunluğuna göre ağırlıklandırılan başarı oranı (SPL) ).

Bu göstergeler arasında SPL hem etkinliği hem de verimliliği hesaba katar ve seyrüsefer performansının değerlendirilmesinde ana kriter olarak kabul edilir.Diğer göstergeler genellikle yardımcı göstergeler olarak kullanılır.

Değerlendirme sonuçları, RCM modelinin, özellikle SPL göstergesinde mevcut en iyi sonuçtan (SOTA) önemli ölçüde daha iyi olduğunu göstermektedir.

Ek olarak, taklit öğrenme için SIL kullanıldıktan sonra, öğrenme verimliliği de büyük ölçüde iyileştirildi ve görünür ve görünmez ortamlar arasındaki başarı oranı farkı% 30,7'den% 11,7'ye düşürüldü.

Kimden geldi?

Bu yazının yazarları 3 üniteden. Bunlar UCSB, Microsoft Raymond Araştırma Enstitüsü ve Duke Üniversitesi'dir.

Tezin ilk yazarı olan Wang Xin, 2015 yılında Zhejiang Üniversitesi'nden lisans derecesi ile mezun oldu ve UCSB'de doktora eğitimi alıyor.Araştırma alanları doğal dil işleme, bilgisayarla görme ve makine öğrenimidir.

2017 yılından bu yana yapay zeka alanında üst düzey konferanslara 3'ü sözlü sunum olmak üzere 7 birinci bölüm bildirisi dahil edildi.

2019'daki en önemli konferanslarda, bazı inceleme çalışmaları da yapmaya başladım: AAAI 2019'da doğal dil işleme alanında Oturum Başkanı; ICCV 2019, CVPR 2019 inceleme uzmanı.

Wang Xin, sadece akademide değil, sektörde de ortaya çıkmaya başladı.

2016 ve 2017 yazında Adobe Research bünyesinde staj yaptı ve birçok projede yer aldı.

Bunlar arasında, "videodaki istenmeyen nesneleri silme" araştırması, 2017'de Adobe'nin MAX Sneak Konferansı'nda sunuldu ve 2018'de MAX'te bir açılış konuşması yaptı.

Gerçek zamanlı yüksek çözünürlüklü stil aktarımıyla ilgili bir başka çalışma da San Francisco de Young Müzesi'ne uygulanmış ve ürünün prototipi Adobe CEO'su Shantanu Narayen'e yüz yüze sunulmuştur.

2018 yazında Microsoft Redmond AI Araştırma Enstitüsü'nde staj yapacağım. 2019 yazında, staj için Mountain View'da Google AI'ya gideceğim.

Diğer yazarlar

UCSB'den iki yazar, Yuan-Fang Wang ve William Yang Wang ( ), Wang Xin'in UCSB'deki akıl hocalarıdır.

Microsoft'tan 2018 yazında Microsoft'ta staj sırasında akıl hocaları olan Lei Zhang, Jianfeng Gao, Aslı Çelikyılmaz ve Qiuyuan Huang olmak üzere dört yazar var.

Ayrıca, 2018 yazında Microsoft'ta Wang Xin ile stajyer olarak çalışan Duke Üniversitesi'nden Dinghan Shen de var.

Portal

Vizyon-Dil Navigasyonu için Güçlendirilmiş Çapraz Modal Eşleştirme ve Kendi Kendini Denetleyen Taklit Öğrenme

https://arxiv.org/abs/1811.10092

Önceki CVPR'nin mükemmel kağıtları

CVPR, bilgisayar görüşü alanındaki en iyi akademik konferans olarak, önceki mükemmel makalelerin akademik araştırmanın kanadı olduğu söylenebilir.

Bu yıl, görsel dilde gezinme görevleri hakkındaki bu makale hakemler tarafından tercih edildi ve tam notla kabul edildi. Bilgisayar vizyonunun mevcut yönü ile doğal dil işleme arasındaki işbirliğinin memnuniyetle karşılandığını yansıtmak yeterlidir.

2018'deki en iyi makale Görev Bilimi: Görev Aktarımı Öğrenimini Çözme , Stanford Üniversitesi ve California Üniversitesi, Berkeley'den.

Bu makale, geçiş öğrenmede çeşitli bilgisayarla görme görevlerinin bağımlılığını inceler ve çeşitli görevlerin alaka düzeyine göre geçiş öğrenme planını belirleyebilen algısal görev geçiş öğrenimi için hesaplamalı bir taksonomik harita önerir. .

10 görevlik bir dizi için, modelleri, performansı neredeyse hiç değiştirmeden tutarken açıklama verileri talebini 2/3 oranında azaltabilir.

Portal:

Görev Bilimi: Görev Aktarımı Öğrenimini Çözme

https://arxiv.org/abs/1804.08328

2017'de en iyi iki makale var.

Biri Yoğun Bağlı Evrişimli Ağlar Yazarlar, Tsinghua Üniversitesi, Cornell Üniversitesi ve Facebook'tan.

CNN'deki her katmanın ileri beslemeli bir şekilde diğer tüm katmanlara bağlanmasına izin veren DenseNet adlı bir model önerilmiştir.

Bu modelin birçok avantajı vardır: Sadece gradyan kaybolması sorununu azaltmak ve özellik yayılmasını güçlendirmekle kalmaz, aynı zamanda özelliğin yeniden kullanımını teşvik eder ve parametre sayısını azaltır.

Portal:

Yoğun Bağlı Evrişimli Ağlar

https://arxiv.org/abs/1608.06993

Diğeri Tartışmalı Eğitim yoluyla Simüle Edilmiş ve Denetlenmemiş Görüntülerden Öğrenme , Apple'dan.

Simülatörde etiketli bilgileri korurken simülatör çıktısının gerçekliğini artırmak için etiketlenmemiş gerçek veriler aracılığıyla bir modeli öğrenmek için bir simülasyon + denetimsiz (S + U) öğrenme modeli önerilmiştir.

Bu yöntem, yüksek kaliteli görüntüler üretebilir ve herhangi bir gerçek açıklama verisi olmadan MPIIGaze veri setinde en yüksek düzeyde sonuçlar elde eder.

Portal:

Tartışmalı Eğitim yoluyla Simüle Edilmiş ve Denetlenmemiş Görüntülerden Öğrenme

https://arxiv.org/abs/1612.07828

Son olarak, CVPR 2019, 16 Haziran - 20 Haziran tarihleri arasında Los Angeles, Long Beach'te düzenlenecek.Wang Xin'in mükemmel bir puana sahip makalesi en iyi kağıt olabilir mi? O zaman ilan edilecektir.

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin
Futboldaki en iyi baba ve oğul 23 yılı geride bıraktı ve Buffon ile CCTV5'te bir araya geldi, başkanın oğlu harika olabilir
önceki
Asla vazgeçmeyeceklerini söyleyen çapalar, şimdi hepsi tokat mı atacak? Netizenler: Ayık
Sonraki
Kazanmazsanız evinize gidin, U20 Kadınlar Dünya Kupası bugün bir ölüm kalım savaşı ile karşı karşıya
Jeremy Lin bankı güçlendiriyor, Torontonlar Raptors konusunda iyimser, ancak Leonard'ın gizli endişeleri var
Yapay zeka işe alım şirketi olan Moka, 180 milyon daha bağış topladı ve 90'lar sonrası ortaokulun kurucu ekibi, İK'yı dönüştürerek yılda on milyonlarca dolar kazanıyor
Bu Çinli erkek futbol takımı, Asya Oyunları'nın ilk yarısında ev sahibi tarafından dört gol attı ve iki maç kaybetti veya eve erken gitti.
Oyuncuları kurtarmak için Blizzard'ın savaşması gerekiyor! Eklentiyi oyuna gerçekten koydunuz mu? Oyuncu: Ölümcül!
Jeremy Lin sorunsuz bir şekilde entegre oldu, Raptors'a katılmak hile yapmak gibi geliyor, baş antrenör biraz memnun değil
Juventus ilk çıkışını sadece 8 dakikada yaptı ve Ronaldo, Apennines savunucusunu şimdiden titretmeye başladı.
"Overwatch" yeni kahraman becerileri ortaya çıktı: geliştirilmiş sürüm 76, hatta "kan kilidi" ile birlikte geliyor!
CBA'nın son sekiz turunda üç gerilim var, ilk takım şoklarla karşı karşıya, Pekin arkadan geliyor veya yarı finale çıkıyor
LOL: Timothy Ordusu geliyor mu? Test sunucusu neredeyse yeniden işlendi ve beceriler daha da iğrençti
En popüler dil programcıları hangileridir? İşe alım web sitesi verileri, Python'un ilk beşte olmadığını söylüyor
Bundesliga'nın ikinci turu ikinci tura girdi ve Hamburg ilk tur yenilgisinin pusunu ortadan kaldırmak için deplasman zaferi kullandı.
To Top