Yapay zeka görsel muhakemeyi öğrenir, görünmez nesneleri "beyni doldurur" | Li Jia Li Feifei ve diğer CVPR kağıtları

İçbükey tapınaktan Li Lin

Qubit Üretildi | Genel Hesap QbitAI

İnsanların çok güçlü bir yeteneği vardır: beyin takviyesi.

Bu fotoğrafta, insanların gözünde, sol alt köşedeki küçük bir kahverengi, sarı, siyah ve gri parçası yaşayan bir at - bu poz ve manzara elbette at binmek!

Ancak çoğu algoritma için resimde iki kişi var, yani sol alt köşedeki şeylerin kütlesinin ne olduğunu bilen, ne yaptıklarını kim bilen iki kişi ~

Yeni bir CVPR 2018 belgesi Konvolüsyonların Ötesinde Yinelemeli Görsel Akıl Yürütme , Sadece insanın "beyin takviyesi" yeteneğini algoritmaya getirmeye çalışın.

Beyin dolu algoritma

Araştırma, Carnegie Mellon Üniversitesi (CMU) tarafından Google ile işbirliği içinde tamamlandı. Yazarlar arasında Facebook araştırmacısı Chen Xinlei (makale doktorasından önce tamamlandı), Google'dan Li Jia ve Li Feifei ve Chen Xinlei'nin akıl hocası Abhinav Gupta yer alıyor.

Makaledeki daha sıkı akademik resmi ifadeye göre, üzerinde çalıştıkları "beyin toniği" yeteneği, mekanın ve anlambilimin görsel muhakemesidir. Bu yetenek sayesinde, bilgisayar bir görüntüdeki daha fazla nesneyi doğru bir şekilde tanımlayabilir.

Örneğin, böyle bir sahne karşısında, mekansal anlamsal çıkarım yeteneği olmayan bir algoritma, arabanın şekline ve ana hattına göre sadece bir araba mı yoksa bir otobüs mü olduğunu belirleyebilir, üst pencerede ise sadece engellenmeyenleri belirleyebilir.

Mekansal muhakeme yardımıyla üç pencereli dizilmiş ve kısmen gizlenmiş nesne de bir pencere olarak değerlendirilecek; semantik muhakeme yardımıyla üzerinde sarı işaretli otobüs okul otobüsü olarak tanınacaktır. Uzamsal ve anlamsal akıl yürütmeyi birleştiren algoritma, araba penceresindeki belirsiz gölgenin aslında bir kişi olduğunu anlayabilir.

Daha spesifik bir örneğe bakalım:

Örneğin, yukarıdaki resimde, koyu mavi ile işaretlenmiş "fare" sıradan sinir ağları tarafından tanınmaz, ancak bu yeni beyin takviyesi yöntemi onu tanıyabilir. Resimde bulanık ve çözünürlüğü çok düşük, ancak çevredeki nesnelerden anlaşılabilir.

Resimdeki çamaşır makinesinden de koyu mavi ile işaretlenmiş deterjan tankını anlayabilirsiniz.

Aynı görüntü için, beyin telafi eden algoritma, sıradan sinir ağlarından daha fazla nesneyi tanıyabilir. Başka bir deyişle, görüntüden çeşitli nesneleri çerçevelemek ve tanımak için daha iyi bir yeteneğe sahiptir.

Makalenin yazarı, bu beyin takviyesi algoritmasına bir nokta vermek için "nesneleri çerçeveleyin ve tanıyın" bölgesel sınıflandırma görevini kullandı:

Sıradan evrişimli sinir ağları ile karşılaştırıldığında, bu model ADE veri setindeki her kategori için ortalama% 8,4 doğruluk oranına sahipken, ağ derinliğini artırmak yalnızca yaklaşık% 1 oranında artabilir. COCO veri setinde, bu model doğruluğu% 3,7 artırabilir.

Bunu nasıl yaptın?

Sıradan evrişimli sinir ağına iki çekirdek modülden oluşan görsel bir akıl yürütme çerçevesi eklediler: biri, önceki bilgileri depolamak için uzamsal belleği kullanan ve muhakeme için evrişimli sinir ağlarını kullanan yerel bir modüldür; diğeri ise küreseldir. Akıl yürütme grafiğine dayanan modül, bölgeleri ve sınıfları grafikteki düğümler olarak görür ve aralarında bilgi aktararak muhakeme yapar.

Ayrıntılı olarak, global modülün üç bileşeni vardır: düğümler olarak kategoriler içeren bir bilgi grafiği, görüntüdeki alanları düğümler olarak içeren bir alan grafiği ve sınırlar olarak alanlar arasındaki uzamsal ilişki ve alanlara kategoriler atamak için bir tahsis grafiği.

Sonunda, nihai tahmin sonucuna ulaşmak için tüm modüllerin her bir yinelemesinin tahmin ve dikkat mekanizması birleştirilir.

Başarısızlık Trivia

Elbette başarısızlık zamanları da vardır.

Örneğin komodin üzerinde uzaktan kumanda olabilir Bu algoritma onu normal bir evrişimli sinir ağı gibi elde edemez.

Tanrı (lar) ı öğrenin

Bu makalenin dört yazarı arasında, ikinci ve üçüncü eserler, çok aşina olduğunuz iki tanrıça Li Jia ve Li Feifei'dir. Şimdi Google'ın bulut bilişim departmanındalar. İkinizin özgeçmişleri ve başarılarını muhtemelen tekrarlamak için kübitlere ihtiyacınız yok.

Abhinav Gupta, Carnegie Mellon Üniversitesi Bilgisayar Bilimleri Bölümü'nde doçenttir. Şu anda görsel dünyayı, dil ile vizyon arasında nasıl temsil edileceğini ve davranış ile nesneleri nasıl birleştireceğini araştırmaktadır.

Chen Xinlei, birçok öğrencinin muhtemelen hayran kalacağı Tanrı'yı öğrenmenin bir örneğidir.

Bu küçük kardeş, doktorasını bu yılın Şubat ayında Carnegie Mellon Üniversitesi'nden (CMU) aldı ve şu anda Facebook AI Araştırma Enstitüsü'nde araştırmacı. Zhejiang Üniversitesi'nde lisans öğrencisiyken, AAAI, CVPR, CIKM ve diğer önemli konferans makalelerini zaten yayınlamıştı.

Doktora eğitimi sırasında Microsoft Research, Google VisCAM grubu ve Google Cloud AI ekibinde staj yaptı.

Doktora tezi Görsel Bilgi Öğrenimi, görüntülerin bilgisayarla görme sistemiyle anlaşılması sürecinde görüntü arka plan bilgisinin önemini inceledi. Bu makale, bilgisayarların açık ve örtük görsel bilgiyi otomatik ve genişletilebilir bir şekilde nasıl öğrenebileceğini ve görsel bilginin akıl yürütmek için nasıl kullanılacağını sistematik olarak tartışmaktadır.

Buraya gelin, sistematik olarak öğrenme tanrısına ibadet edebilirsiniz:

en önemlisi

Makalenin adresi elbette önemlidir ~ https: //www.arxiv-vanity.com/papers/1803.11189/

Ve doktora tezimin adresi:

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! İlgili ayrıntılar için lütfen QbitAI diyalog arayüzünde "işe alım" kelimesini yanıtlayın.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Hareketli! Masa tenisi hakkında küçük bir hikaye ~
önceki
Tarihin en özgün oyunu! 5.6 milyar ile yapıldı ve içindeki NPC IQ doğrudan gerçek kişiye yakın
Sonraki
80.000'e bir "Benz" satın alıp memleketime geri döndüğümde, Beier'in bir yüzü var ve arabaları bilen insanlarla tanışmaktan korkuyorum!
Avrupalı bir uluslararası genç olarak, bir zamanlar milli futbol takımının vatandaşlık hedefiydi, ancak şimdi işsiz
Erkekler Ping Pong 8 tur ve 1-3 turda 14 tur attı, Xu Xin Fan Zhendong kaybetti ve Zhou Kai kazandı!
TensorFlow Geliştirici Konferansı Zirvesi: Swift'i Destekleyin, JavaScript'i Daha İyi Destekleyin
Tarihin en dağınık NetEase oyunu! Oyuncu oyuna girer girmez, tam seviyeli tanrı donanımlı bir NPC tarafından kovalanacak ve öldürülecek!
Bu arabanın görünüşü zayıf ama arabaya bindiğimde şaşırdım.İç sınıf 150.000 değerinde!
Şubat ayındaki dünya sıralaması: "Martining" önde gidiyor, Zhang Jike ve Liu Shiwen geçici olarak "ortadan kayboluyor"!
Macron yapay zekaya 1,5 milyar avroluk yatırım yaptığını duyurdu ve DeepMind yakında Paris'i öpecek
Çin'deki en başarılı oyun! NetEase onunla bir servet kazandı ve şimdi 15 yıllık sıra tabanlı sistemi kaldırdı.
Sadece 70.000 dört tekerlekli araç GS4'ten daha önce piyasaya sürüldü, ancak GAC endişeyle durdu. Neden kimse onu satın almadı?
"Fu" sadece üç kuşaktır, Martini III, C takımı tarafından zar zor alındı
Liu Shiwen, Rao Jingwen ve Wuhan Anxin'in% 100 Şampiyon Kulübü'nün hikayesi!
To Top