İçbükey tapınaktan Li Lin
Qubit Üretildi | Genel Hesap QbitAI
İnsanların çok güçlü bir yeteneği vardır: beyin takviyesi.
Bu fotoğrafta, insanların gözünde, sol alt köşedeki küçük bir kahverengi, sarı, siyah ve gri parçası yaşayan bir at - bu poz ve manzara elbette at binmek!
Ancak çoğu algoritma için resimde iki kişi var, yani sol alt köşedeki şeylerin kütlesinin ne olduğunu bilen, ne yaptıklarını kim bilen iki kişi ~
Yeni bir CVPR 2018 belgesi Konvolüsyonların Ötesinde Yinelemeli Görsel Akıl Yürütme , Sadece insanın "beyin takviyesi" yeteneğini algoritmaya getirmeye çalışın.
Araştırma, Carnegie Mellon Üniversitesi (CMU) tarafından Google ile işbirliği içinde tamamlandı. Yazarlar arasında Facebook araştırmacısı Chen Xinlei (makale doktorasından önce tamamlandı), Google'dan Li Jia ve Li Feifei ve Chen Xinlei'nin akıl hocası Abhinav Gupta yer alıyor.
Makaledeki daha sıkı akademik resmi ifadeye göre, üzerinde çalıştıkları "beyin toniği" yeteneği, mekanın ve anlambilimin görsel muhakemesidir. Bu yetenek sayesinde, bilgisayar bir görüntüdeki daha fazla nesneyi doğru bir şekilde tanımlayabilir.
Örneğin, böyle bir sahne karşısında, mekansal anlamsal çıkarım yeteneği olmayan bir algoritma, arabanın şekline ve ana hattına göre sadece bir araba mı yoksa bir otobüs mü olduğunu belirleyebilir, üst pencerede ise sadece engellenmeyenleri belirleyebilir.
Mekansal muhakeme yardımıyla üç pencereli dizilmiş ve kısmen gizlenmiş nesne de bir pencere olarak değerlendirilecek; semantik muhakeme yardımıyla üzerinde sarı işaretli otobüs okul otobüsü olarak tanınacaktır. Uzamsal ve anlamsal akıl yürütmeyi birleştiren algoritma, araba penceresindeki belirsiz gölgenin aslında bir kişi olduğunu anlayabilir.
Daha spesifik bir örneğe bakalım:
Örneğin, yukarıdaki resimde, koyu mavi ile işaretlenmiş "fare" sıradan sinir ağları tarafından tanınmaz, ancak bu yeni beyin takviyesi yöntemi onu tanıyabilir. Resimde bulanık ve çözünürlüğü çok düşük, ancak çevredeki nesnelerden anlaşılabilir.
Resimdeki çamaşır makinesinden de koyu mavi ile işaretlenmiş deterjan tankını anlayabilirsiniz.
Aynı görüntü için, beyin telafi eden algoritma, sıradan sinir ağlarından daha fazla nesneyi tanıyabilir. Başka bir deyişle, görüntüden çeşitli nesneleri çerçevelemek ve tanımak için daha iyi bir yeteneğe sahiptir.
Makalenin yazarı, bu beyin takviyesi algoritmasına bir nokta vermek için "nesneleri çerçeveleyin ve tanıyın" bölgesel sınıflandırma görevini kullandı:
Sıradan evrişimli sinir ağları ile karşılaştırıldığında, bu model ADE veri setindeki her kategori için ortalama% 8,4 doğruluk oranına sahipken, ağ derinliğini artırmak yalnızca yaklaşık% 1 oranında artabilir. COCO veri setinde, bu model doğruluğu% 3,7 artırabilir.
Sıradan evrişimli sinir ağına iki çekirdek modülden oluşan görsel bir akıl yürütme çerçevesi eklediler: biri, önceki bilgileri depolamak için uzamsal belleği kullanan ve muhakeme için evrişimli sinir ağlarını kullanan yerel bir modüldür; diğeri ise küreseldir. Akıl yürütme grafiğine dayanan modül, bölgeleri ve sınıfları grafikteki düğümler olarak görür ve aralarında bilgi aktararak muhakeme yapar.
Ayrıntılı olarak, global modülün üç bileşeni vardır: düğümler olarak kategoriler içeren bir bilgi grafiği, görüntüdeki alanları düğümler olarak içeren bir alan grafiği ve sınırlar olarak alanlar arasındaki uzamsal ilişki ve alanlara kategoriler atamak için bir tahsis grafiği.
Sonunda, nihai tahmin sonucuna ulaşmak için tüm modüllerin her bir yinelemesinin tahmin ve dikkat mekanizması birleştirilir.
Elbette başarısızlık zamanları da vardır.
Örneğin komodin üzerinde uzaktan kumanda olabilir Bu algoritma onu normal bir evrişimli sinir ağı gibi elde edemez.
Bu makalenin dört yazarı arasında, ikinci ve üçüncü eserler, çok aşina olduğunuz iki tanrıça Li Jia ve Li Feifei'dir. Şimdi Google'ın bulut bilişim departmanındalar. İkinizin özgeçmişleri ve başarılarını muhtemelen tekrarlamak için kübitlere ihtiyacınız yok.
Abhinav Gupta, Carnegie Mellon Üniversitesi Bilgisayar Bilimleri Bölümü'nde doçenttir. Şu anda görsel dünyayı, dil ile vizyon arasında nasıl temsil edileceğini ve davranış ile nesneleri nasıl birleştireceğini araştırmaktadır.
Chen Xinlei, birçok öğrencinin muhtemelen hayran kalacağı Tanrı'yı öğrenmenin bir örneğidir.
Bu küçük kardeş, doktorasını bu yılın Şubat ayında Carnegie Mellon Üniversitesi'nden (CMU) aldı ve şu anda Facebook AI Araştırma Enstitüsü'nde araştırmacı. Zhejiang Üniversitesi'nde lisans öğrencisiyken, AAAI, CVPR, CIKM ve diğer önemli konferans makalelerini zaten yayınlamıştı.
Doktora eğitimi sırasında Microsoft Research, Google VisCAM grubu ve Google Cloud AI ekibinde staj yaptı.
Doktora tezi Görsel Bilgi Öğrenimi, görüntülerin bilgisayarla görme sistemiyle anlaşılması sürecinde görüntü arka plan bilgisinin önemini inceledi. Bu makale, bilgisayarların açık ve örtük görsel bilgiyi otomatik ve genişletilebilir bir şekilde nasıl öğrenebileceğini ve görsel bilginin akıl yürütmek için nasıl kullanılacağını sistematik olarak tartışmaktadır.
Buraya gelin, sistematik olarak öğrenme tanrısına ibadet edebilirsiniz:
Makalenin adresi elbette önemlidir ~ https: //www.arxiv-vanity.com/papers/1803.11189/
Ve doktora tezimin adresi:
- Bitiş -
Samimi işe alım
Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! İlgili ayrıntılar için lütfen QbitAI diyalog arayüzünde "işe alım" kelimesini yanıtlayın.
Qubit QbitAI · Toutiao İmzalama Yazarı
' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin