DeepMind GQN'yi önerdi, sinir ağının da uzamsal hayal gücü var

Leifeng.com Yapay Zeka Teknolojisi Yorumu: İnsanın görsel bir sahneyi anlama süreci göründüğünden çok daha karmaşıktır.Beynimiz, mevcut önceki bilgilere dayanarak çıkarımlar yapabilir ve çıkarımların sonuçları retinanın alabileceğinden çok daha fazlasını kapsayabilir. Işık desenlerinin zenginliği. Örneğin, bir odaya ilk kez girseniz bile, odanın içinde ne olduğunu ve nerede olduğunu hemen anlayabilirsiniz. Bir masanın altında üç ayak görürseniz, aynı şekil ve renkte dördüncü bir ayağa sahip olduğunu kolayca anlayabilirsiniz, ancak şu anda görünür aralıkta değildir. Odadaki her şeyi bir bakışta göremeseniz bile, temelde odadaki genel durumu tanımlayabilir veya başka bir açıdan görebildiğinizi hayal edebilirsiniz.

Bu tür görsel ve bilişsel görevler insanlar için zahmetsiz görünebilir, ancak yapay zeka sistemleri için büyük bir zorluktur. Günümüzün en iyi görsel tanıma sistemleri, insanlar tarafından açıklanmış büyük ölçekli görüntü veri kümeleri üzerinde eğitilmiştir. Bu tür verileri elde etmek maliyetli ve zaman alıcıdır ve her sahnedeki her nesnenin her bir perspektifini bir etiketle manuel olarak tanımlamak gerekir. Sonuç olarak, tüm sahnedeki nesnelerin sadece küçük bir kısmı tespit edilebiliyor, bu da bu tür veriler üzerinde eğitilen yapay zeka sistemlerinin yeteneğini sınırlıyor. Araştırmacılar gerçek dünyada çalışabilen makine sistemleri geliştirirken, içinde bulundukları ortamı tam olarak anlayabileceklerini umuyoruz - örneğin, en yakın sabit düzlem nerede? Kanepenin malzemesi nedir? Bu gölgelere hangi ışık kaynağı neden oldu? Işık anahtarı nerede mümkün?

DeepMind'in Science dergisinde yayınlanan son makalesi "Neural Scene Representation and Rendering" (Neural Scene Representation and Rendering) bu sorunu inceliyor.Bu makale Leifeng AI Technology Review blogunun DeepMind'in makale girişiyle ilgili bir derlemesidir. Makalede, makinelerin olay yerinde hareket etmesine ve hareket sırasında topladıkları verilere dayanarak onları kendi ortamlarını anlamayı öğrenmek için eğitmesine olanak tanıyan bir ağ çerçevesi olan Generative Query Network'ü (GQN) önerdiler. . GQN, tıpkı bebekler ve hayvanlar gibi, öğrenmek için gözlemlediği dünyayı anlamaya çalışır. Bu süreçte, GQN temel olarak sahnenin genel görünümünü öğrendi, geometrik özelliklerini öğrendi ve insanların sahnedeki herhangi bir nesneyi işaretlemesini gerektirmiyor.

GQN modeli iki bölümden oluşur: bir temsil ağı ve bir üretim ağı. Temsil ağı, ajan tarafından gözlemlenen resmi girdi olarak alır ve ardından ağ tarafından tanınan sahneyi tanımlayan bir temsil vektörü oluşturur. Üretken ağ daha sonra sahneyi daha önce kullanılmamış bir perspektiften (veya "hayal gücünden") tahmin edecektir.

Karakterizasyon ağı, üretim ağının perspektifinin ne olacağını bilmez, bu nedenle en verimli yolu bulması ve sahnenin gerçek düzenini doğru bir şekilde temsil etmesi gerekir. Yaklaşımı, tüm evin konumu, rengi ve düzeni gibi en önemli unsurları yakalamak ve bunları kısa ve öz bir dağıtılmış sunumda kaydetmektir. Eğitim süreci boyunca, jeneratör yavaş yavaş tipik nesneleri, özellikleri, nesneler arasındaki ilişkileri ve çevredeki bazı temel yasaları öğrendi. Bu paylaşılan "kavramsal" temsil yöntemleri seti sayesinde, temsil ağı ayrıca sahneyi oldukça sıkıştırılmış ve soyut bir şekilde tanımlayabilir ve jeneratör diğer gerekli ayrıntıları otomatik olarak doldurur. Örneğin, temsil ağı "mavi kareleri" temsil etmek için bir dizi sayıyı kısaca kullanabilir ve jeneratör ağı da bu sayı dizisini bir perspektif verildiğinde tekrar piksellere nasıl dönüştüreceğini bilir.

DeepMind, bir dizi simüle edilmiş 3B dünya ortamında kontrol deneyleri gerçekleştirdi. Ortamda rastgele konumlara, renklere, şekillere ve dokulara sahip birden çok nesne var.Işık kaynağı rastgele ve gözlemlenen görüntülerde birçok tıkanma var. Çevrede eğitim aldıktan sonra, DeepMind araştırmacıları yeni, görünmeyen sahneler için temsiller oluşturmak için GQN'nin temsil ağını kullandılar. Araştırmacılar deneyler yoluyla, GQN'nin aşağıdaki önemli özelliklere sahip olduğunu gösterdiler:

  • GQN'nin nesil ağı, şaşırtıcı doğrulukla benzeri görülmemiş sahneler için yeni bir bakış açısıyla "hayali" görüntüler oluşturabilir. Belirli bir sahne temsili ve yeni bir perspektif için, üretim ağı, net görüntüler oluşturmak için perspektif, kapatma ve aydınlatma koşullarının önceden herhangi bir spesifikasyonunu gerektirmez. Bu şekilde üretici ağ, verilerden öğrenilen iyi bir görüntü oluşturucudur.

  • GQN'nin karakterizasyon ağı, saymayı, bulmayı ve sınıflandırmayı öğrenmek için herhangi bir nesne düzeyinde etiket gerektirmez. Ağ tarafından üretilen temsilin ölçeği büyük olmasa bile, GQN'nin sorgulama perspektifine ilişkin tahmini çok doğrudur ve neredeyse gerçekle aynıdır. Bu, karakterizasyon ağının sahne algısının da çok doğru olduğunu gösterir, örneğin aşağıdaki sahnede yapı taşlarını oluşturan blokların belirli koşullarını doğru bir şekilde tanımlamaktadır.

  • GQN belirsizliği karakterize edebilir, ölçebilir ve azaltabilir. Sahneye ilişkin kendi bilişi, özellikle sahnedeki içeriğin bir kısmının görünmediği durumlarda belirli belirsizlikler içerebilir, tutarlı bir genel anlayış oluşturmak için birden çok parçanın perspektiflerini birleştirebilir. Aşağıdaki şekil, ağın bu yeteneğini birinci şahıs perspektifi ve Tanrı perspektifi ile göstermektedir. Ağ, bir dizi farklı tahmin sonucu üreterek belirsizliği gösterir ve ajan labirentte hareket ettikçe belirsizlik aralığı giderek azalır. (Şekildeki gri koni, gözlemin konumunu, sarı koni ise sorgulamanın konumunu gösterir)

  • GQN'nin karakterizasyonu, sağlam ve örnek açısından verimli takviye öğrenimi olasılığını getirir. GQN'nin kompakt temsilini, model içermeyen temel aracılarla karşılaştırıldığında girdi olarak alarak, mevcut üst düzey pekiştirici öğrenme aracıları, aşağıdaki şekilde gösterildiği gibi daha veri verimli bir şekilde öğrenebilir. Bu aracılar için, üretici ağda kodlanan bilgi, bu ortamların "iç bilgisini" ve "evrensel özelliklerini" depolamak olarak kabul edilebilir.

DeepMind araştırmacıları, GQN kullanarak, önemli ölçüde daha yüksek veri verimliliğine sahip bir strateji öğrenimi gözlemlediler.Veri olarak ham pikselleri kullanan standart bir yöntemle karşılaştırıldığında, çevreyle etkileşim sayısının yaklaşmak için yalnızca yaklaşık 1 / 4'üne ihtiyacı var. Yakınsama seviyesinin performansı.

GQN, çoklu görünüm geometrisi, üretken modelleme, denetimsiz öğrenme ve tahmine dayalı öğrenme üzerine çok sayıda yeni makaleye dayanmaktadır. DeepMind ayrıca bu raporda ilgili çalışmaları tanıtmıştır. GQN, fiziksel senaryolardan kompakt ve güvenilir temsilleri öğrenmenin yeni bir yolunu sunar. En önemli şey, önerilen yöntemin herhangi bir alana özgü mühendislik tasarımı veya zaman alan içerik ek açıklaması gerektirmemesidir, bu nedenle aynı model birçok farklı ortamda kullanılabilir. Ayrıca, sahne için yeni bir perspektiften doğru görüntüler oluşturabilen güçlü bir sinir ağı oluşturucuyu da öğrendi.

Bununla birlikte, DeepMind ayrıca geleneksel bilgisayarla görme teknolojisine kıyasla, GQN'nin de birçok sınırlamayla karşılaştığını ve şu anda yalnızca oluşturulan sahnede eğitim almaya çalıştığını söyledi. Bununla birlikte, yeni verilerin alınması ve donanımdaki yeni gelişmelerle birlikte, gelecekte GQN ağ çerçevesinin uygulamasını daha yüksek çözünürlükte ve gerçek senaryolarda inceleyebileceklerini umuyorlar. Takip araştırmasında, GQN'nin daha fazla sahne anlayışına nasıl uygulanacağının incelenmesi de önemli bir konudur.Örneğin, zaman ve mekan hakkında sorular sorarak, model bazı fiziksel ilkeleri ve ortak hareket duygusunu öğrenebilir; GQN, sanal gerçeklikte ve artırılmış gerçeklikte kullanılır. Uygulama şansı da var

Bu yöntem pratik uygulamadan hala çok uzak olsa da, DeepMind bunun tam otomatik sahne anlama hedefine doğru önemli bir adım olduğuna inanıyor.

Kağıt adresi (Bilim sürümü):

Kağıt adresi (Açık Erişim sürümü): https://deepmind.com/documents/211/Neural_Scene_Representation_and_Rendering_preprint.pdf

DeepMind Blog, Lei Feng.com Yapay Zeka Teknolojisi İnceleme Derlemesi aracılığıyla

GAC Trumpchi Kuzey Amerika Otomobil Fuarı planı: Üç yeni otomobilin tanıtımı
önceki
"Wilderness Operasyonu": yukarı pozisyon! Oyun oynamanın köpekleri de taciz edebileceği ortaya çıktı.
Sonraki
Yönlendirici hiç kapatılmadı, bu gerçekten iyi mi?
Wei Shen'in güzel bir yüzü var ve yeni görünüşü yeni zirveler mi getiriyor? Netizen: PDD, sen olduğunu biliyorum!
Bu ne tür bir "peri filmi"? Fragman insanları sonsuz güldürebilir!
Nokia reissue şuna benziyor: MWC 2017 konferansında 399 yuan değerinde mi?
ZTEnin yeni makinesi geliyor. Bu bir tablet mi yoksa eski bir kapaklı telefon mu?
Araba sızdırmazlık maddesi gerçekten faydalı mı? Gerçek test sonuçları sizi şaşırttı
Derinlemesine yorumlama: Yapay zeka ile olgunlaşan akıllı hoparlör endüstrisi nereye gidecek?
Fırsat mı? Dong Xiaosa, Sevgililer Günü'ne katıldı! Netizen: Nanbo'yu kazanmak için gerekli becerilere sahip misiniz?
Weibo netizenleri LeTV Max3'ün casus fotoğraflarını ortaya çıkardı ve 12 dakika sonra "yüzleşti"!
Beyaz Dağcılık'tan Adidas Originals'ın yeni NMD Trail ortak casus fotoğrafları ilk kez ortaya çıktı
Yerli ürünler bu tasarıma ve optimizasyona önem verebiliyorsa ortak girişimlerden neden korkuyorlar?
"Saray Müzesi Kültür Eserleri" direktörü yine beyaz perdeyle savaşacak ve "yüz yıllık" hayatı anlatmak için sıradan insanlarla birlikte çalışacak.
To Top