Kuru mallar DeepMind GQN'yi öneriyor, sinir ağının da mekansal hayal gücü var

Güçlü sahne temsili ve çevresel bilgileri öğrenmiş gibi görünen bir oluşturucu.

AI Technology Review Press: İnsanın görsel bir sahneyi anlama süreci göründüğünden çok daha karmaşıktır.Beynimiz var olan önceki bilgilere dayanarak çıkarımlar yapabilir ve çıkarımların sonuçları retina tarafından alınan ışık modellerinin zenginliğinden çok daha fazlasını kapsayabilir. Örneğin, bir odaya ilk kez girseniz bile, odanın içinde ne olduğunu ve nerede olduğunu hemen anlayabilirsiniz. Bir masanın altında üç ayak görürseniz, aynı şekil ve renkte dördüncü bir ayağa sahip olduğunu kolayca anlayabilirsiniz, ancak şu anda görünür aralıkta değildir. Odadaki her şeyi bir bakışta göremeseniz bile, temelde odadaki genel durumu tanımlayabilir veya başka bir açıdan görebildiğinizi hayal edebilirsiniz.

Bu tür görsel ve bilişsel görevler insanlar için zahmetsiz görünebilir, ancak yapay zeka sistemleri için büyük bir zorluktur. Günümüzün en iyi görsel tanıma sistemleri, insanlar tarafından açıklanmış büyük ölçekli görüntü veri kümeleri üzerinde eğitilmiştir. Bu tür verileri elde etmek maliyetli ve zaman alıcıdır ve her bir sahnedeki her nesnenin her bir perspektifini bir etiketle manuel olarak tanımlamak gerekir. Sonuç olarak, tüm sahnedeki nesnelerin yalnızca küçük bir kısmı tanımlanabilir ve bu da bu tür veriler üzerinde eğitilen yapay zeka sistemlerinin yeteneğini sınırlar. Araştırmacılar gerçek dünyada çalışabilen makine sistemleri geliştirirken, içinde bulundukları ortamı tam olarak anlayabileceklerini umuyoruz - örneğin, en yakın sabit düzlem nerede? Kanepenin malzemesi nedir? Bu gölgelere hangi ışık kaynağı neden oldu? Işık anahtarı nerede mümkün?

DeepMind'ın Science dergisinde yayınlanan son makalesi "Neural Scene Representation and Rendering" (Neural Scene Representation and Rendering) bu sayıyı inceliyor. Makalede, makinelerin sahnede hareket etmesine ve hareket sırasında topladıkları verilere dayanarak onları kendi ortamlarını anlamayı öğrenmelerine olanak tanıyan bir ağ çerçevesi olan üretken bir sorgu ağı GQN (Üretken Sorgu Ağı) önerdiler. . Tıpkı bebekler ve hayvanlar gibi GQN de öğrenmek için gözlemlediği dünyayı anlamaya çalışır. Bu süreçte, GQN temel olarak sahnenin genel görünümünü öğrendi, geometrik özelliklerini öğrendi ve insanların sahnedeki herhangi bir nesneyi işaretlemesini gerektirmiyor.

GQN modeli iki bölümden oluşur: bir temsil ağı ve bir üretim ağı. Temsil ağı, ajan tarafından gözlemlenen resmi girdi olarak alır ve ardından ağ tarafından tanınan sahneyi tanımlayan bir temsil vektörü oluşturur. Üretken ağ daha sonra sahneyi kullanılmayan bir perspektiften (veya "hayal gücünden") tahmin edecektir.

Karakterizasyon ağı, üretim ağının perspektifinin ne olacağını tahmin etmediğinden, en verimli yolu bulması ve sahnenin gerçek düzenini doğru bir şekilde temsil etmesi gerekir. Yaklaşımı, tüm evin konumu, rengi ve düzeni gibi en önemli unsurları yakalamak ve bunları kısa ve öz dağıtılmış bir sunumla kaydetmektir. Eğitim sürecinde, jeneratör yavaş yavaş tipik nesneleri, özellikleri, nesneler arasındaki ilişkileri ve ortamdaki bazı temel yasaları öğrendi. Bu paylaşılan "kavramsal" temsil yöntemleri seti sayesinde, temsil ağı ayrıca sahneyi oldukça sıkıştırılmış ve soyut bir şekilde tanımlayabilir ve jeneratör diğer gerekli ayrıntıları otomatik olarak doldurur. Örneğin, temsil ağı "mavi kareleri" temsil etmek için bir dizi sayıyı kısaca kullanabilir ve jeneratör ağı da bu sayı dizisini bir perspektif verildiğinde tekrar piksellere nasıl dönüştüreceğini bilir.

DeepMind, bir dizi simüle edilmiş 3B dünya ortamında kontrol deneyleri gerçekleştirdi. Ortamda rastgele konumlara, renklere, şekillere ve dokulara sahip birden çok nesne var.Işık kaynağı rastgele ve gözlemlenen görüntülerde birçok tıkanma var. Ortamdaki eğitimden sonra, DeepMind araştırmacıları yeni, görünmeyen sahneler için temsiller oluşturmak için GQN'nin temsil ağını kullandılar. Araştırmacılar deneyler yoluyla, GQN'nin aşağıdaki önemli özelliklere sahip olduğunu gösterdiler:

  • GQN'nin nesil ağı, şaşırtıcı doğrulukla benzeri görülmemiş sahneler için yeni bir perspektiften "hayali" görüntüler oluşturabilir. Belirli bir sahne temsili ve yeni bir perspektif için, üretim ağı, net görüntüler oluşturmak için perspektif, kapatma ve aydınlatma koşullarının önceden herhangi bir spesifikasyonunu gerektirmez. Bu şekilde üretici ağ, verilerden öğrenilen iyi bir görüntü oluşturucudur.

  • GQN'nin karakterizasyon ağı, saymayı, bulmayı ve sınıflandırmayı öğrenmek için herhangi bir nesne düzeyinde etiket gerektirmez. Ağ tarafından üretilen temsilin ölçeği büyük olmasa bile, GQN'nin sorgulama perspektifine ilişkin tahmini çok doğrudur ve neredeyse gerçekle aynıdır. Bu, aşağıdaki sahnede yapı taşlarını oluşturan blokların belirli koşullarının doğru bir şekilde tanımlanması gibi, ağın sahne algısının temsilinin de çok doğru olduğunu gösterir.

  • GQN belirsizliği karakterize edebilir, ölçebilir ve azaltabilir. Sahneye ilişkin kendi algısı belirli belirsizlikler içerebilir, özellikle sahnedeki içeriğin bir kısmının görünmediği durumlarda, tutarlı bir genel anlayış oluşturmak için birden çok parçanın perspektiflerini birleştirebilir. Aşağıdaki şekil, ağın bu yeteneğini birinci şahıs perspektifi ve Tanrı perspektifi ile göstermektedir. Ağ, bir dizi farklı tahmin sonucu üreterek belirsizliği gösterir ve ajan labirentte hareket ettikçe belirsizlik aralığı giderek azalır. (Şekildeki gri koni, gözlemin konumunu, sarı koni ise sorgulamanın konumunu gösterir)

  • GQN'nin karakterizasyonu, sağlam ve örnek açısından verimli takviye öğrenimi olasılığını getirir. GQN'nin kompakt gösterimini girdi olarak alarak, mevcut üst güçlendirme öğrenme aracısı, aşağıdaki şekilde gösterildiği gibi, modelsiz temel aracıya göre daha veri verimli bir şekilde öğrenebilir. Bu aracılar için, üretici ağda kodlanan bilgi, bu ortamların "iç bilgisini" ve "ortak özelliklerini" depolamak olarak kabul edilebilir.

DeepMind araştırmacıları, GQN kullanarak, önemli ölçüde daha yüksek veri verimliliğine sahip bir strateji öğrenimi gözlemlediler.Veri olarak ham pikselleri kullanan standart bir yöntemle karşılaştırıldığında, çevreyle etkileşim sayısının yaklaşmak için yalnızca yaklaşık 1 / 4'üne ihtiyacı var. Yakınsama seviyesinin performansı.

GQN, çok görüntülü geometri, üretken modelleme, denetimsiz öğrenme ve tahmine dayalı öğrenme üzerine çok sayıda yeni makaleye dayanmaktadır. DeepMind ayrıca bu raporda ilgili çalışmaları tanıttı. GQN, fiziksel senaryolardan kompakt ve güvenilir temsilleri öğrenmenin yeni bir yolunu sunar. En önemli şey, önerilen yöntemin herhangi bir alana özgü mühendislik tasarımı veya zaman alan içerik ek açıklaması gerektirmemesidir, bu nedenle aynı model birçok farklı ortamda kullanılabilir. Ayrıca, sahne için yeni bir perspektiften doğru görüntüler oluşturabilen güçlü bir sinir ağı oluşturucuyu da öğrendi.

Bununla birlikte, DeepMind ayrıca geleneksel bilgisayarla görme teknolojisine kıyasla, GQN'nin de birçok sınırlamayla karşılaştığını ve şu anda yalnızca oluşturulan sahnede eğitim almaya çalıştığını söyledi. Ancak, yeni verilerin edinilmesi ve donanımdaki yeni iyileştirmelerle birlikte, gelecekte GQN ağ çerçevesinin uygulamasını daha yüksek çözünürlük ve gerçek senaryolarda inceleyebileceklerini umuyorlar. Takip araştırmasında, GQN'nin daha fazla sahne anlayışına nasıl uygulanacağının incelenmesi de önemli bir konudur.Örneğin, zaman ve mekan hakkında sorular sorarak, model bazı fiziksel ilkeleri ve ortak hareket duygusunu öğrenebilir; GQN, sanal gerçeklik ve artırılmış gerçeklikte kullanılır. Çin'de de uygulanacak fırsatlar var.

Bu yöntem, pratik uygulamadan hala çok uzak olsa da, DeepMind bunun tam otomatik sahne anlama hedefine doğru önemli bir adım olduğuna inanıyor.

Kağıt adresi (Bilim sürümü):

Kağıt adresi (Açık Erişim sürümü): https://deepmind.com/documents/211/Neural_Scene_Representation_and_Rendering_preprint.pdf

DeepMind Blog, AI teknolojisi inceleme derlemesi aracılığıyla

CCF-GAIR 2018 yakında geliyor,

AI Technology Review avantajlar sağladı!

Üniversite öğrencileri için birkaç ücretsiz bilet sağlayacağız. "Orijinali oku" bağlantısını doldurmanız ve formu göndermeniz yeterlidir; 3999 yuan değerinde bir CCF-GAIR 2018 bileti alma fırsatına sahip olacaksınız.

(Not: Lütfen formdaki doğru WeChat kimliğini doldurun. İnceleme geçildikten sonra personel WeChat aracılığıyla sizinle iletişime geçecek ve bilet düzenleyecektir)

Ücretsiz Bilet Bildirimi

Aksi belirtilmedikçe, ücretsiz bilete konaklama ve diğer hizmetleri değil, üç günlük öğle yemeği dahildir;

Etkinliği açıklama hakkı Leifeng.com AI Technology Review'e aittir

Son Başvuru Tarihi: 26 Haziran 24:00

29 Haziran'dan 1 Temmuz'a kadar Shenzhen'de görüşmek üzere!

O, Zhao Benshan'ın çırağı ama Zhao Benshan'ın çırağının yolunu takip etmiyor. Ünlüler ona yüz veriyor!
önceki
Shenzhen Airlines Uygulaması WeChat'i ele geçirdi; Apple News lansmanının ilk gününde çeşitli çökmeler yaşadı; Huawei P30 "teleskop telefonu" resmi olarak yayınlandı | Lei Feng Morning Post
Sonraki
Sony bir basın toplantısı düzenleyeceğini duyurdu: Xperia XA3 / XA3 Ultra, CES 2019'da görücüye çıkıyor
Müziğe odaklanan Kugou canlı yayını, geleneksel yıldız yapım modelini "Şarkıcı Gelişimi" çapası aracılığıyla yıkabilir mi?
Carlos Yumuşak Dekorasyon Shiyou Parke Yeni Dekorasyon Açılışı ve Bahar Tomurcuğu Planı Resmi Olarak Yelken Açtı
Chow Yun-fat'ın önünde Andy Lau sadece küçük bir erkek kardeş olabilir mi? Bu dört filme bak ve anlayacaksın
Konferans CCF-GAIR 2018 Akıllı Güvenlik Özelinde kimler yer alacak? İç hikaye
Fransa'dan ve dünyadan. Total markasını bilmenizi sağlayın
İNSAN YAPIMI yıl sonunda öne çıkan etkinlik! 2017 sonbahar ve kış serisini getirmek için STUDIO SEVEN ile el ele!
Ekran altı kazma teknolojisini kullanan Motorola P40 görüntülemeleri, arka 4800 W kamera
Inanılmaz! Huawei, 112 DXO puanı ve yaklaşık 10.000 fiyatıyla tarihteki en iyi kameralı telefonu piyasaya sürdü.
Banan District'in kampüs dışı eğitim kuruluşu "beyaz liste", çocuğunuzun okulunun listede olup olmadığını duyurdu
Sonunda yanma problemini çözdünüz mü? Yabancı medya: Pixel 3 XL en iyi cep telefonu ekran ödülünü kazandı
Andy Lau ayrıca dört göksel kralın birbirini oynadığı ve sadece birinin dört kralın bir araya geldiği bir filmde yardımcı bir roldü.
To Top