DeepMind AI ilişkisel akıl yürütme, insanları geride bırakıyor: tak ve çalıştır derin sinir ağı modülleri

Xinzhiyuan Derlemesi

Araştırma 1: İlkel görsel gözlemlerden gerçek fiziksel mekanizmaları öğrenmek için genel bir model olan görsel etkileşimli ağ VIN

Önce "Görsel Etkileşim Ağları" na bakın.

DeepMind'in resmi bloguna göre, ilişkisel muhakemeyi anlamada kilit faktör, gelecekte gerçek bir senaryoda ne olacağını tahmin etmektir.

Bir bakışta, insanlar yalnızca nesnenin önümüzdeki birkaç saniye, dakika veya daha uzun bir süre içinde nerede olacağını anlamakla kalmaz, aynı zamanda daha sonra ne olacağını da tahmin edebilir.

Örneğin, bir duvara bir topa vurmak, beyin topun duvara çarpacağını ve topun bir sonraki yönünü ve duvara çarpacağını tahmin edebilir: top, geliş açısına ve hıza göre zıplar ve duvar hala orada olmalıdır.

Bu tahminler basit olsa da, hepsi karmaşık bir bilişsel sistem tarafından yönlendirilir.

Sonuç olarak, DeepMind'in ilgili araştırmacıları, beynin çıkarım sistemini basitçe simüle edebilen "Görsel Etkileşim Ağı" (VIN) geliştirdiler.

VIN, birkaç ardışık video karesine dayalı olarak yukarıdaki birden çok nesnenin sonraki konumunu çıkarabilir (çıkarabilir).

Bu, üretken modelden farklıdır Üretken modelin sonucu görsel olarak "hayal edilir", VIN ise nesneler arasındaki temel ilişkinin evrimine dayalı olarak çıkarılır.

Solda temel gerçek ve sağda VIN'in tahmini var. Yaklaşık 150 ardışık video karesinde, VIN çok yakın bir simülasyon verdi ve bundan sonraki tahmin sonuçları çıplak gözle makul görünüyor. Kaynak: deepmind.com

VIN iki ana mekanizmadan oluşur: bir görme modülü ve bir fiziksel muhakeme modülü (fiziksel muhakeme modülü). Birleştirildiğinde, VIN'in iki modülü görsel bir sahneyi işleyebilir ve gerçek fiziksel yasada her farklı nesneye ne olacağını tahmin edebilir.

DeepMind araştırmacıları, VIN'i zıplayan bilardo topları, yaylarla birbirine bağlanan kütle gövdeleri ve gezegensel yerçekimi sistemleri gibi çeşitli farklı ortamlarda test etti. Sonuçlar, VIN'in gelecekte bir nesneye ne olacağını yüzlerce adımda (yüzlerce adımda) doğru bir şekilde tahmin edebileceğini göstermektedir.

  • Bildiri: Görsel Etkileşimli Ağ

Yazar, soyut olarak, insanların bir bakışta bir dizi farklı fiziksel sistemin gelecekteki durumu hakkında çeşitli tahminlerde bulunabileceğini yazdı. Öte yandan, mühendislik, robotik ve grafikteki modern yöntemler genellikle dar alanlarla sınırlıdır ve temeldeki durumun doğrudan ölçülmesini gerektirir.

Önerdik Görsel Etkileşim Ağı (VIN), fiziksel sistemlerin dinamik mekanizmasını ilkel görsel gözlemlerden öğrenmek için genel bir model .

VIN, evrişimli bir sinir ağına (a, yukarıya bakın) dayalı bir algısal ön uçtan ve etkileşimli bir ağa (b, aşağıya bakınız) dayalı bir dinamik tahmin ediciden oluşur. Ortak eğitim yoluyla, algısal ön uç dinamik görsel sahneleri bir dizi özel nesne temsiline dönüştürmeyi öğrendi. Dinamik tahminci, nesneler arasındaki etkileşimi ve mekanik ilişkileri hesaplayarak bu durumları ilerletmeyi öğrenir ve böylece herhangi bir uzunlukta tahmini bir fiziksel yörünge oluşturur.

Yazar, yalnızca 6 kare giriş videosu ile, VIN'in çeşitli fiziksel sistemlerde yüzlerce zaman adımının tahmini yörüngelerini oluşturabildiğini ve bu yörüngelerin doğru olduğunu buldu.

VIN, görünür nesnelere dayalı olarak görünmez nesnelerin gelecekteki durumunu tahmin etmek ve dolayısıyla bilinmeyen nesnelerin kalitesini örtük olarak çıkarmak için nesnelerin görünmediği sahnelere de uygulanabilir. Araştırma sonuçları, algı modülü tarafından sunulan nesne temsilinin ve nesne dinamik mekanizmasına dayalı tahmin modülünün doğru dinamik tahminler yapabildiğini göstermektedir. Bu çalışma, karmaşık bir fiziksel ortamda ilkel duyusal gözlemlerin girdisine dayalı model tabanlı karar verme ve planlama için yeni fırsatlar sunuyor.

VIN mimarisinin şematik diyagramı

Araştırma 2: İlişkisel muhakeme yeteneği RN ile modüler, derin sinir ağı mimarisi

"İlişkisel Akıl Yürütme İçin Basit Sinir Ağı Modülü" ne bakalım.

Yazarın özeti, ilişkisel muhakemenin (İlişkisel Rezonans) genel akıllı davranışın temel bir bileşeni olduğunu belirtir, ancak önceki çalışmalar, zor sinir ağlarının ilişkisel akıl yürütmeyi öğrenmenin zor olduğunu kanıtlamıştır. Bu makalede, ilişkisel muhakemeye dayanan sorunları temelde çözmek için Relation Network'ün (RN) basit bir tak ve çalıştır modülü olarak nasıl kullanılacağını açıklıyoruz.

RN ile geliştirilmiş ağı 3 görevde test ettik:

  • Görsel soruları cevaplamak için zorlu bir veri seti olan CLEVR'yi kullanarak mevcut en iyi sonuçları elde etti ve insan seviyesini aştı;

  • Metin tabanlı soru ve cevap için bAbI görevlerini kullanın;

  • Dinamik fiziksel sistemler hakkında karmaşık akıl yürütme.

  • Daha sonra, CLEVR'ye benzer bir tür CLEVR veri kümesini özel olarak sıraladık ve bu veri kümesinde, evrişimli sinir ağının ilişkisel sorunları çözmek için genel yeteneğe sahip olmadığını, ancak onu geliştirmek için RN'yi kullandıktan sonra gösterdik. İlişkisel akıl yürütme becerisi kazanabilir.

    Çalışmamız, RN modülleriyle donatılmış bir derin öğrenme mimarisinin, varlıklar ve bunların ilişkileri hakkında nasıl dolaylı olarak akıl yürütmeyi nasıl keşfedip öğrenebileceğini gösteriyor.

    3 farklı standart test, CLEVR veri seti ilişkisel muhakeme yeteneği insanları geride bırakıyor

    Görev 1: Sort-of-CLEVR veri kümesi

    Hipotezimizi keşfetmek için, RN mimarisi, genel ilişkisel muhakemeyi gerçekleştirmede daha standart sinir ağı mimarisinden daha iyidir. CLEVR'ye benzer, "Sort-of-CLEVR" adı verilen bir veri kümesi oluşturduk.

    Oort-of-CLEVR veri kümesinin ana özelliği, ilgili ve ilgisiz konuları ayırt etmektir. Veri seti, 2D renkli görüntülerden ve görüntü ile ilgili sorular ve cevaplardan oluşur. Her bir görüntüde, her biri rastgele seçilen bir şekle (kare veya daire) sahip 6 nesne vardır. Yazar, her bir nesneyi tanımlamak için 6 renk (kırmızı, mavi, yeşil, turuncu, sarı, gri) kullanıyor.

    Karmaşık doğal dil işlemeyi önlemek için, sorun elle kodlama ile belirlenir. Ek olarak, görüntüler açısından veri seti, görüntü işlemenin karmaşıklığını azaltmak için de basitleştirilmiştir.

    Her görüntünün 10 ilişkisel sorusu ve 10 ilişkisel olmayan sorusu vardır. Örneğin, ilişkisel soru şudur: "Gri nesneden en uzak nesnenin şekli nedir?" "Yeşil nesneyle aynı şekle sahip kaç nesne var?" İlişkisel olmayan soruların örnekleri şunlardır: "Gri nesnenin şekli nedir?" Ve "Sahnenin üstünde veya altında mavi nesneler var mı?"

    CLEVER veri kümesi görüntü anlama problemlerine örnekler

    Görev 2: bAbl soru ve cevap veri seti

    bAbI, düz metinli bir KG veri kümesidir. Bunların arasında 20 görev vardır ve her görev, kesinti, tümevarım veya sayma gibi belirli bir akıl yürütme türüne karşılık gelir. Her soru bir dizi destekleyici gerçekle ilgilidir. Örneğin, "Sandra bir futbol topu aldı" ve "Sandra ofise gitti" "futbol nerede" sorusunu desteklemektedir (cevap: "ofis").

    Bir görevi tamamlamanın doğruluğu% 95'i aşarsa, model başarılı kabul edilir.

    Birçok bellek artırılmış sinir ağı, bAbI üzerinde iyi sonuçlar elde etti. Her görev ortak eğitim için 10K örnek kullandığında, bellek ağı puanı 14/20, DeepMind DNC 18/20, seyrek DNC 19/20 ve EntNet 16 / 20'dir.

    Görsel QA probleminin şematik diyagramı

    Test sonucu, RN verilerinin 18/20 olduğunu göstermektedir.

    Görev 3: Dinamik fiziksel sistemlerin karmaşık muhakemesi

    Yay kütlelerini bağlama sistemini simüle eden bir veri seti geliştirmek için MuJoCo fizik motorunu kullandık. Her sahne, masaüstünde hareket eden 10 renkli top içerir. Bazı toplar bağımsız hareket eder ve diğer toplar ve bariyer duvarlarıyla serbestçe çarpışır. Rastgele seçilen diğer bilyelerin görünmez yayları veya sabit kuvvet bağlantıları vardır.

    Bu toplar arasında rastgele seçilen bağlantıların tanıtılması, sürekli değişen bir fiziksel sistem oluşturur. Yazar, yalnızca topların rengini ve karşılık gelen koordinat konumlarını birbirini izleyen birden çok çerçevede gözlemleyerek iki bağımsız görev tanımladı: 1) toplar arasındaki bağlantının varlığını veya yokluğunu ve 2) masaüstünde kaç "sistem" olduğunu tahmin edin "(Toplar ve düğümler dahil).

    Her iki görev de topun göreceli konumu ve hızı hakkında akıl yürütmeyi içerir. Aradaki fark, ilk görevin çıkarımının net olması, ikinci görevin ise çıkarımın örtük ve daha zor olmasını gerektirmesidir.

    Etkili bir şekilde dağıtın ve farklı yapılara sahip sinir ağlarının avantajlarından yararlanın

    Makale, varlıklar arasındaki ilişkiyi daha geniş bir derin öğrenme mimarisine hesaplamak için kullanılan özel modül RN'nin nasıl uygulanacağını ve böylelikle ikincisinin ilişkisel akıl yürütmeyle ilgili görevleri tamamlama yeteneğini büyük ölçüde geliştireceğini göstermektedir.

    Makalede önerilen modüler yapı RN, insan düzeyini aşan CLEVR veri setinde% 95,5 doğruluğa ulaşmıştır. BAbI sonuçları ayrıca, RN'nin genel muhakeme yeteneklerine sahip olduğunu, 18/20 görevleri çözdüğünü ve yıkıcı arızaların olmadığını göstermektedir.

    Yazar, yazıda, çalışmanın en ilginç yönlerinden birinin, CLEVR sonucunu% 68.5'ten% 95.5'e yükseltmek ve mevcut en iyiyi elde etmek için RN modülünü nispeten basit CNN tabanlı ve LSTM tabanlı VQA mimarisine eklemek olduğunu yazdı. Mükemmel, insanoğlunun ötesinde bir düzeydir.

    Yazar, RN'nin daha esnek bir akıl yürütme mekanizması sağladığını ve ilişkisel akıl yürütme için RN ile CNN, yerel uzamsal yapı verilerini işlemeye daha fazla odaklandığını ve böylece genel performansta önemli bir artış sağladığını düşünüyor.

    Yazar, hesaplama sürecinde "işleme" ve "muhakeme" arasında ayrım yapmanın önemli olduğunu yazmaktadır. Örneğin, ResNet gibi güçlü bir derin öğrenme mimarisi, bir görüntü işlemcisi olarak çok etkilidir, ancak keyfi ilişkiler hakkında muhakeme yapmak için en uygun seçim olmayabilir.

    Çalışmalarının önemli bir katkısı, RN'nin nesneler için bir dizi yararlı temsil sağlamayı öğrenerek yukarı akış işleme görevlerini teşvik edebilmesidir.

    Girdi verilerinin ve amaç fonksiyonunun, dahili nesne temsilinin belirli bir biçimini veya anlamını belirtmediği unutulmamalıdır. Bu, RN'nin yapılandırılmamış girdi ve çıktılarla bile zengin yapılandırılmış muhakeme yeteneklerine sahip olduğunu gösterir.

    Yazarlar, yeni önerilen İlişkisel Ağ (RN) modülünün, karmaşık gerçek dünyada çeşitli farklı ve yapılandırılmış akıl yürütme görevlerini gerçekleştirmeyi öğrenmek için derin sinir ağları için basit ve güçlü bir yöntem olduğuna inanıyorlar.

    Derin sinir ağları dünyanın doğasını anlamada güçlü yeteneklere sahiptir

    DeepMindın arXiv web sitesine yüklenen en son iki makalesi, dünyayı yeniden yapılandırmada sinir ağlarının gücünü gösteriyor.

    Sinir ağları, dünyayı nesnelerden oluşan bir sisteme ve bu sistemler arasındaki ve içindeki ilişkilere parçalayabilir ve bu temelde genelleme yaparak sahne ve içindeki nesneler hakkında yeni çıkarımlar üretebilir. İlk bakışta Çok farklı görünüyorlar ama özünde ortak bir yönleri var.

    DeepMind blogu nihayet, makalede önerilen yeni yöntemlerin ölçeklenebilir olduğuna, daha fazla göreve uygulanabileceğine, daha karmaşık modeller oluşturabileceğine ve insanın güçlü ve esnek zekasının temel bağlantısını daha iyi anlayabileceğine inandıklarını yazdı. - mantık.

    • "Görsel Etkileşimli Ağ" belgesi: https://arxiv.org/pdf/1706.01433.pdf

    • "Simple Fact Relational Reasoning Module" belgesi: https://arxiv.org/pdf/1706.01427.pdf

    Dünya futbolunun üç büyük gizeminin neşesi İbrahimovic sevecen, Eto'o çaresiz, Messi suskun!
    önceki
    Geniş alan + güçlü motivasyon + iyi itibar! Bu SUV'lar sadece 100.000'e gidebilir!
    Sonraki
    Mi Meng Fan Deng: Kullanıcı yönlendirmesi nasıl kolaylaştırılır? Bu 4 duygudan başlayarak
    ŞiirYılları yavaş pişirmek, yaşlılıktan korkmamak
    Önümüzdeki yıl büyük bir gişe rekorları kıran yeni otomobiller dalgası piyasaya sürülecek, sedanlar, SUV'lar ve MPV'ler parlak!
    Önce balayı, sonra evlen
    Pekin Jiaotong Üniversitesi "üzüntüyle" konuşuyor! Üniversite laboratuvarlarının güvenliği herkesin ilgisini hak ediyor ...
    Çin ve Rusya gibi ülkeler büyük miktarlarda altın satın alıyor ve bazı ülkeler altın rezervlerini kısalttı, neden?
    Suzhou'da sabahın erken saatleri bir kase erişte ile başlar
    Otomobil pazarı durgun, neden bu otomobil şirketleri satışlarını yıldan yıla artırabiliyor? Butik satış konusunda endişelenmiyor
    Luo Zhenyu: Uygulamanın neden çıkabileceğinin temelini oluşturan 4 şifreyi alın
    Futbolun üç gerçek biyografisi: Harvey'in kısa geçişi, Beckham'ın uzun geçişi, Scholes'in çapraz uzun geçişi!
    Araba hala hız yapıyordu ve Didi sessizce öldü, sorumluluğu kim üstlenecek?
    Merhaba Kasım! Dünya çok büyük, git şimdi gör!
    To Top