Berkeley AI Lab blogu ilk makaleyi yayınlıyor: Dinamik akıl yürütmeyi gerçekleştirmek için sinir ağının modülü kendi başına seçmesine izin verin

Derin sinir ağları görüntüde, konuşmada, robotikte vb. Büyük başarılar elde etse de, bu başarılar genellikle tanıma görevleri veya üretme görevleri ile sınırlıdır Çıkarım görevleri için, geleneksel sinir ağları genellikle güçsüzdür. Berkeley AI Lab kısa süre önce bir blog açtı. Blogun ilk makalesi, çıkarım görevleri için bir sinir modülü ağı önerdi. Çıkarım görevi, birden çok sinir ağı modülünü eğiterek tamamlandı.Her sinir ağı modülü bir çıkarım adımından sorumludur. Muhakeme görevleri için, bu modüller farklı sorunlar için yeni ağ yapıları oluşturmak üzere dinamik olarak birleştirilir.

Bu makalenin yazarı Jacob Andreas Lei Feng.com, Berkeley NLP'nin dördüncü sınıf doktora öğrencisi ve BAIR laboratuvarının bir üyesi olduğunu öğrendi. Kişisel ana sayfasındaki giriş, "Bilgisayarlara okumayı öğretmeyi umuyorum" yazıyor ve araştırma yönergeleri arasında makine öğrenimi modelleri ve yapılandırılmış sinir ağı yöntemleri yer alıyor. Aynı zamanda, yüksek bir makale üreticisidir.Sadece bu yıl, birçok makale ICML, ACL, CVPR gibi ana akım uluslararası üst düzey akademik konferanslara seçildi. Leifeng.com ilk makalesini çevirdi, tam metni şöyle:

Sorunun tanıtımı

Yerli bir robot yaptığımızı varsayalım ve çevredeki çevreyle ilgili soruları cevaplayabileceğini umuyoruz. Ona şu soruları sorabiliriz:

Robotun bu soruları doğru yanıtlayabilmesi nasıl sağlanır? Derin öğrenmenin standart yöntemi, bir veri seti olarak çok sayıda soru, görüntü ve cevap toplamak ve tek bir sinir ağını doğrudan sorulardan ve görüntülerden cevaplara eşlemek için eğitmektir. Sorunların çoğu soldaki soruna benziyorsa, benzer görüntü tanıma sorunlarına zaten çözümlerimiz var.Bu tek yöntemler çok etkilidir:

Ancak sağdaki sorun için, bu tek sinir ağının çalışması zordur:

Burada eğitilen tek ağ terk edildi ve tahmin, görüntüdeki en yaygın rengi veriyor. Bu sorunu öncekinden daha zor kılan nedir? Görüntü daha net ve öz olsa bile, bu sorun yine de birçok çıkarım adımı gerektirir: model, görüntüdeki ana nesneyi basitçe tanımlamak yerine önce mavi bir silindir bulmalı, aynı boyutta başka bir nesne bulmalı ve ardından rengini belirlemelidir. Bu karmaşık bir hesaplamadır ve hesaplamanın karmaşıklığı, sorulan soruyla yakından ilgilidir. Farklı problemlerin çözülmesi için farklı adımlar gerekir.

Derin öğrenmedeki ana akım paradigma "herkese uyan tek boyut" yaklaşımıdır: Çözülmesi gereken herhangi bir sorun için, girdi ve çıktı arasındaki tüm ilişkileri yakalamayı umarak sabit bir model mimarisi tasarlayın ve kalibre edilmiş eğitim verileriyle modeli öğrenin Çeşitli parametreler.

Ancak gerçek dünya muhakemesi bu şekilde çalışmaz: Gerçek dünyada karşılaştığımız her yeni zorluğu çözmek için yeni yollarla birleştirilen çeşitli farklı yetenekleri içerir. İhtiyacımız olan şey, problemleri daha önce nasıl akıl yürüteceğini dinamik olarak belirleyebilen bir model - kendi yapısını seçebilen bir ağ. Bu soruna yanıt olarak, Berkeley AI Lab araştırmacıları, bu daha esnek çözümü problem çözme sürecine entegre ederken, aynı zamanda koruyan Neural Module Network (NMN) adlı bir model önerdi. Derin öğrenmenin etkili özellikleri.

Nasıl çözülür

Yukarıda bahsedilen akıl yürütme problemi üç farklı adımı içerir: aynı boyuttaki diğer nesneleri bulmak için mavi bir silindir bulun ve rengini belirleyin. Muhakeme sürecine göre aşağıdaki şekil çizilebilir:

Farklı bir soru, farklı adımlar içerebilir. Soru "topla aynı büyüklükte kaç şeydir?" İse, aşağıdaki akıl yürütme adımlarını alabilirsiniz:

"Boyut karşılaştırma" gibi bazı temel işlemler farklı problemlerde paylaşılır, ancak farklı şekillerde kullanılabilirler. MNM'nin temel fikri, bu tür paylaşımı netleştirmektir: yukarıdaki iki soruyu yanıtlamak için iki farklı ağ yapısı kullanın, ancak aynı temel işlemleri içeren ağlar arasında ağırlıkları paylaşın.

Böyle yeni bir ağ yapısı nasıl öğrenilir? Aslında, araştırmacılar tek bir büyük ağı birçok giriş / çıkış çifti aracılığıyla eğitmek yerine, parametreleri uygun olduğunda birbirine bağlayarak aynı anda çok sayıda farklı ağı eğitirler.

Yukarıdaki resim, DyNet ve TensorFlow Fold dahil olmak üzere birkaç yaygın derin öğrenme ağ yapısını göstermektedir.Bunları dinamik olarak birleştirerek, farklı çıkarım görevleri tamamlanabilir.

Eğitim sürecinin sonunda elde edilen tek bir derin ağ değil, her biri bir çıkarım adımı uygulayan sinirsel "modüller" koleksiyonudur. Eğitilmiş modeli yeni bir problem örneğinde kullanmak istediklerinde, araştırmacılar problem için yeni bir ağ yapısı oluşturmak için bu modülleri dinamik olarak birleştirebilirler.

Bu süreçle ilgili kayda değer bir şey, eğitim sürecinde tek bir modül için herhangi bir düşük seviyeli denetim sağlamaya gerek olmamasıdır: model hiçbir zaman mavi nesneleri veya "sol el" ilişkilerinin izole edilmiş örneklerini görmez ve modüller yalnızca daha büyük olanlarda kullanılabilir. Birleşik yapı öğrenmede, denetim olarak yalnızca (soru, cevap) çiftleri kullanılır, ancak eğitim programı, yapısal bileşenler ile sorumlu oldukları hesaplamalar arasındaki doğru ilişkiyi otomatik olarak çıkarabilir:

Aynı süreç, gerçek resimler hakkındaki soruları ve hatta veritabanları gibi diğer bilgi kaynakları hakkındaki soruları da yanıtlayabilir:

Sorundan mantık yürütmek için bir plan nasıl alınır

Tüm bu sürecin ana unsuru, yukarıdaki gibi üst düzey "çıkarım planları" nın toplanmasıdır. Bu planlar bize her bir sorunun ağının nasıl ortaya konması gerektiğini ve farklı sorunların birbiriyle nasıl ilişkili olduğunu anlatır. Peki bu planlar nereden geldi?

Referans 1 ve 2'deki modellerin ön çalışmasında, araştırmacılar, belirli problemleri tasarlamak ve gramer yapısını analiz etmek için sinir ağı arasında şaşırtıcı bir bağlantı buldular. Dilbilimciler uzun zamandır bir sorunun dilbilgisinin, onu cevaplamak için gereken hesaplama adımlarının sırası ile yakından ilişkili olduğuna inanıyorlardı. Doğal dil işlemedeki son gelişmeler nedeniyle, bu planların yaklaşık sürümlerini otomatik olarak sağlamak için kullanıma hazır ayrıştırma araçları kullanılabilir.

Bununla birlikte, dil yapısından ağ yapısına doğru eşleştirme hala zorlu bir sorundur ve hatalar dönüştürme işleminde hatalara meyillidir. Daha sonraki çalışmalarda, araştırmacılar, dil analizine güvenmek yerine idealleştirilmiş akıl yürütme planları ile bir dizi soruyu doğrudan açıklama yapan insan uzmanlar tarafından üretilen verilere yöneldi. Bu insan uzmanlarını taklit etmeyi öğrenerek, model tahminlerin kalitesini büyük ölçüde artırabilir. En şaşırtıcı olan şey, eğitimli bir modeli uzmanları taklit etmek için kullanırken, ancak bu uzmanların tahminlerini değiştirmesine izin verirken, farklı sorunlara uzmanlardan daha iyi çözümler bulabilmesidir.

sonuç olarak

Derin öğrenme yöntemleri son yıllarda kayda değer bir başarı elde etmiş olsa da, az sayıdaki öğrenme ve karmaşık akıl yürütme gibi birçok sorun hala zorluk teşkil etmektedir. Bu problemler, anlamsal analiz ve program indüksiyonu gibi klasik yapılandırılmış yöntemlerin parladığı yerdir. Nöral modül ağı, hem klasik yapay zeka yöntemlerinin hem de derin öğrenme yöntemlerinin avantajlarını birleştirir: derin ağların temsil gücünü birleştirirken ayrık kombinasyon esnekliği ve veri verimliliği. NMN birçok görsel ve metinsel muhakeme görevinde başarılı olmuştur. Aynı zamanda, araştırmacılar bu yöntemi daha fazla AI görevine uygulamak için ellerinden gelenin en iyisini yapıyorlar.

Referanslar

  • Nöral Modül Ağları. Jacob Andreas, Marcus Rohrbach, Trevor Darrell ve Dan Klein. CVPR 2016. (arXiv)

  • Soru Cevaplama için Sinir Ağları Oluşturmayı Öğrenmek Jacob Andreas, Marcus Rohrbach, Trevor Darrell ve Dan Klein. NAACL 2016. (arXiv)

  • Kompozisyonel Modüler Ağlarla Referans İfadelerde İlişkileri Modelleme. Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell ve Kate Saenko. CVPR 2017. (arXiv)

  • berkeley.edu/blog/ aracılığıyla, Leifeng.com tarafından derlenmiştir

    Big S'nin doğum sonrası görünümünün zirvesi burada! Kız kardeşlerle yeni bir şov kaydetmek kız gibi duygularla dolu
    önceki
    "Blizzard Geliyor" yönetmeni Dong Yue Tokyo konuşuyor: İş veya sanat hakkında düşünmeyin, önemli olan anlatıdır
    Sonraki
    "Mükemmel blog yayını" coresight (sekiz) soc-400 kiti
    Huang Zhang'ın ana akım tam ekran çözümler hakkındaki yorumları: çift ekranlı kayar kapak yakın ve uzağa kalkıyor, ancak delikli ekranlar gereksinimleri karşılamıyor
    "Devil May Cry 5" devasa resmi yüksek çözünürlüklü ekran görüntüleri, Ding Amca gerçekten bir amca oldu
    Haha Çiftçi "Portre" Oluyor Wang Yuan Jia Nailiang, 100 jin yüküyle sendeliyor
    Yerli bir animatörün itirafı: Düşük okul animasyonu yapmak için haysiyet yoktur ve büyük animasyon özel efektler yapmak için yiyecek yoktur.
    Samsung S10 alt satırda: en güçlü OLED delikli ekran + ultrasonik ekran parmak izi + üçlü kamera, 5G desteği
    Tian Zhuangzhuang: Bu dönem çok garip
    Junshan: Bir nehrin berrak sularını koruyun ve güzel ve büyüleyici niteliklerini yeniden kazanın
    "Teknik Makale" MAX2235 Devre Kartı Yerleşimi Optimizasyon Teknolojisi
    "Forza Horizon 4" duyuruldu! Stage UK, mevsimsel değişikliklerle
    Ali Gekun ekibi derin bir ilgi ağı öneriyor ve kullanıcıların ne zaman ellerini keseceğini anlıyor
    Zanaatkar Faaliyetine Yardımcı Olan Refah Vakfı Beibei'ye Girdi, Chongqing Hafif Sanayi Okulu Mesleki Eğitim Öğrencilerine Hayal Fonu Gönderiyor
    To Top