g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Berkeley: Modüler Sinir Ağı Öğrenme Karmaşık Akıl Yürütme (Makaleyi İndir)

Xinzhiyuan Derlemesi

Xinzhiyuan'ın WeChat resmi hesabını açın ve ilgili 3 makaleyi indirmek için doğrudan [NMN] veya [Neural Module Network] 'e yanıt verin

Bir ev robotu olmak istediğimizi ve çevredeki ortamla ilgili soruları yanıtlayabileceğini umduğumuzu varsayalım. Ona şöyle sorular sorabiliriz:

Sol: Bu nedir? Sağ: Resimdeki mavi silindir ile aynı boyuttaki nesne hangi renkte?

Robotun bu sorulara doğru cevap vermesini nasıl sağlayabiliriz? Derin öğrenmenin standart yöntemi, çok sayıda soru, görüntü ve yanıt veri setini toplamak ve ardından soruları ve grafikleri yanıtlarla doğrudan eşleştirmek için bir sinir ağını eğitmektir. Sorunların çoğu soldaki soruna benziyorsa, o zaman tanıdık görüntü tanıma sorununu çözmemiz gerekir.Bu tür bütünsel yöntem oldukça etkilidir:

Soruyu cevaplayın: bu nedir?

Ancak sağdaki sorun türü için o kadar basit değil:

Soruyu cevaplayın: Mavi silindirle aynı boyutta bir nesne hangi renktir?

Burada eğittiğimiz ağ tedaviyi bıraktı ve tahmin olarak resimdeki en çok rengi (mavi) kullanıyor. Bu problem neden bu kadar zor? Görsellerimiz daha net ve öz olsa bile, bu sorun yine de birkaç adım gerektiriyor muhakeme : Bu basit bir görüntüdeki ana nesneyi tanımlama sorunu değildir.Model önce mavi bir silindir bulmalı, sonra aynı boyutta başka bir nesne bulmalı ve sonra bu nesnenin rengini belirlemelidir. Bu karmaşık bir hesaplamadır ve sorulan belirli soru için özel bir hesaplamadır. Farklı problemlerin çözülmesi için farklı adımlar gerekir.

Derin öğrenmedeki ana akım paradigma "herkese uyan tek boyut" yaklaşımıdır: Çözmek istediğimiz herhangi bir sorun için, girdi ve çıktı arasındaki ilişkiyle ilgili her şeyi yakalayabileceğini ve asla yorum yapmayacağını umarak sabit bir model mimarisi yazacağız. Eğitim verileri, sabit model öğrenme parametreleridir.

Ancak gerçek dünyada akıl yürütme bu şekilde çalışamaz: Dış dünyada karşılaştığımız her yeni zorlukla harmanlanan çeşitli farklı yetenekleri içerir. Operasyon sırasında kendi yapısını seçebilen bir ağın üzerinde ortaya çıkan sorunların nasıl mantıklı olacağını dinamik olarak belirleyebilen bir modele ihtiyacımız var. Bu yazıda, adlı bir sınıfı tartışacağız. Sinirsel modül ağları (NMN'ler) Derin öğrenmenin güçlü faydasını korurken, bu daha esnek yöntemi çözüme dahil edebilen model.

Daha önce de belirtildiği gibi, yukarıdaki soruları yanıtlamanın 3 farklı adımı vardır: mavi bir silindir bulun, aynı boyuttaki diğer nesneleri bulun ve bu nesnenin rengini belirleyin. Bu süreç aşağıdaki diyagramla gösterilebilir:

Sorun değiştiğinde, bir dizi farklı adıma yol açabilir. Örneğin, "Resimdeki topla aynı büyüklükte kaç tane nesne var?" Diye sorarsak, adımlar şöyle olur:

"Boyutu karşılaştır" gibi temel işlemler, farklı sorunlarda ancak farklı şekillerde paylaşılır. NMN'nin ana fikri, bu paylaşımı açık hale getirmektir: yukarıdaki iki soruyu cevaplamak için iki farklı ağ yapısı kullanıyoruz, ancak aynı temel işlemleri içeren iki ağın ağırlıkları paylaşılıyor.

Peki böyle bir model nasıl öğrenilir? Aslında çok sayıda farklı ağı aynı anda eğitiyor ve tek bir ağı çok sayıda giriş / çıkış çifti üzerinde eğitmek yerine, uygun olduğunda parametrelerini birleştirmeye çalışıyoruz.

Şekil: DyNet ve TensorFlow Fold dahil bazı yeni derin öğrenme mimarileri, bu dinamik hesaplama yöntemiyle tasarlanmıştır.

Bu eğitim süreci bittikten sonra, elde ettiğimiz şey tek bir derin ağ değil, her biri bir çıkarım adımı uygulayan sinirsel "modüller" koleksiyonudur. Eğitilmiş modeli yeni bir problem üzerinde kullanmak istediğimizde, bu modülleri dinamik olarak birleştirerek problem için yeni bir ağ yapısı oluşturabiliriz.

Bu süreçte tek bir modül için düşük seviyeli denetim sağlamamıza gerek olmadığını belirtmekte fayda var: model "mavi nesneler" veya "sol taraf" ilişkilerini izole örnekler olarak almayacaktır. Modül yalnızca daha büyük kombinasyonun yapısında öğrenir ve yalnızca (soru, cevap) çifti denetim olarak kullanılır. Ancak eğitim süreci, yapıdaki bileşenler ve sorumlu olduğu hesaplamalar arasındaki doğru ilişkiyi otomatik olarak çıkarabilir:

Soru: Mavi silindir, kırmızı metal bloğun sağ tarafındaki büyük olanla aynı malzeme mi?

Aynı süreç, veritabanları gibi diğer bilgi kaynakları için bile daha gerçekçi fotoğraflar hakkında yanıtlar için de işe yarar:

Soru: Yatağın ayağının arkasında ne var? Florida'da hangi plajlar var?

Bu sürecin temel unsurları yukarıda açıklandığı gibidir "Çıkarım planları" koleksiyonu . Bu taslaklar bize her sorunun ağının nasıl ortaya konması gerektiğini ve farklı sorunların birbiriyle nasıl ilişkili olduğunu söyleyebilir. Peki bu planlar nereden geldi?

Bu modeller üzerinde yapılan ön çalışmalarda, soruya özgü sinir ağı tasarım problemi ile dilbilgisel yapı analizi problemi arasında şaşırtıcı bir ilişki olduğunu bulduk. Dilbilimciler uzun zamandır bir sorunun gramerinin soruyu cevaplamak için gereken hesaplama adımlarının sırası ile yakından ilişkili olduğunu keşfettiler. Doğal dil işlemedeki son gelişmeler sayesinde, bu planların benzer sürümlerini otomatik olarak sağlamak için kullanıma hazır ayrıştırma araçlarını kullanabildik.

Bununla birlikte, dil yapısından ağ yapısına doğru eşleştirme hala zorlu bir sorundur ve dönüştürme işlemi hatalara meyillidir. Daha sonraki araştırmalarda, artık bu dilbilimsel analize güvenmiyoruz, ancak idealize edilmiş akıl yürütme planları ile bir dizi soruyu doğrudan açıklama yapan insan uzmanlar tarafından oluşturulan verileri kullanıyoruz. Bu insan yöntemlerini taklit etmeyi öğrenerek, modelimiz tahminlerin kalitesini büyük ölçüde artırabilir. Daha şaşırtıcı olan ise, insan uzmanları taklit eden ve modelin bu uzmanların tahminlerinde kendi modifikasyonlarını yapmasına izin veren bir modelde eğitim aldığımızda, birçok soruna uzmanlardan daha iyi çözümler bulabilmesidir.

Derin öğrenme yöntemleri son yıllarda pek çok önemli başarıya sahip olmasına rağmen, hala birçok zorluk var. az vuruşlu öğrenme ve karmaşık akıl yürütme . Ancak bu sorular, anlamsal çözümleme ve program indüksiyonu gibi daha yapılandırılmış klasik tekniklerin gerçekten işe yaradığı yerdir. Nöral Modül Ağları (NMN), bu iki zorlukta avantajlara sahiptir: ayrık kombinasyonların esnekliği ve veri kullanılabilirliği ve derin ağların yeteneği. NMN birçok görsel ve metinsel muhakeme görevinde başarılı olmuştur ve biz bunu diğer AI problemlerine uygulamayı dört gözle bekliyoruz.

Bu makale aşağıdaki makalelere dayanmaktadır (Xinzhiyuan WeChat genel hesabını açın ve kağıdı indirmek için doğrudan [NMN] veya [Neural Module Network] 'e yanıt verin):

Sinir Modülü Ağları. Jacob Andreas, Marcus Rohrbach, Trevor Darrell ve Dan Klein. CVPR 2016. (arXiv)
Soru Cevaplama için Sinir Ağları Oluşturmayı Öğrenmek Jacob Andreas, Marcus Rohrbach, Trevor Darrell ve Dan Klein. NAACL 2016. (arXiv)
Kompozisyonel Modüler Ağlarla Referans İfadelerde İlişkileri Modelleme. Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell ve Kate Saenko. CVPR 2017. (arXiv)

Yazar: Jacob Andreas

İşbirliği yazarı: Ronghang Hu, Marcus Rohrbach, Trevor Darrell, Dan Klein ve Kate Saenko

Sadece yemek için bir kez gitmesi gereken 10 şehir!

uyarmak! Müşteri hizmetleri talepleri çözmek için inisiyatif alıyor mu? Bu bir aldatmaca olabilir! Birisi binlerce doları aldattı!