Metin, ses ve videoyu bağlamak için MIT ve Google araştırmalarını "sentezlemek" için "sinir ağlarını etkinleştirin"

Sinir ağı, nöronlar arasındaki bağlantıları güçlendirerek, yani ağırlıkları ayarlayarak bir şeyler öğrenir. Bu aynı zamanda sinir ağının bir şey yapmayı öğrendiğinde, nöronlar arasındaki bağlantıların da sabitlendiği anlamına gelir.Bu nedenle, sinir ağı başka bir şey yapmayı öğrenirse, mevcut bağlantıları / ağırlıkları değiştirmesi gerekir ki bu oldukça Yu öğrendiklerini "unutmak" zorunda kaldı.

Bu fenomene yapay zeka araştırmacıları tarafından "felaketli unutma" adı verilmektedir. Bu yılın Mart ayında, AlphaGonun zaferinin birinci yıldönümünde DeepMind, sinir ağlarının yeni görevleri başarılı bir şekilde öğrenmesine izin verirken uyarlamalı öğrenmeyi önemli kılmak için denetimli öğrenme ve pekiştirmeli öğrenmeyi kullanarak PNAS'ta araştırma sonuçlarını yayınladı. Bir adım, felaketle sonuçlanan unutmanın aşılmaz bir sorun olmadığını da kanıtladı.

Spesifik olarak, o sırada DeepMind araştırmacıları, sinirbilim ilkelerinden yararlandılar ve memeli ve insan beyinlerinin önceki bilgileri pekiştirdiği teorisinden ilham aldılar ve sistemin oynamayı öğrenmesini sağlamak için "Elastik Ağırlık Konsolidasyonu" (EWC) yöntemini önerdiler. Bir oyundan sonra, daha önce öğrendiklerinizi unutmayın ve yeni oyunlar oynamayı öğrenmeye devam edin.

DeepMind araştırmacıları bu sonucu yayınlarken, çalışmalarının sinir ağlarının sıralı öğrenmeyi başarabildiğini kanıtladığını, ancak öğrenme verimliliğinde bir iyileşme olup olmadığı net olmadığını söylediler.

Birkaç gün önce, MIT ve Google'dan iki çalışma bunu bir adım daha ileri götürerek yapay zeka sistemlerinin aynı anda birden fazla görevi tamamlamasına izin verdi. Bunların arasında Google'ın araştırması, bireysel görevlerin tamamlanmasına karşılık gelen modüller ile ilgili öğrenme verimliliği arasındaki ilişkiyi de ortaya çıkardı. Yapay zeka sisteminin "evrensel" ve "çok yönlü" hareket etmesi için önemli bir temel attılar.

MIT Research: Sinir ağlarının "sentezleme" yeteneğine sahip olmasına izin verin

Google'ın Xinzhiyuan ile ilgili araştırması daha önce bildirilmişti, bu yüzden önce MIT'nin araştırmasına bakalım.

MIT çalışmasının ilk yazarı ve doktora sonrası araştırmacı olan Yusuf Aytar, QZ ile yaptığı bir röportajda, çalışmalarının anahtarının hizalama olduğunu söyledi.

Bu çalışmada, MIT araştırmacıları algoritmalarına yeni bir şey öğretmediler, ancak algoritmaların farklı kavram biçimlerini (ses, görüntü ve metin) birbirine bağlamasına izin veren bir yöntem yarattılar. Örneğin, bir futbol maçı için bir ses parçası girerseniz, sistem futbol oyunuyla ilgili başka bir ses parçasının yanı sıra futbol oynamaya ilişkin bir resim ve metin açıklaması verir.

Bu sistemi eğitmek için, MIT araştırmacıları önce sinir ağına sesle ilişkili videoyu gösterdi. Ağ, önce videodaki nesneleri sesteki seslerle ilişkilendirir ve ardından hangi nesnelerin hangi sesle ilgili olduğunu tahmin etmeye çalışır. Örneğin, dalga ne zaman ses çıkarır?

Daha sonra, araştırmacılar ağa benzer resimlerle görüntüleri besler ve algoritmanın metin açıklamalarını nesneler ve eylemlerle ilişkilendirmesine izin verir. Ağ önce resimdeki tüm nesneleri ve sesteki tüm ilgili kelimeleri tanır ve ardından kelimeleri nesnelerle ilişkilendirir.

Araştırmacılar, giriş sesine, çıktı görüntülerine ve metne ek olarak, bir Chihuahua'nın resmini girmek gibi başka deneyler de yaptılar ve algoritma, (diğer türlerde) köpek havlaması, diğer köpeklerin resimleri ve köpeklerin açıklamalarını içeren bir ses çıkarabilir. Metin.

MIT araştırmasının önemi, Ses ve görüntünün yanı sıra görüntü ve metin kullanarak eğitimden sonra, sistem, sistemin daha önce dokunmadığı ses ve metni eşleştirebilir. . Araştırmacılara göre bu, sistemin yalnızca eğitim sırasında karşılaşılan bilgilere dayanmak yerine, görülen, duyulan veya okunan bilgileri ilişkilendirebilme konusunda daha objektif bir fikir ürettiğini gösteriyor.

QZ ile yaptığı röportajda Aytar, "Sistem, onun bir hayvan olduğunu biliyor, zebraların bu sesi ürettiğini biliyor ve esasen bu bilginin modaliteler üzerinden iletildiğini biliyor." Bu tür varsayımlar algoritmayı mümkün kılıyor. Çeşitli kavramlar arasında yeni bağlantılar oluşturun ve dünya anlayışını güçlendirin.

Google Beyin Araştırması: Konuşma, resim ve metni "tümünü alan" bir derin öğrenme modeli

Belki de Google'ın araştırmasının daha önce Xin Zhiyuan tarafından "Hepsini Öğrenmek için Bir Model" (Hepsini Öğrenmek için Bir Model) tarafından bildirildiğini biliyorsunuzdur.

Google araştırmacıları, farklı alanlarda çeşitli farklı görevleri öğrenmek için tek bir derin öğrenme modeli kullanan MultiModel adlı çok modelli uygulanabilir bir mimari önerdi.

Özellikle, Google araştırmacıları MultiModel'i aynı anda aşağıdaki 8 görev için eğitiyor:

(1) WSJ Corpus

(2) ImageNet veri seti

(3) Veri seti oluşturmak için COCO diyagramı

(4) WSJ anlamsal analiz veri seti

(5) WMT İngilizce-Almanca Çeviri Corpus

(6) (5) 'in aksine: Almanca-İngilizce çeviri corpus

(7) WMT İngilizce-Fransızca çeviri corpus

(8) (7) 'nin aksine: Almanca-Fransızca çeviri korpusu

Şekil 1: MulitModel, farklı alanlarda farklı görevleri tamamlayabilir. Bunlar arasında kırmızı, dil ile ilgili görevleri, mavi ise sınıflandırmayla ilgili görevleri belirtir.

MultiModel, farklı evrişimli katmanlar, dikkat mekanizmaları ve karışık uzman katmanlar gibi birden çok parçadan oluşur. Her bölüm daha önce diğer görevler konusunda eğitilmemiştir. Örneğin, evrişimli katman daha önce metin veya konuşma görevlerini işlememiştir; karışık uzman katman, görüntü veya dille ilgili görevleri işlememiştir.

Yazar, her bir modülün karşılık gelen görev için çok önemli olduğunu buldu.Örneğin, dikkat mekanizması, çeviri ile ilgili görevleri çözmede görüntü görevlerini işlemekten çok daha önemlidir.

MultiModel'in mimari diyagramı

Deney sonucunda, Google araştırmacıları tarafından önerilen model, yukarıdaki tüm görevlerde iyi sonuçlar elde etti - tek bir göreve özel olmasına rağmen, sonuç şu anda en iyisi değil.

Benzer şekilde, MIT'nin sistemi tüm bireysel görevlerde en iyi sonuçları elde edemedi.

Ancak Aytar bunun sorun olmadığına inanıyor. "Daha fazla sensör kullandığınızda, doğruluk artacaktır."

biliyor musun? Bahar Şenliği seyahatinizin bir dakikasında çok şey olacak
önceki
Zihin haritası | Lei Junun özel sırları: Girişimciliğin ilk aşamasında insanlar nasıl bulunur ve temel yetenekler nasıl korunur?
Sonraki
Premier Zhou'nun yeme alışkanlıkları (2)
Google AI Fonu'nun ilk yatırımı: Algorithmia, makine öğrenimi algoritması "pazar"
rüya! "Lingnan Ginkgo'nun Çin'deki Memleketi" nin en iyi izleme sezonu burada ve tam şu anda ~
Bahar Şenliği sırasında bu SUV'leri eve götürün ve köydeki herkes size bir başparmak verecek!
İran ham petrolünün Çin'de vaktinden önce var olmasından ve resmi olarak ABD dolarının RMB ile değiştirilmesinden sonra işler değişti.
Hepimizin Bahar Şenliği için eve gitmeye hazırlandığı bu sezonda, zayıf bir geçmişe sahip bir yıldız hayallerin peşinde!
15 yaşında bir çocuk yüksek bir binada duruyor, ancak annesi cep telefonuyla sadece "şov izliyor"
"Blockchain Devrimi" nin "İkinci Bölüm" Yorumu: Blockchain Ekonomisinin Yedi Tasarım İlkesi
"Pekin Üniversitesi AI Açık Sınıf 13 Dersler Tam Bağlantı + En Güçlü Kuru Malların Envanteri" Çin AI +, yıldızlar parladığında
İzlanda'ya sekiz günah için dava açmak istiyorum! Hepsi de suçlanacak ...
Hem BAE takımı hem de taraftarlar kaybeder! Katar'ın hedefi taraftarların su şişelerini fırlatmasıyla yıkıldı, tuhaf!
"Gıda güvenliği", yetişkinlerin ve çocukların yemeyi sevdikleri bir atıştırmalıktır, ancak bulundu ...
To Top