Bir sinir ağı her şeyi öğrenir! Google başka bir büyük uydu (kağıtla) koydu

Li Lin, Geng'e Arxiv'den derlemesini sordu

Qubit Üretildi | Genel Hesap QbitAI

Kısa bir süre önce Google, makalenin konusuyla ilgili çılgın sözler söyledi: Hepsini Öğrenmek İçin Bir Model, bir model her şeyi öğrenebilir.

Kâr amacı gütmeyen bir araştırma kuruluşu olan OpenAI'de araştırmacı olan Andrej Karpathy, Twitter'da Google'ın kendisini büyük bir sinir ağına dönüştürmek için bir adım daha attığını söyledi.

Bu konunun, "Tek İhtiyacınız Olan Dikkat" sonrasında başlık partisi için yeni bir ölçüt oluşturduğu söylenebilir .. Bir medya olarak kübitler utanmaktadır.

Geçtiğimiz günlerde Arxiv'de önceden yayınlanan bu makale, derin öğrenmenin çok iyi olduğunu, ancak her problem çözüldüğünde bir modelin oluşturulması gerektiğini ve çok can sıkıcı olan ayarlama ve eğitmenin uzun zaman aldığını söyledi.

Böylece bir Çeşitli alanlarda birçok konuda iyi sonuçlar MultiModel modeli.

Artık bu sinir ağını ImageNet görüntülerini tanımak, birden çok dilde çeviriler yapmak, COCO veri kümesindeki resimlere dayalı metin açıklamaları oluşturmak, konuşma tanıma yapmak ve İngilizce gramer analizi yapmak için eğitiyorlar.

Ahlaki, entelektüel, fiziksel, sanat ve emeğin kapsamlı gelişimi için bu model, kıvrımlı bir katman, bir dikkat mekanizması ve seyrek bir geçit katmanı içerir.

Yukarıda bahsedilen hesaplama modüllerinin her biri, belirli görev türlerinde kilit bir rol oynayacaktır, ancak ilginç olan, kilit bir rol oynayamayan görevlerde bile, bu modüllerin karışmaması ve çoğu zaman biraz yararlı olmasıdır. ...

Nispeten az veriye sahip görevlerde, bu modelle ortak eğitim ve diğer görevler özellikle etkilidir. Bazen büyük görevlerin performansı düşse de, sadece biraz düşer.

Özet bundan bahsediyor, ardından makalenin ayrıntılı içeriğine bakıyoruz:

1. Giriş

Çoklu görev modeli sorunu, Google'ın bir hevesle çalışmaya başladığı bir şey değil ve daha önce birçok ilgili makale var. Ancak, orijinal model bir tür model eğitim görevidir: çevirinin çevirisi ve görüntü tanıma.

Birbiriyle ilgisiz birden çok görevi eğitmek için bir model kullanan bir veya iki makale de vardır, ancak sonuçlar pek iyi değildir.

Sonuç olarak, Google Brain öğrencileri bir MultiModel geliştirdi, tek bir modelle, aynı anda farklı alanlarda birden fazla görevi öğrenebilirsiniz.

Şimdi, MultiModel aynı anda 8 veri seti üzerinde eğitim alıyor:

(1) The Wall Street Journal'ın ses külliyatı

(2) ImageNet veri seti

(3) COCO resim açıklama veri seti

(4) "Wall Street Journal" sözdizimi analizi veri kümesi

(5) WMT İngilizce-Almanca çeviri beklentisi veritabanı

(6) WMT Almanca-İngilizce çeviri beklenti veritabanı

(7) WMT İngilizce-Fransızca çeviri beklentisi veritabanı

(8) WMT Fransızca-İngilizce Çeviri Beklenti Veritabanı

Makalenin yazarları, modelin bu görevlerde iyi performans gösterdiğini, üst düzeyde olmasa da son zamanlarda yapılan birçok çalışmadan daha iyi olduğunu söylüyor.

Aşağıdaki şekil MultiModel modelinin öğrenme sonuçlarının bir örneğini göstermektedir:

Soldan sağa resim açıklamaları, resim sınıflandırması, Fransızcaya İngilizce çevirisi, Almancaya İngilizce çevirisi ve sözdizimi analizi üretiliyor

MultiModel, farklı boyutlar, boyutlar ve türlerdeki veriler üzerinde eğitim almak için bu giriş verilerini belirli modellerin birden çok alt ağıyla dönüştürür ve bunları ortak bir temsil alanına yerleştirir. Bu alt ağlara " Desen ağı (modellik ağları) ".

2. MultiModel Mimarisi

Yukarıdaki şekilde gösterildiği gibi, MultiModel birkaç mod ağından, bir kodlayıcıdan, bir I / O karıştırıcısından ve bir otoregresif kod çözücüden oluşur.

Bu modelin ana gövdesi, makalede ayrı ayrı açıklanan çoklu evrişimli katmanlar, dikkat mekanizmaları ve seyrek kapılı uzmanlar karışımı katmanları içerir.

2.1 Evrişim modülü

Bu modülün işlevi, yerel kalıpları keşfetmek ve sonra bunları tüm uzaya genellemektir.

Bu evrişim modülü üç bileşen içerir: doğrusal düzeltme işlevi (ReLU), SepConv ve bir katman.

Şekilde gösterildiği gibi, bu model dört evrişimli katman kullanır, ilk iki katman 3 × 1 evrişim çekirdeğine sahiptir, son iki katman 15 × 1 evrişim çekirdeğine sahiptir ve her katman sonunda% 40 düşüş ekler.

2.2 Dikkat modülü

MultiModel modelinde kullanılan dikkat mekanizması, Google'ın önceki başlık parti modeli kağıdına benzer. Tek İhtiyacınız Olan Dikkat.

Şekilde gösterildiği gibi, dikkat katmanının girişi, her iki biçimde de iki tensör, bir kaynak tensör (kaynak) ve bir hedef tensör (hedef) içerir.

Bu makaledeki dikkat modülü ile bir önceki arasındaki temel fark, zamanlama sinyalidir.Sinyalin eklenmesi, içeriğe dayalı dikkatin konumuna göre odaklanmasına izin vermelidir.

2.3 Uzman karışım modülü

MultiModel'deki seyrek dizi karışık uzman katmanı, bazı basit ileri beslemeli sinir ağlarından (uzmanlar) ve her girişi işlemek için seyrek uzmanların bir kombinasyonunu seçen eğitilebilir geçitli ağlardan oluşur.

Ayrıntılar için bu makaleye bakın:

Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, Noam Shazeer, Azalia Mirhoseini. Şaşırtıcı derecede büyük sinir ağları: Seyrek kapılı uzmanlar karışımı katmanı. arXiv baskı öncesi 1701.06538, 2017.

Çünkü MultiModel'deki uzman miksaj modülü temelde tamamen kopyalanmıştır.

Bu makaledeki model, aynı anda 8 soruyu eğitirken 240 "uzman" ve tek bir soruyu eğitirken 60 "uzman" kullanır.

2.4 Kodlayıcı, karıştırıcı, kod çözücü

MultiModel'in ana gövdesi 3 bölümden oluşur: yalnızca girişi işleyen bir kodlayıcı, kodlanmış girişi önceki çıkışla karıştıran bir karıştırıcı (otomatik regresyon bölümü) ve yeni bir çıktı üretmek için girişi ve karışımı işleyen bir kod çözücü.

Kodlayıcı, karıştırıcı ve kod çözücünün yapısı, ByteNet veya WaveNet gibi önceki tam evrişimli sekans-sekans modeline benzer, ancak kullanılan hesaplama modülleri farklıdır.

Yukarıdaki şekil onların mimarisini göstermektedir. Kodlayıcının ortada uzman bir karıştırma katmanı ile 6 tekrarlı evrişim modülünden oluştuğu şekilden görülebilmektedir.

Karıştırıcı bir dikkat modülü ve iki evrişim modülünden oluşur. Kod çözücü, aralarında uzman bir karıştırma katmanı bulunan dört evrişim ve dikkat modülünden oluşur. Mesele şu ki, karıştırıcıdaki ve kod çözücüdeki kıvrımlar solda doldurulmuş, bu yüzden gelecekte hiçbir bilgiye erişmeyecekler. Bu, modeli otoregresif hale getirir ve bu evrişimli otoregresif üretim şeması, uzun vadeli bağımlılık oluşturabilen girdi ve geçmiş çıktı üzerinde geniş bir alıcı alan sağlar.

Kod çözücünün aynı modda bile farklı görevler için çıktı üretmesi amacıyla, To-English veya To-Parse-Tree gibi kod çözmeyi başlatmak için her zaman bir komut belirteci kullanırız. Eğitim sırasında her bir jetona karşılık gelen bir gömme vektörü öğreniyoruz.

2.5 Mod ağı

Dil (metin verileri), görüntü, ses ve sınıflandırma verilerine karşılık gelen 4 tür modal ağımız var.

2.5.1 Dil Modu Ağı

Dil temelli verileri 8k alt kelime birimleriyle aynı kelime dağarcığı ile belirtiyoruz. Dil giriş modu, sonlandırma simgesinin sonuna kadar olan bir dizi simgedir. Çıktı ucunda, dil modeli kod çözücü aracılığıyla çıkarılır ve öğrenilen doğrusal eşleme ve Softmax, belirteç sözlüğünün olasılık dağılımını oluşturmak için yürütülür.

2.5.2 Görüntü Modu Ağı

Görüntü giriş modu, Xception giriş akışına benzer. Girdi görüntüsünün özellik derinliği, ConvRes olarak adlandırdığımız ve aşağıdaki gibi tanımlanan artık evrişim blokları kullanılarak kademeli olarak derinleştirilir:

Ağ derinliği d (d = 1024 kullandık) olan görüntü modelinin giriş akışı şu şekilde tanımlanır:

2.5.3 Sınıflandırma modu ağı

Sınıflandırma çıktı modu, Xception çıkış akışına benzer. Ağın girişi, görüntü veya spektral ses verileri gibi iki boyutlu verilerse, model gövdesinden gelen tek boyutlu çıktı önce iki boyutta yeniden yapılandırılır ve ardından satır satır aşağı örneklenir:

2.5.4 Ses Modu Ağı

Tek boyutlu bir dalga formu veya iki boyutlu bir spektrogram şeklinde ses girişini kabul ediyoruz Her iki giriş modu da yukarıda bahsedilen 8 ConvRes bloğu yığınını kullanır.

3. Deney

Yukarıdaki MultiModel mimarisini TensorFlow kullanarak uyguladık ve çeşitli konfigürasyonlarda eğittik.

Aşağıda bahsedilen tüm eğitimlerde, gradyan kırpma ile aynı hiperparametre setini ve Adam optimizer'ı kullandık. Bu uygulamayı ve tüm ayarları ve hiperparametre ayrıntılarını açık kaynak olarak açacağız. Aşağıdaki soruları cevaplamak için deneylere odaklanıyoruz:

(1) 8 göreve ve en gelişmiş sonuçlara dayalı MultiModel arasındaki boşluk ne kadar büyük?

(2) 8 görev üzerinde aynı anda eğitim ile bireysel eğitim arasındaki fark nedir?

(3) Yukarıdaki farklı hesaplama modülleri farklı görevleri nasıl etkiler?

Yukarıdaki soruları cevaplarken, her zaman 8 sorunun hepsini dikkate almıyoruz. Özellikle, 4 çeviri sorusunun davranışı çok benzer, bu yüzden hepsini her karşılaştırmaya dahil etmemeye karar verdik, ancak daha çeşitli sorulara odaklandık.

(1) numaralı soruyu cevaplamak için, Tablo 1'de gösterildiği gibi, 8 soruluk MultiModel'in performansını son teknoloji sonuçlarla karşılaştırdık. MultiModel'in hiperparametrelerini ayarlamak için çok fazla zaman harcamadık Daha fazla ayarlamanın ikisi arasındaki boşluğu küçük bir miktara indirebileceğini düşünüyoruz. Elde ettiğimiz sonuçlar, kapsamlı ayar gerektirmeyen göreve özgü modellere benzer.

Soru (2) 'yi cevaplamak için, 8 görevi birlikte eğitirken, her görev için ayrı eğitim yapmak için aynı parametreleri kullandık. Bireysel eğitim gerçekleştirirken, benzer adımları tamamlamak için bir işçi kullandık. Tablo 2'deki sonuçlardan da görülebileceği gibi, 8 görevli ortak eğitimli modelin performansı, ayrı eğitilmiş modelinkine çok yakındır ve bazen etki daha iyidir.

Çeviri görevindeki büyük miktardaki metin verisi göz önüne alındığında, Tablo 2'de görülen büyük gelişme şaşırtıcı değildir. Peki ImageNet'teki performans ne olacak? Tablo 3'ten görülebileceği gibi, performanstaki fark açıktır: Bırakma ve erken durdurma aynı anda kullanıldığından, bunun aşırı uydurma ile hiçbir ilgisi olmadığını düşünüyoruz. Aksine, ImageNet ve sözdizimsel analiz gibi görünüşte ilgisiz görevler arasında bile farklı görevler arasında paylaşılan hesaplama ilkelleri var gibi görünüyor, bazı transfer öğrenmeleri olabilir.

3. soruyu cevaplamak için, karma uzman katmanı yoksa veya dikkat mekanizması eğitimi yoksa farklı problemlerin performansını nasıl etkileyeceğini karşılaştırdık. Bu iki mekanizma makine çevirisi için tasarlandığından, İngilizce-Fransızca çeviriyi karşılaştırdık. Ancak karşılaştırma için ImageNet'i kullandık, çünkü bu bloklardan en az yarar sağlayan sorun budur. Aslında, bu modüller gerçekten işe yaramazsa, onları kaldırmak ImageNet'teki performansı etkilemeyecektir. Buna karşılık, Tablo 4'te bu modüllerin performansı etkilemediğini veya biraz iyileştirmediğini görüyoruz. Bu bizi, farklı hesaplama bloklarını karıştırmanın çeşitli görevlerin performansını iyileştirmenin aslında iyi bir yolu olduğu sonucuna götürür.

4. Sonuç

Tek bir derin öğrenme modelinin birçok alandan bazı büyük görevleri öğrenebileceğini ilk kez kanıtladık.

Başarının anahtarı, mümkün olduğunca çok parametrenin paylaşıldığı ve farklı alanlardaki bilgi işlem modüllerinin birlikte kullanıldığı çok modlu bir mimari tasarlamaktır.

Bunun, daha genel derin öğrenme mimarileri üzerine gelecekteki araştırmalar için ilginç bir yol açacağına inanıyoruz.Özellikle, modelimiz, büyük miktarda veri üzerinde eğitilen görevlerin, aktarım öğrenimi ile sınırlı veriye sahip görevlere uygulanabileceğini göstermektedir.

Kağıt adresi:

https://arxiv.org/abs/1706.05137

Bildiri yazarı : Lukasz Kaiser, Aidan N. Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones, Jakob Uszkoreit

Bitiş

Bir uyarı

Qubit'ler, otonom sürüşle ilgili alanlarda çalışan öğrenciler veya ön saflardaki mühendisler için otonom bir sürüş teknolojisi grubu oluşturuyor. Herkese qubit WeChat (qbitbot) eklemeye hoş geldiniz, ha'ya katılmak için başvurmak için "otomatik sürüş" diyor ~

İşe Alım

Qubit, editörleri, muhabirleri, operasyonları, ürünleri ve diğer pozisyonları işe alıyor ve çalışma yeri Pekin, Zhongguancun'da bulunuyor. İlgili ayrıntılar için lütfen şu yanıtı verin: resmi hesabın diyalog arayüzünde "İşe Alım".

Büyük hamle başlıyor, Clippers Hu'nun kalın kaşlarını kesmek zorunda, 4 koşul karşılandı 3, Lakers yine mutlu.
önceki
Dalian hayranları onun kalmasını istiyor, Shenhua hayranları onun geri dönmesini istiyor Qin Sheng: Seçim yapmak çok zor
Sonraki
Tianfu Green Road 2018 Jinwenjiang Yarı Maratonu'nda yeni bir çağın başlangıcı
BYD İngiltere'yi ele geçirdi ve İngiliz soylularına olumlu bir not verdi
Herkes bu oyunun Çin'deki en pahalı oyun olduğunu söylüyor ama biz en fakirken oynadık
Lakers kendi kendini mağlup ediyor. 48 saat içinde Magic Zhan Huang, Thick Eyebrows ve Lakers takımına saldıracak!
Alın ve ev kullanımı için mal çekmek için şantiyeye koşun Sürücüler neden arka arkaya 20 yıl boyunca Fengjun manyetiklerini seçiyor?
LOL Intercontinental: LPL, LCK'yı yendi ve şampiyonluğu başarıyla savundu! Oyuncu: S8'in en istikrarlı yılı!
Pelikanların nihai fiyat talepleri ortaya çıktı ve Lakers'ın sadece içi boş kalmadı, aynı zamanda bunun için 3 büyük delik doldurmak zorunda kaldı!
Dalian, evinde 50.000'i aşan ilk kişi! Süper Lig'in 30. turundaki koltuk sayısı açıklandı: Evergrande ikinci, Suning üçüncü
Şekil daha dinamik ve konfigürasyon daha zengin. 2018 Boyue modelleri ülke genelinde satış öncesi başlıyor
LOL Kıtalararası Turnuvası: Çin takımı Güney Kore'yi tekrar 3: 2 yendi ve uzi art arda dört şampiyonluk elde etti! Bu s8!
Yıldızlar ayrıca Bahar Şenliği kültürüne bayılıyor, bazı aşk köfteleri, bazıları bahar şenliği beyitlerini seviyor, Ürdün insanları güldürüyor
Barclays: Hedge Fund AI ve Büyük Veri Çalışma Kılavuzu
To Top