g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

"Örnek" 2030'da, küresel derin öğrenmenin 2 / 3'ü Çin'de tamamlanacak ve bilgi işlem gücü, AI'daki en büyük darboğaz haline gelecek

Xinzhiyuan Derlemesi

(Yazar / Tim Dettmers) Bu blog yazısı, uzun vadeli AI araştırma yönünü tartışıyor ve kısa vadeli düşünceyi ve mevcut araştırma alanındaki tuzaklarını eleştirel bir şekilde inceliyor. Bu dizinin ilk blog yazısında, öncelikle bilgi işlem ve donanım kullanımı yoluyla verilerin ve bilgi işlem gücünün uzun vadeli gelişme eğilimini tartışacağım. Daha sonra bunu kanıtlamak için araştırmacının demografik verilerini sağlayacağız. Güçlü bilgi işlem kaynakları elde edemeyen araştırmacıların oranı hızla artıyor.

Daha sonra, bu blogu destekleyen "Derin Öğrenme Çağında Verilerin Mantıksız Etkililiğini Yeniden İncelemek" ana makalesine odaklanacağız. Daha fazla verinin tahmin performansını artırabilmesine rağmen, önemli bir hesaplama yükü getirdiğini ortaya koymaktadır. Ayrıca, özelleşmiş tekniklerle karşılaştırıldığında, daha fazla veriye yönelik ön eğitimin yalnızca tahmin yetenekleriyle karşılaştırılabilir sonuçlar elde edebileceğini göreceğiz.

Buna dayanarak, şu sonuca vardım: "Daha fazla veri daha iyidir" ifadesi, yalnızca bu kadar büyük miktarda veriyi işlemek için bilgi işlem gücüne sahip büyük şirketler için yararlıdır. Çoğu araştırmacı, kıt kaynağın hesaplama gücü değil, yaratıcılık olduğu başka bir araştırma türünü hedeflemelidir. Bununla birlikte, gelecekteki veri miktarının eşi görülmemiş bir büyüme göstereceğine inanıyorum, bu da büyük ölçekli veri entegrasyonunu katı bir talep haline getirecek. Bu nedenle, daha fazla veri işlemeyi mümkün kılmak için bazı teknolojilere ihtiyacımız var ve aynı zamanda, derin öğrenmeyi mümkün olduğunca çok sayıda araştırmacıya sunmak için bazı teknolojilere ihtiyacımız var, bunların çoğu gelişmekte olan ülkelerden.

Temel makaleler hakkındaki tartışmayı tamamladıktan sonra, en son dört makalede sunulan olası çözümlere bir göz atalım. Bu makaleler, aşağıdaki yollarla bu uzun vadeli eğilimlerin üstesinden gelmeyi amaçlamaktadır: (1) Evrişim gibi pratik işlemleri daha verimli hale getirmek; (2) Akıllı işlevlerin geliştirilmesi yoluyla, böylece daha küçük, daha hızlı modelleri kullanabiliriz. Şişirilmiş, şişirilmiş ve beceriksiz modelin benzer etkisi; (3) Zengin bilgi işlem kaynaklarına sahip şirketler, araştırma oluşturmak için bu kaynakları nasıl kullanabilir ve ardından yeni bir çerçeve arayan herkese fayda sağlayabilir; (4) Bilgi erişim yöntemleri önceden nasıl kullanılır? Büyüyen veri sorununu çözmek için ilgili verileri seçin.

Derin öğrenme araştırmalarında "dar görüşlü" problem

Bu blog dizisi, derin öğrenme araştırmalarında eleştirel düşünmeyi teşvik etmeyi ve derin öğrenme topluluğunu alanın ilerlemesi için hayati önem taşıyan araştırmaları sürdürmeye teşvik etmeyi amaçlamaktadır. Şu anda, derin öğrenme alanında, kötü yutturmaca ve gruplaşma güçlü bir manevi ivme kazanmıştır. Ancak bence birçok çalışma gittikçe daha dar görüşlü hale geliyor. Uzağı görememe temel olarak, giderek daha fazla yeni gelenlerin rekabetçi baskısı, "yayınla ya da öl" baskısı ve derin öğrenme topluluğunu desteklemek yerine hızlı faydalar sağlayabilenleri teşvik edecek olan "arXiv'deki çukuru işgal etme" baskısından kaynaklanmaktadır. Geliştirme üzerine eksik araştırma.

Diğer bir problem ise, birçok araştırmacının, derin öğrenme araştırmalarındaki mevcut eğilimleri anlamanın ana kaynağı olarak kullanmasıdır ki bu, grup zihniyet problemini "gruplama" ile daha da kötüleştirecektir: Kalabalığı takip etmeyi teşvik eder, yani popüler olacağına inanılır. yapmak. İkincisi, farklı araştırmacılara odaklanmak yerine tanınmış araştırmacıları ve daha yüksek itibara sahip kişileri takip etmeyi teşvik eder, bu da tek bir zihniyete yol açar. Twitter bir tartışma forumu değildir, fikirleri derinlemesine tartışabilir, sonuçlar çıkarabilir ve herkese fayda sağlayabilirsiniz. Twitter, kazanan her şeyi alan bir platformdur ve küçük oyuncular yavaş yavaş ortadan kaybolacaktır. Büyük oyuncular hata yaparsa, derin öğrenme topluluğundaki herkes yanlış yönlendirilir. Gerçek şu ki, büyük oyuncular da hata yapabilir.

Bu, "sömürüye karşı keşfetme" problemine benziyor: eğer herkes sadece sömürüyorsa, onu bulamayız, yalnızca çoğu homojen olan kademeli ilerleme. Dünyanın bir ilerlemeye ihtiyacı olduğuna inanmayı tercih ederim. AI kesinlikle refah elde etmemize ve sorunları çözmemize yardımcı olabilir, ancak öncül, keşfedecek daha fazla seçeneğimiz olmasıdır.

Bu blog tüm bunlara bir çözüm değil, ancak araştırma yönünü daha eleştirel bir gözle analiz etmenizi kolaylaştırmayı amaçlıyor. Umarım bu makaleyi okumayı bitirdiğinizde, kendi yönünüzü ve burada çizdiğim uzun vadeli resimle nasıl bir ilişkisi olduğunu düşünebilirsiniz.

Bu blog dizisinde tartışılan araştırma eğilimleri, (1) derin öğrenme alanındaki önemli ancak ihmal edilmiş araştırmaları vurgulamayı veya (2) çok popüler derin öğrenme araştırmalarını görünüşte dar görüşlü veya olgunlaşmamış yapan sorunları gündeme getirmeyi amaçlamaktadır. Haydut zihniyetini yüceltmek için burada değilim: devalüasyon uğruna küçümsemek değersizdir. Tüm ana akım araştırma yönlerinin saçma olduğunu söylemiyorum: en popüler araştırma popüler çünkü önemli. Eleştirel bir zihniyet ve uzun vadeli düşünme geliştirmenize yardımcı olmayı umuyorum.

Bu blog gönderisinin konusu, (1) kategorisindeki bir konudur, derin öğrenme araştırmasını içerir, ki bu çok önemlidir, ancak çoğu zaman gözden kaçar, yani- Hesaplama verimliliği ve veri sorunları . Bunun neden herkesin önemsemesi gereken uzun vadeli önemli bir konu olduğunu özetlemek için eğilimleri analiz edeceğim.

Aslında, bu sorunu çözmezsek, derin öğrenme alanı durgunlaşabilir. . Bu eğilimleri tartıştıktan sonra, mevcut araştırmanın bu araştırma yönünün temel konularını ortaya çıkardığını görüyoruz. Son olarak, yukarıda bahsedilen sorunları çözmeye çalışan son iki aydan dört araştırma makalesini tartışacağım.

Uzun vadeli eğilim: Ortalama bir araştırmacının 1 ila 4 GPU'su olabilir mi?

Bu blog gönderisinin ana makalesi, daha fazla verinin tahmin sonuçlarını nasıl iyileştirebileceğiyle ilgilidir (aşağıdaki makaleye bakın). Bu çalışmadaki temel sorun, bu sonuca 2 ay içerisinde ulaşmak istiyorsa 50 GPU'ya ihtiyaç duymasıdır. GPU işlemenin hız değişimini göz önünde bulundurursak, bu sonuca 4GPU'lu bir bilgisayarda iki ay veya iki hafta içinde ulaşmak istiyorsak 2025 veya 2029'a kadar böyle bir sisteme sahip olamayabiliriz.

Bu varsayımın öncülü, bilgi işlem gücünü ikiye katlama süresinin 2 yıl olmasıdır. Hesaplama gücünü ikiye katlama süresi 3 yıl ise, sırasıyla 2029 veya 2035'e kadar böyle bir sistem alamayacağız.

Gelişmekte olan ülkelerdeki çoğu derin öğrenme araştırmacısı, kendi GPU'larına sahip olmayı zor bulacaktır. Genellikle, bu araştırmacıların diğer araştırmacılarla da kaynakları paylaşması gerekir. Bu araştırmacıların çoğu iki ay veya iki hafta içinde ayrı bir GPU'ya ihtiyaç duyarsa, hesaplama gücündeki mevcut artış göz önüne alındığında (iki yılda iki katına çıktı), bu araştırmacı ayrı ayrı yapabilecektir. Bu çalışmayı 2029 veya 2035'te kopyalayın. İkiye katlanma süresi üç yıl ise, bu sayılar sırasıyla 2035 ve 2044'tür. Sorun, hesaplamalı büyümenin daha da düşmesinin beklenmesidir, bu nedenle bu tahmin rakamları aslında nispeten iyimserdir.

Aşağıdaki örneklerden hangisi gelecek için daha gerçekçi: Ortalama bir araştırmacı 1 ila 4 GPU'ya sahip olabilir mi? Bu araştırmacıların demografik özelliklerini ve gelir artışını incelersek, cevabı bulabiliriz. Özellikle, Çin'in derin öğrenme araştırmalarının büyümesinden ve kişi başına düşen GSYİH'nın büyümesinden bahsediyorum.

Araştırma kalitesinin büyüme eğilimi belirsizdir, ancak araştırma sayısı açısından Çin hızla büyüyor. Mevcut büyüme oranında yıllık oran Amerika Birleşik Devletleri'nde% 60 ve Çin'de% 170 (2012-2016). 2030 yılına kadar küresel derin öğrenme araştırmalarının% 98'inin Çin'den geleceği tahmin ediliyor. Elbette bu eğilim sürdürülebilir değil. Çin'in büyümesinin belirli bir noktada durgunlaştığını görebiliriz (bu Amerika Birleşik Devletleri'nde zaten oldu, ancak Çin olmadı), ancak Çin hükümetinin güçlü desteği nedeniyle önümüzdeki on yıl içinde Çin hükümeti yapay zekaya yatırım yapacak. ABD hükümetinin elverişsiz bilim politikasıyla birleştiğinde 150 milyarı aşacak, Çin'in yakında AI araştırmalarında açık bir liderliğe ulaşması çok muhtemel. 2030'a gelindiğinde, dünyadaki derin öğrenme araştırmalarının% 80'inden fazlası Çin'den gelirse şaşırmam. Bununla birlikte, ihtiyatlı bir şekilde 2030 yılına kadar dünyadaki derin öğrenmenin% 66'sından fazlasının Çin'de tamamlanacağı tahmin ediliyor.

Süper bilgisayarların hesaplama gücünü ikiye katlama sıklığı 1,5 ile 2 yıl arasında olabilir ve gerekli işlemcileri üreten fabrikaların maliyeti de artacaktır. 2015 yılında, bilgi işlem büyümesi 1 kat arttı, ancak artık kullanılmıyor. 2017'den beri, hesaplama gücünün ikiye katlanma süresi üç yıllık bir döngü olabilir, bu nedenle bu yüzyılda bilgisayarın beyin sınırına ulaşılamayacak. Ek olarak, o zamana kadar, fiziksel kısıtlamalar nedeniyle 2025 civarında, bilgi işlem büyümesi yavaşlayabilir. Von Neumann tipi bilgisayara bağlı kalırsak, hesaplama problemleri kaçınılmazdır.

Ancak, Çinin GSYİH'sinin yaklaşık% 5 olan mevcut büyüme oranına göre, 2030'a kadar, Çin'in kişi başına düşen geliri, 2017'deki kişi başına düşen gelirin yalnızca yaklaşık% 80'i olacak. Bu verilere dayanarak, ortalama olarak, her araştırmacı bir veya iki GPU'dan (veya o anda eşdeğerinden) daha fazlasını kullanamayabilir. . Bu sayıları bir araya getirirseniz, bir sonuca varabilirsiniz: Gelecekteki araştırmaların çoğu, hesaplama gücü ve ardından algoritmanın karmaşıklığı nedeniyle ciddi şekilde sınırlanacaktır.

Yukarıdaki rakamların tümü, mevcut hesaplama gücünün ikiye katlanma süresinin 2 veya 3 yıl olduğunu varsaymaktadır. Genel duyarlılık hala iyimser olsa da, hızımız hesaplama gücü artışı açısından gerçekten yavaşlıyor ve üç yıllık ikiye katlama şu an için daha gerçekçi, ancak gelecek için gerçekçi değil.

Şu anda, bilgi işlem gücünü büyük ölçüde artırabilecek ve 2019'da beklenen bilgi işlem performansını aşabilecek bir teknoloji yok. Bu yüksekliğe daha önce ulaştık ve inovasyon yoluyla da çıkmazdan kurtulabiliriz, ancak şimdi fiziksel olasılık sınırına yaklaştık, artık inovasyon yapamayız çünkü yaratıcılığın kendisi atomik seviyenin ötesine geçemez ve yaratıcılığın kendisi kuantum etkilerine direnemez. Bu alandaki hesaplama ilerlemesi yavaş ve zor olacaktır.

Diğer bir sorun da verilerin hızlı büyümesidir. Verilerin büyümesi artık bilgi işlem gücünün büyümesinden daha hızlı. Bu, geleceğin hiçbir zaman şimdiki gibi olmayacağı anlamına gelir, veri miktarı arttıkça derin öğrenmenin etkisi daha iyi olacaktır. Gelecekte, derin öğrenme algoritmalarımızı çalıştırabileceğimiz veriler küçülmeye devam edecek. Bu, gelecekte sahip olduğumuz tüm verileri tam olarak kullanamayacağımız bir noktaya asla gelmeyeceğimiz anlamına gelir.

Tüm bu eğilimler, hesaplama verimliliğini derin öğrenmenin uzun vadeli ilerlemesi için kritik hale getirir. Algoritmamız daha az bilgi işlem kaynağıyla daha fazlasını yapamazsa, bu alan hızla durgunlaşacaktır. Yapay zekanın önümüzdeki birkaç on yılda gelişmeye devam etmesini istiyorsak, bu sorunun üstesinden gelmemiz gerekiyor. Çözüm, algoritmalar ve yazılım olmalıdır - büyümeyi sağlamak için artık donanıma güvenemeyiz.

Her yıl YouTube'a yüklenen tüm verileri işlemek için gereken GPU sayısı (ResNet aracılığıyla kare kare çözüldü) ve veriler ile hesaplama büyümesi arasındaki artan boşluk. Veri büyüme sıklığının 2 yılda iki katına çıktığını ve bilgi işlem gücündeki büyümenin 2019'dan başlayarak 3 ve 4 yılda ikiye katlanacağını varsayalım.

Verilerin büyümesi esas olarak videolardan (YouTube videoları gibi) gelse de, video verilerinin bilgi yoğunluğu metin verilerinden (Wikipedia gibi) daha küçüktür, ancak yararlı verilerin genel büyümesinin üstel olması beklenebilir. Bu, tüm YouTube videolarının% 1'inin geniş bir kitle için faydalı genel bilgiler içermesi durumunda, bu verilerin bilgi işlem kaynaklarımızdan daha hızlı büyüyeceği anlamına gelir. Uzun vadede, büyüme oranı neredeyse her şeydir ve taban çizgisi önemli değildir. 1.5 yılda ikiye katlanma oranında hesaplandığında,% 1 ve% 100 taban çizgileri aynı miktarda bilgiyi alacak, bu da sadece 8 yıl geride.

Verilerin boyutunu göstermek için aşağıdaki örneğe bakabilirsiniz: Şu anda YouTube'a her dakika yüklenen bir videonun uzunluğu 800 saattir. Videoların% 1'i faydalı bilgilerse, 2025'e kadar her dakika 800 saatlik faydalı bilgi videolarının yüklenmesini, yani her videonun her saniyesinin ilgili bilgileri içermesini bekleyebiliriz.

800 saatlik videodan tüm yararlı bilgileri bir dakikada çıkarmak çok zor bir problem olacaktır. Ve, gelecekte asla daha küçük bir hesaplama / veri oranına sahip olmayacağımızı unutmayın: hesaplama süresi (1 dakika), faydalı bilgiler (800 saatlik video). Veriler hızlı uçuyor ve asla yakalayamayız.

2015'ten bu yana, çeşitli platformlar her dakika veri üretiyor. O zamandan beri, her dakika yüklenen YouTube videolarının büyümesi 800 saate çıktı.

Yani genel olarak:

Bilgi işlem gücünün sınırlamaları, derin öğrenme modellerinin daha büyük ve daha büyük veri kümeleri üzerinde eğitimini engelleyecektir;

2030'a kadar, çoğu derin öğrenme araştırmacısının sahip olduğu ortalama GPU sayısı 1-4'ü geçmeyecek;

Verilerin büyümesi, bilgi işlem gücünün büyümesini aşıyor. Şu andan itibaren hesaplama sorunu daha da kötüleşmeye devam edecek. Şu anda içinde bulunduğumuz çağ, işlenebilen bilginin yalnızca küçük bir kısmıdır, ancak gelecekte daha da azı olacaktır;

Bilgi işlem performansında yavaş büyüme. Daha iyi olacağından şüpheliyim, fiziksel sınırlarla sınırlıyız.

Ana makale: Verileri artırmak her şey değildir; çoğu araştırmacı için bilgi işlem kaynakları, hayal gücü ve yaratıcılıktan daha sınırlayıcı bir faktördür

[Kağıt] Derin öğrenme çağında verilerin mantıksız etkililiğini yeniden inceleyin ( Derin Öğrenme Çağında Verilerin Mantıksız Etkinliğini Yeniden İncelemek)

[Yazar] Chen Sun, Abhinav Shrivastava, Saurabh Singh, Abhinav Gupta (Google Araştırması + CMU)

[Bağlantı] https://arxiv.org/abs/1707.02968

fikir

Ön eğitim adımı olarak 300 milyon ölçekli görüntü veri kümesi JFT-300M üzerinde büyük ölçekli bir evrişimli ağı eğitin. Ardından, ImageNet, PASCAL VOC 2012 ve Microsoft COCO'da görüntü sınıflandırma, nesne algılama, görüntü bölümleme ve poz tahmini gibi bilgisayarla görme görevlerini gerçekleştirmek için bu önceden eğitilmiş ağı kullanın. Sonuçları ImageNet üzerinde önceden eğitilmiş bir ağla veya JFT-300M'nin bir alt kümesinde eğitilmiş bir ağla karşılaştırın.

gerçekleştirillen

Sağanak Gradyan inişinde (bu eğitim için eşzamansız paralel gradyan iniş yöntemidir), 50 GPU ve diğer parametre sunucuları kullanılır ve standart ResNets (50 katman, 101 katman ve 152 katman) katmanlı etiketler kullanılarak eğitilir. Aynı zamanda, Faster-RCNN nesne tespiti için kullanılır ve tam bağlı katman parametre sunucuları arasında dağıtılır.

sonuç

JFT-300M'de (18k) ImageNet'e (1k) göre ek kategorilerin sayısı performans üzerinde önemli bir etkiye sahip görünmüyor. JFT-300M veri kümesindeki tüm ImageNet kategorileri ön eğitim için kullanılırsa, performans tüm kategorilerle ön eğitimin sonuçlarına benzer görünmektedir.
Daha küçük bir ağın model kapasitesi (özellikle ResNet-50), JFT-300M'nin tüm bilgilerini yakalamak için yeterli değildir, yani, JFT-300M'de ön eğitim için daha küçük kapasiteli bir model kullanılırsa, performans iyileştirmesi daha fazla veriye bağlı olacaktır. Durgunluk durumunda (örneğin ResNet-152 ile ResNet-50 ile karşılaştırıldığında), tüm verileri kullanmak için yüksek bir model kapasitesi gerektiğini gösterir.
Görüntü verisi hacmi 10M 30M, 30M 100M ve 100M 300M'den değiştiğinde, MS COCO'da ortalama doğruluk performansı artışı sırasıyla yaklaşık 3 kat, 4 kat ve 2 kattır. Buna karşılık, Hızlı-RCNN'nin sınırlayıcı kutu iyileştirmesi, bağlamı ve çok ölçekli testi sırasıyla 2,7 kat, 0,1 kat ve 2,5 kat geliştirildi. Bu sonuç, derin öğrenme mimarisinin belirli bölümlerini geliştirmenin, daha fazla veri kullanmak kadar etkili olabileceğini göstermektedir.

JFT-300M'nin bir alt kümesi üzerinde ön eğitim ve MS COCO üzerinde önceden eğitilmiş model kullanıldığında, performans artar. Soldaki eğitim + 0.8 * dev seti eğitiminin sonucudur ve sağdaki ise sadece tren setindeki eğitimin sonucudur. Kağıttan resim: Derin Öğrenme Çağında Verilerin Mantıksız Etkinliğini Gözden Geçirme

yorum Yap

Bu makale Twitter'da geniş çapta dağıtıldı. Genel olarak şöyle inanılmıştır: "Derin öğrenme modelini eğitmek için ne kadar çok veri kullanılırsa, model o kadar iyi olur, bu yüzden daha fazla veriye ihtiyacımız var!" Ancak, yukarıda tartıştığımız gibi, bu tamamen doğru değildir ve elimizde yeterli Bu kadar büyük bir veri setini çoğu araştırmacı için pratik olarak yararlı hale getirecek hesaplama gücü ve bu eğilim gelecekte daha da kötüleşecek (tabii ki mutlak değer artacaktır). Bilgi işlem gücüne ek olarak, bu iş için bellek gereksinimleri de bir sorundur. Tamamen bağlı katmanlar GPU belleği için uygun olmadığından, hiyerarşik bir şekilde birden fazla GPU'da depolanmaları gerekir. Bu aynı zamanda neredeyse yalnızca büyük şirketlerin makalenin sonuçlarını yeniden üretme yeteneğine sahip olduğu anlamına gelir.

Esas sorun, girdi-çıktı oranının dengesiz olmasıdır. MS COCO için özel teknikler kullanırsak (sınırlayıcı kutu iyileştirme, bağlam ve çok ölçekli testler), 300M görüntülerde önceden eğitilmiş bir ağın sonuçlarını bile aşabiliriz. Bu tür bir uzmanlığın bir başka özelliği de, bu teknolojilerin geliştirilmesinin hesaplama kaynaklarına bağlı olmaması, aslında yaratıcılığa bağlı olmasıdır. ve Çoğu araştırmacı için, bilgi işlem kaynakları yaratıcılıktan daha sınırlayıcı bir faktördür - fikirlerden yoksun değiliz, sadece tüm bu fikirleri çalıştıracak GPU'ya sahip değiliz .

Gelecekte, gelişmekte olan ülkelerde daha fazla derin öğrenme araştırmacısı olacak ve bu durum giderek daha gerçek hale gelecektir. Yaratıcılık ve bilgi işlem kaynakları kısıtlanırsa, etkili araştırma yapamayız. En iyi araştırma kapsayıcı ve tekrarlanabilir olmalı, diğer araştırmacıların katılmasına izin vermelidir. Bu nedenle, çoğu araştırmacı için büyük ölçekli verileri kullanmak en iyi araştırma yönü değildir.

Bununla birlikte, mevcut ultra büyük ölçekli veri hacmi hala biraz pratik olmasa da, bu sorun yakında çözülecektir. Derin öğrenme araştırma topluluğu, standart donanımımızın boşta kalmaması için yeterli veriye sahip olmalıdır. Yöntemlerin ve donanımın iyileştirilmesiyle, ImageNet boyutlu veri kümeleri artık uygulanamayacak ve JFT-300M'ye benzer daha büyük veri kümelerini kullanmaya devam etmemiz gerekecek. Bununla birlikte, verileri işlerken ve çalışan modeller hala büyük bir zorluktur, işte büyük ölçekli veri kümelerini kullanmak çok verimli değildir.

Çoğu araştırmacı için yapılması gereken, iyi bir fikir ve bunu gerçekleştirmek için bir algoritma bulmaktır. Tabii ki, "büyük veri problemi" endüstriyel araştırmada yer alıyor. Akademik araştırma çalışması, sadece seçkin kurumlar ve şirketler tarafından değil, herkes tarafından kullanılabilecek bir yöntem olmalıdır.

Ek belge: Derin öğrenmeyi daha da geliştirmek için çeşitli yönler

[Kağıt] ShuffleNet: Mobil cihazlar için süper verimli evrişimli sinir ağı ( ShuffleNet: Mobil Cihazlar için Son Derece Verimli Evrişimli Sinir Ağı)

Yazar Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, Jian Sun (Megvii Technology Face ++)

[Bağlantı] https://arxiv.org/abs/1707.01083

Giriş

Yazar, evrişimli ağın verimliliğini artırır. Model, aynı sınıflandırma performansını elde etmek için daha az parametre kullanır. Yöntem şu şekildedir: (1) grup bazlı evrişim ve (2) bu gruplarda kanal-karıştırma yoluyla Arasında paylaşılan özellikler.

arka fon

Grup evrişimi, giriş kanallarını gruplara ayırmaktır (yükseklik x genişlik x kanallar: 10x10x9 (10x10x3,10x10x3,10x10x3)) ve her bir ayrı evrişim işlemi grubunu hesaplar (her 10x10x3 özellik haritasında bir evrişim). Bu, her evrişim işleminin etkin bir şekilde giriş kanallarının bir alt kümesi üzerinde evrişim gerçekleştirdiği anlamına gelir. Grup kıvrımlarının, kanallara göre bölündükleri için farklı özellik alanlarında çalışabileceğine dikkat edin.Örneğin, bir grup burun ve gözler için özel özelliklere sahipken, diğer grup kulak ve gözler için özel özelliklere sahip olabilir. Saçın özellikleri (normal kıvrım tüm özelliklerde çalışır: burun, gözler, kulaklar, saç vb.). Bu, tahmin performansını azaltacaktır ancak çok fazla hesaplama ve bellek tasarrufu sağlayabilir. Grup evrişimi ilk olarak bu tekniği iki GPU'da ImageNet verilerini işlemek için kullanan Alex Krizshevsky tarafından önerildi.

katkı

Channel-shuffle, farklı gruplar arasında özellik uzmanlaşmasını ortadan kaldırmak için tasarlanmış bir işlemdir. Sürekli grup evrişimi ile ilgili en büyük sorun, ikinci grup evrişimin yalnızca önceki tabakanın dağılımından daha özel özellikler öğrenildiğinde etkili olmasıdır.Örneğin, grup evrişimi 1, gözlerin ve burnun girdi özelliklerine sahip olabilir. , Bir sonraki grup evrişim, onu ayrı ayrı göz ve burun özelliklerine ayrıştıracak, böylece her kıvrım için yalnızca bir özellik hesaplanacaktır. Genellikle, evrişim her kanalın bir veya daha fazla özelliğini öğrenir, ancak sürekli grup evrişimi yoluyla, sonunda her evrişimde yalnızca 1 özellik öğreneceğiz (aslında daha karmaşık, yeni görmek için daha fazlasını öğrenin Zhiyuanın ShuffleNet hakkındaki önceki raporu: Sun Jian ekibi, Google MobileNet nedeniyle ShuffleNet'i önerdi .

Kanal karıştırma, tüm grup karıştırma kanallarını kullanarak bu sorunu çözer, böylece zamanla her evrişim tüm özellikleri öğrenebilir.

sonuç

Mobil cihazlar için tasarlanmış diğer ağlarla karşılaştırıldığında, ShuffleNet'in performansı biraz iyileştirildi. ShuffleNet, tutarlı performansı korurken vanilya AlexNet'ten 13 kat daha hızlıdır. Diğer referans mimarilerle aynı performansı elde ederken, parametre sayısı önemli ölçüde azaltılır.

yorum Yap

ShuffleNet, mevcut yöntemlerde yalnızca küçük iyileştirmeler yapsa da, ana cazibesi, herhangi bir derin öğrenme çerçevesinde herkesin kolayca uygulayabileceği basit, standart işlemler (Grup evrişimi + kanal karıştırma) kullanmasıdır. Bu, birçok uygulama için çok kullanışlıdır. Bundan alabileceğimiz ilham, sıradan evrişimi grup evrişimi ile değiştirmek ve daha sonra grup evrişimi evrişimleri birleştiremediğinde sıradan evrişime geri dönmektir. İhtiyacımız olan araştırma türü budur - kullanımı kolay, uygulaması kolay ve herkes tarafından hızla geliştirilebilecek performans. Bu tür araştırmalar gelecekte çok önemli hale gelecektir.

Makale, yöntemi mobil cihazlar için en uygun olan küçük ve hızlı ağlarla sınırlıyor, ancak bu araştırmanın önemi bunun çok ötesine geçiyor. Grup evrişimi + kanal karıştırma evrenseldir ve evrişimi kullanan herkes bu teknolojiyi cesurca kullanmalıdır.

Kağıt Küçük İleri Beslemeli Ağlarla Doğal Dil İşleme (Basit İleri Beslemeli Ağlarla Doğal Dil İşleme)

Yazar Jan A. Botha, Emily Pitler, Ji Ma,, Slav Petrov; Google;

[Bağlantı] https://arxiv.org/abs/1708.00214

Fikir

Bu görev çok basittir: bir bellek bütçesini önceden tanımlayın ve (1) bu bellek bütçesine uyum sağlayabilen (2) çeşitli NLP görevlerinde mümkün olan en iyiyi başarabilen çok katmanlı algılayıcılar (MLP'ler) tasarlamaya çalışın verim. MLP'nin sınırlı hesaplama ve ifade yetenekleri nedeniyle, ağın görevleri tamamlaması için akıllı ve etkileyici özellikler sağlamamız gerekiyor. Başarılı olursa, bu yöntem büyük miktarda veriye veya sınırlı bilgi işlem kaynaklarına (cep telefonları gibi) sahip ortamlar için uygun bir mimari üretecektir.

Özellik mühendisliği ve optimizasyonu

Hashed n-char-grams

Bir belgedeki her bir karakteri benzersiz bir vektöre eşlemek olan 1 karakterli gram gömme, geçmişte özellikle tekrarlayan sinir ağları (RNN) kullanılarak başarılı olmuştur. Ancak bu çalışmada n karakterli gramlar, özellikle 2, 3 ve 4 karakterli gramlar kullanılmıştır. Bununla birlikte, yalnızca İngilizce harfleri (26 karakter) kullanırsak, bu çalışma tarafından önceden belirlenen bellek sınırını aşan 456.9764 karakterli gramlık bir kombinasyona sahip olacağız. Yazar, bu parametrenin patlamasını önlemek için char gramları karma haline getirmiş ve modulo işlemleri aracılığıyla bunları kümeler halinde gruplamıştır. Örneğin, "hash (char gram) mod 1000" 0 ile 999 arasında bir indeks üretir, bu nedenle çoğu char gram, parametreleri başka bir char gram ile paylaşır. Bu teknik, kelime dağarcığı dışındaki kelimelere farklı kelime dışı kelimeleri farklı kelime dışı vektörlerle eşleştirmek için uygulanmıştır. Ancak bu n-gram hash'in çok etkili olduğu görülüyor, bu da basit ağın bu kadar iyi performans göstermesinin nedenlerinden biri.

Bu yöntemi kullanarak, ağın n-char gram'ın anlamını bağlamdan ayırt edebileceğini umuyoruz. Bu süreç, biz insanların "Topa sopasıyla vurması" ve "Alacakaranlıkta uçan yarasayı görebiliyordu" (alacakaranlıkta uçan yarasayı görebiliyordu) gibi kelimeleri ayırt etmemize benzer. ), bu iki cümle, insanlar için "yarasa" nın farklı anlamlarını ayırt etmek için kolaydır ve daha sonra makineler için çok iyi ayırt edilmiş gibi görünürler.

İlginç bir şekilde yazar, normal 50-500 boyutlarıyla (veya LSTM için daha yüksek) karşılaştırıldığında, parametre paylaşımının gömme boyutunun 8-16 aralığına indirilmesine de izin verdiğini belirtti.

Şekil: Örneğin, char-gram kullanımı "no queue at" dizisi üzerinde çalışır. Her bir jetonun 2 karakterli gramları (mavi) ve 3 karakterli gramları (yeşil) ayrı ayrı aranır ve her bir jeton için toplanır.

Nicelleştir

Gömme çok fazla bellek kullanır.Yazar, gömmenin bellek ayak izini azaltmak için 8 bitlik nicemleme uygular. Niceleme, tam sayıları yaklaştırarak kayan nokta sayılarını ifade etme yöntemidir. 8-bit evrensel niceleme, 0 ile 255 (8-bit) aralığında sıkıştırılması gereken sayıları normalize etmek ve ardından bunları bu "kovalara" orantılı olarak dağıtmaktır. GPU kümelerinde büyük derin öğrenme ağlarını hızlandırmak istiyorsanız çok yararlı olan daha karmaşık 8 bit yaklaşım yöntemleri geliştirdim ve inceledim. Okuyucular bu konu hakkında daha fazla bilgi edinmek istiyorlarsa, Derin Öğrenmede Paralellik için 8-Bit Yaklaşımları (https://arxiv.org/abs/1511.04561) özetleyen ICLR makalemi okuyabilirler: Derin Öğrenmede Paralellik için 8-Bit Yaklaşımlar (https://arxiv.org/abs/1511.04561) Bit yaklaşım yöntemleri ve bu yöntemlerin sinir ağlarının eğitimini ve paralelleştirilmesini nasıl etkilediği.

Çalışmamın da gösterdiği gibi, 8 bit gömme yalnızca depolama içindir, bu nedenle hesaplamadan önce bunları 32 bit olarak çözün. Yazar, bu tür bir sıkıştırmayı kullanarak, tahmin performansında herhangi bir kayıp olmadığını kanıtlarken, bellek ayak izini dörtte bir oranında düşürdü.

Diğer teknikler

Yazar, ön sipariş verme (POS) sınıflandırması gibi diğer teknikleri de kullanır, ancak bu teknikler daha spesifiktir ve daha fazla arka plan bilgisi gerektirir, bu yüzden bu teknikleri bu makalede atladım.

sonuç

Yazar, POS etiketleri (isimler, fiiller vb.), Dil tanıma (bazı metinler verilir, hangi dil olduğunu belirler), bölümleme (bir dizi karakter verildiğinde, birçok Asya dili için kelime sınırının nerede olduğunu belirler. Bu çok önemlidir) ve diğer görevler son teknoloji ürünü veya son teknoloji sonuçlara yakın sonuçlara ulaşmıştır. Yazarın çalışması, kararlı sonuçları korurken, gerekli işlemleri ve ağ boyutunu da büyük ölçüde azaltır. Sonuç olarak, kullanılan yöntem genellikle hesaplama bütçesini ve bellek ayak izini yaklaşık bir büyüklük sırasına kadar azaltabilir, yani hesaplama hızı yaklaşık 15 kat hızlandırılır ve bellek 10 kat azaltılır.

Neden bu kadar basit, hızlı ve hafızadan tasarruf sağlayan bir ağ bu kadar güçlü olabilir? Bunun nedeni özellik mühendisliğidir: performansın büyük bir kısmı kelime kümelerinden kaynaklanmaktadır. Hashing n-gram, performans iyileştirmesi için başka bir nedendir. Genel olarak konuşursak, niceleme veya daha düşük doğruluk daha etkili olabilir ve bu da tahmin kalitesi için neredeyse hiçbir dezavantajı yoktur. Bunlar, bu makalenin ana fikirleri.

Değerlendirme

Yazar, genel ağların, sığ ağların ve ileri beslemeli ağların yeteneklerini yeni veya bazı gözden kaçan özellikleri kullanarak gösterir. Tahmin sonuçları ve hesaplamalar ile bellek kullanımının sonuçları etkileyicidir. Veri miktarı arttıkça, bu yöntemler giderek daha önemli hale gelecektir.Özellik mühendisliğinin ölmediğini ve derin öğrenmenin ve NLP'nin ilerlemesinin bile özellik mühendisliği gerektirdiğini kanıtlıyor.

NLP alanında ilerleme kaydetmek istiyorsak, o zaman aynı özelliklere sahip daha karmaşık modeller oluşturmanın doğru yol olduğunu düşünmüyorum. Yenilikçi algoritmaların çalışması için temele ihtiyacımız var. Roket mühendislerine kötü inşaat malzemeleri verirsek, roketlerinin uzaya ulaşmasını bekleyemeyiz. Tek başına kelime gömme yeterli değildir. Uzaya ulaşmak istiyorsak, yapı malzemelerini geliştirmemiz gerekiyor.

[Kağıt] Ölçeklenebilir Görüntü Tanıma için Aktarılabilir Mimarileri Öğrenme (Ölçeklenebilir Görüntü Tanıma için Aktarılabilir Mimarileri Öğrenme)

[Yazar] Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le (Google Brain)

[Bağlantı] https://arxiv.org/abs/1707.07012

Fikirler

En iyi derin öğrenme mimarisini bulmak için sinir mimarisi aramasını (NAS) veya pekiştirmeli öğrenmeyi kullanın. Sinir mimarisi araması hesaplama açısından çok pahalı olduğu için yazar birkaç basitleştirme yaptı:

Parametreleri optimize etmek için sinir mimarisi aramasını kullanmayın
Ağın tüm katmanlarını optimize etmez, ancak yalnızca iki farklı bloğun ortak mimarisini arar: (1) özellik genişletme bloğu ve (2) özellik azaltma bloğu. Bu blokları tekrar tekrar istifleyerek eksiksiz bir mimari oluşturun
ImageNet verilerinde iyi bir mimari bulmak çok uzun sürdüğü için, daha küçük bir veri setinde (CIFAR10) bir arama yapın, ardından CIFAR10'daki en iyi bloğu kullanın ve ImageNet'te kullanın
Birkaç GPU'da arama yapmak hala çok yavaş, bu nedenle 450 GPU kullanın

arka fon : Sinir Mimarisi Araştırması

Mimaride tek bir katman veya işlev seçmek için nihai olarak bir softmax katmanı olan RNN'yi kullanın. algoritma:

Giriş olarak kullanılan gizli katmanı tahmin edin, yani son veya son blokta gizli bir katman seçin. Seçili gizli katmanın çıktısını A girişi olarak kullan
Giriş olarak kullanılan gizli katmanı tahmin edin, yani son veya son blokta gizli bir katman seçin. Seçilen gizli katmanın çıktısını B girişi olarak kullan
Yeni gizli katmanın A girişini işleyebilmesi için, gerçekleştirilecek işlemleri tahmin edin (evrişim, maksimum havuzlama, ayrılabilir evrişim, vb.)
B girişini işlemek için kullanılan yeni gizli katman için, gerçekleştirilecek işlemleri tahmin edin (evrişim, maksimum havuzlama, ayrılabilir evrişim, vb.)
Birleştirme işlemini seçin ve gizli A ve B katmanlarını birleştirin
K kez tekrarlayın (bu makalede K = 5)
Yukarıdakilerin tümünü tek bir özellik vektörüne bağlayın
Sabit bir sezgisel kuralı izleyin: Önceden gizlenmiş katmanda adım 2 olduğunda (bloğu geri yükle), mevcut gizli katmandaki evrişim filtresini ikiye katlayın

Mimari bulundu

Sinir ağı araması (NAS) yoluyla bulunan mimari etkileyici. En önemlisi, ağ standart 3 × 3 evrişimi kullanmayı seçmedi, ancak bunu yapmak tamamen mümkün. Aksine, ağ her zaman düzenli konvolüsyonlarda ayrılabilir konvolüsyonlar seçer. Bir başka ilginç şey, ortalama bir havuzlama kullanmaktır. Bu hücrelerde (veya bloklarda), bu çok yaygın bir işlemdir. Yazarın son bloğa artık bağlantıları manuel olarak eklemeye çalıştığı da şaşırtıcı bir gerçek var, ancak bu artık bağlantılar performansı düşürdü.

Sinir ağının kendisi tarafından keşfedilen mimari, bize evrişimli ağların tasarımına dair daha derin bir anlayış sağlıyor. Ancak, bu aynı zamanda yeni soruları da gündeme getiriyor: Arta kalan bağlantı neden işe yaramaz? Bu mimaride kimlik bağlantısı neden yeterli?

sonuç

Tahmine dayalı performansı biraz sınırlı parametre ayarlarında karşılaştırırken, bu mimari neredeyse en gelişmiş teknolojiyi uygular. ImageNet'te yalnızca Shake-Shake 26 daha iyi performans gösterdi. Kısıtlanmamış parametreler için, mimari aynı zamanda ImageNet üzerinde en gelişmiş performansı elde eder ve ayrıca diğer ağlardan daha yüksek hesaplama verimliliğine sahiptir. Bu nedenle mimari hem en gelişmiş sonuçları hem de hızlı eğitim sürelerini elde eder. Küçük ağlar için, bu mimari ShuffleNet'ten daha iyi sonuçlar verir, ancak ShuffleNet, özellikle çok küçük parametre ayarları için hesaplama açısından daha verimlidir.

yorum Yap

Bu çalışmanın sonuçları şaşırtıcı ve çok fazla ilham kaynağı oldu. Görünüşü, iyi ImageNet performansının artık, otoyol veya yoğun bağlantılar gerektirdiği yönündeki önceki görüş birliğini alt üst etti. En ilginç bulduğum şey, bu çalışmada bulunan çerçeve yapısının giderek daha çok bir nöron yapısına benzemesi.

Bu çalışma çok garip bir kombinasyon.Geleneksel laboratuarların böyle bir araştırmayı başarması zordur (450 GPU gereklidir), ancak bu çalışmanın sonuçları sıradan laboratuarlara iyi haberler getirebilir (mimarinin daha az hesaplama gücü gerektirdiği bulundu) , Parametre kullanımı da daha yüksektir). Sıradan araştırmacıların bakış açısından, Google'ın yapabileceği en iyi araştırma bu. Bu, alanı ve herkesin derin öğrenme anlayışını pratik bir şekilde geliştirir.Aynı zamanda, araştırmanın kendisi, yalnızca endüstri devleri tarafından başarılabilen, paha biçilemez bilgi işlem kaynağı gereksinimlerine sahiptir. Bu tür araştırmalar, endüstri devlerinin en çok katkıda bulunabileceği alan olabilir.

[Kağıt] Açık Alanlı Soruları Yanıtlamak İçin Wikipedia'yı Okuma (Açık Alanlı Soruları Yanıtlamak İçin Wikipedia'yı Okuma)

Yazar Danqi Chen, Adam Fisch, Jason Weston ve Antoine Bordes (Facebook AI Araştırması + Stanford);

[Bağlantı] https://arxiv.org/abs/1704.00051

Geleneksel QA ile ilgili sorunlar

Mevcut soru-cevap görevi temelde bir arama görevi içerir ve belirli bir paragrafta verilen bir soruyla ilgili metni bulmak gerekir (SQuAD, CNN + DailyMail, bAbI, WikiReading). Bu gerçeklik ile aynı ortam değildir, çünkü bir sorunuz olduğunda, genellikle sorunun cevabını içeren paragrafı alamazsınız. Bu nedenle, veri setinde iyi performans gösteren bu modeller, diğer veri setlerine veya herhangi bir gerçek soruna iyi genelleştirilemez. Diğer bir sorun da bazı eğitim setlerinde bu modellerin cevaplanacak sorulara verilen cevapların% 75'ini içeren ilk cümleyi seçmesidir, yani (1) cevap eğitim setinde verilmemişse, (2) cevap değilse İlk cümlede, geleneksel model soruyu cevaplayamaz.

Fikir: Bilgi Erişim yöntemini kullanın

Bilgi alma + paragraf okuma sistemi

Model, eğitim veri seti ve sonuçlar için lütfen kağıda bakın: Açık Alanlı Soruları Yanıtlamak İçin Wikipedia'yı Okuma (https://arxiv.org/abs/1704.00051)

yorum Yap

Bu çok önemli bir görev. Giriş bölümünde tartıştığımız gibi, zamanla veri miktarının giderek arttığı ve işleyebileceğimiz verilerin gittikçe küçülen bir parçası olduğu bir çağdayız.

GPU

NASGPUregularseparable

group+shuffleJFT-300M

NAS

ShuffleNetoperationShuffleNetAI

low-bit computation XNOR-NetGPU816

NLU

GPU

NLP

NLPNLP

fancy string matching

YouTube12