Uber Yapay Zeka Araştırma Enstitüsü, ICLR 2019'un en iyi kağıt "piyango hipotezi" ni derinden yıkıyor!

AI Technology Review Press: Bir dereceye kadar teknik bir kara kutu olarak, sinir ağlarının birçok çalışma prensibinin hala araştırılması gerekiyor. Yılın başında, Frankle ve Carbinin "The Lottery Ticket Hipotezi: Finding Sparse, Trainable Neural Networks" adlı makalesi, ağ budama işlemini etkin bir şekilde gerçekleştirebilen seyrek, yüksek performanslı bir ağ oluşturmak için basit bir yöntem önerdi. Bu çığır açan gelişme, bu makaleyi de yapıyor. Makale, ICLR 2019'un en iyi kağıt kazananlarından biri oldu. Bu makalede, Uber AI Araştırma Enstitüsü bu "piyango hipotezi" sonucunu derinden çözdü ve beklenmedik bir şekilde güçlü budama yeteneklerine sahip evrensel bir "Süper Görev" elde etti! Leifeng.com AI Technology Review aşağıdaki gibi derlenmiştir.

Uber'de, şehirdeki insanların ve nesnelerin hareketine ilişkin anlayışımızı temelde geliştirmek için sinir ağlarını kullanıyoruz. Diğer kullanım durumlarında, doğal dil modelleri aracılığıyla müşteri hizmetleri yanıt hızını hızlandırmak ve şehirler arası talebin zamansal ve mekansal tahminiyle kullanıcı bekleme süresini azaltmak için sinir ağlarını kullanıyoruz. Süreçte, model eğitimini genişletmek ve daha hızlı model geliştirmeyi desteklemek için ilgili altyapıyı geliştirdik.

Sinir ağları güçlü ve yaygın olarak kullanılan araçlar olmasına rağmen, ince özelliklerinin çoğu hala bilinmemektedir. Dünyanın dört bir yanındaki bilim adamlarının ağın temel özelliklerini anlamada kaydettiği önemli ilerlemeyle, Uber AI'nın araştırmalarının çoğu da bu yönde hızla takip ediyor. İlgili çalışma, doğal ağ karmaşıklığını değerlendirmeyi, daha doğal bir giriş alanı bulmayı ve popüler modellerde gizli kusurları ortaya çıkarmayı içerir.

Kısa bir süre önce, sinir ağlarının gizemini ortaya çıkarmayı amaçlayan bir "Deconstructing Lottery Tickets: Zero, Signs ve the Supermask" (https://arxiv.org/abs/1905.01067) makalesi yayınladık. Bu çalışmaya Frankle ve Carbin tarafından önerilen ilginç "piyango hipotezine" dayanarak başladık. Çalışmaları, çok basit bir algoritmanın daha küçük ağırlıklarını sildiğini ve yeniden eğitildiğini gösteriyor. Tüm ağ ile karşılaştırılabilir performansa sahip geniş bir ağda seyrek eğitilebilir alt ağlar veya "piyango biletleri" bulabilir, bu da birçok araştırmacıyı beraberinde getirdi. Bir sürpriz. Ancak, (mükemmel araştırmada genellikle olduğu gibi) cevapladıkları kadar çok soru sorarlar ve altta yatan mekanizmaların çoğunu henüz iyi anlamamışlardır. Makalemiz, bu mekanizmaların bir açıklamasını önermekte, bu alt ağların ilginç özel modellerini ortaya çıkarmakta, "piyango" algoritmasıyla rekabet eden bir varyantı tanıtmakta ve beklenmedik bir şekilde keşfedilen bir türevi elde etmektedir: "süper maske".

· "Piyango Hipotezi" ·

İlk olarak, Frankle ve Carbin'in "The Lottery Ticket Hipotezi: Finding Sparse, Trainable Neural Networks" (https://arxiv.org/abs/1803.03635) adlı makalesini kısaca özetliyoruz ve makalenin başlığı "LT" olarak kısaltılıyor. Bu makalede yazar, seyrek yüksek performanslı bir ağ oluşturmak için basit bir yöntem önermektedir: ağı eğittikten sonra, belirli bir eşiğin altındaki tüm ağırlıkları "0" a ayarlayın (bunları budayın) ve kalan ağırlıkları ayarlayın İlk yapılandırmasına geri dönün ve ardından bu ilk yapılandırmadan ağı yeniden eğitirken budanmış ağırlıkların donmuş durumda olduğundan (eğitilmemiş) emin olun. Bu yöntemi kullanarak iki ilginç sonuç elde ettiler.

İlk olarak, budama sonrası ağ performansının iyi olduğunu kanıtladılar. Derin budama geçiren ağda (ağırlığın% 95 ila% 99,5'i budanır), daha büyük budamasız ağa kıyasla performans düşüşü göstermez. Ek olarak, yalnızca orta düzeyde budanmış (ağırlıkların% 50 ila% 90'ı kaldırılarak) ağların performansı, budanmamış rekabetçi modelden genellikle daha iyidir.

İkincisi, bu etkileyici sonuçlara ek olarak, kalan ağların yapısı ve ağırlık özellikleri de aynı derecede ilginçtir. Normalde, eğitimli bir ağ kullanıyorsanız, onu rastgele ağırlıklarla yeniden başlatın ve ardından yeniden eğitin, performansı kabaca eskisi gibi olacaktır. Ancak geliştirilmiş bir iskelet piyango (LT) ağı için bu özellik geçerli değildir. Yalnızca ağ başlangıç durumuna döndüğünde (kullanılan belirli başlangıç ağırlıkları dahil) ağ iyi eğitilebilir. Yeni ağırlıklarla yeniden başlatma, kötü eğitim sonuçlarına yol açacaktır. Frankle ve Carbinin araştırmasının işaret ettiği gibi, budama maskelerinin (her ağırlık için, ağırlığın 0-1 değerinin silinip silinmeyeceğini gösteren) özel kombinasyonu ve maskenin altındaki ağırlık, daha büyük bir Şanslı alt ağ ağda bulundu. Veya orijinal araştırmada belirtildiği gibi, bu zafer için bir "piyango" modelidir.

Bu örneği çok ilginç bulduk çünkü kimse bu sonucun neden olduğunu bilmiyor. LT ağı nasıl daha iyi performans göstermelerini sağlıyor? Budama maskesi ve ilk ağırlık ayarı neden bu kadar sıkı bağlanmış ve yeniden başlatılan ağın eğitilmesi neden daha zor? Maske seçimi için neden doğrudan daha büyük bir ağırlık seçmek etkili bir kriterdir? Maske oluşturmak için diğer standartlar da geçerli mi?

· Garip ve etkili maske ·

İncelememize ve araştırmamıza başladığımızda, açıklanması gereken bazı garip olaylar gözlemledik. LT ağını eğitirken, birçok sıfırlanmış ve maskelenmiş ağın doğruluğunun başlatmanın doğruluğundan önemli ölçüde daha yüksek olabileceğini gözlemledik. Başka bir deyişle, eğitimsiz bir ağa belirli bir maske uygulamak, kısmen çalışan bir ağla sonuçlanacaktır.

MNIST veri kümesindeki (https://en.wikipedia.org/wiki/MNIST_database) el yazısıyla yazılmış rakamları sınıflandırmak için rastgele başlatılmış, eğitimsiz bir ağ kullanıyorsanız, bu şaşırtıcı olabilir. Bu şekilde elde edilen doğruluğun rastgele işlemden daha iyi olmadığını göreceksiniz (doğruluk oranı yaklaşık% 10'dur). Ama şimdi, ağ ağırlıklarını yalnızca "0" ve "1" içeren bir maskeyle çarptığınızı varsayalım. Bu durumda, ağırlıklar ya aynı kalacak ya da tamamen silinecektir, ancak ortaya çıkan ağ artık neredeyse% 40 doğruluğa ulaşabilir! Bu garip, ancak oluşturulan maskeyi uygulamak için daha büyük bir son değer ağırlığı ("büyük son" maske kriteri diyoruz) seçmek için LT belgesindeki adımları kullanırken, bu olur:

Şekil 1: Eğitimsiz ağların rastgele çalıştırılmasının sonuçları (örneğin, şekilde gösterildiği gibi, MNIST veri setinin doğruluğu% 10'dur), bu ağlar rastgele başlatılırsa veya rastgele başlatılırsa ve rastgele maskelenirse uğraşmak. Bununla birlikte, LT maskesinin uygulanması, ağın doğruluğunu artırarak onu rastgele hale getirir.

Süper görev olarak "kısmen çalışan bir ağ, temel ağırlıkları eğitmeden hemen oluşturulabilir" özelliğine sahip bir maske diyoruz.

Şekil 1'de gösterildiği gibi, rasgele başlatma ağında ve rasgele maskeli rasgele başlatma ağında, ağırlıklar ve maskeler etiket hakkında herhangi bir bilgi içermez, bu nedenle doğruluk rasgele durumdan daha iyi olmayabilir. LT "büyük son" maskeli rastgele başlatma ağında, rastgele durumdan daha iyi performans elde etmek imkansız değildir, çünkü maske gerçekten eğitim süreci sırasında üretilir. Ancak bu yine de biraz beklenmedik bir durumdur, çünkü eğitimden ilk ağa geri dönen tek bilgi "0-1" maskesi yoluyla iletilir ve maskeyi uygulama kriteri yalnızca büyük bir son değere sahip bir ağırlık seçmektir.

· Maske hesaplaması eğitim gerektirir. "0" neden önemlidir? ·

Öyleyse neden sadece LT maskesinin uygulanmasının testin doğruluğunu büyük ölçüde artırabileceğini düşünüyoruz?

LT belgesinde uygulanan maske hesaplama işlemi iki işlem gerçekleştirecektir: ağırlıkları sıfıra ayarlayın ve bu ağırlıkları dondurun. Bu iki bölümden hangisinin eğitimli ağın performansını iyileştireceğini belirleyerek, eğitimsiz ağın bu benzersiz performansının altında yatan ilkeyi de keşfettik.

Yukarıdaki iki faktörü ayırmak için basit bir deney yaptık: Ağ ağırlıklarının alternatif "eğitim / maskeleme / sıfırlama" döngüsünde maskelendiği LT yinelemeli budama deneyini yeniden ürettik, ancak biz Diğer işleme yöntemlerini de denedim: "sıfır maskesi" işleminin ağırlığını sıfıra dondurmak yerine başlangıç değerine dondurmak. Sıfır özel değilse, iki yöntemle elde edilen performans benzer olmalıdır. Frankle ve Carbin (2019) uygulamasını takip ediyor ve CIFAR-10 veri kümesi, Conv2, Conv4 ve Conv6 (2/4/6 evrişimli katmanlara sahip küçük CNN) üzerinde üç Evrişimli Sinir Ağı'nı (CNN) eğitiyoruz. LT belgesinde kullanılanla aynı).

Aşağıdaki Şekil 2 deneysel sonuçtur: Soldaki budamasız ağ, budama işlemi yoluyla sağdaki budanmış ağa dönüştürülür (veya daha doğrusu: "belirli bir değere kadar dondurulur"). Yatay siyah çizgi, ilk budanmamış ağın beş çalıştırmada ortalama performansını temsil eder. Bu ve diğer şekillerdeki belirsizlikler, beş çalışmanın minimum ve maksimum değerlerini temsil eder. Mavi düz çizgi, kısaltılmış ağırlıkları sıfıra ayarlayan ve donduran LT algoritmasıyla eğitilmiş ağı temsil eder. Mavi kesikli çizgi, budama ağırlığını başlangıç değerine dondurmadan LT algoritmasıyla eğitilen ağı temsil eder:

Şekil 2: Yukarıdaki üç evrişimli sinir ağını CIFAR-10 veri kümesinde test ederken, budama ağırlıkları başlangıç değerine donmuş ağın doğruluğunun, sıfıra ayarlı budama ile doğruluktan daha iyi olduğunu gördük. Post ağırlıklı ağın doğruluğu açıkça daha düşüktür.

Ağırlık rastgele bir başlangıç değeri yerine kasıtlı olarak sıfıra dondurulduğunda ağın daha iyi performans gösterdiğini gördük. LT "nihai büyük" standardıyla maskelenen bu ağlar için, küçük bir nihai değere sahip olduklarında, ağırlığı sıfıra ayarlamak çok iyi bir seçim gibi görünmektedir.

Öyleyse neden sıfır ideal değerdir? Bir varsayım, kullandığımız maske standardının, maske aracılığıyla sıfırdan sıfıra eğilimli ağırlıkları tedavi etme eğiliminde olduğudur. Bu hipotezi test etmek için yeni bir dondurma yöntemini ele alalım. İlk iki deney arasına başka bir deney ekliyoruz: donacak herhangi bir ağırlık için, eğitim sürecinde sıfıra düşme eğilimindeyse, onu sıfıra donduracağız; ve yavaş yavaş sıfırdan uzaklaşırsa, donduracağız. Rastgele başlangıç değerine dondurun. Sonuç aşağıdaki Şekil 3'te gösterilmektedir:

Şekil 3: Egzersiz sırasında ağırlıkların hareket ettiği yöne göre, ağırlıkların seçilerek başlangıç değerine veya sıfıra dondurulması, tüm ağırlıkları sıfıra veya başlangıç değerine başlatmaktan daha iyi performans elde edecektir.

Bu işleme yönteminin performansının, tüm ağırlıkları sıfıra veya başlangıç değerine dondurmaktan daha iyi olduğunu görüyoruz! Bu, değerleri dondurma performansının, bu değerlerin yine de sıfır olma eğiliminde olacağı gerçeğinden dolayı daha iyi olduğu hipotezimizi doğrular. "Nihai büyük" maske standardının neden sıfıra eğilimli ağırlıkları seçme eğiliminde olduğu hakkında derinlemesine bir tartışma için lütfen makalemize bakın (https://arxiv.org/abs/1905.01067).

Bu nedenle, "büyük son" gibi bazı maske standartları için, maskenin eğitim sırasında türetildiğini bulduk: maske operasyonu, ağırlıkları eğitim sırasında hareket ettikleri yönde hareket ettirme eğilimindedir.

Bu aynı zamanda neden bir "süper maske" olduğunu ve dolaylı olarak diğer maske standartlarının daha iyi "süper maskeler" alabileceğini açıklar (eğer eğitimde sıfır olma eğiliminde olan sıfır ağırlıklı maskelere öncelik verebilirlerse) ).

· Diğer maske standartları ·

Artık orijinal LT maskesi standardı "büyük final" in mükemmel performansının nedenlerini araştırdığımıza göre, o zaman başka hangi maske standartlarının da iyi performansa sahip olacağını düşünebiliriz. "Büyük nihai" kriteri, ağırlığı daha büyük nihai değere sahip tutar ve kalan ağırlıkları sıfıra ayarlar. Bu budama kriterini ve diğer birçok kriteri, iki boyutlu (wi = başlangıç ağırlığı, wf = son ağırlık) alanı, korunması gereken karşılık gelen ağırlıklara ("1" maske) ve budanması gerekenlere ayırmak olarak düşünebiliriz. Alan ("0" maskesi). Çalışma prensibi Şekil 5'te gösterilmektedir:

Şekil 5: Farklı maske standartları, (wi, wf) boşluğunu "1" veya "0" maske değerine karşılık gelen bölgelere bölerek düşünülebilir. Elips, pozitif korelasyon başlangıç değeri ve belirli bir katmanın son ağırlığının kapladığı alanı animasyon biçiminde gösterir. Şekildeki maske, LT kağıdında kullanılan "büyük nihai" standarda karşılık gelir: büyük nihai değerlere sahip ağırlıklar korunur ve sıfıra yakın nihai değerlere sahip ağırlıklar budanır. Lütfen bu standardın ağırlığın başlangıç değerini dikkate almadığına dikkat edin.

Önceki bölümde, ağırlığı sıfıra sıfıra ayarlamanın iyi ağ performansı elde edeceği hipotezini destekleyen bazı kanıtlar gösterdik. Bu varsayım, bu temel kurala uymaları halinde diğer maske standartları için de geçerli olabileceğini düşündürmektedir. Böyle bir maske standardı, sıfırdan en uzaklaşan ağırlıklara öncelik vermektir, bunu bir skorlama fonksiyonu olarak yazabiliriz | wf | - | wi |. Bu standardı "büyüklük artışı" olarak adlandırıyoruz ve diğer standartlarla birlikte Şekil 6'daki koşullu kontrol örneği olarak aşağıdaki gibi ifade ediyoruz:

Şekil 6: LT belgesinde görünen "büyük nihai" standarttan başlayarak, bu çalışmada dikkate alınan sekiz maske standardı soldan sağa doğrudur. Çeşitli yöntemlere atıfta bulunmak için kullanılan isimleri ve her bir (wi, wf) çifti bir puana yansıtma formülünü veriyoruz. En yüksek puana sahip ağırlığı (renk alanı) tutuyoruz ve ağırlığı en küçük skorla (gri alan) buduyoruz.

Bu "büyüklük artışı" standardı, "büyük nihai" standart kadar etkilidir ve bazı durumlarda açıkça daha iyidir. Tamamen bağlı (FC) ve Conv4 ağları için, tüm standartların sonuçları Şekil 7'de gösterilmektedir; diğer ağların performans sonuçlarını anlamak için lütfen makalemize bakın (https://arxiv.org/abs/1905.01067). Karşılaştırma için bir temel olarak, gerekli budama yüzdesine sahip rastgele bir maskeyi doğrudan seçen rastgele budama kriteri kullanılarak elde edilen sonuçları da gösteriyoruz. Sekiz standardın ilk altısının üç çift zıt durum oluşturduğuna dikkat edin: her durumda, çiftin bir üyesinin rastgele taban çizgisinden daha iyi performans gösterdiğini görürüz, tersi Performans, rastgele taban çizgisinden daha kötü.

Şekil 7: İki ağın doğruluğu ve budama yüzdesinin ölçüm sonuçları, MNIST veri kümesindeki tam bağlı ağ (solda) ve CIFAR-10 veri kümesindeki Conv4 ağı (sağda). Çoklu maske standartlarının - "büyük son", "büyüklük artışı" ve diğer iki standardın gerçekten de siyah rastgele budama taban çizgisinden daha iyi olduğunu göstermektedir. Conv4 ağında, "büyüklük artışının" performans artışı diğer maske standartlarından daha fazladır; yıldız işareti, "büyük son" ve "büyüklük artışı" arasındaki farkın p = 0,05 düzeyinde istatistiksel olarak anlamlı olduğu durumu belirtir. .

Genel olarak konuşursak, daha büyük nihai değerlere sahip ağırlıkları tutma eğiliminde olan yöntemlerin yüksek performanslı alt ağları keşfedebileceğini gözlemledik.

· Asıl önemli olan semboldür! ·

Hangi ağırlıkların budanması gerektiğini ve budama işleminden sonra hangi değerin ayarlanması gerektiğini seçmek için çeşitli yöntemler araştırdık. Şimdi, tutulan ağırlık için hangi değerin ayarlanması gerektiğini ele alacağız. Özellikle, Frankle ve Carbin'in (2019) çalışmasındaki ilginç bir gözlemi incelemek istiyoruz; bu, onu orijinal başlangıç değerine sıfırladığınızda, budanmış iskelet LT ağının iyi eğitilebileceğini göstermektedir. . Bununla birlikte, ağı rastgele yeniden başlattığınızda, eğitim performansı düşecektir.

Yeniden başlatma neden zayıf LT ağı eğitimine neden oluyor? Başlatma sürecinde hangi faktörler önemlidir?

Sorunun cevabını bulmak için bazı yeniden başlatılmış varyantları değerlendirdik.

  • "Reint" deneyi: tutulan ağırlıkları orijinal başlatma dağılımına göre yeniden başlatın.

  • "Yeniden karıştırma" deneyi: Kalan ağırlıkların başlangıç değerlerinin yeniden ayarlanmasıyla elde edilen, katmandaki kalan ağırlıkların orijinal dağılımını takip ederken yeniden başlatma gerçekleştirilir.

  • "Sabit" deneyi: Kalan ağırlık değerini pozitif veya negatif bir sabite ayarlayarak yeniden başlatın ve sabiti her katmanın orijinal başlangıç değerinin standart sapmasına ayarlayın.

Tüm yeniden başlatma deneyleri, aynı orijinal ağa dayalı olarak uygulanır ve "büyük son" maske standardı ve yinelemeli budama kullanır. Karşılaştırma için temel olarak orijinal LT ağını (ağırlık sıfırlama, büyük ginal standardı kullanarak) ve rastgele budama ağını kullanıyoruz.

Aşağıdaki Şekil 8'de noktalı çizgi ile gösterildiği gibi, bu üç değişkenden hiçbirinin orijinal LT ağı gibi eğitilemeyeceğini gördük:

Şekil 8: Farklı yeniden başlatma yöntemlerini kullanırken, tam bağlı ağ (sol) ve Conv4 (sağ) olmak üzere iki ağın test doğruluğunu ve budama yüzdesini gösteriyoruz. Sembolik tutarlılığı takip edenler ile sembolik tutarlılığa uymayanlar arasındaki bariz performans farkı, ayrılmış ağırlıkların belirli başlangıç değerlerinin sembolleri kadar önemli olmadığını gösterir.

Bununla birlikte, tutulan ağırlık için yeniden dağıtılan değerin orijinal başlangıç değeriyle aynı işarete sahip olmasını sağlayarak sembollerin tutarlılığını kontrol ettiğimizde, üç varyantın tümü daha iyi performans elde edebilir. Şekil 8'de gösterilen düz çizgi bu durumu göstermektedir. Açıktır ki, tüm değişkenlerin rastgele durumdan daha iyi performans göstermesini sağlayan ortak öğe (orijinal "sıfırlama" yöntemi dahil) semboldür! Bu, sembolleri tutarlı tuttuğunuz sürece, yeniden başlatmanın modelin performansına zarar vermeyeceğini gösterir. Aslında, orijinal sembolü kullanmaya devam ettiğimiz sürece, tüm ayrılmış ağırlıkları doğrudan sabitlere ayarlasak bile iyi bir model efekti elde edebiliriz!

· Daha iyi bir "süper maske" ·

Makalenin başında, ikili bir maske olan "süper maske" kavramını tanıttık.Rastgele başlatılan bir ağa uygulandığında, ek eğitim olmaksızın rastgele duruma göre daha yüksek bir test doğruluğu elde edebilir. Şimdi dikkatimizi en iyi "süper maske" yöntemini bulmaya çeviriyoruz.

"Süper maskenin" potansiyelini görmek için Şekil 7'de gösterilen aynı budama yöntemini ve budama yüzdesini değerlendirebiliriz. "Süper maskeler" oluşturmak için optimize edilmiş diğer maske standartlarını da dikkate alabiliriz. LT ağırlığının ilk sembolünün öneminin gözlemlenmesine ve ağırlığı nihai değerine yaklaştırma fikrine dayanarak, eğitimin sonunda da büyük bir nihai değere sahip bir ağırlık seçen yeni bir maske standardı sunuyoruz. Aynı sembolü saklayın. Bu yöntem, Şekil 9'da gösterildiği gibi "büyük son, aynı işaret" olarak adlandırılır. Ayrıca, eğitimin sonunda işaretleri değişen ağırlıkları arayan bir koşullu kontrol durumu olarak "büyük son, aynı işaret" i de ekledik.

Şekil 9: "Büyük final, aynı işaret" maske standardı, bu araştırmada en iyi "süper maske" yi elde etti. Şekil 5'teki "büyük son" maskenin aksine, lütfen standardın farklı wi ve wf belirtilerine sahip kadranlarda maske işlemleri gerçekleştirdiğine dikkat edin.

"Büyük son, aynı işaret" şeklindeki basit maske standardını kullanarak, MNIST veri setinde mükemmel performansa ulaşan% 80 test doğruluğuna sahip bir ağ oluşturabiliriz. Eğitim olmadan, CIFAR-10 veri setinde% 24 test doğruluğu elde edilebilir. Bir başka harika gözlem de, maskeyi gerçek başlangıç ağırlıkları yerine (önceki bölümde açıklandığı gibi) işaretli sabitlere uygularsak, MNIST veri kümesinde% 86'ya kadar daha yüksek test doğruluğu elde edebiliriz. , Test doğruluk oranı CIFAR-10 veri setinde% 41'dir.

Şekil 10: Çeşitli maskeleri uygularken MNIST veri kümesinde tek bir tam bağlı ağın ilk koşulları altında (eğitim olmadan) elde edilen doğruluğu değerlendirdik. X ekseni, ağda kalan ağırlıkların yüzdesini temsil eder; kalan tüm ağırlıklar sıfıra ayarlanır. "Büyük son, aynı işaret" maskesi, performansı diğer yöntemlerden çok daha yüksek olan bir "süper maske" oluşturabilir. Bu grafiği çizmek için belirsizlik bandını oluşturan beş bağımsız çalışma haricinde, çizim üzerindeki her veri noktasının aynı temel ağı, ancak farklı bir maskeyle kullandığını unutmayın.

Böyle bir "süper maske" nin var olduğunu gördük ve onu bu kadar basit kriterler aracılığıyla bulmak çok ilginç. Bilimsel açıdan ilginç bir keşif olmasının yanı sıra, bu aynı zamanda aktarım öğrenimi ve meta-öğrenme üzerinde bir etkiye sahip olabilir - ağ yaklaşık olarak tahmin edilebilir. Örneğin, sadece farklı maskeler kullanın, MNIST girdi piksellerinin herhangi bir düzenlemesini ve çıktı sınıfı düzenlemesini bulabilirsiniz. Ayrıca bize bir ağ sıkıştırma yöntemi de sağlıyorlar, çünkü ağın tüm ağırlıklarını yeniden yapılandırmak için yalnızca ikili maskeyi ve tek bir rastgele çekirdeği kaydetmemiz gerekiyor.

Bu "süper maskelerin" performansını ne kadar iyileştirebileceğimizi öğrenmek istiyorsanız, lütfen onları doğrudan eğitmeye çalıştığımız kağıttaki makalemize (https://arxiv.org/abs/1905.01067) bakın. Yöntemler.

https://eng.uber.com/deconstructing-lottery-tickets/ aracılığıyla

2019 Küresel Yapay Zeka ve Robotik Zirvesi

Çin Bilgisayar Derneği'nin ev sahipliği yaptığı ve Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019) düzenlenecek 12-14 Temmuz 2019 Shenzhen'de düzenlendi.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Tıklamak Orijinali okuyun , Önceki içeriği görüntüleyin: ICLR2019'un en iyi bildirisi: "Sıralı Nöron", "Piyango Hipotezi" kazandı

Qin ve Chu Hanedanlığı'ndaki Büyük Geyik Savaşı - Changjiang Edebiyat ve Sanat Yayınevi, 1983, Yuan Yixian ve He Sheng tarafından boyanmış
önceki
Changzhou Şehri-Changjiang Edebiyat ve Sanat Yayınevi'nin Kanlı Savaşı, 1983, Fang Longchang tarafından boyanmıştır [Bölüm 2]
Sonraki
"Yalnızca kalkınma, sorunu çözmek için" ana anahtar "dır" Putuo Bölgesi, ekonomiyi geliştirmek ve insanların geçimini sürekli iyileştirmek için yenilikler yapıyor
Kuru mallar | Sogou arama "AIS 2019" tez semineri oynatma izle ve misafirler PPT paketi indir
Hangi mükemmel çevrimiçi görsel-işitsel eserler 2019'da Devlet Radyo ve Televizyon İdaresi tarafından desteklendi?
Changzhou Şehri-Yangtze Nehri Edebiyat ve Sanat Yayınevi'nin Kanlı Savaşı, 1983, Fang Longchang tarafından boyanmıştır [Bölüm 1]
Guiling ve Maling-Changjiang Edebiyat ve Sanat Yayınevi Savaşı, 1983, Wang Guoxin tarafından boyanmıştır [Bölüm 2]
Guiling ve Maling-Changjiang Edebiyat ve Sanat Yayınevi Savaşı, 1983, Wang Guoxin tarafından boyanmıştır [Bölüm 1]
Trump'ın İngiltere ziyareti ve lanetli uçaktan inmesi Avrupa meselesine müdahale etmeyi zorlaştırdı, nasıl çehresi kurtarabilir?
Jin ve Chu Chengpu-Changjiang Savaşı Edebiyat ve Sanat Yayınevi 1982 Sun Endao Tarafından Boyanmış
Tang Seng, Oryantal Güzel Sanatlar Yayınevi 2012'de doğdu, Li Xiang tarafından boyandı
20 yıldır popüler! Shanghai Xiaonanın favori arenası kapandı! İşte Allah'ın gençliğiyle dolu
Üç Krallığın Popüler Romantizmi [2. Bölüm] Dünya Jin-Xuelin Yayınevine Döndü 2010 Xu Youwu Tarafından Boyanmış
İnanılmaz! Dünyanın en yüksek Jiangnan bahçesi Şangay'da! Dış dünyaya ilk kez açılıyor! Bu Dragon Boat Festivali Xiaonong sizi ücretsiz oynamaya götürüyor
To Top