CVPR 2020 | IR-Net: Bilgi saklama için ikili sinir ağı (açık kaynak)

Wen | Shang Tang

Editör | Jia Wei

CVPR 2020'de, Shangtang Araştırma Enstitüsü'nün bağlantı ve derleme ekibi ve Beihang Üniversitesi'nden Öğretmen Liu Xianglong ekibi, ileri ve geri yayılmadaki bilgi akışını optimize etmek için tasarlanmış, pratik ve verimli yeni bir ağ ikilileştirme algoritması olan IR-Net'i önerdi.

Kağıt adresi: https://arxiv.org/abs/1909.10788

Proje adresi: https://github.com/htqin/IR-Net

Çoğunlukla niceleme hatalarına odaklanan önceki ikili sinir ağlarından farklı olarak, bu makale ikili ağların ileri ve geri yayılma sürecini ilk kez birleşik bilgi perspektifinden inceler ve bu, ağ ikilileştirme mekanizmalarının incelenmesi için yeni bir bakış açısı sağlar. Aynı zamanda, bu çalışma ARM ekipmanı üzerinde ilk kez gelişmiş bir ikilileştirme algoritması verimlilik doğrulaması gerçekleştirerek, IR-Net'in konuşlandırıldığında mükemmel performansını ve son derece yüksek uygulanabilirliğini gösterdi ve endüstrinin ilgilendiği sinir ağı ikilisini çözmede yardımcı oldu. Temel sorun.

1. Motivasyon

İkili sinir ağı, küçük depolama kapasitesi ve yüksek çıkarım verimliliği nedeniyle toplumdan geniş ilgi gördü. Bununla birlikte, tam hassasiyete karşılık gelen yöntemle karşılaştırıldığında, mevcut niceleme yönteminin doğruluğunda hala önemli bir düşüş var.

Sinir ağları üzerine yapılan araştırmalar, ağın çeşitliliğinin modelin yüksek performansına ulaşmanın anahtarı olduğunu göstermektedir.Bu çeşitliliği korumanın anahtarı şudur: (1) ağ ileri yayılma sürecinde yeterli bilgiyi taşıyabilir; (2) geri yayılma Süreçte, hassas gradyan, ağ optimizasyonu için doğru bilgi sağlar.

İkili sinir ağının performans düşüşü, temelde sınırlı temsil kabiliyeti ve ikilinin ayrıklığından kaynaklanır, bu da ileri ve geri yayılmada ciddi bilgi kaybına yol açar ve modelin çeşitliliği keskin bir şekilde azalır. Aynı zamanda, ikili sinir ağlarının eğitim sürecinde, ayrık ikilileştirme çoğu zaman hatalı gradyanlara ve yanlış optimizasyon yönlerine yol açar. Yukarıdaki problemler nasıl çözülür ve daha yüksek hassasiyetli bir ikili sinir ağı nasıl elde edilir? Bu problem araştırmacılar tarafından geniş ölçüde ilgilendi.Bu makalenin amacı, bilgi tutma fikri aracılığıyla daha yüksek performanslı bir ikili sinir ağı tasarlamaktır.

Yukarıdaki motivasyona dayanarak, bu makale ilk olarak bilgi akışı perspektifinden ağ ikilileştirmeyi inceledi ve yeni bir bilgi tutma ağı (IR-Net) önerdi:

1) İleri yaymada, niceleme parametresinin bilgi entropisini en üst düzeye çıkarmak ve niceleme hatasını en aza indirmek için Libra parametre ikilileştirme (Libra-PB) adı verilen dengeli, standartlaştırılmış bir niceleme yöntemi tanıtıldı;

2) Hata azaltma tahmin aracı (EDE), eğitimin başında yeterli güncellemeyi ve eğitimin sonunda doğru eğimi sağlamak için geri yayılmadaki eğimi hesaplamak için kullanılır.

IR-Net, ikili sinir ağlarının nasıl çalıştığını anlamak için yeni bir bakış açısı sağlar ve standart ağ eğitim sürecinde optimize edilebilen iyi bir çok yönlülüğe sahiptir. Yazar, önerilen IR-Net'i değerlendirmek için CIFAR-10 ve ImageNet veri setlerinde görüntü sınıflandırma görevini kullanır ve aynı zamanda açık kaynak ikili muhakeme kitaplığı daBNN yardımıyla dağıtım verimliliğini doğrular.

2. Yöntem tasarımı

Yüksek hassasiyetli ikili sinir ağı eğitiminin darboğazı, temel olarak eğitim süreci sırasında ciddi bilgi kaybından kaynaklanmaktadır. İleri işaret fonksiyonu ve geriye doğru gradyan yaklaşımının neden olduğu bilgi kaybı, ikili sinir ağının doğruluğunu ciddi şekilde etkiler. Yukarıdaki problemleri çözmek için, bu makale eğitim sürecinde bilgileri tutan ve ikili modelin yüksek hassasiyetini sağlayan yeni bir bilgi tutma ağı (IR-Net) modeli önermektedir.

1) İleriye doğru yayılmada Libra Parametresi İkileştirme (Libra-PB)

Bundan önce, ağ ikilileştirme yöntemlerinin çoğu, ikilileştirme işlemlerinin niceleme hatasını azaltmaya çalıştı. Ancak niceleme hatasını en aza indirerek iyi bir ikili ağ elde etmek yeterli değildir. Bu nedenle, Libra-PB tasarımının anahtarı, ikili ağın ileri yayılma sürecinde bilgi akışını en üst düzeye çıkarmak için bilgi entropi indeksini kullanmaktır.

Bilgi entropisinin tanımına göre, ikili bir ağda, ikili parametre Qx (x) entropisi aşağıdaki formülle hesaplanabilir:

Basitçe nicemleme hatasını en aza indirmeye çalışırsanız, aşırı durumlarda, niceleme parametresinin bilgi entropisi sıfıra yakın bile olabilir. Bu nedenle Libra-PB, nicelleştirilmiş değerin niceleme hatasını ve ikili parametrenin bilgi entropisini aynı zamanda optimizasyon hedefi olarak alır ve bu şu şekilde tanımlanır:

Bernoulli dağılımı varsayımı altında, p = 0.5 olduğunda, nicelenmiş değerin bilgi entropisi maksimum değeri alır.

Bu nedenle Libra-PB'de, standartlaştırılmış denge ağırlıkları normalleştirme ve dengeleme işlemleri ile elde edilir.Şekil 2'de gösterildiği gibi, Bernoulli dağılımı altında Libra-PB ile ölçülen parametreler en büyük bilgi entropisine sahiptir. İlginç bir şekilde, ağırlığın basit bir dönüşümü, ileriye dönük süreçte etkinleştirilen bilgi akışını büyük ölçüde geliştirebilir. Çünkü şu anda, her katmanın ikili aktivasyon değeri bilgi entropisi de maksimize edilebilir, bu da özellik haritasındaki bilgilerin tutulabileceği anlamına gelir.

Önceki ikilileştirme yöntemlerinde, niceleme hatasını azaltmak için hemen hemen tüm yöntemler, orijinal parametrelere sayısal olarak yaklaşmak için kayan nokta ölçek faktörleri sunacak ve bu da şüphesiz pahalı kayan nokta işlemlerini ortaya çıkaracaktır. Libra-PB'de, niceleme hatasını daha da azaltmak için, önceki ikilileştirme yönteminde pahalı kayan nokta işlemlerinden kaçınırken, Libra-PB, ikili ağırlıkları ifade etme yeteneğini genişleten bir tamsayı kaydırma skaler s sunar.

Bu nedenle, son olarak, Libra parametrelerinin ileriye doğru yayılma için ikilileştirilmesi şu şekilde ifade edilebilir:

IR-Net'in ana operasyonu şu şekilde ifade edilebilir:

2) Geri yayılmada Hata Azaltma Tahmincisi (EDE)

İkilileştirmenin süreksizliğinden dolayı, eğimin yakınlaşması geri yayılım için kaçınılmazdır.İşaret işlevinin bu yaklaştırması, kısaltma aralığı dışındaki parametre güncelleme yeteneğinin azalmasının neden olduğu bilgi kaybı da dahil olmak üzere iki tür gradyan bilgi kaybına neden olur. , Ve kesme aralığı içindeki yaklaşıklık hatalarının neden olduğu bilgi kaybı. Geri yayılımda kayıp işlevinden elde edilen bilgileri daha iyi tutmak ve her eğitim aşamasında gradyanların gereksinimlerini dengelemek için EDE, aşamalı bir iki aşamalı yaklaşık gradyan yöntemi sunar.

İlk aşama: Geri yayılım algoritmasını güncelleme yeteneğini koruyun. Gradyan tahmin fonksiyonunun türev değerini 1'e yakın tutun ve ardından kesme değerini kademeli olarak büyük bir sayıdan 1'e indirin. Bu kuralı kullanarak, yaklaşık işlev, Kimlik işlevine yakın işlevden Klip işlevine doğru gelişir ve böylece eğitimin erken aşamalarında güncelleme olanağı sağlar.

ikinci sahne: 0'a yakın parametreler daha doğru güncellenir. Kesimi 1'de tutun ve türev eğrisini kademeli olarak bir adım işlevi şekline dönüştürün. Bu kuralı kullanarak, yaklaşık fonksiyon Klip fonksiyonundan işaret fonksiyonuna evrilir, böylece ileri ve geri yayılmanın tutarlılığını sağlar.

EDE'nin her aşamadaki şekil değişikliği Şekil 3 (c) 'de gösterilmektedir. Bu tasarım sayesinde EDE, ileri ikilileştirme işlevi ile geriye doğru yaklaşım işlevi arasındaki farkı azaltır ve tüm parametreler makul bir şekilde güncellenebilir.

3. Deneysel sonuçlar

Yazar, deneyler için iki kıyaslama veri seti kullandı: CIFAR-10 ve ImageNet (ILSVRC12). İki veri seti üzerindeki deneysel sonuçlar, IR-Net'in mevcut son teknoloji yöntemlerden daha rekabetçi olduğunu göstermektedir.

4. Dağıtım Verimliliği

Yazar, IR-Net'in gerçek mobil cihazlarda dağıtım verimliliğini daha da doğrulamak için, 1.2GHz 64-bit dört çekirdekli ARM Cortex-A53 Raspberry Pi 3B'ye IR-Net uyguladı ve gerçek hızını gerçek uygulamalarda test etti. Tablo 5, IR-Net'in muhakeme hızının çok daha hızlı olduğunu, model boyutunun büyük ölçüde azaldığını ve IR-Net'teki yer değiştirme işleminin fazladan muhakeme süresi ve depolama tüketimi getirmediğini göstermektedir.

Canlı CVPR 2020: İşbirlikçi yineleme Fine -Tuning uygulaması Tek görüntü yansıtıcı kaldırma
önceki
FSNet: Derin evrişimli sinir ağlarını sıkıştırmak için evrişim çekirdek özetini kullanın
Sonraki
ELECTRA Çin ön eğitim modeli, yalnızca 1/10 parametreli açık kaynak kodludur ve performans hala BERT ile karşılaştırılabilir.
Google ve DeepMind, Dreamer'ı serbest bırakmak için güçlerini birleştiriyor: performans "öncekiler" PlaNet'i çok aşıyor
SF batıyor
Sinochem Group ve China National Chemical Corporation'ın tarımsal işleri, 200 milyarı aşan bir gelirle yeniden düzenlendi
New Oxygen'in 2019'un dördüncü çeyreğine ilişkin mali raporu: 358 milyon yuan işletme geliri, 86.4 milyon yuan net kar
Bu sefer Fed çalışmayabilir
"Nanjing Anti-salgın Sahnesi" ni filme alan Japon yönetmen yanıyordu. Titanium Media onunla arkasındaki hikaye hakkında sohbet etti.
Tencent, oyun canlı yayın endüstrisinde bir "Tencent Müzik Grubu" kurmak istiyor
Kanal markalarının etkisi yavaş yavaş ürün markalarını kapsıyor
Sinema salonları, çalışmaya devam ettiklerinde "herkes tarafından dövülmemelidir"
Çin'in ilk pterosaur fosili iskeleti - Wei'nin Junggar pterosaur kafatası damak araştırma süreci
Glial hücrelerin nöronlara farklılaşması yoluyla nörolojik hastalıkların tedavisine ilişkin temel araştırmalarda ilerleme
To Top