CVPR 2020 | IR-Net: Bilgi saklama için ikili sinir ağı

CVPR 2020'de, Shangtang Araştırma Enstitüsü'nün bağlantı ve derleme ekibi ve Beihang Üniversitesi'nden Öğretmen Liu Xianglong ekibi, ileri ve geri yayılmadaki bilgi akışını optimize etmek için tasarlanmış, pratik ve verimli yeni bir ağ ikilileştirme algoritması olan IR-Net'i önerdi. Çoğunlukla niceleme hatalarına odaklanan önceki ikili sinir ağlarından farklı olarak, bu makale ikili ağların ileri ve geri yayılma sürecini ilk kez birleşik bilgi perspektifinden inceler ve bu, ağ ikilileştirme mekanizmalarının incelenmesi için yeni bir bakış açısı sağlar. Aynı zamanda, bu çalışma ARM ekipmanı üzerinde ilk kez gelişmiş bir ikilileştirme algoritması verimlilik doğrulaması gerçekleştirerek, IR-Net'in konuşlandırıldığında mükemmel performansını ve son derece yüksek uygulanabilirliğini gösterdi ve endüstrinin ilgilendiği sinir ağı ikilisini çözmede yardımcı oldu. Temel sorun.

Yazar | Shang Tang

Düzenle | Kongun Sonu

Kağıt adresi: https://arxiv.org/abs/1909.10788

Proje adresi: https://github.com/htqin/IR-Net

1. Motivasyon

İkili sinir ağı, küçük depolama kapasitesi ve yüksek çıkarım verimliliği nedeniyle toplumdan geniş ilgi gördü. Bununla birlikte, tam hassasiyete karşılık gelen yöntemle karşılaştırıldığında, mevcut niceleme yönteminin doğruluğunda hala önemli bir düşüş var.

Sinir ağları üzerine yapılan araştırmalar, ağın çeşitliliğinin modelin yüksek performansına ulaşmanın anahtarı olduğunu göstermektedir.Bu çeşitliliği korumanın anahtarı şudur: (1) ağ ileri yayılma sürecinde yeterli bilgiyi taşıyabilir; (2) geri yayılma Süreçte, hassas gradyan, ağ optimizasyonu için doğru bilgi sağlar. İkili sinir ağının performans düşüşü, temelde sınırlı temsil kabiliyeti ve ikilinin ayrıklığından kaynaklanır, bu da ileri ve geri yayılmada ciddi bilgi kaybına yol açar ve modelin çeşitliliği keskin bir şekilde azalır. Aynı zamanda, ikili sinir ağlarının eğitim sürecinde, ayrık ikilileştirme çoğu zaman hatalı gradyanlara ve yanlış optimizasyon yönlerine yol açar. Yukarıdaki problemler nasıl çözülür ve daha yüksek hassasiyetli bir ikili sinir ağı nasıl elde edilir? Bu problem araştırmacılar tarafından geniş ölçüde ilgilendi.Bu makalenin amacı, bilgi tutma fikri aracılığıyla daha yüksek performanslı bir ikili sinir ağı tasarlamaktır.

Yukarıdaki motivasyona dayanarak, bu makale ilk olarak bilgi akışı perspektifinden ağ ikilileştirmeyi inceledi ve yeni bir bilgi tutma ağı (IR-Net) önerdi: (1) Libra adı verilen bir parametre ileri yayılmada tanıtıldı. Niceleme parametresinin bilgi entropisini en üst düzeye çıkarmak ve niceleme hatasını en aza indirmek için binarizasyon (Libra-PB) dengeli standartlaştırılmış niceleme yöntemi; (2) Eğitimin başlamasını sağlamak için geri yayılmadaki gradyanı hesaplamak için hata zayıflatma tahmincisi (EDE) kullanılır Eğitimin sonunda tam zaman güncellemesi ve hassas gradyan.

IR-Net, ikili sinir ağlarının nasıl çalıştığını anlamak için yeni bir bakış açısı sağlar ve standart ağ eğitim sürecinde optimize edilebilen iyi bir çok yönlülüğe sahiptir. Yazar, önerilen IR-Net'i değerlendirmek için CIFAR-10 ve ImageNet veri setlerinde görüntü sınıflandırma görevini kullanır ve aynı zamanda açık kaynak ikili muhakeme kitaplığı daBNN yardımıyla dağıtım verimliliğini doğrular.

2. Yöntem tasarımı

Yüksek hassasiyetli ikili sinir ağı eğitiminin darboğazı, temel olarak eğitim süreci sırasında ciddi bilgi kaybından kaynaklanmaktadır. İleri işaret fonksiyonu ve geriye doğru gradyan yaklaşımının neden olduğu bilgi kaybı, ikili sinir ağının doğruluğunu ciddi şekilde etkiler. Yukarıdaki problemleri çözmek için, bu makale eğitim sürecinde bilgileri tutan ve ikili modelin yüksek hassasiyetini sağlayan yeni bir bilgi tutma ağı (IR-Net) modeli önermektedir.

1) İleriye doğru yayılmada Libra Parametresi İkilileştirme (Libra-PB)

Bundan önce, ağ ikilileştirme yöntemlerinin çoğu, ikilileştirme işlemlerinin niceleme hatasını azaltmaya çalıştı. Ancak niceleme hatasını en aza indirerek iyi bir ikili ağ elde etmek yeterli değildir. Bu nedenle, Libra-PB tasarımının anahtarı, ikili ağın ileri yayılma sürecinde bilgi akışını en üst düzeye çıkarmak için bilgi entropi indeksini kullanmaktır.

Bilgi entropisinin tanımına göre, ikili bir ağda, Q_x (x) ikili parametresinin entropisi aşağıdaki formülle hesaplanabilir:

Basitçe nicemleme hatasını en aza indirmeye çalışırsanız, aşırı durumlarda, niceleme parametresinin bilgi entropisi sıfıra yakın bile olabilir. Bu nedenle, Libra-PB, nicelleştirilmiş değerin niceleme hatasını ve ikili parametrenin bilgi entropisini aynı zamanda optimizasyon hedefleri olarak kabul eder ve bu şu şekilde tanımlanır:

Bernoulli dağılımı varsayımı altında, p = 0.5 olduğunda, nicelenmiş değerin bilgi entropisi maksimum değeri alır.

Bu nedenle, Libra-PB'de, standartlaştırılmış denge ağırlığı \ hat {W} _ {std}, Şekil 2'de gösterildiği gibi standardizasyon ve dengeleme işlemleri yoluyla elde edilir.

Bernoulli dağılımı altında, Libra-PB tarafından nicelenen parametreler en büyük bilgi entropisine sahiptir. İlginç bir şekilde, ağırlığın basit bir dönüşümü, ileriye dönük süreçte etkinleştirilen bilgi akışını büyük ölçüde geliştirebilir. Çünkü şu anda, her katmanın ikili aktivasyon değeri bilgi entropisi de maksimize edilebilir, bu da özellik haritasındaki bilgilerin tutulabileceği anlamına gelir.

Önceki ikilileştirme yöntemlerinde, niceleme hatasını azaltmak için hemen hemen tüm yöntemler, orijinal parametrelere sayısal olarak yaklaşmak için kayan nokta ölçek faktörleri sunacak ve bu da şüphesiz pahalı kayan nokta işlemlerini ortaya çıkaracaktır. Libra-PB'de, niceleme hatasını daha da azaltmak için, önceki ikilileştirme yönteminde pahalı kayan nokta işlemlerinden kaçınırken, Libra-PB, ikili ağırlıkları ifade etme yeteneğini genişleten bir tamsayı kaydırma skaler s sunar.

Bu nedenle, son olarak, Libra parametrelerinin ileriye doğru yayılma için ikilileştirilmesi şu şekilde ifade edilebilir:

IR-Net'in ana operasyonu şu şekilde ifade edilebilir:

2) Geri yayılmada Hata Azaltma Tahmincisi (EDE)

İkilileştirmenin süreksizliğinden dolayı, eğimin yakınlaşması geri yayılım için kaçınılmazdır.İşaret işlevinin bu yaklaştırması, kısaltma aralığı dışındaki parametre güncelleme yeteneğinin azalmasının neden olduğu bilgi kaybı da dahil olmak üzere iki tür gradyan bilgi kaybına neden olur. , Ve kesme aralığı içindeki yaklaşıklık hatalarının neden olduğu bilgi kaybı. Geri yayılımda kayıp işlevinden elde edilen bilgileri daha iyi tutmak ve her eğitim aşamasında gradyanların gereksinimlerini dengelemek için EDE, aşamalı bir iki aşamalı yaklaşık gradyan yöntemi sunar.

İlk aşama: geri yayılım algoritmasını güncelleme yeteneğini koruyun. Gradyan tahmin fonksiyonunun türev değerini 1'e yakın tutun ve ardından kesme değerini kademeli olarak büyük bir sayıdan 1'e indirin. Bu kuralı kullanarak, yaklaşık işlev, Kimlik işlevine yakın işlevden Klip işlevine doğru gelişir ve böylece eğitimin erken aşamalarında güncelleme olanağı sağlar.

İkinci aşama: 0'a yakın parametrelerin daha doğru güncellenmesini sağlayın. Kesimi 1'de tutun ve türev eğrisini kademeli olarak bir adım işlevi şekline dönüştürün. Bu kuralı kullanarak, yaklaşık fonksiyon Klip fonksiyonundan işaret fonksiyonuna evrilir, böylece ileri ve geri yayılmanın tutarlılığını sağlar.

EDE'nin her aşamadaki şekil değişikliği Şekil 3 (c) 'de gösterilmektedir. Bu tasarım sayesinde EDE, ileri ikilileştirme işlevi ile geriye doğru yaklaşım işlevi arasındaki farkı azaltır ve tüm parametreler makul bir şekilde güncellenebilir.

3. Deneysel sonuçlar

Yazar, deneyler için iki kıyaslama veri seti kullandı: CIFAR-10 ve ImageNet (ILSVRC12). İki veri seti üzerindeki deneysel sonuçlar, IR-Net'in mevcut son teknoloji yöntemlerden daha rekabetçi olduğunu göstermektedir.

Dağıtım Verimliliği

Yazar, IR-Net'in gerçek mobil cihazlarda dağıtım verimliliğini daha da doğrulamak için, 1.2GHz 64-bit dört çekirdekli ARM Cortex-A53 Raspberry Pi 3B'ye IR-Net uyguladı ve gerçek hızını gerçek uygulamalarda test etti.

Tablo 5, IR-Net'in muhakeme hızının çok daha hızlı olduğunu, model boyutunun büyük ölçüde azaldığını ve IR-Net'teki yer değiştirme işleminin fazladan muhakeme süresi ve depolama tüketimi getirmediğini göstermektedir.

Referans malzemeleri:

Rastegari M, Ordonez V, Redmon J, ve diğerleri.Xnor-net: İkili evrişimli sinir ağları kullanılarak Imagenet sınıflandırması // ECCV. Springer, Cham, 2016: 525-542.

Xie B, Liang Y, Song L.Diverse sinir ağları gerçek hedef işlevlerini öğrenir arXiv preprint arXiv: 1611.03131, 2016.

Beyin dalgalarından metne kadar güçlü bir beyin-bilgisayar arayüzü, sadece bir makine çeviri modeline ihtiyaç vardır
önceki
Düşük güçlü bilgisayarla görme teknolojisinin sınırı, dört ana yön, daha küçük, daha hızlı ve daha verimli arayış
Sonraki
ICLR 2020 | "Eşzamanlı Ortalama Öğretim" çerçevesi, denetimsiz öğrenim için daha sağlam sözde etiketler sağlar
Huawei Vision Research Yol Haritası: Üç Zorluk, Altı Plan
Kuantum bilişim araştırma ilerlemesi: Çin ve Amerika Birleşik Devletleri'nde 4 ila 5 yıllık bir teknoloji açığı var
2020 Ulusal Bilim ve Teknoloji Ödülleri adaylıkları açıklandı, Yang Qiang ve Chen Yunjinin ekipleri kısa listeye alındı
Öz dikkat ajanı, küçük boyut, büyük yetenek
Canlı CVPR 2020: İşbirlikçi yineleme Fine -Tuning uygulaması Tek görüntü yansıtıcı kaldırma
CVPR 2020 | IR-Net: Bilgi saklama için ikili sinir ağı (açık kaynak)
FSNet: Derin evrişimli sinir ağlarını sıkıştırmak için evrişim çekirdek özetini kullanın
ELECTRA Çin ön eğitim modeli, yalnızca 1/10 parametreli açık kaynak kodludur ve performans hala BERT ile karşılaştırılabilir.
Google ve DeepMind, Dreamer'ı serbest bırakmak için güçlerini birleştiriyor: performans "öncekiler" PlaNet'i çok aşıyor
SF batıyor
Sinochem Group ve China National Chemical Corporation'ın tarımsal işleri, 200 milyarı aşan bir gelirle yeniden düzenlendi
To Top