CVPR 2020'de, Shangtang Araştırma Enstitüsü'nün bağlantı ve derleme ekibi ve Beihang Üniversitesi'nden Öğretmen Liu Xianglong ekibi, ileri ve geri yayılmadaki bilgi akışını optimize etmek için tasarlanmış, pratik ve verimli yeni bir ağ ikilileştirme algoritması olan IR-Net'i önerdi. Çoğunlukla niceleme hatalarına odaklanan önceki ikili sinir ağlarından farklı olarak, bu makale ikili ağların ileri ve geri yayılma sürecini ilk kez birleşik bilgi perspektifinden inceler ve bu, ağ ikilileştirme mekanizmalarının incelenmesi için yeni bir bakış açısı sağlar. Aynı zamanda, bu çalışma ARM ekipmanı üzerinde ilk kez gelişmiş bir ikilileştirme algoritması verimlilik doğrulaması gerçekleştirerek, IR-Net'in konuşlandırıldığında mükemmel performansını ve son derece yüksek uygulanabilirliğini gösterdi ve endüstrinin ilgilendiği sinir ağı ikilisini çözmede yardımcı oldu. Temel sorun.
Yazar | Shang Tang
Düzenle | Kongun Sonu
Kağıt adresi: https://arxiv.org/abs/1909.10788
Proje adresi: https://github.com/htqin/IR-Net
İkili sinir ağı, küçük depolama kapasitesi ve yüksek çıkarım verimliliği nedeniyle toplumdan geniş ilgi gördü. Bununla birlikte, tam hassasiyete karşılık gelen yöntemle karşılaştırıldığında, mevcut niceleme yönteminin doğruluğunda hala önemli bir düşüş var.
Sinir ağları üzerine yapılan araştırmalar, ağın çeşitliliğinin modelin yüksek performansına ulaşmanın anahtarı olduğunu göstermektedir.Bu çeşitliliği korumanın anahtarı şudur: (1) ağ ileri yayılma sürecinde yeterli bilgiyi taşıyabilir; (2) geri yayılma Süreçte, hassas gradyan, ağ optimizasyonu için doğru bilgi sağlar. İkili sinir ağının performans düşüşü, temelde sınırlı temsil kabiliyeti ve ikilinin ayrıklığından kaynaklanır, bu da ileri ve geri yayılmada ciddi bilgi kaybına yol açar ve modelin çeşitliliği keskin bir şekilde azalır. Aynı zamanda, ikili sinir ağlarının eğitim sürecinde, ayrık ikilileştirme çoğu zaman hatalı gradyanlara ve yanlış optimizasyon yönlerine yol açar. Yukarıdaki problemler nasıl çözülür ve daha yüksek hassasiyetli bir ikili sinir ağı nasıl elde edilir? Bu problem araştırmacılar tarafından geniş ölçüde ilgilendi.Bu makalenin amacı, bilgi tutma fikri aracılığıyla daha yüksek performanslı bir ikili sinir ağı tasarlamaktır.
Yukarıdaki motivasyona dayanarak, bu makale ilk olarak bilgi akışı perspektifinden ağ ikilileştirmeyi inceledi ve yeni bir bilgi tutma ağı (IR-Net) önerdi: (1) Libra adı verilen bir parametre ileri yayılmada tanıtıldı. Niceleme parametresinin bilgi entropisini en üst düzeye çıkarmak ve niceleme hatasını en aza indirmek için binarizasyon (Libra-PB) dengeli standartlaştırılmış niceleme yöntemi; (2) Eğitimin başlamasını sağlamak için geri yayılmadaki gradyanı hesaplamak için hata zayıflatma tahmincisi (EDE) kullanılır Eğitimin sonunda tam zaman güncellemesi ve hassas gradyan.
IR-Net, ikili sinir ağlarının nasıl çalıştığını anlamak için yeni bir bakış açısı sağlar ve standart ağ eğitim sürecinde optimize edilebilen iyi bir çok yönlülüğe sahiptir. Yazar, önerilen IR-Net'i değerlendirmek için CIFAR-10 ve ImageNet veri setlerinde görüntü sınıflandırma görevini kullanır ve aynı zamanda açık kaynak ikili muhakeme kitaplığı daBNN yardımıyla dağıtım verimliliğini doğrular.
Yüksek hassasiyetli ikili sinir ağı eğitiminin darboğazı, temel olarak eğitim süreci sırasında ciddi bilgi kaybından kaynaklanmaktadır. İleri işaret fonksiyonu ve geriye doğru gradyan yaklaşımının neden olduğu bilgi kaybı, ikili sinir ağının doğruluğunu ciddi şekilde etkiler. Yukarıdaki problemleri çözmek için, bu makale eğitim sürecinde bilgileri tutan ve ikili modelin yüksek hassasiyetini sağlayan yeni bir bilgi tutma ağı (IR-Net) modeli önermektedir.
Bundan önce, ağ ikilileştirme yöntemlerinin çoğu, ikilileştirme işlemlerinin niceleme hatasını azaltmaya çalıştı. Ancak niceleme hatasını en aza indirerek iyi bir ikili ağ elde etmek yeterli değildir. Bu nedenle, Libra-PB tasarımının anahtarı, ikili ağın ileri yayılma sürecinde bilgi akışını en üst düzeye çıkarmak için bilgi entropi indeksini kullanmaktır.
Bilgi entropisinin tanımına göre, ikili bir ağda, Q_x (x) ikili parametresinin entropisi aşağıdaki formülle hesaplanabilir:
Basitçe nicemleme hatasını en aza indirmeye çalışırsanız, aşırı durumlarda, niceleme parametresinin bilgi entropisi sıfıra yakın bile olabilir. Bu nedenle, Libra-PB, nicelleştirilmiş değerin niceleme hatasını ve ikili parametrenin bilgi entropisini aynı zamanda optimizasyon hedefleri olarak kabul eder ve bu şu şekilde tanımlanır:
Bernoulli dağılımı varsayımı altında, p = 0.5 olduğunda, nicelenmiş değerin bilgi entropisi maksimum değeri alır.
Bu nedenle, Libra-PB'de, standartlaştırılmış denge ağırlığı \ hat {W} _ {std}, Şekil 2'de gösterildiği gibi standardizasyon ve dengeleme işlemleri yoluyla elde edilir.
Bernoulli dağılımı altında, Libra-PB tarafından nicelenen parametreler en büyük bilgi entropisine sahiptir. İlginç bir şekilde, ağırlığın basit bir dönüşümü, ileriye dönük süreçte etkinleştirilen bilgi akışını büyük ölçüde geliştirebilir. Çünkü şu anda, her katmanın ikili aktivasyon değeri bilgi entropisi de maksimize edilebilir, bu da özellik haritasındaki bilgilerin tutulabileceği anlamına gelir.
Önceki ikilileştirme yöntemlerinde, niceleme hatasını azaltmak için hemen hemen tüm yöntemler, orijinal parametrelere sayısal olarak yaklaşmak için kayan nokta ölçek faktörleri sunacak ve bu da şüphesiz pahalı kayan nokta işlemlerini ortaya çıkaracaktır. Libra-PB'de, niceleme hatasını daha da azaltmak için, önceki ikilileştirme yönteminde pahalı kayan nokta işlemlerinden kaçınırken, Libra-PB, ikili ağırlıkları ifade etme yeteneğini genişleten bir tamsayı kaydırma skaler s sunar.
Bu nedenle, son olarak, Libra parametrelerinin ileriye doğru yayılma için ikilileştirilmesi şu şekilde ifade edilebilir:
IR-Net'in ana operasyonu şu şekilde ifade edilebilir:
İkilileştirmenin süreksizliğinden dolayı, eğimin yakınlaşması geri yayılım için kaçınılmazdır.İşaret işlevinin bu yaklaştırması, kısaltma aralığı dışındaki parametre güncelleme yeteneğinin azalmasının neden olduğu bilgi kaybı da dahil olmak üzere iki tür gradyan bilgi kaybına neden olur. , Ve kesme aralığı içindeki yaklaşıklık hatalarının neden olduğu bilgi kaybı. Geri yayılımda kayıp işlevinden elde edilen bilgileri daha iyi tutmak ve her eğitim aşamasında gradyanların gereksinimlerini dengelemek için EDE, aşamalı bir iki aşamalı yaklaşık gradyan yöntemi sunar.
İlk aşama: geri yayılım algoritmasını güncelleme yeteneğini koruyun. Gradyan tahmin fonksiyonunun türev değerini 1'e yakın tutun ve ardından kesme değerini kademeli olarak büyük bir sayıdan 1'e indirin. Bu kuralı kullanarak, yaklaşık işlev, Kimlik işlevine yakın işlevden Klip işlevine doğru gelişir ve böylece eğitimin erken aşamalarında güncelleme olanağı sağlar.
İkinci aşama: 0'a yakın parametrelerin daha doğru güncellenmesini sağlayın. Kesimi 1'de tutun ve türev eğrisini kademeli olarak bir adım işlevi şekline dönüştürün. Bu kuralı kullanarak, yaklaşık fonksiyon Klip fonksiyonundan işaret fonksiyonuna evrilir, böylece ileri ve geri yayılmanın tutarlılığını sağlar.
EDE'nin her aşamadaki şekil değişikliği Şekil 3 (c) 'de gösterilmektedir. Bu tasarım sayesinde EDE, ileri ikilileştirme işlevi ile geriye doğru yaklaşım işlevi arasındaki farkı azaltır ve tüm parametreler makul bir şekilde güncellenebilir.
Yazar, deneyler için iki kıyaslama veri seti kullandı: CIFAR-10 ve ImageNet (ILSVRC12). İki veri seti üzerindeki deneysel sonuçlar, IR-Net'in mevcut son teknoloji yöntemlerden daha rekabetçi olduğunu göstermektedir.
Yazar, IR-Net'in gerçek mobil cihazlarda dağıtım verimliliğini daha da doğrulamak için, 1.2GHz 64-bit dört çekirdekli ARM Cortex-A53 Raspberry Pi 3B'ye IR-Net uyguladı ve gerçek hızını gerçek uygulamalarda test etti.
Tablo 5, IR-Net'in muhakeme hızının çok daha hızlı olduğunu, model boyutunun büyük ölçüde azaldığını ve IR-Net'teki yer değiştirme işleminin fazladan muhakeme süresi ve depolama tüketimi getirmediğini göstermektedir.
Rastegari M, Ordonez V, Redmon J, ve diğerleri.Xnor-net: İkili evrişimli sinir ağları kullanılarak Imagenet sınıflandırması // ECCV. Springer, Cham, 2016: 525-542.
Xie B, Liang Y, Song L.Diverse sinir ağları gerçek hedef işlevlerini öğrenir arXiv preprint arXiv: 1611.03131, 2016.