Ön bilgi ve karmaşık eğitim stratejileri kullanmadan sıfırdan bir ikili sinir ağını eğitin!

Alman Hasso Plattner Enstitüsü'nden (Hasso Plattner Enstitüsü) araştırmacılar geçtiğimiz günlerde ikili sinir ağlarını eğitmek için yeni yöntemlerini tanıtan bir makale yayınladılar. Bu yöntem, önceki çalışmalardaki tam hassasiyetli model aracılığıyla elde edilen önceki bilgileri ve karmaşık eğitim stratejilerini kullanmaz ve aynı zamanda mevcut ikili sinir ağını en iyi doğrulukla gerçekleştirebilir.

Giriş

Şimdi, günlük yaşamdaki birçok görevin otomasyonu, ev süpürme robotlarından endüstriyel üretim hattı robotlarına kadar önemli araştırma ilerlemeleri sağladı, birçok görev yüksek derecede otomatikleştirildi. Diğer teknolojiler (kendi kendine giden arabalar gibi) şu anda geliştirme aşamasındadır ve büyük ölçüde makine öğrenimi çözümlerine bağlıdır. Akıllı telefonlarda çeşitli görevleri yerine getirmek için derin öğrenme teknolojisini kullanan uygulamaların sayısı hızla artıyor ve gelecekte de artmaya devam edecek. Tüm bu cihazlar sınırlı bilgi işlem gücüne sahiptir ve genellikle enerji tüketimini en aza indirmeye çalışır, ancak makine öğrenimi için birçok uygulama senaryosu vardır.

Örnek olarak tam otomatik sürüş arabalarını ele almak, yüksek hassasiyet elde ederken gerçek zamanlı görüntü işlemeyi sağlamak sistemin anahtarıdır. Ek olarak, bu modda kararlı bir düşük gecikmeli ağ bağlantısı sağlamak zor olduğundan, görüntü işleme sisteminin araç içinde yapılandırılması gerekir. Bu yapılandırma gereksinimi mevcut bilgi işlem gücünü ve belleği sınırlandırsa da, düşük enerji tüketiminden de yararlanacaktır. Yukarıdaki problemleri çözmek için en umut verici teknolojilerden biri Binary Neural Network (BNN) 'dir. BNN'de, evrişimli sinir ağlarında (CNN) yaygın olarak kullanılan tam hassasiyetli ağırlıklar, ikili ağırlıklarla değiştirilir. Bu, depolama alanını teorik olarak 32 kez sıkıştırılabilir hale getirir ve yalnızca CPU mimarisinin daha verimli çıkarımlar gerçekleştirmesini sağlar.

Bu makalenin araştırma sonuçları şu şekilde özetlenmiştir:

Bu makale, önceden eğitilmiş tam hassasiyetli bir model kullanmadan bir ikili modeli eğitmek için basit bir strateji önerir.

Deneyler, bu stratejinin yaygın olarak kullanılan diğer yöntemlerden (ölçekleme faktörü veya özel gradyan hesaplamaları gibi) yararlanmadığını göstermektedir.

Bu makale, kısayol bağlantılarının sayısındaki artışın BNN'lerin sınıflandırma doğruluğunu önemli ölçüde artırabileceğini göstermektedir ve yeni bir yöntem sunar: etkili bir ikili model oluşturmak için yoğun kısayol bağlantılarına dayalı.

Farklı model mimarileri ve ölçekler için, bu makalede önerilen yöntem, diğer yöntemlerle karşılaştırıldığında mevcut en iyi doğruluk oranına ulaşır.

Ağ mimarisi

Model mimarisini incelemeden önce, BNN'nin temel eksikliklerini göz önünde bulundurmalıyız: İlk olarak, tam hassasiyetli ağlarla karşılaştırıldığında, BNN'nin bilgi yoğunluğu teorik olarak öncekinin 1 / 32'si kadardır. Araştırmalar, 32 bit ve 8 bit ağlar arasında çok az fark olduğunu ve 8 bit ağların doğruluk seviyesinin tam duyarlı ağlarınki ile neredeyse aynı olduğunu göstermiştir. Bununla birlikte, bit genişliği 4 bit'e veya hatta 1 bit'e (ikili) düşürüldüğünde, doğruluk önemli ölçüde azalacaktır. Bu nedenle, ağ üzerinden bilgi akışını artırmak gibi doğruluk kaybını azaltmak için başka teknolojilere ihtiyaç vardır. Ağ ikileme konusunda endişelenmeden bilgileri kaydetmeye yardımcı olabilecek üç ana yöntem olduğuna inanıyoruz:

Yöntem 1: İkili model, ağda olabildiğince çok kısayol bağlantısı kullanmalıdır, böylece sonraki ağ katmanı, ikilileştirmenin neden olduğu bilgi kaybından endişe etmeden önceki ağ katmanı tarafından elde edilen bilgileri kullanabilir. Artık Ağ ve Yoğun Bağlı Ağın tam hassas model mimarilerinin her ikisi de benzer kısayol bağlantıları kullanır. Ek olarak, ağ katmanları arasındaki bağlantı sayısındaki artış, özellikle ikili ağlar için model performansını artıracaktır.

Şekil 2: Farklı ağ mimarilerinin tekli yapı taşları (kalın siyah çizginin uzunluğu, filtre sayısını temsil eder). (A) Darboğaz katman mimarisine sahip ilk ResNet tasarımı. Az sayıda filtre, BNN'deki bilgi miktarını azaltacaktır. (B) Darboğaz katman mimarisi olmadan ResNet tasarımı. Filtrelerin sayısı artar, ancak evrişimli katman 3'ten 2'ye değişir. (C) Ek kısayol bağlantılarının ResNet mimarisini ekleyin. (D) İlk DenseNet tasarımında, darboğaz katmanı, evrişim işleminin ikinci katmanında görünür. (E) Darboğaz katman mimarisine sahip olmayan DenseNet tasarımı, iki evrişim işlemi bir 3 × 3 evrişim işlemi haline gelir. (F) Bu yazıda önerilen DenseNet tasarımında, N filtreli evrişim işlemi iki katmanla değiştirilir ve her katman N / 2 filtreleri kullanır.

Yöntem 2: Yöntem 1'e benzer şekilde, darboğaz katmanını içeren ağ mimarisi her zaman çözülmesi gereken bir zorluktur. Darboğaz katmanı mimarisi, filtre sayısını azaltır, ağ katmanları arasındaki bilgi yolunu önemli ölçüde azaltır ve nihayetinde BNN'nin bilgi akışını azaltır. Bu nedenle, darboğaz katmanını ortadan kaldırmanın veya darboğaz katmanındaki filtre sayısını artırmanın BNN'nin en iyi sonuçları almasını sağlayacağını varsayıyoruz.

Yöntem 3: Bilgileri kaydetmek için ikili ağdaki bazı çekirdek katmanları tam duyarlı katmanlarla değiştirin (model doğruluğunu iyileştirin). Nedeni şu şekildedir: ağ katmanı ikilileştirmeyi tamamlar ve kısayol bağlantısını iptal ederse, bilgi kaybı (ikilileştirme ile oluşturulan) sonraki ağ katmanında kurtarılamaz, bu da ilk katmanı (evrişimli katman) ve son katmanı ( Tamamen bağlı katman, çıkış nöronlarının sayısı, kategori sayısı ile aynıdır). İlk katman, tüm ağ için ilk bilgileri üretir ve son katman, tahmin için son bilgileri kullanır. Bu nedenle, ilk katmanda tam hassasiyetli bir katman ve son katmanda tam ağ mimarisi kullanıyoruz. Bu kararla ilgili olarak, ilk ve son katmanların ikili hale getirilmesinin doğruluğu büyük ölçüde azaltacağını ve kaydedilen bellek ve hesaplama kaynaklarının çok sınırlı olduğunu deneylerle doğrulayan önceki araştırmaların sonuçlarını kabul ettik. Derin ağın bir diğer önemli kısmı, ağ tarafından daha önce toplanan tüm bilgileri daha küçük ölçekli ve daha fazla kanala sahip özellik haritalarına dönüştüren aşağı örnekleme evrişimidir (evrişim genellikle 2 adım boyutuna sahiptir ve çıkış kanallarının sayısı iki kattır. Kanal sayısını girin). Alt örnekleme işlemi sırasında kaybolan hiçbir bilgi kurtarılamaz. Bu nedenle, model boyutu ve işlem sayısı artırılsa bile, alt örnekleme katmanının tam hassasiyetli bir katmanla değiştirilip değiştirilmeyeceğinin her zaman dikkatlice tartılması gerekir.

Şekil 3: ResNet ve DenseNet'in alt örnekleme katmanı. Kalın siyah çizgi, tam hassas katmanla değiştirilebilen aşağı örnekleme katmanını temsil eder. DenseNet'te tam hassasiyetli bir alt örnekleme katmanı kullanırsanız, kanal sayısını azaltma oranını artırmanız gerekir (noktalı çizgi, azaltılmayan kanal sayısını gösterir).

Tablo 1: MNIST ve CIFAR-10 veri setlerinde, bu makalede önerilen ikili modelin performansı Yang ve ark.

Tablo 7: Bu makaledeki yöntemin ImageNet veri setindeki mevcut optimal ikili model ile karşılaştırılması. Tüm yöntemler alt örnekleme parçasının evrişimli katmanında tam hassasiyetli ağırlıklar kullanır.

Makale: Sıfırdan Rekabetçi İkili Sinir Ağları Eğitimi

Makaleye bağlantı: https://arxiv.org/abs/1812.01965

Kod bağlantısı: https://github.com/hpi-xnor/BMXNet-v2

Özet: Evrişimli sinir ağları, farklı uygulama alanlarında dikkate değer başarılar elde etti. Mevcut literatür, CNN modelini mobil ve gömülü cihazlarda uygulamak için birçok yöntem önermiştir. Düşük bilgi işlem gücüne sahip cihazlar için ikili sinir ağı, özellikle umut verici bir teknolojidir. Bununla birlikte, sıfırdan doğru bir ikili model eğitmek hala bir zorluktur. Önceki araştırma çalışması genellikle tam kesinlik modeli ve karmaşık eğitim stratejileri tarafından oluşturulan önceki bilgileri kullanır. Bu araştırma, benzer ön bilgileri ve karmaşık eğitim stratejilerini kullanmadan ikili sinir ağlarının performansının nasıl geliştirileceğine odaklanmaktadır. Deneyler, standart kıyaslama veri setinde, bu makalede önerilen yöntemin mevcut optimal seviyeye ulaşabileceğini göstermektedir. Ek olarak, bildiğimiz kadarıyla, yoğun bağlı ağ mimarisini ilk kez ikili bir ağa başarıyla uygulayarak mevcut optimum performansı geliştirdik.

Wuling Hongguang S'nin kökeni nedir? Nasıl Akina Dağ Tanrısı Arabası oldu?
önceki
İkinci amca Yeni Yılda yeni bir arabadan bahseder. En güzel memleket arabası ondan başkası değildir
Sonraki
Emekli yaşlı çift 1 yıl boyunca erişte tezgahları açar ve sadece 3 gün sürer: boşanmış kız ve damadı torununa para kazanmak için bağlantılarını kaybeder
Bir araba alırken, birisi bana her zaman 100 kilometreden 100 kilometreye kaç saniye hızlanmam gerektiğini söyler, bu gerçekten önemli mi?
Taoying Daily Oscar öncesi en lüks ünlü buluşması
S3C2440 tabanlı sıvı kristal görüntüleme cihazı fotoelektrik parametre algılama arayüz devresi
Bağımsız markalar neden gurur duyuyor? Memleket halkının Yeni Yıl için hangi arabayı kullandığını bileceksin!
"Kızların Krallığı" Zhao Liying ve Feng Shaofengin tatlı suistimal aşkı nihayet bu küçük taze et tarafından şarkıya yazıldı.
Oyun oynamanın faydası nedir? Yıllardır beni rahatsız eden bu felsefi problemden bahsetmişken
StarCraft 20 yaşında: 200 usta o yıllarda birlikte oynadıkları StarCrafts'ı yeniden yaşamak için Chongqing'de bir araya geldi.
Yine Bahar Şenliği. Bakalım köylüler hangi arabaları kullanıyor?
AMAN TANRIM! "The Big Bang Theory" 12. sezondan sonra sona erecek
500 milyon sınırlı sayıda PS4 bugün piyasaya sürüldü, tüm platformlar bir saniyede tükendi
Beş dört yüz yıllık gençlik kültürü turu başlamayı bekliyor
To Top