Hong Kong Bilim ve Teknoloji Üniversitesi Doktora öğrencisi Lu Hou: Kayıp fonksiyonuna dayalı bir sinir ağı niceleme yöntemi | Paylaşım özeti

Leifeng.com AI Teknolojisi İnceleme Basın : Sinir ağı güçlüdür, ancak büyük depolama ve hesaplama maliyetleri, özellikle nispeten zayıf bilgi işlem gücüne sahip bazı mobil cihazlarda kullanım özelliklerinin büyük ölçüde kısıtlanmasına neden olur. Bu sorunu çözmek için, son zamanlarda sinir ağı budaması, ağırlık matrisinin düşük sıralı ayrıştırılması, ağırlık nicelemesi vb. Gibi sinir ağı sıkıştırması ve hızlanmasına yönelik birçok çalışma önerilmiştir. Bu paylaşım, ağırlıklı olarak ağırlık ölçümü gibi yöntemlere yöneliktir.

Son zamanlarda, Leifeng.com GAIR konferans salonunda, Hong Kong Bilim ve Teknoloji Üniversitesi'nden doktora öğrencisi Hou Lu, derin öğrenme ağlarının ağırlıklandırılmasındaki en son gelişmelerden bazılarını paylaştı. Ve birkaç ICLR makalesinin yorumlanması. Video oynatma adresi:

Hou Lu, ana araştırma yönü makine öğrenimi olan Hong Kong Bilim ve Teknoloji Üniversitesi'nde doktora adayıdır.

Konuyu paylaş : Kayıp fonksiyonuna dayalı bir sinir ağı niceleme yöntemi

Anahat paylaş

1. Sinir ağı budaması, ağırlık matrisinin düşük aşamalı ayrıştırılması, ağırlık nicelemesi vb. Gibi sinir ağı sıkıştırma ve hızlandırma ile ilgili son çalışmaları özetleyin.

2. Son iki yıldaki ağırlıklandırma yöntemlerini gözden geçirin ve bu yöntemlerin avantaj ve dezavantajlarını analiz edin.

3. Nihai amaç fonksiyonunu azaltmaya dayalı nicel yöntemi tanıtın ve bu yöntem ile diğer nicel yöntemlerin ilişkisini ve avantajlarını analiz edin.

İçerik paylaşın :

Derin öğrenme, otonom sürüş, makine çevirisi, tıbbi tedavi, oyun rekabeti vb. Dahil hayatımızda yaygın olarak kullanılmaktadır.

Önce derin öğrenme modelinin kurulmasını tanıtın. Derin öğrenme genellikle iki modüle ayrılır: eğitim ve test. Eğitim bölümünde, eğitim modelleri, veri kümeleri ve GPU kaynakları genellikle çok büyüktür, ancak test sırasında genellikle bu modelleri cep telefonları gibi daha zayıf bilgi işlem yeteneklerine sahip platformlara uygulamamız gerekir. Bu, biri yetersiz bilgi işlem kaynakları ve diğeri yetersiz bellek olmak üzere iki sorunla karşılaşacaktır.

Bu sorunu çözmeye çalışan çok sayıda araştırma çalışması da var. Yöntemler, daha gelişmiş donanım kullanımı, geçiş öğrenimi ve optimizasyon algoritmalarını içerir, ancak günümüzün paylaşım içeriği model sıkıştırma ve hızlandırma üzerine odaklanmaktadır.

Model sıkıştırma alanında şu anda popüler olan birkaç yön vardır. Biri ağırlıkların kesilmesi ve paylaşılması, ikincisi daha kompakt ve etkili modüller kullanmak, üçüncüsü bazı düşük seviyeli matrisler kullanmak ve sonuncusu da günümüz paylaşım ağırlıklandırmasının odak noktasıdır.

Önce ağırlık budama işlemini başlatın. Bu, 2015 yılında NIPS üzerinde önerilmiştir. Bu yöntem üç adıma bölünmüştür: Önce tamamen bağlı bir ağı eğitin, ardından daha az önemli bazı bağlantıları kaldırın ve son olarak budanmış ağı eğitin.

Kilo paylaşımını tanıtan bu yöntem, 2016 NIPS en iyi raporunda önerildi. Yöntem ayrıca üç adıma bölünmüştür: İlk adım budama sürecidir, ikinci adım niceleme ve ağırlık paylaşımıdır ve son olarak Huffman kodlama işlemi daha yüksek bir sıkıştırma oranı elde etmek için kullanılır. Ancak bu yöntem, hesaplama miktarını önemli ölçüde azaltmaz.

İkinci kısım, SqueezeNet, MobileNet, ShuffleNet, vb. Gibi daha kompakt ve etkili modeller kullanmaktır.

SqueezeNet'in verimlilik artışı, daha küçük ağlarda önemli değildir.

Aslında, bu iki yöntemin uygulanması diğer yöntemlerle karşılaştırıldığında kolay değildir. Üçüncü bölümde, düşük sıralı matris yöntemini tanıtmak istiyorum.Bu yöntem, hesaplamadaki çarpma ve ekleme sayısını azaltabilir. Ancak sorun da açıktır, yani eğitim miktarı orijinal modele yerleştirildikten sonra artacaktır.

Sırada bugünün odak noktası, yani ağırlıklı içerik var. En basit olanı, orijinal 32 bit tarafından temsil edilen ağırlığı temsil etmek için 1 bit kullanan ikileştirmedir. Daha doğru olan üç değerli, en yaygın olanı m-bittir.

Öncelikle eş zamanlı eğitim ve niceleme dahil olmak üzere önceki yöntemlerle karşılaştırıldığında ağırlıklandırmanın avantajlarını tanıtmama izin verin.

Ardından nicel süreç hakkında konuşun. Basit bir giriş, önce nicelenmiş ağırlıkları ileri yayılma için kullanmak, ardından nicelenmiş ağırlıkların gradyanını elde etmek için geri yayılım yapmak ve ardından bir sonraki yinelemeye girmek için ağırlıkları güncellemektir.

Daha sonra, ikili ağın ana çalışmasını tanıtacağım.Birincisi BinaryConnect.Bu yöntem ölçülebilir olsa da, ölçülen etkinin artılarını ve eksilerini bilmek imkansızdır.

İkincisi, İkili Ağırlık Ağı, bu yöntem hala kayıp işlevini azaltmada olumlu bir etki garanti edemez.

Ardından, Üçlü Bağlantı ve Üçlü Ağırlık Ağları (TWN) ve Eğitimli Üçlü Niceleme (TTQ) dahil olmak üzere üçlü çalışma geldi.

İlk iki yöntemin sorunları, ikilileştirme çalışmasındakilerle aynıdır, ancak ağırlıkların doğruluğu iyileştirilmiştir.

Bu yöntemin hala ilk iki yöntemle benzer sorunları vardır. Şu anda, daha yaygın olan yöntem m-bit yöntemidir. DoReFa-Net ve Low-Bit Sinir Ağı (LBNN) iki yöntem dahil.

Yukarıdaki şekilde gösterildiği gibi, bu iki yöntemin her birinin kendi sorunları vardır. Ardından, ekibimiz tarafından ICLR2017 ve 2018'de yayınlanan yöntemleri tanıtacağız. Önce Kayba Duyarlı Ağırlık Miktar Tayini çerçevesini koyun.

Ardından çözüm algoritması Proksimal Newton Algoritmasını kullanır.

Ardından bu algoritmayı önceki formülasyona uygulayın.

Yukarıdaki iki adımın özel anlamını şu şekilde analiz edeyim:

Ardından belirli algoritmaya bakın.

Bu algoritmanın bazı kanıtları aşağıdaki gibidir:

Yukarıdakiler, çerçeveye bir giriş ve ardından Kayba Duyarlı İkilileştirmeye ayrıntılı bir giriş niteliğindedir.

Ve Kayba Duyarlı Ternarization (LAT).

Ternarization için, LATe adı verilen doğru bir çözüm yöntemi öneriyoruz.

Ancak kesin çözüm, sıralama algoritmasını içerdiği için maliyet artar. Daha sonra yaklaşık bir çözüm bulması için LATa'yı öneriyoruz.

Daha sonra, Kayba Duyarlı Ternarizasyonun iki çeşidini de önerdik.

Sonra deneysel kısmı tanıtın FNN deneyi için dört veri seti kullandık: MNIST, CIFAR-10, CIFAR-100 ve SVHN. Nihai modelin deneysel sonuçları aşağıdaki gibidir

RNN deneyleri için üç veri seti kullanıyoruz: WAR ve Peace, Linux Kernel ve Penn Treebank. Deneysel sonuçlar aşağıdaki gibidir

Algoritmamızın bu iki deneydeki performansı nispeten iyidir. Bugün tüm paylaştığım bu.

Yukarıdakiler, Leifeng.com'un Dr. Hou Lu'nun canlı yayınının tüm içeriğini derlemesidir. İlgileniyorsanız, videoyu oynatmayı doğrudan izleyebilirsiniz: Daha fazla açık sınıf videosu için lütfen Lei Feng'e gidin AI MOOC Academy'yi izleyin.

Tan Zhuo'nun yeni filmi "Kiss the Hermit", yeni temalar ve hayatın gizemlerini keşfetme girişimleriyle resmen yayınlandı.
önceki
Bahar Şenliği Galasının "Yıl Sonu Sınavı": Ge Xi Amca'nın Gül Altın Kelepçeleri Li Sisi'nin Floresan Ruj Pozlaması
Sonraki
Yabancıların kafası karıştı: Huawei Mate 9 Ulusal Bankası fiyat riski% 60 indirimli
"Kılıç Ruhu" sanat yönetmeni 3A bağımsız yeni çalışması "Project EVE" duyuruldu
Kulaklarınızı iyice yıkayın: 129 yuan fiyatla Meizu EP2X kulaklıklar piyasaya sürüldü
"Predator", "kirli örgü" kültüründen daha fazlasıdır
Nanbin Yolu o kadar canlı ki, yabancı turistler ışıkları izliyor ve Yılbaşı gecesi giriş yapıyor
Mağazadaki statik deneyim, bu üç nokta Xiaopeng Motors G3'ün olağanüstü özelliklerini gösteriyor
Kartın ne olduğunu gerçekten bilmiyorum! Ultra pürüzsüz 1000 yuan cep telefonu önerisinin Ekim yeni sürümü
Yüksek değerli küçük SUV: 80.000'den az ile Changan yeni CS15 üst
Şok oldum! Ekim-Kasım aylarında listelenen önerilen 5 popüler amiral gemisi cep telefonu
Liu Qian'ın Bahar Festivali Gala Büyüsü'nde neler oluyor? Bu üç tahminden hangisine inanıyorsunuz ...
Alan adınızı büyük bir terminal dalgası kaplıyor!
Xu Zheng ve Li Yapeng gibi! "Alınmayan Yol", "En İyi Yurtiçi Yol Filmi" unvanını kazandı
To Top