g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Model budamanın "evi" nasıl ölçülür?

Leifeng.com Yapay Zeka Teknolojisi Yorumu: Derin öğrenme modeli çalışması, çok sayıda hesaplama, bellek ve güç tüketimi gerektirir.Model model çalışmasının darboğazını çözmek için, araştırmacılar, model budama dahil, etkili bir şekilde azaltabilecek bir dizi model sıkıştırma yöntemi önerdiler. Küçük bellek, güç tüketimi, hesaplama verimliliğini artırır.

Bununla birlikte, "her madalyonun artıları ve eksileri vardır." Model budamanın birçok faydası olsa da, kaçınılmaz olarak belirli bir miktar "pes etmeye" neden olacaktır. Bu kayıplar nelerdir? Farklı modeller için ve farklı senaryolarda, model budamasının etkisindeki fark nedir?

Bu bağlamda, Google "beyin hasarı" ndan esinlenmiş ve son araştırma çalışması olan "SEÇİCİ BEYİN HASARI: MODEL BUDAMANIN AYRINTILI ETKİSİNİN ÖLÇÜLMESİ" adlı çalışmada etkili bir ölçüm yöntemi önermiştir.

Kağıt adresi: https://arxiv.org/abs/1911.05248
Uygulama kodu GitHub adresi: https://github.com/google-research/google-research/tree/master/pruning_identified_exemplars

Aşağıdakiler, bu çalışmanın resmi yorumudur:

1. Derin sinir ağı budamasında ne kaybedilecek?

Bebeklikten yetişkinliğe kadar geçen süreçte beyindeki sinaps sayısı önce artar, sonra azalır. Sinaptik Budama, fazla nöronları ortadan kaldırarak ve çevre için en yararlı olan sinaptik bağlantıları güçlendirerek verimliliği artırır.

İnsanlar 2 ile 10 yaşları arasındaki tüm sinapsların% 50'sini kaybedecek, ancak beyin çalışmaya devam edecek. "Kullan ya da at" terimi genellikle sinaps budama öğreniminin çevresel etkisini tanımlamak için kullanılır, ancak sinaps budamasının beynin kaybetmesine neden olduğu konusunda çok az bilimsel fikir birliği vardır.

1990'da "En İyi Beyin Hasarı" ("En İyi Beyin Hasarı") başlıklı bir makale çok popülerdi. Bu makale, derin sinir ağlarının "aşırı gücünü" biyolojik sinaps budamasına benzer bir şekilde budayabileceğimiz ilk kağıt destesidir.

Derin sinir ağlarında, araştırmacı, ağırlık değerini sıfıra ayarlayarak ağdan ağırlıkları kesebilir (sinir ağlarında "budama" olarak tanımlanabilir) veya ağırlıkları kaldırabilir.

Bugün, aralarından seçim yapabileceğiniz birçok uygun budama yöntemimiz var ve budama modeli cep telefonunuzdaki birçok algoritmaya uygulanmış olabilir.

Yüzeyde, budama yöntemini kullanmak neredeyse tüm sorunları çözebilmenizi sağlayacaktır. En gelişmiş budama yöntemi, en iyi 1 hassasiyetteki düşüşü en aza indirirken ağırlıkların çoğunu ortadan kaldırır. Bu yeni modern ağlar, daha az bellek ve enerji tüketimi gerektirir ve tahminleri daha hızlı yapabilir.

Tüm bu özellikler, budanmış modeli, kaynakları kısıtlı ortamlarda derin sinir ağlarını konuşlandırmak için çok uygun hale getirir.

Şekil 1 Sinaptik budama, fazla nöronları ortadan kaldırır ve çevre için en yararlı bağlantıları güçlendirir. (Seeman tarafından sağlanan resim, 1999)

Ancak kafa karıştırıcı olan şu: ağı budama becerisinin genelleme performansı üzerinde çok az etkisi var gibi görünüyor. Görünüşe göre İlk-1 doğruluğunun performans maliyeti tüm kategorilere eşit olarak dağıtılır, ancak ya maliyet yalnızca birkaç kategoride yoğunlaşırsa? Budamanın belirli bir numune türü veya kategori üzerinde orantısız bir etkisi olacak mı?

Hassas görevler (işe alma, sağlık hizmeti teşhisi veya kendi kendine giden arabalar gibi) için derin sinir ağları kullanıldığında, bu ödünleşmeleri anlamak çok önemlidir.

Bu görevler için, budama yöntemlerinin tanıtımı, korunan niteliklere ayrımcı muameleden kaçınma amacına ve / veya belirli belirli kategoriler için geri çağırma düzeyini garanti etme ihtiyacına aykırı olabilir. Modelleri cep telefonlarına veya gömülü cihazlara yerleştirmenin kaynak kısıtlamaları nedeniyle, bu alanlarda budama yöntemleri yaygın olarak kullanılmaktadır.

Bu çalışmada, budanmış ve budanmamış modeller arasında genelleme becerisinde büyük farklılıklar veya farklılıklar olan kategorileri ve görüntüleri tanımlamak için resmi bir çerçeve öneriyoruz. Seyrekliğin uygulanmasının, budama örnekleri (Budama Tanımlanmış Örnekler, PIE) ve kategoriler üzerinde daha büyük bir etkiye sahip olduğunu bulduk.

Çalışmamızın ana bulguları şu şekilde özetlenmiştir:

1. Budama en iyi "seçici beyin hasarı" olarak tanımlanır. Budamanın her kategori üzerinde farklı bir etkisi vardır; seyrekliğin ortaya çıkması, az sayıda kategori üzerinde orantısız bir sistem etkisine sahip olacaktır.

2. Budamadan en çok etkilenen örneğe "budanmış tanınmış örnek" (PIE) diyoruz, budanmış ve budanmamış modellerle sınıflandırmak daha zordur.

3. Budama, görüntü hasarını ve doğal karşıt görüntünün sağlamlığını büyük ölçüde azaltacaktır.

2. PIE: Budamayla tanınan örnek

PIE, bir dizi bağımsız olarak eğitilmiş budanmış model ve budanmamış model arasında en sık farklı tahmin sonuçları üreten bir görüntüdür. Açık kaynak veri setlerini (ImageNet gibi) incelemeye odaklandık ve PIE görüntülerini hem budanmış hem de budanmamış modeller için sınıflandırmanın daha zor olduğunu gördük.

Test setinin rastgele PIE görüntü örnekleriyle sınırlandırılması, ilk-1'in doğruluğunu ciddi şekilde azaltacaktır. PIE'nin test setinden çıkarılması, budanmış modelin ve budanmamış modelin ilk 1 doğruluğunu artırabilir. Budama, derin sinir ağının daha yüksek tahmin belirsizliği ile mevcut örnekleri "unutmasına" neden oluyor gibi görünüyor.

Şekiller 2 ila 4, her kategorinin ImageNet PIE örneklerini gösterir.Her şeklin altındaki etiketler şu bilgileri içerir: (1) Referans doğru etiketleme, (2) Temel düzeltilmemiş model tahmin etiketi, (3) En yaygın kullanılan ResNet-50 budama modeli, ek açıklamaları tahmin eder.

(1) (2) (3) (4)

(5) (6) (7) (8)

Şekil 2 Atipik örnek: Belirli bir kategorideki görüntülerin dağılımından, insanlar görüntüleri alışılmadık veya anormal PIE örnekleri olarak ele alacaklardır. Her resmin açıklama sonuçları aşağıdaki gibidir:

(1) Doğru etikete bakın: küvet, budanmamış model tahmin etiketi: küvet, budama modeli tahmin etiketi: salatalık

(2) Doğru etikete bakın: klozet kapağı, budanmamış model tahmin etiketi: klozet, budama modeli tahmin etiketi: katlanır sandalye

(3) Doğru etikete bakın: plastik torba, budanmamış model tahmin etiketi: bornoz, budama modeli tahmin etiketi: plastik torba

(4) Doğru etikete bakın: Espresso, budanmamış model tahmin etiketi: Espresso, budama modeli tahmin etiketi: Kırmızı şarap

(5) Doğru etikete bakın: Cadılar Bayramı balkabağı, budanmamış model tahmin etiketi: Cadılar bayramı balkabağı, budama modeli tahmin etiketi: abajur

(6) Doğru etiketlemeye bakın: Petri kabı, budanmamış model tahmin etiketi: Espresso, budama modeli tahmin etiketi: Petri kabı

(7) Referans doğru etiketleme: lüks otomobil, budanmamış model tahmin etiketi: Bob kızak, budama modeli tahmin etiketi: kar küreme

(8) Doğru etikete bakın: sallanan sandalye, budanmamış model tahmin etiketi: sallanan sandalye, budama modeli tahmin etiketi: berber koltuğu

(1) (2) (3) (4)

(5) (6) (7) (8)

Şekil 3 İnce taneli sınıflandırma: Görüntü seti, anlamsal olarak çeşitli diğer kategorilere (örneğin, taş yengeçler ve kemancı yengeçleri, demir zırh ve göğüs zırhı) yakın olan nesnelerin PIE örneklerini tasvir etmektedir.Her görüntünün ek açıklama sonuçları aşağıdaki gibidir:

(1) Doğru etikete bakın: cezve, budanmamış model tahmin etiketi: kahve makinesi, budama modeli tahmin etiketi: cezve

(2) Doğru etikete bakın: demir zırh, budanmamış model tahmin etiketi: göğüs plakası, budama modeli tahmin etiketi: demir zırh

(3) Doğru etiketlemeye bakın: Beşik, budanmamış model tahmin etiketi: Beşik, budama modeli tahmin etiketi: beşik

(4) Doğru etikete bakın: Vadi, budanmamış model tahmin etiketi: Vadi, budama modeli tahmin etiketi: alp

(5) Doğru etikete bakın: gri balina, budanmamış model tahmin etiketi: gri balina, budama modeli tahmin etiketi: katil balina

(6) Doğru ek açıklamaya bakın: ekran, budanmamış model tahmin ek açıklaması: ekran, budama modeli tahmin ek açıklaması: TV

(7) Doğru etikete bakın: Noel çorapları, budanmamış model tahmin etiketi: çoraplar, budama modeli tahmin etiketi: Noel çorabı

(8) Doğru etiketlemeye bakın: Dalgakıran, budanmamış model tahmin etiketi: Göl kenarı, budama modeli tahmin etiketi: Sahil

(1) (2) (3) (4)

(5) (6) (7) (8)

Şekil 4 Soyut sınıflandırma: Sınıflandırma nesnesi, farklı malzemeler kullanarak boyama, çizim veya işleme gibi soyut bir PIE örneğidir.Her bir resmin açıklama sonuçları aşağıdaki gibidir:

(1) Doğru etikete bakın: tuvalet kağıdı, budanmamış model tahmin etiketi: banyo havlusu, budama modeli tahmin etiketi: büyük beyaz köpek balığı

(2) Doğru etikete bakın: Karnabahar, budanmamış model tahmin etiketi: Karnabahar, budama modeli tahmin etiketi: Enginar

(3) Doğru etiketlemeye bakın: hasır şapka, budanmamış model tahmin etiketi: kovboy şapkası, budama modeli tahmin etiketi: hamur

(4) Referans doğru etiketleme: soda şişesi, budanmamış model tahmin etiketi: restoran, budama modeli tahmin etiketi: berber dükkanı

(5) Doğru etiketlemeye bakın: pelerin, budanmamış model tahmin etiketi: gaz maskesi, budama modeli tahmin etiketi: göğüs plakası

(6) Doğru etikete bakın: benzin pompası, budamasız model tahmin etiketi: gaz pompası, budama modeli tahmin etiketi: trafik ışığı

(7) Doğru etiketlemeye bakın: labirent, budanmamış model tahmin etiketi: labirent, budama modeli tahmin etiketi: bulmaca

(8) Doğru etikete bakın: bira şişesi, budanmamış model tahmin etiketi: bira şişesi, budama modeli tahmin etiketi: güneş kremi

PIE'nin yeteneğe neden daha duyarlı olduğunu daha iyi anlamak için, küçük ölçekli bir katılımcı anketi yaptık (85 katılımcı) ve ImageNet test setinde birden fazla nesneyi tasvir eden veya ayrıntılı sınıflandırma gerektiren KAYİK'lerin yanlış etiketlenme olasılığının daha yüksek olduğunu gördük.

Katılımcılar, PIE görüntülerinin yarısından fazlasını birden çok nesneyi doğru şekilde etiketlemek veya tasvir etmek için yanlış referanslara sahip olarak sınıflandırdı. Eksik yapılandırılmış verilerin aşırı endekslenmesi, ImageNet gibi tek bir görüntü sınıflandırma görevi için parametre sayısının arttığını gösterir ve bu da veri temizleme hattındaki sorunları daha iyi çözebilir.

PIE, tek bir görüntü sınıflandırma görevinin eksik yapı verilerini aşırı etiketler. Bu görüntüler için doğru tahmin, görünmez verilerin genelleme yeteneğinin yetersiz bir tahmini olabilir. Örneğin, çoğu insan hala budama modelinin damadın referansı yerine elbisenin doğru etiketlenmesini tahmin etmek için doğru olduğuna inanmaktadır. Damat takım elbise giyiyor, bu nedenle iki tür etiket kabul edilebilir. Ancak bu tahmin, ilk-1 doğruluk gibi göstergeler tarafından cezalandırılacaktır.

Şekil 5-7, her kategorinin ImageNet PIE örneklerini gösterir. Her grafiğin ek açıklamaları şunlara bölünmüştür: (1) Referans doğru bilgi notu, (2) Yayılmamış temel model tahmin açıklaması, (3) En yaygın kullanılan ResNet-50 budama modeli tahmin açıklaması.

(1) (2) (3) (4)

(5) (6) (7) (8)

Şekil 5 Aynı anda sıklıkla görünen ek açıklamalar: Birden çok nesnenin aynı anda aynı resimde sıkça göründüğü PIE örnekleri. Bunun nedeni, mermiler ve füzeler gibi bazı durumlarda her iki etiketin de aynı nesneyi tanımlayabilmesidir. Her resmin açıklama sonuçları aşağıdaki gibidir:

(1) Doğru etiketlemeye bakın: Berber koltuğu, budanmamış model tahmin etiketi: Berber koltuğu, budama modeli tahmin etiketi: Berber dükkanı

(2) Doğru etikete bakın: damat, budanmamış model tahmin etiketi: damat, budama modeli tahmin etiketi: takım elbise

(3) Doğru etiketlemeye bakın: akademik başlık, budanmamış model tahmin etiketi: akademik önlük, budama modeli tahmin etiketi: akademik başlık

(4) Doğru etikete bakın: kürek, budanmamış model tahmin etiketi: kürek, budama modeli tahmin etiketi: kano

(5) Doğru etikete bakın: tenis, budanmamış model tahmin etiketi: tenis, budama modeli tahmin etiketi: tenis raketi

(6) Doğru etikete bakın: şarap şişesi, budanmamış model tahmin etiketi: kırmızı şarap, budama modeli tahmin etiketi: şarap şişesi

(7) Doğru etiketlemeye bakın: Cannonball, pruned model tahmin etiketi: Füze, budama modeli tahmin etiketi: Cannonball

(8) Doğru etikete bakın: mısır, budanmamış model tahmin etiketi: mısır, budama modeli tahmin etiketi: (mısır) kulak

(1) (2) (3) (4)

(5) (6) (7) (8)

Şekil 6 Doğru etiketlemeye yanlış veya yetersiz referans: Doğru etiketlemeye yanlış referans veya insanlar, PIE örneklerinin doğru etiketlenmesini belirlemek için yeterli bilgiye sahip değil. Her resmin açıklama sonuçları aşağıdaki gibidir:

(1) Doğru etiketlemeye bakın: banyo küveti, budanmamış model tahmin etiketi: büyük kap, budama modeli tahmin etiketi: wok

(2) Doğru etiketlemeye bakın: uyku tulumu, budanmamış model tahmin etiketi: önlük, budama modeli tahmin etiketi: önlük

(3) Doğru etikete bakın: güvenlik kaskı, budanmamış model tahmin etiketi: gaz maskesi, budama modeli tahmin etiketi: mercek kapağı

(4) Referans doğru etiketleme: Kokarca, budanmamış model tahmin etiketi: Siyah ayaklı dağ gelinciği, budama modeli tahmin etiketi: Eskimo köpeği

(5) Doğru etikete bakın: restoran, budanmamış model tahmin etiketi: köfte, budama modeli tahmin etiketi: avokado

(6) Doğru etiketlemeye bakın: zarf, budanmamış model tahmin etiketi: dambıl, budama modeli tahmin etiketi: Makara (kişinin adı)

(7) Doğru etikete bakın: yün, budanmamış model tahmin etiketi: direk, budama modeli tahmin etiketi: kanatlar

(8) Referans doğru etiketleme: radyo, budamasız model tahmin etiketi: radyo, budama modeli tahmin etiketi: osiloskop

(1) (2) (3) (4)

(5) (6) (7) (8)

Şekil 7 Birden çok nesne görüntüsü: Görüntüde birden çok nesne tanımlanmıştır.İnsanlar, tahmin edilen birkaç açıklamanın PIE'nin uygun örnekleri olduğunu düşünebilir (örneğin, bir ekran, bir fare ve bir monitörden oluşan bir masaüstü bilgisayar, bir berber dükkanında bir berber koltuğu, dolu Şarap şişesi). Her resmin açıklama sonuçları aşağıdaki gibidir:

(1) Referans doğru etiketleme: Fırın, budanmamış model tahmin etiketi: Fransız ekmeği, budama modeli tahmin etiketi: fırın

(2) Doğru etiketlemeye bakın: havuz, budanmamış model tahmin etiketi: konteyner gemisi, budama modeli tahmin etiketi: iskele

(3) Doğru etiketlemeye bakın: çekiç, budamasız model tahmin etiketi: marangoz alet çantası, budama modeli tahmin etiketi: çekiç

(4) Doğru etiketlemeye bakın: Kumbara, budanmamış model tahmin etiketi: mantar, budama modeli tahmin etiketi: bulmaca oyunu

(5) Doğru etikete bakın: Avokado, budanmamış model tahmin etiketi: Burrito, budama modeli tahmin etiketi: plaka

(6) Doğru etiketlemeye bakın: şeker, budanmamış model tahmin etiketi: torba, budama modeli tahmin etiketi: bakkal

(7) Referans doğru etiketleme: paralel çubuklar, budanmamış model tahmin etiketi: paralel çubuklar, budama modeli tahmin etiketi: yatay çubuk

(8) Doğru etiketlemeye bakın: masaüstü bilgisayar, budanmamış model tahmin etiketi: ekran, budama modeli tahmin etiketi: izleme

Gerçek dünya veri setlerini doğru bir şekilde sınıflandırma riski, genellikle kürekleri veya guacamole'u doğru şekilde ayırt etmekten çok daha yüksektir. Hastalık riski sınıflandırması veya tıbbi teşhis gibi hassas görevler için, sonuçlarımız, budanmış modelleri yerleştirmeden önce dikkatli olunması gerektiğini göstermektedir.

PIE, kapsama modelleri aracılığıyla insan uzmanlar için zor olan az sayıda örneği keşfetmek için bir araç sağlar ve tahmin edilen ek açıklamaları kaynak verilere daha yakın hale getirir. Bu, belirli tipik olmayan örneklerin manuel inceleme için yeniden yönlendirildiği veya model yorumlamasına yardımcı olacak temel bir tahmin aracı olarak "döngüdeki insan" kararları oluşturmak için çok değerli olabilir. .

PIE görüntüsünü incelemek, en zor model girişi türünü keşfetmemize yardımcı olabilir. PIE görüntülerini modeli sınıflandırmak çok daha zordur. PIE görüntüsünün silinmesi, İlk 1 genelleme performansını karşılaştırmalı değerlendirmeyi aşabilir.

Şekil 8: ImageNet test setinden rastgele görüntü örnekleri (pembe çubuklar) ile karşılaştırıldığında, ResNet-50 derin sinir ağının PIE ImageNet görüntülerinin (yeşil çubuklar) rastgele örnekleri için ortalama ilk 1 doğruluğu çok daha düşüktür.

Şekil 9: PIE görüntüsünü silmek genelleme için iyidir. Model yalnızca PIE olmayan ImageNet görüntülerinin (camgöbeği) rastgele örneklerini kullandığında, İlk-1 doğruluğu temel performansı geliştirecek ve aşacaktır.

3. Budamadan hangi kategoriler etkilenecek?

ImageNet, hem günlük nesneleri (kaset çalarlar gibi) hem de daha rafine kategorileri içeren 1000 farklı kategoriye sahiptir.Bu kategoriler kadife gibi nesnelerin dokusuna ve hatta seyisler gibi şeylere atıfta bulunur. insanlar.

Budamanın tüm kategoriler üzerindeki etkisi tutarlıysa, her kategorinin model doğruluğunun, budanmış ve budanmamış modeller arasındaki ilk 1 doğruluk farkı ile aynı yüzde oranında değişmesini bekliyoruz.

Bu bizim boş hipotezimizi oluşturur.Her kategorinin boş hipotezi reddedip reddetmediğini ve alternatif hipotez istatistiklerini kabul edip etmediğini belirlemeliyiz - istatistikler, her bir kategorinin hatırlama seviyesindeki değişim ile genel doğruluktaki değişiklik arasında önemli bir fark olduğunu gösterir. Bu, şu soruyu sormaya eşdeğerdir: Budamadan sonra ilk 1 doğruluktaki genel değişikliği göz önüne alırsak, bu sınıfın performansı beklenenden daha mı iyi yoksa daha mı kötü?

Budanmış model ile budanmamış modelin ortalama kaydırma sınıflandırma doğruluğu örnekleri arasındaki farkın "gerçek" olup olmadığının değerlendirilmesi, iki veri örneğinin aynı temel dağılımdan gelip gelmediğini belirlemek için düşünülebilir. Araştırıldı.

Budanmış model ile budanmamış modelin sınıflandırma performansını karşılaştırmak için, iki numunenin iki taraflı bağımsız Welch t testini kullanıyoruz. Bir dizi budanmış ve budanmamış modeli ayrı ayrı eğittik ve örnek ortalamalarının önemli ölçüde farklı olup olmadığını belirlemek için bir t-testi kullandık. Bu yöntem, model performansının model ağırlıklarının kaybına göre nispeten güçlü olduğu veya performans düşüşüne karşı çok hassas olduğu bir kategori alt kümesini belirlememizi sağlar.

Bu yöntem, bir sınıf alt kümesini tanımlamamıza izin verir: modelin performansı, ya model ağırlıklarının kaybına karşı sağlamdır ya da güç kaybına aşırı duyarlıdır.

(1)% 30 budama seviyesi

(2)% 50 budama seviyesi

(3)% 70 budama seviyesi

(4)% 90 budama seviyesi

Şekil 10 Bir dizi budanmış ve budanmamış modeli bağımsız olarak eğittik ve örnek ortalamalarının önemli ölçüde farklı olup olmadığını belirlemek için t-testi uyguladık. Tüm kategorilerin sonuçları, bazı kategorilerin budama düzeyinden diğerlerine göre çok daha fazla etkilendiğini göstermektedir (pembe, önemli istatistiksel sonuçlara sahip kategoridir ve gri, performans değişikliklerinin anlamlı olmayan istatistiksel sonuçlarını içeren kategoridir).

Ayrıca, budama sonucundaki ilk 1 doğruluk değişikliğine göre kategori geri çağırmadaki (gri ve pembe çubuklar) mutlak yüzde değişimini ve normalleştirilmiş doğruluğu (gri ve yeşil işaretler) grafiklendirdik.

Budama etkisinin yönü ve boyutu ince ve şaşırtıcıdır. Sonuçlarımız, bazı kategorilerin modelin genel performans düşüşüne nispeten sağlam olduğunu, diğer kategorilerin performans düşüşünün ise modelin kendisini çok aştığını göstermektedir. Bu, belirli kategorilerdeki "seçici beyin hasarı" na eşdeğerdir ve belirli kategorilerin model yeteneklerinin kaybına daha duyarlı olduğunu gösterir.

Her bir budama derecesinde, doğrulukta göreceli bir artışa sahip kategorilere göre doğrulukta önemli göreceli azalma olan daha az kategori vardır Ancak, doğrulukta göreceli bir düşüşe sahip kategorilerdeki azalma, doğruluktaki göreli artıştaki artıştan daha büyüktür (bu da doğrulukta genel artışa yol açar). Azalan doğruluk). Bu bize, budamanın neden olduğu genelleme kaybının, göreceli doğruluk iyileştirmesinden çok daha konsantre olduğunu ve ağırlık kaybının neden olduğu performans düşüşünden yalnızca daha az sayıda kategori etkilendiğini söyler.

Daha yüksek bir budama derecesi, daha fazla kategoriyi etkileyecek ve en çok etkilenen ve en az etkilenen kategoriler arasındaki mutlak yüzde farkı daha büyük hale gelecektir. Gerçek dünyadaki çoğu budama uygulaması, bellek ve verimlilikte bir geri dönüş elde etmek için% 50'den fazla budama eğilimindedir. Ağırlığın% 90'ı kaldırıldığında, 1000 ImageNet kategorisinin 582'sinin göreli değişiklikleri istatistiksel olarak anlamlıdır.

4. Model budaması için bu ne anlama geliyor?

Gerçek dünya uygulamalarında model budama, makine öğrenimi uygulamalarında yaygın olarak kullanılmaktadır. Cep telefonlarındaki birçok algoritma bir şekilde kısaltılabilir veya sıkıştırılabilir.

Sonuçlarımız şaşırtıcıdır ve ilk 1 veya ilk 5 test setinin doğruluğu gibi en önemli göstergelere güvenmenin, budamanın modelin genellemesini etkileyecek şekilde önemli ayrıntıları gizlediğini göstermektedir.

Ancak bizim yöntemimiz, insanların budamanın getirdiği "verme" ve "alma" olaylarını daha iyi anlamaları ve hangi sınıfların ek işlevlerden en çok yararlandığına dair sezgi kazanmaları için bir yol sağlar. Bu tür bir aracın, budama ile üretilen "vermeyi" ve "almayı" uzmanların anlamasına ve insan yargısı için son derece zor örnekleri keşfetmesine yardımcı olacak değerli bir ilk adım olduğuna inanıyoruz.

Bu çalışma ile ilgili diğer tartışmaları ve kod katkılarını memnuniyetle karşılıyoruz. Makalemizde ve açık kaynak kodumuzda yöntemimiz, deneysel çerçevemiz ve deneysel sonuçlarımız ayrıntılı olarak tanıtılmaktadır.

Bu sınırlı araştırma kapsamı içinde, birçok önemli sorunu ve derinlemesine çalışmadığımız ancak son derece değerli olan birçok yönü çözemiyoruz: budamanın diğer alanlar (dil ve ses gibi) ve farklı mimariler üzerindeki etkisinin değerlendirilmesi Dikkate alınması gereken hususlar ve diğer yaygın olarak kullanılan sıkıştırma tekniklerine (niceleme gibi) dayalı budama modelinin getirdiği göreceli ödünleşmelerin karşılaştırılması.

Makaledeki ilgili referanslar, orijinal metni okuyabilirsiniz:

https://weightpruningdamage.github.io/

Lei Feng Network AI Teknolojisi İnceleme Derlemesi

CES 2020 AI çekirdek pazarı: arabalar iyimser olmaya devam ediyor, PC AI yükseltme dalgasını memnuniyetle karşılayabilir

Neden kimse bana yapay zeka ve hava tahmininin aslında iyi bir CP çifti olduğunu söylemedi