Hinton'un derin öğrenme dağıtılmış eğitiminin performansını iyileştirmek için güçlü bir araç olan yeni çalışması "Online Distillation"

Leifeng.com AI Technology Review Not: Hinton ekibi yakın zamanda "Çevrimiçi Damıtma" üzerine yeni bir makale yayınladı. Gazetede ne söyleniyor?

Neden çevrimiçi damıtmaya ihtiyacımız var?

Son yıllarda derin öğrenme teknolojisinin hızla gelişmesiyle gündelik hayatımızın her köşesi, temel ürünleri olan yapay zeka uygulamaları ile birçok yeni iş formatını ve girişimleri doğuran "yapay zeka" nın gölgesiyle doludur. Bir yağmurdan sonra bambu filizleri gibi teknoloji endüstrisinde yayıldı. Evet, bu yapay zekanın en iyi dönemi olabilir (özellikle derin öğrenme).

Bununla birlikte, derin öğrenme bugün yapay zekanın tacındaki en parlak mücevherdir.Eğer onu endüstriyel düzeyde uygulamalara itmek istiyorsanız, genellikle ulaşılamayacak kadar güçlü bir hesaplama gücüne ihtiyacınız vardır! Bu bilgi işlem gücü, pahalı donanımlar, devasa ve karmaşık bir dağıtılmış bilgi işlem ortamı ve gelişmiş ve verimli algoritmalar tarafından desteklenir. Google, Amazon, Alibaba ve Baidu gibi güçlü bilgi işlem kaynaklarına sahip teknoloji devlerine ek olarak, küçük işletmeler veya bireysel kullanıcılar için bu tür bilgi işlem kaynaklarını elde etmenin bir fantezi olduğu düşünülebilir. Aslında, birçok sıradan kolej ve üniversite ve araştırma enstitüsünde, Titan X veya GTX 1080 Ti gibi sivil grafik kartlarına sahip olmak bir lükstür. Daha da önemlisi, altyapının sınırlamaları (dağıtılmış hesaplama düğümü iletişimi, senkronizasyon, görev zamanlaması vb.), Modeli optimize etmenin önündeki engeller ve her modelin entegre öğrenme ortamına katkısında iyi kararların bulunmaması nedeniyle körleşir Bilgi işlem kaynaklarını istifleme, model performansının tavanına da çarpabilir (örneğin: Dağıtılmış Stokastik Gradyan Düşüşü (dağıtılmış SGD)).

Bu amaçla, "derin öğrenme şampiyonu" Geoffrey E. Hinton, son yıllarda bilgi damıtma (veya "karanlık bilgi çıkarma") konusunda bir dizi çalışma yapmış, yüksek hesaplama gücü gerektiren ve aynı zamanda yüksek performansa sahip bu modeli geçmeye çalışmıştır. Gizli bilgilerin bir kısmını çıkarın ve bunu öncelikli olarak kullanın Yeni bir ağ yapısı ve amaç işlevi tasarlayarak, bu bilgi küçük ölçekli bir derin öğrenme ağına "iletilir" ve ağ modeli onu önemli ölçüde azaltmak için sıkıştırılır. Şirketin ağ ölçeği ve hesaplama gereksinimleri, mümkün olan en yüksek model performansını göstermektedir. Son zamanlarda, bu fikri günümüzde sıklıkla kullanılan dağıtılmış SGD'nin (eşzamanlı ve eşzamansız biçim) darboğazını aşmak üzere dağıtılmış bir ortamda dağıtmak için Hinton ekibi "ÇEVRİMİÇİ DAĞITIM YOLUYLA BÜYÜK ÖLÇEKLİ DAĞITILMIŞ SİNİR AĞI EĞİTİMİ" (çevrimiçi damıtma yoluyla sinir ağlarının büyük ölçekli dağıtılmış eğitimi) Kağıtlar. Yazarın görüşüne göre, Hintonun bu çalışmaları serisi, derin öğrenme modeli uygulamasının eşiğini daha da düşürmüştür. Önceki araştırmalar, mobil terminallerde derin öğrenme modellerinin konuşlandırılmasına odaklanmıştır ve bu makale, büyük ölçekli bilgi işlem kümelerinde model performansını ve hesaplamayı geliştirmek için yararlıdır. Verimlilik geniş kapsamlı bir öneme sahiptir.

Kağıt adresi: https://arxiv.org/abs/1804.03235

Bilgi damıtmanın geçmişi ve bugünü

"Çevrimiçi damıtma" kavramını anlamak için, Hinton'un 2014'ten beri karanlık bilgi çıkarma ve bilgi damıtma konusundaki çalışmalarını ve hatta daha önce Caruana et.al'ın çalışmasını incelememiz gerekir. Model sıkıştırma çalışması.

Sinir ağı modelinin performansını iyileştirmek için, Caruana ve diğerleri, 2006 yılının başlarında (derin öğrenme henüz popüler olmadığında) büyük ölçekli karmaşık ağları sıkıştırmak için bir yöntem önerdiler. Geleneksel makine öğrenimi alanındaki toplu öğrenmenin büyük başarısı nedeniyle, birçok derin öğrenme araştırmacısı doğal olarak çok sayıda modeli bir sinir ağında bir araya getirmek için toplu öğrenme fikrini kullanmak ve şiddetli eğitim yoluyla farklı modeller vermek istemektedir. Farklı ağırlıklarla, bu modellerin çıktıları, farklı görevler için ilgili avantajlarından tam olarak yararlanabilmek için nihai sonucu elde etmek için ağırlıklandırılır ve ortalaması alınır. Ancak, bu şiddetli eğitim süreci ve şişirilmiş ağ yapısı, çok büyük bilgi işlem kaynakları gerektirir ve ek enerji tüketimine neden olur. Caruana ve arkadaşları, MUNGE'nin büyük ölçekli modellerle öğrenilen işlevleri daha küçük ölçekli, daha uygun eğitim modellerine sıkıştıran veri geliştirme algoritmasını önerdi.

Bundan ilham alan 8 yıl sonra, derin öğrenmenin baharda başladığı ve insanların bilgisayarla görme, doğal dil işleme vb. Gibi büyük ölçekli derin öğrenme ağlarının getirdiği başarılı yapay zeka uygulamasına daldığı 8 yıl sonra, Grandmaster Hinton, Caruana'nın makalesine dönüp bakmanın ve bu "çirkin" büyük ölçekli modellerin küçük ve hızlı modellere nasıl sıkıştırılacağını düşünme zamanı.

Bu nedenle Hinton, "karanlık bilgi" kavramını önerdi. Ona göre, "karanlık bilgi" denen şey, derin öğrenmede edinilen bilgidir (belki de bu, derin öğrenmede yorumlanabilirliği aramanın bir yoludur). Karanlık bilgi, adından da anlaşılacağı gibi, ağ yapısı, düğümler arasındaki bağlantı ağırlığı ve derin öğrenmenin yüzeyinde görüntülenen ağ çıktısı gibi görünür verilerin altında gizlenmiş bilgidir. Bu bilgiyi elde etmenin bir yolunu bulabilir, onu önceki bir olasılığa paketleyebilir ve daha küçük bir modele taşıyabilirsek, küçük modelin performansı iyileştirilebilir mi? Aslında yazar, bunun aynı zamanda aktarım öğrenimi çerçevesinde yeterli bilgiye sahip bir kaynak etki alanı olarak büyük ölçekli bir ağ ve büyük ölçekli bir ağdan ek bilgi gerektiren bir hedef etki alanı olarak küçük ölçekli bir ağ olarak görülebileceğine inanıyor ve biz Elde edilen karanlık bilgi, iki görev arasındaki ortak bilgidir.

Ancak bu bilgiyi nereden edinmeye başlıyorsunuz? Hinton, tahmin görevleri için derin öğrenme ağlarının çoğunda, olasılık dağılımlarını çok sayıda etikete atamak için softmax katmanını kullandığımızı şiddetle gözlemledi. Bununla birlikte, bu işleme yönteminin olumsuz bir etkisi vardır: doğru etiketle karşılaştırıldığında, model tüm yanlış etiketlere küçük bir olasılık atar; ancak, aslında, farklı yanlış etiketler için, atanma olasılığı yine de birkaç miktar olabilir. Seviye eşitsizliği. Örneğin: resim sınıflandırma probleminde resimleri üç kategoriye ayırmalıyız: kediler, köpekler ve kaplanlar. Bir eğitimde, olasılıkları sırasıyla üç kategoriye atarız ve sonunda sınıflandırma sonucu olarak elde edilen tek sıcak kod (yani zor hedef) Resmin bir kaplanı temsil ettiğini düşünüyoruz. Bununla birlikte, softmax işlevinin olasılık çıktısı genellikle kategoriler arasındaki potansiyel korelasyonları içerir. Bu örnekte, resmin bir kedi olma olasılığının, resmin bir köpek olma olasılığından çok kaplan olma olasılığına daha yakın olduğunu görebiliriz Bu, kediler ve kaplanlar arasındaki içsel bağlantının daha güçlü olduğunu gösterir. Benzer şekilde, Hinton da bir örnek verdi: Bir BMW otomobilinin bir resmini tanıdığında, sınıflandırıcının resmi temiz bir otomobil olarak tanımlama olasılığı çok düşüktür, ancak bu olasılık onu bir havuç olarak tanımaktan daha yüksek olabilir. Çok dışarıda. Makro düzeyde bu olasılıklar çok küçük olduğu için, bilginin bu kısmı eğitim sürecinde kolayca ezilir.Bu, şüphesiz büyük ölçekli bir ağın bilgisini küçük ölçekli bir ağa aktarmak için kullanılabilecek önemli bir ön bilgi israfıdır. Olasılık.

Bu tür kategoriler arasındaki korelasyondan tam olarak yararlanmak için, olasılık dağılımını daha pürüzsüz hale getirmek için bir şekilde değiştirmemiz gerekir. Hinton bu hedefe yalnızca sıklıkla kullandığımız softmax işlevini değiştirerek ulaştı. Bunu nasıl yaptı?

Aslında, aşağıdaki formülde gösterildiği gibi, Hinton softmax fonksiyonuna biraz "çeşni" ekler - "T, sıcaklık" parametresi (artık T, metin oluşturan RNN gibi birçok derin öğrenme modelinin standart konfigürasyonu haline gelmiştir. T'yi artırmak, oluşturulan metnin çeşitliliğini artırabilir):

Bunlar arasında z, her kategori için girilen logittir. Formülde, T = 1 olduğunda, geleneksel bir softmax'a dönüşür; T sonsuz olduğunda, sonuç 1 / C'ye yaklaşır, yani tüm kategorilerin olasılıkları eşit olma eğilimindedir. T > 1'de, yumuşak hedef etiketini alabiliriz. T'yi artırarak, softmax katmanının eşleme eğrisi daha pürüzsüz hale gelir, bu nedenle örneğin olasılık eşlemesi daha konsantre olacak ve hedefi daha "yumuşak" hale getirecektir.

Bu damıtma çekirdeği ile Hinton, büyük ölçekli ağı aşağıdaki adımlara göre "damıtıyor":

Bilgi damıtmanın şematik diyagramı (İnternetten resim: https://www.zhihu.com/question/50519680, bu resmin yazarı YJango)

1. Büyük bir model eğitin: ilk olarak sabit hedef (tek etkin kodlamaya benzer) örnek eğitim kullanın.

2. Yumuşak hedefi hesaplayın: Yumuşak hedefi hesaplamak için eğitimli büyük modeli kullanın. Yani, büyük model "yumuşatılır" ve ardından softmax ile çıktı alınır.

3. Küçük bir ağı yeniden oluşturun.Ağın sonunda iki kayıp vardır, biri tek sıcak etiket kullanarak geleneksel softmax kaybı olan sert kayıp, diğeri ise T > 1'lik softmax kaybı için, ikinci adımda kaydettiğimiz yumuşak hedef etiketini kullanın.

Genel kayıp aşağıdaki gibidir:

onların arasında

İkinci adımdaki yumuşak etiket çıktısıdır.

Küçük modeli eğitmek için "yumuşat" eğitim setini kullanın. Küçük bir modeli eğitirken, T değişmeden kalır ve büyük kalır Eğitimden sonra, T 1 olarak değiştirilir.

4. Tahmin yaparken eğitimli küçük modeli geleneksel bir şekilde kullanın.

Şimdi Hinton'un yöntemini aşağıdaki şekilde gösterilen orijinal bilgi damıtmasının kökeni ile karşılaştırabiliriz.

Aslında bunun, kategoriler arasındaki korelasyonun a priori bilgisini ekleyerek, verilerin artırılmasına eşdeğer olduğu görülebilir. Büyük ölçekli ağ tarafından öğrenilen ilişkiyi verilerde paketleyin ve bu daha güçlü verileri, sınıflar arasındaki mesafeyi ve sınıf içindeki varyans bilgilerini dikkate alarak küçük ölçekli modeli eğitmek için kullanın. Bu, küçük ölçekli modellerin performansını geliştirir ve "damıtma" etkisini sağlar. Önceden eğitilmiş modelin yapısını ve ağırlıklarını doğrudan kullanmakla karşılaştırıldığında, bu nispeten daha "gelişmiş" bir bilgi aktarım yöntemidir.

Çevrimiçi damıtma? Yeni şişelerde eski şarap?

Zaman çarkı, göz açıp kapayıncaya kadar 2018'e doğru ilerliyor.Mobil terminallerde derin öğrenme gibi uygulamaların ortaya çıkmasıyla birlikte ağ modeli sıkıştırması yaygın bir endişe alanı haline geldi.Çok sayıda araştırmacı Hinton'dan ilham alarak damıtmadan çekildi. Sistemin birçok deformasyonu derinlemesine optimize edilmiştir. Hinton, her zaman olduğu gibi, daha fazla yeni derin öğrenme paradigmaları açmaya çalışır; tabii ki, Google'ın bilgi işlem kaynakları çok yeterli olabilir, bu nedenle başkalarının karşılaşma şansı olmayan sorunlarla karşılaşır (diz çöker), Hinton geniş ölçekli dağıtılmış bilgi işlem ortamında denemeye başladı "Çevrimiçi damıtma" yöntemini kullanın. Bunun nedeni, mevcut dağıtılmış SGD yönteminin bir darboğazla karşılaşmış olmasıdır. Yerel "damıtma" algoritması, veri hattındaki aşırı karmaşık hesaplama işlemleri nedeniyle giderek daha fazla sorunu ortaya çıkarmıştır.

Spesifik olarak, dağıtılmış SGD'de, azalan marjinal faydalar yasası nedeniyle, eğitime katılan makinelerin sayısının artırılmasıyla elde edilen hesaplama verimliliğindeki artış, hiçbir etkisi olmayana kadar kademeli olarak azalır. Öte yandan, tahminlerin doğruluğunu artırmak için entegre derin öğrenme modellerini kullanmak istiyorlar. Test süresinin maliyetini artırmadan topluluk öğrenimiyle aynı faydaları elde etmek için, iki aşama içeren tek bir model elde etmek için n-yollu bir topluluk modelini damıttılar:

  • Dağıtılmış SGD'nin n-way entegrasyon modelini eğitmek için M makinesini kullanın ve ardından n-way entegrasyon modelini simüle edecek olan öğrenci ağını (küçük ölçekli ağ) eğitmek için M makinesini (T değişmedi) kullanın.

  • Eğitim sürecinde daha fazla makine kullanarak, damıtma, daha yakın bir öğretmen topluluğu modelinin kalite iyileştirmesi karşılığında eğitim süresini ve hesaplama karmaşıklığını artıracaktır.

Hinton bu çevrimiçi damıtma yöntemini "kod damıtma" olarak adlandırdı: yani, dağıtılmış bir ortamdaki her düğüm bir öğretmen ve bir öğrenci olarak hareket edebilir ve diğer düğümlerin model performansını iyileştirmek için birbirlerinden dahili bilgi alabilir. Spesifik algoritma aşağıdaki gibidir:

Algoritma 1'de gösterildiği gibi, dağıtılmış SGD'nin darboğazını aşmak için Hinton, modelin eğitim verimliliğini artırmak için damıtma algoritmasını kullandı. Bir ağın parametrelerini güncellemek için damıtma yöntemini kullanmak, yalnızca diğer ağların tahmin sonuçlarını gerektirir ve bu ağlar, yerel hesaplamalar için diğer ağ ağırlıklarının kopyalarını kullanabilir.

Öğretmen modeli ve öğrenci modeli aynı sinir ağının iki örneği olsa bile, yeterince farklı oldukları sürece (örneğin, farklı başlatmalar, girdi örneklerini farklı bir sırayla alma; bkz. Makale 3) Ampirik kanıt bölümü). Bu aynı zamanda bu "çevrimiçi damıtma" yönteminin çok evrensel olduğunu da göstermektedir.

Hinton damıtma teknolojisini birleştirdi ve bu çalışmada SGD'yi dağıttı, böylece dağıtılmış bir SGD çalışma grubundaki her düğüm, kontrol noktalarında depolanan ağ bilgilerini paylaşabilir ve bu bilgileri damıtılmış bilgi olarak kullanabilir. , "Öğretmen-öğrenci" eğitimi ile öğrenci ağlarının eğitimini hızlandırın. Bu süreçte, öğrenci düğümünün ve öğretmen düğümünün rolleri değiştiğinden, her ağ ortak bir damıtma elde etmek için birbirini teşvik eder.

Aslında, "çevrimiçi damıtma" yeni bir şişe eski şarap olsa bile, aynı zamanda çok uygun, parlak yeni bir şişedir. Dağıtılmış SGD'nin iletişim yükünü azaltmak için damıtma teknolojisini kullanır, tahminin doğruluğunu başarıyla iyileştirir ve modelin hesaplama performansını iyileştirir!

Sonuç

Bu makale sayesinde yazar, herkesle bilgi damıtma bilgisini gözden geçirdi ve Hinton'un bu alandaki son çalışmaları hakkında yüzeysel bir anlayış elde etti. Hinton'un bir neslin ustası olarak her seferinde sıradan gözlerden daha fazlasıyla yeni araştırma yönlerini keşfedebildiğini, basit, güzel ve etkili çözümler önerebildiğini görebiliyoruz ki bu onun doğa ve canlıların sinir sistemi anlayışına uygun. Hayat ve karşılaşılan sorunların keskin bir şekilde gözlemlenmesi birbirinden ayrılamaz. Bu, tüm yapay zeka araştırmacılarına ufuklarını genişletmeleri, kalplerini özgür bırakmaları ve yaratıcılıkla yeni ve bilinmeyen alanları keşfetmeleri için ilham veriyor. Leifeng.com AI Technology Review gibi akademik medya, en son akademik araştırma ilerlemesini herkese tanıtmaya devam edecek.

Kağıt adresi: https://arxiv.org/abs/1804.03235, Leifeng.com AI Technology Review tarafından bildirildi

Makinede "Wu Yanzu": Eylül'den Kasım'a kadar piyasaya sürülen en güzel 5 cep telefonunun envanteri
önceki
Karbon birikintilerini temizlemek için yalnızca bir şişe kullanabilir miyim?
Sonraki
"Alpha: Homecoming of the Wolf" beş önemli anın kilidini açıyor, ilk günün en sevileni beyaz perdede.
Edge bilişimin "mükemmel fırtınası"
Hangi tür terminal yüksek fiyata alan adı satın alır?
Karşılaştırma Xiaomi MIX: Huawei, yapay zeka kutsamasına sahip dört kavisli ekran konseptli bir makine piyasaya sürecek
Didi ve 31 otomobil endüstrisi zinciri şirketi, otomobil operatörleri için bir platform oluşturmak için bir "torrent ittifakı" kurdu
"Li Zongwei: Kaybeden", Hüzün Kralı'nın yenilgiyi zafere dönüştürebileceğini görmek için bugün yayınlandı.
Ada Bilim Adamı Geliştirme Kılavuzu: "Paralel Gerçeklik Oyunu" nun Geçmişi ve Bugünü
Zeng Hao, Shuangpin için 8 rakamlı büyük bir terminal satın aldı ve 5 milyar ABD dolarına varan bir değerleme ile bir ipo için Hong Kong'a gitmeyi planladığı ortaya çıktı.
Başka kim? Nokia 3310, elektrikli matkapla iki deliğe girdikten sonra aramaları hala cevaplayabilir
WeChat'in ekran görüntüsü tüm ağı patlatıyor: Xiaomi LeTV paramparça oluyor
Qiao Shan'ın "sekiz bin yuan" spor ayakkabısı tükendi ve Bahar Festivali Gala sahnesi de bu spor markalarını ateşe verdi
Stanford CS231n kursunun öğrenme deneyimi ve pratik becerilerine dayanmaktadır | paylaşım özeti
To Top