Hinton Kapsül kağıdı tamamen açık! "Kapsüller Arasında Dinamik Yönlendirme" Orijinal Çevirisinin ilk sürümü

Leifeng.com Yapay Zeka Araştırma Enstitüsüne göre: Birkaç gün önce, derin öğrenmenin vaftiz babası Geoffrey Hinton, Capsule üzerine yeni bir makale yayınladı ve bu da hemen hararetli tartışmalara yol açtı. Lei Feng'in altyazı ekibi makalenin tam metnini sıcakken tercüme etti.Ayrıntıları öğrenmek isteyen okuyucular dikkatlice okuyabilirler. Uygun olmayan çevirileri belirtebilirsiniz ve bize katılmayı dört gözle bekliyoruz (başvurmak için WeChat julylihuaijiang ile iletişime geçin).

Kapsüller arasında dinamik yönlendirme

Özet

Bu yazıda incelenen kapsül, aktivasyon vektörü belirli bir tür özel varlığın temsilini yansıtan bir grup nöron anlamına gelir (tamamı veya bir kısmı olabilir). Bu makale, bir varlığın var olma olasılığını açıklamak için aktivasyon vektörünün modül uzunluğunu kullanır ve karşılık gelen örneğin parametrelerini karakterize etmek için aktivasyon vektörünün yönünü kullanır. Belirli bir seviyedeki aktif kapsüller, matris dönüşümü ile tahmin edilir ve tahmin sonuçları, daha yüksek seviyeli kapsüller için örnek parametreleri sağlamak için kullanılır. Birden fazla tahmin edilen değer uyuştuğunda, yüksek seviyeli bir kapsül etkinleştirilecektir. Makale, farklılaştırılmış eğitim çok katmanlı kapsül sisteminin MNIST'te mevcut en yüksek performans düzeyine ulaşabileceğini ve üst üste binen sayıları belirlemede evrişimli ağlardan çok daha iyi olduğunu gösteriyor. Ağın uygulanması, yinelemeli bir tutarlılık yönlendirme mekanizması kullanır: düşük seviyeli kapsülün tahmin vektörü ve yüksek seviyeli kapsülün aktivasyon vektörü, büyük bir skaler ürüne sahip olduğunda, düşük seviyeli kapsül, yüksek seviyeli kapsüle çıktı verme eğiliminde olacaktır.

1. Giriş

İnsan görüşü, optik dizinin yalnızca çok küçük bir kısmının en yüksek çözünürlükle işlenmesini sağlamak için dikkatle belirlenmiş sabit nokta dizileri kullanarak ilgisiz ayrıntıları göz ardı eder. Sahne hakkında ne kadar bilgiye sahip olduğumuzun sabit bir diziden geldiğini ve tek bir sabit noktadan ne kadar bilgi toplayabileceğimizi anlamak için iç gözlem iyi bir rehber değildir, ancak bu makalede, tek bir sabit noktanın bize daha fazlasını sağladığını varsayıyoruz. Tek bir tanımlama nesnesi ve öznitelikleri. Çok katmanlı görüş sisteminin her sabit noktada bir ayrıştırma ağacı gibi bir şey yaratacağını ve tek bir sabit ayrıştırma ağacının birden çok sabit noktada nasıl koordine edildiği sorunu tarafımızdan göz ardı edileceğini varsayıyoruz.

Ayrıştırma ağacı genellikle belleğin dinamik olarak tahsis edilmesiyle hızlı bir şekilde oluşturulur, ancak Hinton ve diğerlerinin "Görüntüleri ayrıştırmayı öğrenmek, 2000" başlıklı makalesine göre, tek bir sabit nokta için, sabit bir çok katmanlı sinir ağından bir ayrıştırma ağacının oluşturulduğunu varsayıyoruz. Bir kaya parçasından heykel yapmak gibi (Leifeng.com AI Technology Review'dan not: dalların sadece bir kısmının tutulduğu anlamına gelir). Her katman birçok nöron grubuna bölünmüştür, bu gruplara "kapsüller" adı verilir (Hinton ve diğerleri "Transforming auto-encoders, 2011") Ayrıştırma ağacındaki her düğüm, aktif bir kapsüle karşılık gelir. Yinelemeli bir yönlendirme süreci aracılığıyla, her aktif kapsül, ağaçtaki ana düğümü olarak daha yüksek bir seviyedeki bir kapsülü seçecektir. Daha üst düzey görsel sistemler için, böyle bir yinelemeli süreç, bir nesnenin parçalarının bir bütün halinde nasıl birleştirileceği sorununu çözme potansiyeline sahiptir.

Aktif bir kapsüldeki nöronların aktivitesi, görüntüde görünen belirli varlıkların çeşitli özelliklerini temsil eder. Bu nitelikler, poz (konum, boyut, yön), deformasyon, hız, albedo, renk tonu, doku vb. Gibi birçok farklı türde örnekleme parametresi içerebilir. Görüntüde belirli bir kategori örneğinin varlığı çok özel bir niteliktir. Varlığı göstermenin kısa bir yolu, ayrı bir lojistik regresyon birimi kullanmaktır ve bunun çıktı değeri, varlığın var olma olasılığıdır (Leifeng.com AI Technology Review Not: Çıktı aralığı 0 ile 1 arasındadır, 0, hiçbir oluşum olmadığı anlamına gelir, 1 Ortaya çıktı). Bu makalede, yazarlar, bir varlığın var olma olasılığını temsil etmek için örneğin parametre vektörünün modülünü kullanarak ve aynı zamanda ağın varlığın özelliklerini temsil etmek için vektörün yönünü kullanmasını gerektiren ilginç bir alternatif yöntemi araştırıyorlar. Kapsülün vektör çıktısının modül uzunluğunun 1'i geçmemesini sağlamak için, modül uzunluğunu azaltırken vektörün yönünü sabit tutmak için doğrusal olmayan bir yöntem uygulanır.

Kapsülün çıktısı bir vektördür Bu ayar, kapsülün çıktısının yukarıdaki katmandaki uygun ana düğüme gönderilmesini sağlamak için güçlü bir dinamik yönlendirme mekanizmasının kullanılmasını mümkün kılar. Başlangıçta, çıktı, birleştirme toplamı 1 olan bir katsayı kadar azaltılır ve ardından olası tüm ana düğümlere yönlendirilir. Olası her ana düğüm için, kapsül kendi çıktısını ağırlık matrisi ile çarparak "tahmin vektörünü" hesaplar. Bu tahmin vektörünün skaler ürünü ve olası bir ebeveyn düğümün çıktısı büyükse, yukarıdan aşağıya geri besleme vardır, bu, ebeveyn düğümün birleştirme katsayısını artırma ve diğer ebeveyn düğümlerin birleştirme katsayılarını azaltma etkisine sahiptir. Bu, kapsülün o ana düğüme katkısını arttırır ve ayrıca kapsül tahmin vektörünün skaler ürününü ve ana düğümün çıktısını artırır. Bu tür bir "protokole göre yönlendirme", yerel havuzdaki en aktif özellik algılayıcılarını tutmak dışında bir sonraki katmandaki tüm özellik algılayıcılarının göz ardı edildiği, maksimum havuzlama yoluyla elde edilen çok ilkel bir yönlendirme biçiminden daha etkili olmalıdır. . Yazarlar, dinamik yönlendirme mekanizmalarının, oldukça üst üste binen nesneleri bölümlere ayırmak için gereken "yorumu" elde etmenin etkili bir yolu olduğunu gösterdiler.

Evrişimli Sinir Ağları (CNN), öğrenilen özellik dedektörlerinin aktarılan kopyalarını kullanır ve bu, resimdeki bir konumda elde edilen iyi ağırlık değerleri hakkındaki bilgileri diğer konumlara aktarmalarına olanak tanır. Görüntü yorumlamadaki bu büyük yardım kanıtlanmıştır. Yazarlar, CNN'nin skaler çıktı özelliği algılayıcısını vektör çıktı kapsülleri ve protokol yönlendirmesiyle maksimum havuzlama ile değiştirmelerine rağmen, öğrenilen bilgileri tüm alanda çoğaltmayı umuyorlar, bu nedenle son katman hariç bu makalede oluşturulan model Kapsül dışında kalan kapsül katmanlarının tümü kıvrımlıdır. CNN gibi, daha yüksek seviyeli kapsüller daha geniş bir görüntü alanını kapsayabilir, ancak maksimum havuzlamanın aksine, kapsül, bölgedeki varlıkların kesin konumu hakkındaki bilgileri atmaz. Düşük seviyeli kapsüller için, konum bilgisi aktif kapsül tarafından "konum kodludur". Daha yüksek bir seviyeye ulaşıldığında, kapsül çıktı vektörünün gerçek değerli bileşeninde daha fazla konum bilgisi "hız kodlu" olur. Daha yüksek seviyeli kapsüllerin daha fazla serbestlik derecesini kullanma ve daha karmaşık varlıkları karakterize etme kabiliyetiyle birleştirilmiş konum kodlamasından oran kodlamasına bu geçiş, daha yüksek seviyeli kapsüllerin de daha yüksek boyutlar gerektirdiğini gösterir.

2. Bir kapsülün vektör girişi ve çıkışı nasıl hesaplanır

Kapsülün genel fikrini gerçekleştirmenin birçok yolu vardır. Bu makalenin amacı, tüm olası yöntemleri keşfetmek değil, sadece çok basit ve doğrudan yöntemlerin iyi sonuçlar elde edebileceğini ve dinamik yönlendirmenin de yardımcı olabileceğini göstermektir.

Yazarlar, bir kapsül tarafından temsil edilen varlığın girdide görünme olasılığını temsil etmek için kapsül çıkış vektörünün modül uzunluğunu kullanırlar. Bu nedenle yazarlar, vektörü "sıkıştırmak" için doğrusal olmayan bir fonksiyon kullanırlar Kısa vektörler neredeyse sıfıra sıkıştırılır ve uzun vektörler 1'den daha küçük bir uzunluğa sıkıştırılır. Ayrımcı öğrenmede bu doğrusal olmayan işlevi tam olarak kullanın.

(Formül 1)

Burada vj, kapsül j'nin çıkış vektörü ve sj, tüm girdileridir.

Kapsüllerin birinci tabakası dışında, kapsül sj'nin tüm girdileri, tahmin vektörü uj | i'nin ağırlıklı toplamıdır. Bu tahmin vektörlerinin tümü, kapsülün çıktı ui'si ile ağırlık matrisi Wij'nin çarpılmasıyla elde edilen, kapsülün alt tabakası tarafından oluşturulur.

(Denklem 2)

Cij, yinelemeli dinamik yol süreci tarafından belirlenen birleştirme katsayısıdır.

Kapsül i'nin ve üstündeki katmandaki tüm kapsüllerin bağlanma katsayılarının toplamı 1'dir ve "yön belirleme softmax" ile belirlenir. Bu "yönlendirici softmax" ın başlangıç mantıksal değeri bij, kapsül i'nin kapsül j'ye bağlandığı önceki günlük olasılığıdır.

(Denklem 3)

Bu günlük, diğer ağırlıklarla birlikte ayırt edici olarak öğrenilebilir. Mevcut giriş görüntüsüne değil, iki kapsülün konumuna ve türüne göre belirlenirler. Birleştirme katsayısı, her bir kapsülün j bir katman daha yüksek olan mevcut çıkışı vi ile bir katman daha düşük olan kapsülün i'nin tahmin edilen değeri ui | j arasındaki tutarlılığı ölçerek başlangıç değerinden tekrarlanacaktır.

Tutarlılık, basit iç çarpım aij = vj.ui | j'dir. Bu anlaşma, maksimum olabilirlik değeri olarak kabul edilebilir ve kapsül i'nin daha yüksek seviyeli kapsüle bağlanmasıyla elde edilen tüm yeni birleştirme değerlerinin hesaplanmasından önce ilk mantıksal değer bi, j'ye eklenebilir.

Evrişimli kapsül katmanında, kapsüldeki her birim bir evrişim birimidir. Bu nedenle, her kapsül, basit bir vektör yerine bir vektör ızgarası çıkaracaktır.

Yönlendirme hesaplamasının sözde kodu aşağıdaki gibidir

3. Belirli bir sayı türü kenar kaybı var mı

Yazarlar, kapsül tarafından temsil edilecek varlığın var olup olmadığını belirtmek için örnekleme vektörünün modülünü kullanırlar. Dolayısıyla, ancak ve ancak resimde k kategorisine ait sayılar varsa, yazarlar k kategorisindeki en yüksek seviyeli kapsülün örnekleme vektör modülünün çok büyük olmasını umarlar. Bir resimde birden fazla sayıya izin vermek için, yazarlar k sayısını temsil eden her bir kapsül için ayrı bir marj kaybı işlevi verir:

(Denklem 4)

Tc = 1 olduğunda, ancak ve ancak resimde C kategorisine ait sayılar varsa, m + = 0.9, m- = 0.1. Belirli sayı türleri görünmediğinde kaybı azaltmak ve tüm dijital kapsüllerin aktivasyon vektör modülü uzunluğunun öğrenmenin başlangıcında sıkıştırılmasını önlemek içindir. Yazarlar, = 0.5 önermektedir. Toplam kayıp, her bir dijital kapsülün kayıplarının toplamıdır.

Dört, CapsNet yapısı

Şekil 1: Basit bir 3 katmanlı CapsNet. Bu modelin sonuçları, derin evrişimli ağların sonuçlarıyla karşılaştırılabilir (örneğin, ağda Batch-normalized maxout network, 2015). DigitCaps katmanındaki her bir kapsülün aktivasyon vektör modülü uzunluğu, her bir sınıfın bir örneğinin var olup olmadığını verir ve sınıflandırma kaybını hesaplamak için kullanılır. PrimaryCapsules'deki her ui, i (1, 32 × 6 × 6) ve her vj, j (1, 10) 'u bağlayan ağırlık matrisidir.

Şekil 2: DigitCaps katmanından dijital kod çözme yapısını yeniden oluşturmak için. Eğitim sırasında görüntü ile Sigmoid katmanının çıktısı arasındaki Öklid mesafesini en aza indirin. Eğitimde, yazarlar yeniden yapılandırma hedefi olarak gerçek etiketleri kullanırlar.

Şekil 1, basit bir CapsNet yapısını göstermektedir. Bu, yalnızca 2 evrişimli katman ve 1 tamamen bağlı katman içeren çok sığ bir ağdır. Conv1, 2569 * 9 evrişim çekirdeğine sahiptir, adım boyutu 1'dir ve etkinleştirme işlevi ReLU'dur. Bu katman, piksel parlaklığını yerel özellik detektörünün aktivasyonuna dönüştürür ve daha sonra bu değer, birincil kapsüllerin girişi olarak kullanılacaktır.

İlkel kapsül, çok boyutlu varlığın en alt katmanıdır. Bu süreç, grafik oluşturma perspektifinin tersidir.Orijinal bir kapsülün etkinleştirilmesi, grafik oluşturmanın tersi işlemidir. Örneğin farklı bölümlerini ayrı ayrı hesaplamaktan ve daha sonra tanıdık bir genel anlayış oluşturmak için bunları bir araya getirmekten farklıdır (görüntüdeki her alan önce tüm ağı etkinleştirecek ve sonra birleştirecektir), bu çok farklı bir hesaplama yöntemidir. Kapsül tasarımı bu tür hesaplamalar için çok uygundur.

İkinci katman, PrimaryCapsules, 32 kanallı evrişimli bir kapsül katmanıdır ve her kanalın 8 boyutlu bir evrişimli kapsülü vardır (yani, orijinal kapsül 8 evrişim birimine, 9 * 9 evrişim çekirdeğine sahiptir ve adım boyutu 2). Bu katmandaki kapsül, alıcı alanın kapsülün merkezi ile çakıştığı tüm 256 * 81 Conv1 birimlerinin çıktılarını görebilir. PrimaryCapsules, toplam çıktıya sahiptir (her çıktı 8 boyutlu bir vektördür) ve ızgaradaki her kapsül, ağırlıkları birbiriyle paylaşır. Blok doğrusal olmamasından dolayı, PrimaryCapsules Denklem 1'e uyan bir evrişimli katman olarak kabul edilebilir. Son katman (DigitCaps), her sayı kategorisi için 16 boyutlu bir kapsüle sahiptir ve tüm alt katman kapsülleri bu kapsül katmanının girdisi olabilir.

Yazarlar yalnızca iki ardışık kapsül katmanı (PrimaryCapsules ve DigitCaps gibi) arasında yönlendirme yapmaktadır. Conv1'in çıktısı 1 boyutlu olduğundan, bulunduğu uzayda üst düzey vektörün yönüyle tutarlı olabilecek hiçbir yön yoktur. Dolayısıyla, Conv1 ve PrimaryCapsules arasında yönlendirme yoktur. Tüm yönlendirme mantık değerleri (bij) sıfır olarak başlatılır. Bu nedenle, başlangıçta, bir kapsülün çıktısı (ui) aynı olasılıkla (cij) tüm ana kapsüllere (v0, v1, ..., v10) aktarılacaktır. Yazarlar, Denklem 4'ün kenar kaybının toplamını optimize etmek için üstel zayıflama öğrenme oranı dahil olmak üzere Adam optimizer ve TensorFlow'un varsayılan parametrelerini seçerek bu ağı TensorFlow ile uyguladılar.

4.1 Düzenlileştirme etkisi için yeniden düzenleme çalışması

Yazarlar, dijital kapsülün giriş numarasının somutlaştırma parametrelerini kodlayabileceğini umarak ek bir yeniden yapılandırma kaybı kullanırlar. Eğitim sürecinde yazarlar, yalnızca doğru dijital kapsülün aktivasyon vektörünü korumak için bir maskeleme yöntemi kullandılar. Ardından yeniden yapılandırma için bu aktivasyon vektörünü kullanın. Dijital kapsülün çıktısı, birbirine tamamen bağlı 3 katmandan oluşan bir kod çözücüye geçirilecektir Yapısı, piksel yoğunluğunu modellemek için kullanılan Şekil 2'de gösterilmektedir.

Yazarlar, regresyon biriminin çıktısı ile orijinal resmin piksel parlaklığı arasındaki kare hatasını en aza indirdiler ve eğitim sürecinde kenar hatasını boğmamak için yeniden yapılandırma hatasını orijinalin 0.0005 katına düşürdüler. Şekil 3'te gösterildiği gibi, CapsNet'in 16 boyutlu çıktısının yeniden yapılandırılması, yalnızca önemli ayrıntıları korurken sağlamdır.

5. MNIST'te Kapsül kullanın

Eğitim için 28 × 28 MNIST görüntü seti kullanılmış, eğitim öncesi bu görüntüler boşluk bırakmadan her yönde 2 piksel olarak çevrilmiştir. Ayrıca, başka hiçbir veri ekleme, değişiklik veya dönüştürme yapılmadı. MNIST veri tabanında eğitim için 60.000 görüntü, test için ise 10.000 görüntü kullanılıyor.

Şekil 3: 3 yönlendirme yineleme öğrenmeli CapsNet kullanılarak MNIST'teki test fotoğraflarının yeniden yapılandırılması. (l, p, r) sırasıyla gerçek etiketi, model tahminini ve yeniden yapılandırma sonucunu temsil eder. En sağdaki iki sütun, modelin resimdeki "5" ve "3" ü nasıl karıştırdığını açıklayarak, başarısız rekonstrüksiyon örneklerini gösterir. Diğer sütunlar doğru şekilde sınıflandırılır ve modelin gürültüyü azaltırken görüntüdeki ayrıntıları tanımlayabildiğini gösterir.

Tablo 1: CapsNet sınıflandırması MNIST dijital test doğruluğu. Sonuçlar, üç testin ortalama ve standart sapmasını içerir.

Yazar, testte "sentez" veya açık veri artırma yöntemleri olmadan tek bir model kullandı. (Wan ve arkadaşları, "Sinir ağlarının dropconnect kullanılarak düzenlenmesi" nde "sentez" ve veri amplifikasyonu yoluyla% 0.21 hata oranı elde ederken, bu iki yöntem kullanılmadığında hata oranı% 0.57 idi) Yazarlar 3 katmanı geçti Sinir ağı, daha önce yalnızca daha derin ağlar tarafından elde edilen düşük bir hata oranı (% 0,25) elde etti. Tablo 1, CasNet'in NMIST veri tabanındaki farklı ayarlarla test hata oranını göstermekte olup, yönlendirme ve düzenleyici yeniden yapılandırmanın önemini göstermektedir. Temel, sırasıyla 256, 256 ve 128 kanala sahip standart bir üç katmanlı sinir ağıdır (CNN). Her kanalın 5 × 5 evrişim çekirdeği vardır ve evrişim adım boyutu 1'dir. Daha sonra, sırasıyla 328 ve 192 boyutlarında tamamen bağlantılı iki katman vardır. Tamamen bağlı son katman, bırakma yoluyla çapraz entropi kaybı olan 10 sınıflandırma çıkışı ile softmax katmanına bağlanır.

5.1 Kapsülün tek boyutu neyi temsil eder?

Model yalnızca bir sayının kodunu DigitCaps katmanındaki kapsüllere geçirip diğer sayıları sıfırladığı için, bu kapsüller bu kategorinin halihazırda var olan örneğine göre değişim alanını genişletmeyi öğrenmelidir. Bu değişiklikler arasında kontur kalınlığı, eğim ve genişlik bulunur. Ayrıca, 2 sayısının sonunun uzunluğu gibi farklı sayılardaki belirli değişiklikleri içerir. Dekoder ağını kullanarak tek bir boyutun neyi temsil ettiğini görebilirsiniz. Dijital kapsülün doğru aktivasyon vektörünün hesaplanmasından sonra, bu aktivasyon vektörünün bozulması, dekoder ağına geri beslenebilir ve bozukluğun rekonstrüksiyonu nasıl etkilediği sağlanabilir. Bu rahatsızlıkların örnekleri Şekil 4'te gösterilmektedir. Gördüğünüz gibi, kapsülün bir boyutu (toplamda 16) neredeyse her zaman sayının genişliğini temsil eder. Bazı boyutlar, genel değişikliklerin bir kombinasyonunu temsil eder ve bazı boyutlar, sayılardaki yerel değişiklikleri temsil eder. Örneğin 6 harfinin üst kısmının uzunluğu ve dairenin alt kısmının boyutu farklı boyutlar kullanır.

Şekil 4: Boyutsal rahatsızlık. Her bir çizgi, DigitCaps'in 16 boyutundan biri aralıkta olduğunda ve adım boyutu 0,05 olduğunda yeniden yapılandırma sonucunu temsil eder.

5.2 Afin dönüşümün sağlamlığı

Deneyler, her bir DigitCaps katmanının kapsüllerinin, geleneksel evrişimli ağlardan her bir sınıfın daha sağlam bir temsilini öğrendiğini göstermektedir. El yazısı rakamların eğimi, dönüşü ve stilindeki doğal farklılıklar nedeniyle, eğitimli CapsNet, eğitim verilerinin küçük bir afin dönüşüm yelpazesine karşı dayanıklıdır.

CapsNet'in simülasyon dönüşümüne sağlamlığını test etmek için, yazarlar ilk önce her örneğin 40 × 40 piksel siyah arka plan üzerine rastgele yerleştirilmiş bir MNIST rakamı olduğu MNIST eğitim setine dayalı yeni bir eğitim seti oluşturdu. Ardından bu eğitim setini bir CapsNet ve geleneksel bir evrişimli ağ (MaxPooling ve DropOut dahil) eğitmek için kullanın.

Daha sonra, yazarlar bu ağı affNIST veri kümesinde test ettiler; burada her örnek rastgele küçük aralıklı afin dönüşümü olan bir MNIST numarasıdır. Model herhangi bir radyal dönüşüm veya hatta standart MNIST doğal dönüşüm eğitim setinde eğitilmemiştir, ancak erken durdurma mekanizmasına (erken durdurma) sahip eğitimli bir CapsNet, genişletilmiş MNIST test setinde% 99,23 doğruluk elde etmiştir. Derece, afin test setinde% 79 doğruluk elde edilir. Benzer sayıda parametreye sahip geleneksel evrişim modeli, genişletilmiş MNIST test setinde benzer doğruluk (% 99.22) elde ederken, afin test setinde yalnızca% 66'ya ulaştı.

Altı, üst üste binen sayıların bölümlenmesi

Dinamik yönlendirme, aynı seviyedeki kapsüllerin daha düşük seviyeli aktif kapsüllerin işlenmesine katılmasına ve diğer kapsülleri görmezden gelmesine izin veren paralel bir dikkat mekanizması olarak kabul edilebilir. Teorik olarak, nesneler üst üste gelse bile modelin görüntüdeki birden çok nesneyi tanımasına izin verin. Hinton ve diğerlerinin amacı, oldukça çakışan dijital nesneleri bölümlere ayırmak ve tanımaktır ("Görüntüleri ayrıştırmayı öğrenmek, 2000". Diğerleri de benzer alanlarda kendi ağlarıyla deneyler yaptı. Goodfellow ve diğerleri "Sokaktan çok basamaklı sayı tanıma" konusunda rapor verdi. "Derin evrişimli sinir ağlarını kullanarak görüntüleri görüntüleme, 2013", Ba ve diğerleri "Görsel dikkatle çoklu nesne tanıma, 2014", Greff ve diğerleri, "Tagger: Derin denetimsiz algısal gruplama, 2016"). Tutarlı yönlendirme, segmentasyona yardımcı olmak ve piksel alanında daha yüksek seviyeli alt bölümlerden kaçınmak için nesnenin şekline ilişkin önceki bilgilerin kullanılmasını mümkün kılar.

6.1 MultiMNIST veri kümesi

Yazarlar, MultiMNIST eğitimini ve test veri setini aynı setten (eğitim veya test) ancak farklı bir kategoriden başka bir sayıyı üst üste koyarak oluşturdu. Her numara, her yönde 4 piksele kadar hareket ederek 36 * 36 piksellik bir görüntü oluşturur. 28 * 28 piksellik görüntüdeki sayının 20 * 20 piksellik kareye dayandığı düşünülürse, iki sayının ortalama% 80'lik bir örtüşmesi vardır. MNIST veri kümesindeki her basamak, 1K MultiMNIST örnekleri oluşturacaktır. Eğitim setinin boyutu 60M, test setinin boyutu ise 10M'dir.

6.2 MultiMNIST veri kümesine ilişkin sonuçlar

Yazar, temel evrişim modelinden daha yüksek bir sınıflandırma testi doğruluğu elde etmek için MultiMNIST eğitim verilerinden yeniden eğitilen 3 katmanlı CapsNet modelini kullanır. Ba ve arkadaşlarının "Görsel dikkat ile çoklu nesne tanıma, 2014" sıralı dikkat modeli ile karşılaştırıldığında, çok daha az sayıda örtüşme ile daha basit bir görev gerçekleştirdiler (bu makalenin test verilerinde, iki sayı Ba ve arkadaşlarının çerçeve örtüşme oranı% 80'e ulaştı, Ba ve arkadaşlarınınki ise sadece% 4 idi) ve bu makaledeki model, üst üste binen dijital çiftlerde aynı% 5 hata oranını elde etti. Test resimleri, test setindeki resim çiftlerinden oluşur. Yazarlar, en aktif iki dijital kapsülü, kapsül ağının ürettiği sınıflandırma sonuçları olarak görüyorlar. Yeniden yapılandırma sürecinde, yazarlar her seferinde bir sayı seçerler ve sayının görüntüsünü yeniden oluşturmak için karşılık gelen dijital kapsülün aktivasyon vektörünü kullanırlar (görüntü zaten bilinmektedir çünkü yazarlar bunu önceden bir kompozit görüntü oluşturmak için kullanmıştır). Yukarıdaki MNIST testindeki modelden tek fark, eğitim veri seti daha büyük olduğu için öğrenme oranını düşürmek için gereken adım sayısının artık orijinalin 10 katına çıkarılmasıdır.

Şekil 5: 3 yönlendirme yinelemesinden sonra MultiMNIST test veri setinde CapsNet'in örnek bir yeniden yapılandırma sonucu

Alttaki resimde gösterildiği gibi, birbiriyle örtüşen yeniden oluşturulmuş iki sayı sırasıyla yeşil ve kırmızı olarak görüntülenir. Üstteki resim giriş resmini gösterir. Görüntüdeki iki sayının etiketini temsil eder; yeniden yapılandırma için kullanılan iki sayıyı temsil eder. En sağdaki iki sütun, etiketten ve tahminden yeniden yapılandırılan iki yanlış sınıflandırma örneğini gösterir. Örnekte, model 8'i 7 olarak yanlış değerlendirmiştir; örnekte, model 9'u 0 olarak yanlış değerlendirmiştir. Diğer sütunlar doğru şekilde sınıflandırılır ve modelin yalnızca tüm pikselleri dikkate almadığını, aynı zamanda çok zor senaryolarda iki numaraya (1-4 sütunlar) bir piksel atayabileceğini gösterir. Veri setini oluşturma sürecinde, pikselin değerinin 1'den daha aza kırpılacağına dikkat etmek önemlidir. "*" Olan iki sütun, yeniden oluşturulan sayının ne etiket değeri ne de tahmin edilen değer olmadığını gösterir. Bu sütunlar, modelin yalnızca var olan tüm sayılar için en iyi eşleşmeyi bulmadığını, aynı zamanda görüntüde bulunmayan sayıları da dikkate aldığını göstermektedir. Yani örnekte, model 7 sayısını yeniden oluşturamaz çünkü model 5 ve 0 rakamlarının en iyi eşleşme olduğunu bilir ve tüm pikseller kullanılmıştır. Örnek benzerdir. 8 rakamı, 8 olarak kabul edildiği için yargılamanın 0 olmasını tetiklemez. Bu nedenle, her iki sayı için ek destek yoksa, model bu iki numaraya bir piksel atamayacaktır.

Şekil 5'teki yeniden yapılandırma, CapsNet'in resmi iki orijinal sayıya bölebildiğini göstermektedir. Bu segmentasyon doğrudan bir piksel segmentasyonu olmadığından, modelin üst üste binen kısımları doğru bir şekilde işleyebildiği (yani bir pikselin aynı anda birden fazla sayı üzerinde göründüğü) ve tüm piksellerin kullanıldığı gözlemlenebilir. Her numaranın konumu ve stili DigitCaps ile kodlanmıştır. Kodlanmış bir sayı verildiğinde, kod çözücü bu sayıyı yeniden oluşturmayı da öğrenir. Kod çözücünün üst üste binmeden yeniden oluşturabileceği özellik, her dijital kapsülün, PrimaryCapsules katmanından alınan farklı aktivasyon vektörlerinden konumu ve stili elde edebileceğini gösterir.

Tablo 1 ayrıca bu görevde kapsüller arasında yönlendirmenin önemini vurgulamaktadır. CapsNet sınıflandırıcısının doğruluğunu karşılaştırmak için bir temel olarak, yazarlar önce iki evrişimli katman ve iki tam bağlantılı katman içeren bir evrişimli sinir ağını eğitti. Birinci katman, adım boyutu 1 olan 9 * 9 boyutunda 512 evrişim çekirdeğine sahiptir. İkinci katman, adım boyutu 1 olan 5 x 5 boyutunda 256 evrişim çekirdeğine sahiptir. Her evrişimli katmandan sonra, model adım boyutu 2 olan 2 * 2 havuz katmanına bağlanır. Üçüncü katman, 1024 boyutlu tamamen bağlantılı bir katmandır.

Her üç katman da ReLU doğrusal olmayan işleme sahiptir. Son 10 birimin katmanı da tamamen bağlıdır. Nihai çıktı katmanının Sigmoid çapraz entropi kaybını eğitmek için TF'nin varsayılan Adam iyileştiricisini kullanıyoruz. Bu model, CapsNet'in 11.36M parametrelerinin iki katından fazla olan 24.56M parametresine sahiptir. Yazarlar küçük bir CNN (5 * 5 boyutunda 32 ve 64 evrişim çekirdeği, 1 adım ve 512 boyutlu tamamen bağlı katman) ile başladı ve ardından ağın genişliğini yavaş yavaş artırdı. En iyi test doğruluğu, MultiMNIST'in 10K alt kümesinde elde edilir. Ayrıca, 10K doğrulama setinde doğru sayıda öğrenme oranı azalması adımını da aradılar.

Yazarlar, en aktif iki DigitCaps kapsülünü aynı anda çözdüler ve iki resim çektiler. Daha sonra sıfır olmayan tüm pikseller farklı sayılara atanır ve her sayının segmentasyon sonucu elde edilir.

Yedi, diğer veri setleri

Yazarlar, kapsül modelini CIFAR10 verileri üzerinde test ettiler ve farklı hiperparametreler ve 7 model grubu kullandıktan sonra% 10.6 hata oranı elde ettiler (burada her model görüntüdeki 24x24 yama üzerinden üç yönlendirme yinelemesi gerçekleştirir) . Buradaki resimler üç renk kanalının tümüdür.Yazarlar 64 farklı birincil kapsülü paylaşır, ancak her model MNIST veri setinde kullanılanla tamamen aynıdır. Yazarlar ayrıca, 10 kapsülün son katmanının resimdeki tüm bilgileri açıklaması beklenemeyeceği için, kapsüllerin softmax'ın "yukarıdakilerin hiçbiri" sınıflandırma kategorisini eklemeye yardımcı olabileceğini buldular. Test setindeki% 10,6'lık hata oranı, standart evrişimli ağın CIFAR10'a ilk uygulandığı zaman ile hemen hemen aynıdır.

Üretken modelle aynı dezavantaj, Kapsüllerin resimdeki her şeyi açıklama eğiliminde olmasıdır. Dolayısıyla, dağınık bir arka planı modelleyebildiğinde, dinamik yönlendirmede yalnızca bir ek kategori kullanmaktan daha iyidir. CIFAR-10'da, arka plan sabit boyutlu bir model için çok fazla değişir, bu nedenle model iyi performans göstermez.

Yazarlar ayrıca küçükNORB veri setini MNIST ile aynı modelle test ettiler ve% 2,7'lik en iyi hata oranını elde edebilirler. Küçük NORB veri seti, 96 × 96 çift kanallı gri tonlamalı görüntülerden oluşur. Yazarlar, resmi 48 × 48 piksele ölçeklendirdi ve eğitim sırasında rastgele 32 × 32 boyutuna kırptı. Test ederken, doğrudan orta 32 × 32 kısmı alın.

Yazarlar ayrıca SVHN'den 73257 görüntüden oluşan küçük bir eğitim seti üzerinde küçük bir ağı eğitti. İlk evrişimli katmandaki kanal sayısını 64'e indiriyoruz, birincil kapsül katmanı 16 adet 6 boyutlu kapsül ve son kapsül katmanı 8 boyutlu. Son test seti hata oranı% 4.3 idi.

8. Tartışma ve geçmiş çalışma

Geçtiğimiz 30 yıl içinde, konuşma tanımadaki en son ilerleme, çıktı dağıtımı olarak Gauss Karışımı ile bir Gizli Markov Modeli kullandı. Bu modellerin bazı bilgisayarlarda öğrenilmesi kolay olsa da, ölümcül bir kusurları vardır: kullandıkları "n'den biri" temsil yönteminin verimliliği katlanarak daha düşüktür ve dağıtılmış tekrarlayan sinir ağlarının etkinliği bundan daha iyidir. Bu yöntem çok daha yüksek. Gizli Markov modelinin şimdiye kadar ürettiği karakterlerin bilgilerini hatırlayabilmesi için kullanılması gereken gizli düğüm sayısının orijinal kareye çıkarılması gerekiyor. Tekrarlayan sinir ağları için, gizli nöron sayısının yalnızca iki katı gereklidir.

Artık evrişimli sinir ağları nesne tanımanın ana yöntemi haline geldiğine göre, elbette, bu yöntemin düşüşünü tetikleyen, verimlilikte üstel bir düşüş olup olmayacağını sormak gerekiyor. Bir olasılık, evrişimli ağın yeni kategorilerde genelleme yeteneğinin zorluğudur. Evrişimli ağda çeviri dönüşümlerini işleme yeteneği yerleşiktir, ancak afin dönüşümün diğer boyutları için, ızgaradaki özellik algılayıcısını kopyalamayı seçmelisiniz. Izgaranın boyutu, boyutların sayısı ile katlanarak artar veya aynı Açıklamalı eğitim setinin boyutu katlanarak artırıldı. Kapsül, piksel yoğunluğunu tanımlanan segmentteki somutlaştırma parametre vektörüne dönüştürür ve daha sonra daha büyük bir segmentin somutlaştırma parametresini tahmin etmek için dönüşüm matrisini segmente uygular ve böylece verimlilikte üssel bir düşüşü önler. Parça ve bütün arasındaki içsel uzamsal ilişkiyi öğrenen dönüşüm matrisi, perspektife otomatik olarak genelleştirilebilen perspektif değişmezliği ile bilgiyi oluşturur.

Kapsül, çok temsili bir hipotez yapmamızı sağlar: görüntünün her konumunda, kapsülün temsil ettiği varlığın en fazla bir örneği vardır. Bu varsayım, bağlanma sorununu ortadan kaldıran ve bir kapsülün kullanılmasına izin veren "kalabalıklaşma" (Pelli ve diğerleri "Kalabalık, sıradan maskelemeden farklıdır: Özellik entegrasyonunu algılamadan ayırt etme, 2004") olarak adlandırılan bir algılama fenomeni tarafından yönlendirilir. Dağıtılmış temsil (aktivasyon vektörü), belirli bir konumda bu tür bir varlığın somutlaştırma parametrelerini kodlar. Bu dağıtılmış gösterim, yüksek boyutlu bir ızgarada bir noktayı etkinleştirerek örnekleme parametrelerini kodlamaktan çok daha verimlidir ve doğru dağıtılmış gösterimle, kapsül, matris çarpımı ile modellenebilen uzamsal ilişkiden tam olarak faydalanabilir. Özellikleri.

Kapsülde kullanılan sinirsel aktivite, sinir aktivitesindeki açı değişikliğinin etkisini ortadan kaldırmaya çalışmaktan ziyade bakış açısı ile değişir. Bu, onları "normalleştirme" yönteminden daha avantajlı hale getirir (Jaderberg ve diğerleri, "Uzaysal transformatör ağları, 2015"): birden çok farklı afin dönüşümünü veya farklı nesnelerin farklı parçalarını aynı anda işleyebilirler.

Kapsüller, görüntü bölütleme gibi görsel açıdan zor başka bir sorunla başa çıkmada da çok iyidir, çünkü başlatılan parametrelerin vektörü, bu makalede gösterildiği gibi tutarlı yönlendirme kullanmalarına izin verir. Kapsüller üzerine yapılan araştırmalar şu anda bu yüzyılın başında konuşma tanıma için tekrarlayan sinir ağları üzerine yapılan araştırmalara benzer bir aşamadadır. Temel karakterizasyon özelliklerine dayanarak, bunun daha iyi bir yöntem olduğuna inanmak için nedenler vardır, ancak onu uygulamaya konulabilecek oldukça gelişmiş bir teknolojiye dönüştürmek için daha ayrıntılı bilgiler gerektirebilir. Basit bir kapsül sistemi, bölümlere ayrılmış dijital görüntülerde benzersiz performans sağlamıştır ve bu da kapsüllerin keşfetmeye değer bir yön olduğunu göstermektedir.

(Bitiş)

AI Araştırma Enstitüsüne dikkat edin ve makalenin orijinal metnini ve çevirisini almak için [kağıda] cevap verin.

Yaşamın her kesiminden arkadaşlar, Lei Feng'in altyazı grubunu daha yüksek bir çeviri seviyesine taşıyacak olan altyazı grubuna katılmaya davetlidir. Takım lideri WeChat: julylihuaijiang.

Lei Feng Altyazı Grubu Çevirisi / Xiong Langtao, Xiaoying, Sophie, Clay, Li Zhen, Meng Qingchun, Jackie, Little Mouse in Nanjing, Zhang Xiaobin, Moonsea, Chen Zhimin

Yorumcu / Xiaofan

Koordinatör / Fanjiang

Xbox One Ekim güncellemesi: avatarın dönüşü, yeni Ai ses kontrolü
önceki
Yeni Mercedes-Benz E300 ve yeni BMW 5 Serisi arasında nasıl seçim yapılır?
Sonraki
Oriental Beauty Valley Güzel Kültürel ve Yaratıcı - "Finans Kültürü Yaratıcı Endüstri Parkı" nın büyük açılışını sıcak bir şekilde kutlayın
"God Eater 3" demo sürümü PS4 Japon sunucu mağazasına indi
"Jing Guan Xiaoxian" sizi 16. Kış Erik Kültür Festivali'ne götürüyor! İnsan kokusu, çiçek kokusu, özel koku
"Kızıldeniz Operasyonu" ndaki tek "dişi ejderha", Küçük Kız Kardeş Wu Jing! Adet dönemi olmadan 10 ay boyunca sert çekim
Accord veya Spirior hangisi daha iyi?
Böyle bir görüntülü interkom iç mekan istasyonunu nereden satın alabilirim? Harika hissettiriyor!
Bir haftalık yapay zeka olayları envanteri: Ali bir lehçe koruma ekibi kurar ve proje yönetimi pozisyonları yapay zeka ile değiştirilir
Bir film izlemek istedim ama 7 tane harika sinema salonuyla karşılaştım!
Çemberdeki büyük kahve grubunun "Reklamcılık" onay grubu "Üç İlan Tahtası" nın galası başladı
BMW 1 serisi ve başlangıç BMW 3 serisi nasıl seçilir?
Robot devleri, Çin'in Endüstri 4.0 iş fırsatlarına odaklanıyor, fabrikaları genişletiyor ve üretim kapasitesini artırıyor
Pikchi | Bu resim grubunu okuduktan sonra, kesinlikle bu küçük şikayeti eve götürmek istiyorsunuz!
To Top