Capsule Network'ün yeni sürümü yükseltildi, Twitter 2000+ beğenildi, Turing Ödülü sahibi Hinton iyi olduğunu söyledi

Aufei Tapınağı'ndan Balık ve Koyun

Qubit Raporu | Genel Hesap QbitAI

Kapsül ağı bir zamanlar yeni nesil derin öğrenmenin temel taşı olarak kabul edildi.

Turing Ödülü sahibi Geoffrey Hinton, CNN'in "kaderin oğlu" statüsüne meydan okumak için 2017'de bu yeni derin öğrenme yöntemini önerdi.

Evrişimli sinir ağı CNN'nin kullanımı kolaydır, ancak uzamsal bilgi havuz katmanında kaybolacaktır, bu nedenle CNN, aşağıdaki biraz yanlış yerleştirilmiş yüzle karşılaşıldığında karıştırılacaktır.

Kapsül ağı farklıdır, bir nesnenin var olma olasılığını hesaplar ve onu karakterize etmek için vektörün modülünü kullanır ve vektör yönü karakteristik duruş bilgisini temsil eder. Kapsülün çıktısı bir vektör olduğundan, ayrıntılı duruş bilgisi tüm ağ tarafından kaydedilecektir.

Bu şekilde, karmaşık veri amplifikasyonuna ihtiyaç duyulmadan, kapsül ağı da gerçekleştirilebilir. Farklı yön tanıma .

Ancak iki yıl geçtikten sonra, bu yöntemle ilgili araştırmalar henüz emekleme aşamasında gibi görünüyor ve CNN hala derin öğrenmekten gurur duyuyor.

Biraz gök gürültüsü, şiddetli yağmur ve daha hafif mi?

Her neyse, kurucunun kendisi kendinden emin olmalı. Son zamanlarda, Hinton kişisel olarak bir çalışmayı yönetti, makalenin ilgili yazarı olarak görev yaptı ve ayrıca onu "daha iyi bir kapsül versiyonu" olarak övdü.

Kurucunun bile beğendiği kapsül ağı

Nesne algılama görevinde, mevcut AI süper performans gösterdi, ancak bir sorun var.Güvenilir bir AI eğitmek istiyorsanız, önce çok fazla veri beslemelisiniz.

Bu, küçük çocukların öğrenme süreciyle tam bir zıtlık içindedir.Çok fazla yönlendirme olmadan çocuklar nesneleri tanımayı ve bulmayı öğrenebilirler.

Araştırmacılar, kendi kendini denetlemenin ve tümevarımlı önyargının daha verimli öğrenmede önemli bir rol oynadığına inanıyor.

sonra, Denetimsiz kapsül ağı doğdu.

Tek bir nöronun aksine, bir kapsül, bir nesnenin çeşitli bölümleri arasındaki ilişkiyi izleyebilen bir grup paketlenmiş yapay nörondur.

SCAE (Stacked Capsule Autoencoder) olarak adlandırılan bu ağ, esas olarak üç bölümden oluşur: Cluster Capsule Autoencoder (CCAE), Parts Capsule Autoencoder (PCAE) ve Object Capsule Autoencoder (OCAE).

Küme kapsülü Parçaları temsil etmek için iki boyutlu noktalar kullanın ve koordinatlarını sisteme girdi olarak kullanın.

Parça kapsülü (PCAE) Öncelikle girdi nesnesini ayrı parçalara ve pozlarına bölün; daha sonra şablonu afin dönüşüm yoluyla öğrenin ve yeni girdiler oluşturmak için pozları kullanın.

sonra, Nesne Kapsülü (OCAE) Altta yatan yapıyı keşfetmek için nesneyi duruştan çıkarmaya çalışın.

Kapsül ağının ikilemi

CNN gibi sinir ağlarının öğrenme için devasa bir veri tabanına güvenmesi gerekiyor ve farklı açılardan görülen nesnelerin aslında aynı nesne olduğunu anlamak uzun zaman alıyor.

Kapsül ağının fikri, sahnenin genellikle birçok karmaşık nesneyi içermesi ve bu nesnelerin daha basit parçalardan oluşması, dolayısıyla küresel olarak afin dönüşüme eşdeğer bir model oluşturmaya gerek olmamasıdır.

Tanımı gereği, bir parçanın görünümü ve şekli tam bir nesneden daha az değişir, bu nedenle öğrenmeleri daha kolay olmalıdır. Parçaların farklı nesneler oluşturmak için nasıl birleştirildiğini anladığınız sürece, nesnenin kendisini parçalardan ve pozlarından tanımlayabilirsiniz.

Gözlemcinin pozisyonunun (koordinat sistemi) değişmesiyle nesnenin duruşu değiştiğinden, parçanın duruşunu doğru bir şekilde tanıyan bir detektör, parçanın bakış noktasına eşdeğer bir temsilini üretecektir. Nesne-parça ilişkisi belirli bir konuma bağlı değildir, bu nedenle bakış noktaları değişmeden kalır. Bu iki niteliğin kombinasyonu, bakış noktasının eşdeğer bir nesne temsilini üretir.

Kapsül ağının önceki sürümü, nesnenin parça tahsisini (yönlendirme olarak da adlandırılır) yinelemeli olarak iyileştirerek bu sorunu çözdü. Ancak sorun şu ki, hesaplama ve depolama açısından bu çok verimsiz ve daha büyük görüntülere genişletilemez. Bu aynı zamanda kapsül ağı eğitim hızının CNN'den çok daha yavaş olmasına ve doğruluk oranının CIFAR-10, ImageNet ve diğer veri setlerinde CNN kadar iyi olmamasına neden olur.

Peki bu daha iyi kapsül ağında herhangi bir ilerleme var mı?

SCAE

Kapsül ağı prensibine göre, sınıflandırmaya ulaşmak için bir üretken model (kod çözücü) ve karşılık gelen bir çıkarım ağı (kodlayıcı) oluşturmak gerekir.

Oluşturma nispeten basittir, çünkü herhangi bir nesne herhangi bir sayıda parça üretebilir. Kod çözücü sabitleme noktasını değiştirecek şekilde tasarlandığından, kodlayıcının sabitleme noktasının ifadesini en azından yaklaşık olarak öğrenebilmesi gerekir.

SCAE, herhangi bir kodlayıcının, yerel parçalar ve bunların duruşları hakkında akıl yürütme yoluyla bakış noktasının eşdeğer temsilini öğrenebildiği ve bu parçaların hangi tür nesneye ait olduğunu tanıdığı yeni bir temsil öğrenme yöntemini tanımlar.

Kapsülün tanımı: modelin soyut bir varlığı tanımlayan özel bir parçası.

Denetimsiz kapsül ağının bu yeni sürümünde dört önemli bileşen vardır:

  • PCAE kodlayıcı: Aşağıdan yukarıya dikkat mekanizmalı CNN
  • OCAE kodlayıcı: Transformatörü Ayarla
  • PCAE kod çözücü
  • OCAE kod çözücü

Parçaları ve duruşunu çıkarın

M parçaları için PCAE, M × (6 + 1) tahmin parametreleri gerektirir. Diğer bir deyişle, her parça için 6 afin dönüşüm parametresi ve parçanın var olma olasılığı gereklidir.

CNN'nin çıktısını M × (6 + 1 + 1) özellik haritalarına yansıtmak için 1 × 1 evrişimi kullanın - burada ek özellik haritaları, softmax (normalleştirilmiş üstel fonksiyon) aracılığıyla uzayda kullanılan dikkat maskesi olarak kullanılacaktır. Yukarıdakiler onu standartlaştırır, kalan 7 özellik haritasıyla çarpar ve uzamsal konumdaki her boyutu bağımsız olarak toplar. Bu, küresel ortalama havuzlamaya benzer, ancak modelin dikkat temelli havuzlama adı verilen belirli konumlara odaklanmasına izin verir.

PCAE kodlayıcı, farklı parça kapsüllerinin duruşunu ve varlığını anlamayı öğrenecek ve kod çözücü, her parça için aşağıdaki gibi bir görüntü şablonu çizecektir:

Mevcut parçanın şablonuna karşılık olarak, parçanın duruşu afin dönüşüm için kullanılır ve dönüştürülen şablonun pikselleri, her görüntü pikselinin ayrı bir karışık modelini oluşturmak için kullanılır.

Parçalardan ve bütünden

Kararı gerçekleştiren OCAE'dir.

Önceki kapsül ağı, parçanın hangi nesneye ait olduğunu belirlemek için oylama yapmak için EM algoritmasına (Hinton tarafından önerilen) dayalı bir çıkarım programı kullandı. Bu şekilde, her bölüm başlangıçta farklı bir amaç için oylanacak, ancak sonunda oylama birkaç nesneye yakınlaşacaktır.

SCAE, hedef kapsülün aktivasyonlarını doğrudan parçanın duruşuna ve var olma olasılığına göre tahmin etmeye çalışır.

Parçaların etkinleştirmelerini kodlamak için K çıkışlı Set Transformer'ı kullanın. Parça kapsülünün etkinleştirilmesi, görüntüdeki herhangi bir konumda olabilen ve ardışık bir anlamı olmayan piksel yerine parçanın kendisini tanımlar. Bu nedenle, topluluk giriş sinir ağları, MLP'lerden (çok katmanlı algılayıcılar) daha iyi bir seçimdir.

Set Transformer'ın her bir çıkışı, ilgili nesne kapsülünün tüm aktivasyonlarını veren ayrı bir MLP'ye beslenir.

Ek olarak, araştırmacılar nesnenin varoluş olasılığına uygulanan bazı seyrek kayıpları da kullandılar. Ablasyon deneyinin sonuçlarına göre, bu gereklidir:

Eğitim için OCAE'ye beslenen şey, seyreklik kısıtlamasına tabi olan hedef kapsülden Gauss karışımı tahmini altında parça kapsülünün aktivasyonlarını maksimize etme olasılığıdır.

Sınıflar

Araştırma ekibi, etiketlenmemiş verilerle eğitildi ve denetlenmemiş SVHN sınıflandırmasında% 55 en son sonuçlara ulaştı; MNIST üzerinde, en gelişmiş sonuçları elde ettiler. - sanatın puanı,% 98.5.

SCAE, bileşenleri tahmin etmek için nesneleri kullanır, bu nedenle yinelemeli yönlendirme çıkarımda göz ardı edilir. Ve SCAE, Tek bir Karşılıklı bilgi (MI) yöntemlerine dayanmaksızın denetimsiz nesne sınıflandırmasında rekabetçi sonuçlar elde edilir. Başka bir deyişle, artık karmaşık veri büyütme gerektirmez.

Bununla birlikte, mevcut sürümde, aynı tür parçaların görüntüde birden çok kez görünmesine izin verilmiyor. Ve büyük veri seti CIFAR-10 üzerindeki performans hala iyi değil.

Yazarın kendisi, bu kapsül ağının karmaşık gerçek dünya görüntülerini simüle etmek için yeterli olmadığını kabul ediyor.

Ama bizzat Hinton'un dediği gibi, sadece endişeliydi Yeterli sayıda insan temel teori için hataları seçmiyor . Daha iyi bir yöntem olasılığı olduğu sürece sezgiyi takip etmeli ve araştırmaya devam etmeliyiz.

Tez ekibi

İlk makale Oxford Üniversitesi'nde doktora öğrencisi olan ve şu anda DeepMind'de stajyer olan Adam Kosiorek.

Bu makale Google Brain'deki stajım sırasında tamamlandı. İşbirliği birimleri arasında Google Brain ve DeepMind bulunmaktadır.

Portal

Kağıt adresi: https://arxiv.org/abs/1906.06818

Yorumlama blogu:

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Gençlerin miyopi sorunu giderek kötüleşiyor, ebeveynler bunu yapabilir
önceki
Etkisi harika ve sunucu kalabalık! Portre yağlı boya oluşturmak için GAN'ı kullanmak yanıyor, bir saniye sonra Rönesans'a dönün
Sonraki
Lyft açık kaynak L5 insansız araç veri seti: 55.0003B açıklama çerçevesi ve ayrıca uzamsal anlamsal haritalar
iGame Kudan Black Gold Card Kralı 2019 ChinaJoy'u Sevmiyor
Atlama ipi, bir antrenörden daha iyidir! ins body fitness hızlı ipuçları
İşte geliyor, çöp ayırma gerçekten Changsha'ya geliyor
Fotoğraflar Liuyang High -Tech Bölgesi: Bu yaz ortasında ekonomik kalkınmanın güzelliği çiçek açıyor
1399 yuan'dan! Huawei Honor 9X piyasaya çıktı: 7nm Kirin 810, genel amaçlı mobil oyun tam çerçeve deneyimi ile donatılmış
Hasarlı video HD olarak geri yüklenir ve parametreler ve eğitim süresi üçte iki oranında azaltılır.Ulusal Tayvan Üniversitesi Araştırması ve BMVC
IBM: Kuantum bilgisayarların temel amacı parolaları kırmak değildir, bu yüzden endişelenmeyin
Spor piyango istasyonunda 300 milyonu vurduktan sonra 36 milyonu vurdu. Sahibi: Ben de düşük profil istiyorum ama gücüme izin verilmiyor
Microsoft'un 1 milyar doları OpenAI'de: AGI, yatırım için bulut bilişimle suçlanan AGI için Google ile gizlice savaşıyor
Robotlar ve biyonikler birleştirilmeli mi? Doğa cevabı zaten vermiş olabilir
Google ihtarını düzenleyen kişi istifa etti: "düşüşten sonra" ayrılmak zorunda
To Top