Aufei Tapınağı'ndan Balık ve Koyun
Qubit Raporu | Genel Hesap QbitAI
Kapsül ağı bir zamanlar yeni nesil derin öğrenmenin temel taşı olarak kabul edildi.
Turing Ödülü sahibi Geoffrey Hinton, CNN'in "kaderin oğlu" statüsüne meydan okumak için 2017'de bu yeni derin öğrenme yöntemini önerdi.
Evrişimli sinir ağı CNN'nin kullanımı kolaydır, ancak uzamsal bilgi havuz katmanında kaybolacaktır, bu nedenle CNN, aşağıdaki biraz yanlış yerleştirilmiş yüzle karşılaşıldığında karıştırılacaktır.
Kapsül ağı farklıdır, bir nesnenin var olma olasılığını hesaplar ve onu karakterize etmek için vektörün modülünü kullanır ve vektör yönü karakteristik duruş bilgisini temsil eder. Kapsülün çıktısı bir vektör olduğundan, ayrıntılı duruş bilgisi tüm ağ tarafından kaydedilecektir.
Bu şekilde, karmaşık veri amplifikasyonuna ihtiyaç duyulmadan, kapsül ağı da gerçekleştirilebilir. Farklı yön tanıma .
Ancak iki yıl geçtikten sonra, bu yöntemle ilgili araştırmalar henüz emekleme aşamasında gibi görünüyor ve CNN hala derin öğrenmekten gurur duyuyor.
Biraz gök gürültüsü, şiddetli yağmur ve daha hafif mi?
Her neyse, kurucunun kendisi kendinden emin olmalı. Son zamanlarda, Hinton kişisel olarak bir çalışmayı yönetti, makalenin ilgili yazarı olarak görev yaptı ve ayrıca onu "daha iyi bir kapsül versiyonu" olarak övdü.
Nesne algılama görevinde, mevcut AI süper performans gösterdi, ancak bir sorun var.Güvenilir bir AI eğitmek istiyorsanız, önce çok fazla veri beslemelisiniz.
Bu, küçük çocukların öğrenme süreciyle tam bir zıtlık içindedir.Çok fazla yönlendirme olmadan çocuklar nesneleri tanımayı ve bulmayı öğrenebilirler.
Araştırmacılar, kendi kendini denetlemenin ve tümevarımlı önyargının daha verimli öğrenmede önemli bir rol oynadığına inanıyor.
sonra, Denetimsiz kapsül ağı doğdu.
Tek bir nöronun aksine, bir kapsül, bir nesnenin çeşitli bölümleri arasındaki ilişkiyi izleyebilen bir grup paketlenmiş yapay nörondur.
SCAE (Stacked Capsule Autoencoder) olarak adlandırılan bu ağ, esas olarak üç bölümden oluşur: Cluster Capsule Autoencoder (CCAE), Parts Capsule Autoencoder (PCAE) ve Object Capsule Autoencoder (OCAE).
Küme kapsülü Parçaları temsil etmek için iki boyutlu noktalar kullanın ve koordinatlarını sisteme girdi olarak kullanın.
Parça kapsülü (PCAE) Öncelikle girdi nesnesini ayrı parçalara ve pozlarına bölün; daha sonra şablonu afin dönüşüm yoluyla öğrenin ve yeni girdiler oluşturmak için pozları kullanın.
sonra, Nesne Kapsülü (OCAE) Altta yatan yapıyı keşfetmek için nesneyi duruştan çıkarmaya çalışın.
CNN gibi sinir ağlarının öğrenme için devasa bir veri tabanına güvenmesi gerekiyor ve farklı açılardan görülen nesnelerin aslında aynı nesne olduğunu anlamak uzun zaman alıyor.
Kapsül ağının fikri, sahnenin genellikle birçok karmaşık nesneyi içermesi ve bu nesnelerin daha basit parçalardan oluşması, dolayısıyla küresel olarak afin dönüşüme eşdeğer bir model oluşturmaya gerek olmamasıdır.
Tanımı gereği, bir parçanın görünümü ve şekli tam bir nesneden daha az değişir, bu nedenle öğrenmeleri daha kolay olmalıdır. Parçaların farklı nesneler oluşturmak için nasıl birleştirildiğini anladığınız sürece, nesnenin kendisini parçalardan ve pozlarından tanımlayabilirsiniz.
Gözlemcinin pozisyonunun (koordinat sistemi) değişmesiyle nesnenin duruşu değiştiğinden, parçanın duruşunu doğru bir şekilde tanıyan bir detektör, parçanın bakış noktasına eşdeğer bir temsilini üretecektir. Nesne-parça ilişkisi belirli bir konuma bağlı değildir, bu nedenle bakış noktaları değişmeden kalır. Bu iki niteliğin kombinasyonu, bakış noktasının eşdeğer bir nesne temsilini üretir.
Kapsül ağının önceki sürümü, nesnenin parça tahsisini (yönlendirme olarak da adlandırılır) yinelemeli olarak iyileştirerek bu sorunu çözdü. Ancak sorun şu ki, hesaplama ve depolama açısından bu çok verimsiz ve daha büyük görüntülere genişletilemez. Bu aynı zamanda kapsül ağı eğitim hızının CNN'den çok daha yavaş olmasına ve doğruluk oranının CIFAR-10, ImageNet ve diğer veri setlerinde CNN kadar iyi olmamasına neden olur.
Peki bu daha iyi kapsül ağında herhangi bir ilerleme var mı?
SCAE
Kapsül ağı prensibine göre, sınıflandırmaya ulaşmak için bir üretken model (kod çözücü) ve karşılık gelen bir çıkarım ağı (kodlayıcı) oluşturmak gerekir.
Oluşturma nispeten basittir, çünkü herhangi bir nesne herhangi bir sayıda parça üretebilir. Kod çözücü sabitleme noktasını değiştirecek şekilde tasarlandığından, kodlayıcının sabitleme noktasının ifadesini en azından yaklaşık olarak öğrenebilmesi gerekir.
SCAE, herhangi bir kodlayıcının, yerel parçalar ve bunların duruşları hakkında akıl yürütme yoluyla bakış noktasının eşdeğer temsilini öğrenebildiği ve bu parçaların hangi tür nesneye ait olduğunu tanıdığı yeni bir temsil öğrenme yöntemini tanımlar.
Kapsülün tanımı: modelin soyut bir varlığı tanımlayan özel bir parçası.
Denetimsiz kapsül ağının bu yeni sürümünde dört önemli bileşen vardır:
Parçaları ve duruşunu çıkarın
M parçaları için PCAE, M × (6 + 1) tahmin parametreleri gerektirir. Diğer bir deyişle, her parça için 6 afin dönüşüm parametresi ve parçanın var olma olasılığı gereklidir.
CNN'nin çıktısını M × (6 + 1 + 1) özellik haritalarına yansıtmak için 1 × 1 evrişimi kullanın - burada ek özellik haritaları, softmax (normalleştirilmiş üstel fonksiyon) aracılığıyla uzayda kullanılan dikkat maskesi olarak kullanılacaktır. Yukarıdakiler onu standartlaştırır, kalan 7 özellik haritasıyla çarpar ve uzamsal konumdaki her boyutu bağımsız olarak toplar. Bu, küresel ortalama havuzlamaya benzer, ancak modelin dikkat temelli havuzlama adı verilen belirli konumlara odaklanmasına izin verir.
PCAE kodlayıcı, farklı parça kapsüllerinin duruşunu ve varlığını anlamayı öğrenecek ve kod çözücü, her parça için aşağıdaki gibi bir görüntü şablonu çizecektir:
Mevcut parçanın şablonuna karşılık olarak, parçanın duruşu afin dönüşüm için kullanılır ve dönüştürülen şablonun pikselleri, her görüntü pikselinin ayrı bir karışık modelini oluşturmak için kullanılır.
Parçalardan ve bütünden
Kararı gerçekleştiren OCAE'dir.
Önceki kapsül ağı, parçanın hangi nesneye ait olduğunu belirlemek için oylama yapmak için EM algoritmasına (Hinton tarafından önerilen) dayalı bir çıkarım programı kullandı. Bu şekilde, her bölüm başlangıçta farklı bir amaç için oylanacak, ancak sonunda oylama birkaç nesneye yakınlaşacaktır.
SCAE, hedef kapsülün aktivasyonlarını doğrudan parçanın duruşuna ve var olma olasılığına göre tahmin etmeye çalışır.
Parçaların etkinleştirmelerini kodlamak için K çıkışlı Set Transformer'ı kullanın. Parça kapsülünün etkinleştirilmesi, görüntüdeki herhangi bir konumda olabilen ve ardışık bir anlamı olmayan piksel yerine parçanın kendisini tanımlar. Bu nedenle, topluluk giriş sinir ağları, MLP'lerden (çok katmanlı algılayıcılar) daha iyi bir seçimdir.
Set Transformer'ın her bir çıkışı, ilgili nesne kapsülünün tüm aktivasyonlarını veren ayrı bir MLP'ye beslenir.
Ek olarak, araştırmacılar nesnenin varoluş olasılığına uygulanan bazı seyrek kayıpları da kullandılar. Ablasyon deneyinin sonuçlarına göre, bu gereklidir:
Eğitim için OCAE'ye beslenen şey, seyreklik kısıtlamasına tabi olan hedef kapsülden Gauss karışımı tahmini altında parça kapsülünün aktivasyonlarını maksimize etme olasılığıdır.
Sınıflar
Araştırma ekibi, etiketlenmemiş verilerle eğitildi ve denetlenmemiş SVHN sınıflandırmasında% 55 en son sonuçlara ulaştı; MNIST üzerinde, en gelişmiş sonuçları elde ettiler. - sanatın puanı,% 98.5.
SCAE, bileşenleri tahmin etmek için nesneleri kullanır, bu nedenle yinelemeli yönlendirme çıkarımda göz ardı edilir. Ve SCAE, Tek bir Karşılıklı bilgi (MI) yöntemlerine dayanmaksızın denetimsiz nesne sınıflandırmasında rekabetçi sonuçlar elde edilir. Başka bir deyişle, artık karmaşık veri büyütme gerektirmez.
Bununla birlikte, mevcut sürümde, aynı tür parçaların görüntüde birden çok kez görünmesine izin verilmiyor. Ve büyük veri seti CIFAR-10 üzerindeki performans hala iyi değil.
Yazarın kendisi, bu kapsül ağının karmaşık gerçek dünya görüntülerini simüle etmek için yeterli olmadığını kabul ediyor.
Ama bizzat Hinton'un dediği gibi, sadece endişeliydi Yeterli sayıda insan temel teori için hataları seçmiyor . Daha iyi bir yöntem olasılığı olduğu sürece sezgiyi takip etmeli ve araştırmaya devam etmeliyiz.
İlk makale Oxford Üniversitesi'nde doktora öğrencisi olan ve şu anda DeepMind'de stajyer olan Adam Kosiorek.
Bu makale Google Brain'deki stajım sırasında tamamlandı. İşbirliği birimleri arasında Google Brain ve DeepMind bulunmaktadır.
Portal
Kağıt adresi: https://arxiv.org/abs/1906.06818
Yorumlama blogu:
- Bitiş -
Samimi işe alım
Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.
Qubit QbitAI · Toutiao İmzalama Yazarı
' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin