Yapay zekanın en büyük başarılarından birini anlayın: evrişimli sinir ağlarının sınırlamaları

Yazar | Ben Dickson

Tercüman | Şampanya Süpernova

Baş resmi | Visual China'dan CSDN indirmesi

Üretildi | CSDN (ID: CSDNnews)

Uzun bir sessizlik döneminin ardından, yapay zeka, esas olarak son yıllarda derin öğrenme ve yapay sinir ağlarının hızlı gelişmesinden kaynaklanan yeni bir güçlü gelişme dönemine giriyor. Daha doğrusu, insanların derin öğrenmeye olan yeni ilgisi büyük ölçüde görsel verileri işlemede özellikle iyi olan bir sinir ağı yapısı olan evrişimli sinir ağlarının (CNN'ler) başarısından kaynaklanmaktadır.

Ama birisi size evrişimli sinir ağlarının temel kusurları olduğunu söylese, ne düşünürdünüz? Ve bu nokta, "derin öğrenmenin yaratıcısı" ve "sinir ağlarının babası" olarak bilinen Profesör Geoffrey Hinton tarafından 2020 en iyi yapay zeka konferansı-AAAI konferansındaki bir açılış konuşmasında dile getirildi. Yapay Zeka Derneği) konferansı, yıllık ana yapay zeka konferanslarından biridir.

Hinton, Yann LeCun ve Yoshua Bengio ile birlikte bu konferansa katıldı.Turing Ödülü'nü kazanan bu üç derin öğrenme devi, sektör tarafından "Derin Öğrenmenin Baba" olarak adlandırılıyor. Hinton, Convolutional Neural Networks (CNN'ler) ve Capsule Networks'ün sınırlamalarından bahsetti ve bunun yapay zeka alanındaki bir sonraki atılımı olduğunu öne sürdü.

Tüm konuşmaları gibi, Hinton da evrişimli sinir ağlarını giderek daha verimsiz ve insan görsel sisteminden farklı kılan birçok teknik ayrıntıya girdi. Bu makale, onun konferansta belirttiği bazı noktaları detaylandıracak. Ancak bu noktalara değinmeden önce, her zaman olduğu gibi, yapay zeka hakkında bazı temel bilgileri ve evrişimli sinir ağlarının (CNN'ler) yapay zeka topluluğu için neden bu kadar önemli olduğunun arka planını ve nedenlerini anlayalım.

Bilgisayarla görme çözümleri

Yapay zekanın ilk günlerinde, bilim adamları dünyayı insanlar gibi "görebilen" bir bilgisayar yaratmaya çalıştılar. Bu çabalar tamamen yeni bir araştırma alanına, yani bilgisayarla görmeye yol açtı.

Bilgisayar vizyonundaki ilk araştırmalar, her bir kuralın bir insan programcı tarafından belirlenmesi gereken sembolik yapay zeka kullanımını içeriyordu. Ancak sorun şu ki, insan görsel ekipmanının her işlevi açık bilgisayar programı kuralları ile ayrıştırılamaz. Bu nedenle bu yöntemin kullanım oranı ve başarı oranı oldukça sınırlıdır.

Farklı bir yaklaşım makine öğrenimidir. Sembolik yapay zekanın aksine makine öğrenme algoritmalarına genel bir yapı verilir ve eğitim örnekleri test edilerek kendi davranışsal yeteneklerini geliştirir. Bununla birlikte, çoğu erken makine öğrenimi algoritması, görüntüyle ilgili özellikleri algılamak için bileşenleri tasarlamak için hala çok fazla el emeği gerektirir.

Evrişimli Sinir Ağları (CNNs), yukarıdaki iki yöntemden farklı olarak, kendi özellik tespit mekanizmasını geliştirmiş uçtan uca bir yapay zeka modelidir. İyi eğitilmiş, çok seviyeli bir evrişimli sinir ağı, basit köşelerden yüzler, sandalyeler, arabalar, köpekler vb. Gibi karmaşık nesnelere kadar özellikleri hiyerarşik bir şekilde otomatik olarak tanıyacaktır.

Evrişimli Sinir Ağları (CNNs) ilk olarak 1980'lerde Toronto Üniversitesi Hinton Laboratuvarı'nda doktora sonrası araştırma görevlisi iken LeCun tarafından tanıtıldı. Bununla birlikte, evrişimli sinir ağlarının hesaplama ve verilerine olan büyük talep nedeniyle, beklemeye alındı ve o sırada benimsenmesi çok sınırlıydı. Ardından, otuz yıllık geliştirmeden sonra ve bilgi işlem donanımı ve veri depolama teknolojisindeki büyük ilerlemelerin yardımıyla, evrişimli sinir ağları güçlü potansiyellerine tam anlamıyla yer vermeye başladı.

Bugün, büyük bilgi işlem kümeleri, özel donanım ve muazzam miktarda veri sayesinde, evrişimli sinir ağları, görüntü sınıflandırma ve nesne tanımada yaygın ve faydalı bir şekilde uygulanmaktadır.

Evrişimli sinir ağının her katmanı, giriş görüntüsünden belirli özellikleri çıkaracaktır.

Evrişimli sinir ağları (CNN'ler) ve insan görüşü arasındaki fark

AAAI konferansındaki konuşmasında Hinton şunları söyledi: "Evrişimli Sinir Ağları (CNN'ler) uçtan uca öğrenme yöntemlerini tam olarak kullanıyor. Bir özellik bir yerde iyi ise, başka yerlerde de iyi olacağı ortaya çıktı. Büyük başarılar kazandılar. Bu, kanıtları birleştirmelerine ve farklı yerlerde iyi genellemeler yapmalarına olanak tanıyor. Ancak, insan algısından çok farklılar. "

Bilgisayarla görmenin temel zorluklarından biri, gerçek dünyadaki veri farklılıklarıyla başa çıkmaktır. Görüş sistemimiz nesneleri farklı açılardan, farklı arka planlardan ve farklı aydınlatma koşullarından tanıyabilir. Nesneler diğer nesneler tarafından kısmen gizlendiğinde veya garip şekillerde renklendiğinde, görsel sistemimiz eksik bilgileri ve ona bakmamızın nedenlerini doldurmak için ipuçları ve diğer bilgileri kullanır.

Aynı nesne tanıma yeteneklerini kopyalayabilen yapay zeka yaratmanın çok zor olduğu ortaya çıktı.

Hinton, "Evrişimli Sinir Ağları (CNN'ler), nesne çevirisi sorununu çözmek için tasarlanmıştır." Dedi. Bu, iyi eğitilmiş bir evrişimli sinir ağının bir nesneyi görüntüdeki konumundan bağımsız olarak tanıyabileceği anlamına gelir. Ancak, dönüş ve ölçekleme gibi bakış açısı değişikliklerinin diğer etkilerini işleyemezler.

Hinton'a göre, bu sorunu çözmenin bir yolu, yapay zekayı eğitmek için 4D veya 6D haritaları kullanmak ve ardından nesne tespiti yapmaktır. "Ama bu gerçekten engelleyici" diye ekledi.

Şu anda en iyi çözümümüz, çok sayıda görüntü toplamak ve her nesneyi farklı bir konumda görüntülemek. Daha sonra, genelleme için yeterli nesne örneğini görebileceğini ve gerçek dünyada nesneleri güvenilir bir doğrulukla algılayabileceğini umarak, bu devasa veri kümesi üzerinde bir evrişimli sinir ağı eğitiyoruz. ImageNet gibi veri kümeleri, bu hedefe ulaşmak amacıyla 14 milyondan fazla açıklamalı görüntü içerir.

Hinton şunları söyledi: "Bu çok etkili değil. Evrişimsel sinir ağının zahmetsizce yeni bakış açılarına genişletilebileceğini umuyoruz. Bir şeyi tanımayı öğrenirlerse ve onu 10 kat büyütürseniz ve 60 derece döndürürseniz, o zaman bu temelde olur. Onlara herhangi bir sorun çıkarmayacak. Bilgisayar grafiklerinin böyle olduğunu biliyoruz ve evrişimli sinir ağlarının daha çok böyle olmasını istiyoruz. "

Aslında, ImageNet'in kusurlu olduğu kanıtlanmıştır ve şu anda bilgisayarla görme sistemlerini değerlendirmek için tercih edilen kriterdir. Veri seti çok büyük olmasına rağmen, nesnelerin tüm olası açılarını ve konumlarını yakalayamaz. Esas olarak, ideal aydınlatma koşullarında bilinen bir açıyla çekilmiş görüntülerden oluşur.

Bu, insan görsel sistemi için kabul edilebilir çünkü bilgiyi kolaylıkla genelleştirebilir. Aslında, bir nesneyi birden çok açıdan gözlemlediğimizde, genellikle yeni bir konumda ve farklı görsel koşullarda görünümünü hayal edebiliriz.

Ancak evrişimli sinir ağları (CNN'ler), uğraşmaları gereken vakaları göstermek için ayrıntılı örneklere ihtiyaç duyar ve insan düşüncesinin yaratıcılığına sahip değildirler. Derin öğrenme geliştiricileri genellikle bu sorunu, sinir ağını eğitmeden önce görüntüyü çevirdikleri veya görüntüyü küçük bir miktar döndürdükleri "veri büyütme" adlı bir işlemi uygulayarak çözmeye çalışırlar. Aslında, evrişimli sinir ağı her görüntünün birden çok kopyası üzerinde eğitilecek, her kopya biraz farklı olacaktır. Bu, yapay zekanın aynı nesnedeki değişiklikleri genellemesine yardımcı olacaktır. Veri geliştirme, yapay zeka modellerini bir dereceye kadar daha sağlam hale getirir.

Bununla birlikte, veri artırma, kalkık bir sandalye veya bir yatakta buruşuk bir tişört gibi evrişimli sinir ağlarının ve diğer sinir ağlarının başa çıkamayacağı aşırı durumları kapsayamaz. Bunlar, gerçek hayatta piksel manipülasyonunun gerçekleştirilemediği durumlardır.

ImageNet gerçekliğe karşı: ImageNet'te (sol sütun), nesneler düzgün bir şekilde ve ideal arka plan ve aydınlatma koşulları altında yerleştirilir. Gerçek dünya ondan çok daha kaotiktir (Kaynak: objectnet.dev)

Birisi bu genelleme problemini, gerçek dünyanın kaotik gerçekliğini daha iyi temsil edebilecek bilgisayar görme kıyaslamaları ve eğitim veri setleri oluşturarak çözdü. Bununla birlikte, mevcut yapay zeka sistemlerinin sonuçlarını iyileştirebilseler de, çapraz görüş genellemesinin temel sorununu çözemezler. Her zaman yeni açılar, yeni aydınlatma koşulları, yeni renkler ve pozlar olacaktır ve bu yeni veri setleri tüm bu durumları içeremez. Bu yeni koşullar, en büyük ve en gelişmiş yapay zeka sistemlerini bile kaosa sürükleyebilir.

Fark tehlikeli olabilir

Yukarıda sunulan bakış açısından, evrişimli sinir ağları (CNN'ler) nesneleri insanlardan tamamen farklı bir şekilde açıkça tanır. Bununla birlikte, bu farklılıklar yalnızca zayıf genellemede sınırlamalara sahip olmakla kalmaz, aynı zamanda bir nesneyi öğrenmek için daha fazla örnek gerektirir. Evrişimli sinir ağı tarafından üretilen nesnelerin iç temsili de insan beyninin biyolojik sinir ağından çok farklıdır.

Bu nasıl ortaya çıkıyor? "Bir resim çekebilirim, biraz gürültü ekleyebilirim ve evrişimli sinir ağı onu tamamen farklı bir şey olarak tanıyacak ve aralarındaki farkı pek göremiyorum. Gerçekten tuhaf görünüyor, ben Bunun bir kanıt olduğunu düşünürsek, evrişimli sinir ağları aslında görüntüleri tanımak için tamamen farklı bilgiler kullanıyor. Dedi. Hinton AAAI konferansındaki bir açılış konuşmasında.

Bu biraz değiştirilmiş görüntüler "düşman örnekleri" olarak adlandırılır ve yapay zeka alanında bir araştırma etkin noktasıdır.

Olumsuz örnekler, sinir ağının görüntüyü insan gözünü etkilemeden yanlış sınıflandırmasına neden olabilir.

Hinton şunları söyledi: "Bu yanlış değil, sadece tamamen farklı bir çalışma yöntemi kullanıyorlar ve tamamen farklı yaklaşımlarının nasıl genelleme yapılacağı konusunda bazı farklılıkları olacak."

Ancak birçok örnek, düşman müdahalesinin son derece tehlikeli olabileceğini göstermektedir. Resim sınıflandırıcınız, pandayı yanlışlıkla bir gibbon olarak işaretlediğinde, tüm bunlar sevimli ve eğlencelidir. Ancak kendi kendine giden bir arabanın bilgisayar görüş sistemi bir dur işaretinden yoksun olduğunda ve kötü hackerlar yüz tanıma güvenlik sistemini atladığında veya Google Foto'nun insanları goriller olarak etiketlediğinde başınız büyük belada olacak.

Düşman rahatsızlıklarını tespit etme ve düşmanlık rahatsızlıklarına direnebilecek güçlü yapay zeka sistemleri oluşturma konusunda birçok çalışma yapılmıştır. Bununla birlikte, düşman örnekleri bize görsel sistemimizin nesiller boyunca etrafımızdaki dünyayı işleyebilmek için geliştiğini ve aynı zamanda dünyamızı görsel sistemimize uyum sağlamak için yarattığımızı da hatırlatıyor. Bu nedenle, bilgisayar görüntü sistemlerimiz temelde insan görüşünden farklı bir şekilde çalışırsa, lidar ve radar haritalama gibi tamamlayıcı teknolojilerle desteklenmedikçe öngörülemez ve güvenilmez olacaktır.

Koordinat sistemi ve parça-bütün ilişkisi önemlidir

Geoffrey Hinton'un AAAI konferansındaki açılış konuşmasında işaret ettiği bir başka sorun da, evrişimli sinir ağlarının görüntüleri nesneler ve parçaları açısından anlayamamasıdır. Görüntüleri, farklı desenlerde düzenlenmiş piksel noktaları olarak tanırlar. Ayrıca, varlıklar ve ilişkilerinin açık bir iç temsili de yoktur.

"Evrişimli bir sinir ağını her piksel konumunun merkezi olarak düşündüğünüzde, giderek daha fazla bağlama bağlı olarak o piksel konumunda neler olduğunu daha zengin bir şekilde tanımlayacaksınız. Sonunda, çok zengin oluyorsunuz. Görüntüde hangi nesnelerin bulunduğunu bilmeniz için görüntünün açıklaması. Ancak görüntüyü net bir şekilde ayrıştırmazlar. "Dedi Hinton.

Nesnelerin bileşimine ilişkin anlayışımız, dünyayı anlamamıza ve bu garip çaydanlık gibi daha önce hiç görmediğimiz şeyleri anlamamıza yardımcı olur.

Bir nesneyi birden çok parçaya ayırmak, onun doğasını anlamamıza yardımcı olur. Bu bir tuvalet mi yoksa çaydanlık mı? (Kaynak: Smashing listeleri)

Evrişimli sinir ağları, insan görüşünün temel bir parçası olan bir koordinat sisteminden de yoksundur. Temel olarak, bir nesneyi gördüğümüzde, yönünün zihinsel bir modelini geliştiririz, bu da onun farklı özelliklerini analiz etmemize yardımcı olur. Örneğin, aşağıdaki resimde sağdaki yüzü düşünün. Ters çevirirseniz solda yüzü göreceksiniz. Ama aslında, soldaki yüzü görmek için resmi fiziksel olarak çevirmenize gerek yok. Sadece koordinat sistemini zihinsel olarak ayarlayarak, görüntünün yönünden bağımsız olarak her iki yüzü de görebilirsiniz.

Hinton şunları söyledi: "Uygulanan koordinat sistemine göre, tamamen farklı iç algılara sahip olacaksınız. Evrişimsel sinir ağları bunu gerçekten açıklayamaz. Onlara bir girdi veriyorsunuz ve bir algıları var ve algı empoze edilene bağlı değil Koordinat sistemi. Bence bunun rakip örneklerle ve evrişimli sinir ağlarının insanlardan tamamen farklı bir şekilde algılamasıyla ilgisi var. "

Bilgisayar grafiklerinden öğrenin

Hinton, AAAI konferansında yaptığı konuşmada, bilgisayar vizyonunu çözmenin çok kolay bir yolunun ters grafik yapmak olduğuna dikkat çekti. Üç boyutlu bilgisayar grafik modeli, bir nesneler hiyerarşisinden oluşur. Her nesnenin, üst nesnesine göre çevirisini, dönüşünü ve ölçeklemesini tanımlayan bir dönüştürme matrisi vardır. Her hiyerarşideki en üst düzey nesnenin dönüştürme matrisi, koordinatlarını ve dünya kökenine göre yönünü tanımlar.

Örneğin, bir arabanın 3B modelini düşünün. Temel nesne, arabanın merkezinin koordinatlarda (X = 10, Y = 10, Z = 0) rotasyonla (X = 0, Y = 0, Z = 90) bulunduğunu belirten 4 × 4 bir dönüşüm matrisine sahiptir. Otomobilin kendisi, tekerlekler, şasi, direksiyonlar, ön camlar, vites kutuları, motorlar vb. Gibi birçok nesneden oluşur. Her nesnenin kendi dönüştürme matrisi vardır ve ana matris (arabanın merkezi) referans olarak bulunur, kendi konumlarını ve yönlerini tanımlarlar. Örneğin, sol ön tekerleğin merkezi (X = -1,5, Y = 2, Z = -0,3) konumunda bulunur. Sol ön tekerleğin dünya koordinatları, dönüşüm matrisi ana matrisi ile çarpılarak elde edilebilir.

Bu nesnelerin bazılarının kendi alt kümeleri olabilir. Örneğin bir tekerlek, lastikler, jantlar, göbekler, somunlar ve diğer bileşenlerden oluşur. Bu alt öğelerin her birinin kendi dönüşüm matrisi vardır.

Bu koordinat sistemi hiyerarşisini kullanarak, duruşları, yönleri veya bakış açıları ne olursa olsun nesneleri bulmak ve görselleştirmek çok kolaydır. Bir nesneyi oluşturmak istediğinizde, 3B nesnedeki her üçgeni kendi dönüştürme matrisi ve üst nesnesinin dönüştürme matrisiyle çarpın. Daha sonra bakış açısı ile hizalanır (başka bir matris çarpımı) ve ardından piksellere dönüştürülmeden önce ekran koordinatlarına dönüştürülür.

"Eğer (bilgisayar grafiklerinde çalışan birine): 'Bana başka bir açıdan gösterebilir misin?' Dersen, 'Ah, ben mutluyum. Ama bu açıdan ilerlemedik. Eğitim, bu yüzden size bu açıdan gösteremeyiz. "Size sadece başka bir açıdan gösteriyorlar, çünkü bir 3B modele sahipler, parça ile bütün arasındaki ilişkiye ve bu ilişkilere dayalı bir uzamsal yapıyı modelliyorlar. Bakış açısına hiç bağlı değil. "Hinton dedi. "3B nesnelerin görüntüleri ile uğraşırken bu güzel yapıyı kullanmamanın çılgınca olduğunu düşünüyorum."

Hinton'un bir başka iddialı yeni projesi olan Capsule Network, tersine bilgisayar grafikleri oluşturma girişimidir. Kapsül ağının kendi bağımsız şeyleri olması gerekmesine rağmen, arkasındaki temel fikir bir görüntü almak, nesnelerini ve parçalarını çıkarmak, koordinat sistemini tanımlamak ve görüntünün modüler bir yapısını oluşturmaktır.

Kapsül ağları hala geliştirilme aşamasındadır ve 2017'de piyasaya sürülmelerinden bu yana, birden çok yinelemeden geçtiler. Bununla birlikte, Hinton ve meslektaşları onları başarılı bir şekilde çalıştırabilirse, insan vizyonunu kopyalamaya daha yakın olacağız.

Bu makale bir CSDN çevirisidir, lütfen yeniden basımın kaynağını belirtin.

Microsoft CEO'su Satya Nadella: Tekerleği yeniden icat etmeyin, teknolojinin yoğunluğunu artırın

GitHub, en iyi Apache projesi olan ShardingSphere'in açık kaynak yolu olan 10.000'den fazla yıldıza sahiptir

KongHong Kong Bilim ve Teknoloji Üniversitesi Akademisyeni Zheng Guangting geleceği sordu ve en son AI uygulamalarını ve uygulamalarını ortaya çıkardı

Büyük promosyon altında akıllı operasyon ve bakım zorluğu: Ali "çifte 11 kedi gecesine" nasıl direniyor?

Ethereum 2.0'da Saklama Oyunu ve MPC uygulaması

Sizler için çok dikkatli bir şekilde 9 MySQL mülakat sorusu yazdım, toplamanız tavsiye edilir!

40 yıllık veritabanı kargaşası, PostgreSQL ve NewSQL'in evriminin derinlemesine analizi
önceki
Dahi olmayan bir oyuncu olarak, sıradan programcılar nasıl geliştirebilir ve canavarlarla savaşabilir?
Sonraki
Aceminin anlayabileceği Java istisna yönetimi
30 yıllık açık kaynak kargaşası: özgür bir topluluktan milyarlarca dolarlık bir şirkete
Hong Kong Bilim ve Teknoloji Üniversitesi Akademisyeni Zheng Guangting geleceği sordu ve AI'nın en son uygulamalarını ve uygulamalarını ortaya çıkardı
Jack Ma, en büyük 25 anti-salgın lider olarak seçildi; Zhou Hongyi, 360 Finansal Hizmetler olarak istifa etti; Node.js 14 yayınlandı | Geek Headlines
Yalnızca lise matematiği algoritmaları keşfedebilir mi? Google'ın açık kaynaklı AutoML-Zero ne kadar güçlü?
Kubernetes'e göre PaaS nasıl seçilir?
Akıllı değişim çağında gezinmek 2020 NAVIGATE Navigator Summit bulutta yelken açıyor
Yarın gece saat 8'de "AI Face Swap" ın sırrını açıklayacağım: fotoğraflarda veya videolarda yüz değiştirmenin arkasındaki temel teknoloji ve uygulama
Süper detaylı! Bu makale, SparkStreaming'in Kafka ile nasıl bütünleştiğini ayrıntılı olarak açıklamaktadır! Kod uygulanabilir
Her dakika 1 milyar düğüm grafiği hesaplaması işleyen Plato'ya ne dersiniz?
15 Nisan'da 348 set günlük devlet ticari konut satıldı ve 175 set ikinci el konut satıldı
Bir çantayla ciltli bir daireye giriş yaptığınızda, Xiamen'deki yetenekler kutsanmıştır! Ayrıca birçok yatırım faydası var
To Top