Bilgisayarla görmenin (ve evrişimli sinir ağlarının) kısa bir tarihi

Bu makale, AI Araştırma Enstitüsü tarafından derlenen, orijinal başlığı olan teknik bir blogdur:

Bilgisayarla Görünün (ve Evrişimli Sinir Ağlarının) Kısa Tarihi

Yazar | Rostyslav Demush

Tercüme | Timsah Idek, Küçük Bay Seni Seviyor

Düzeltme | Sos Armut İnceleme | Johnson Lee'nin Maaş Artışı Sıralama | Daimi Balık Kralı

Orijinal bağlantı:

https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3

Bilgisayar vizyonunun son zamanlarda aniden ortaya çıkmasına rağmen (2012'de AlexNet ağı ImageNet şampiyonluğunu kazandığında büyük bir atılım gerçekleşti), bu gerçekten yeni bir bilimsel alan değil.

Dünyanın dört bir yanındaki bilgisayar bilimcileri, son altmış yıldır makinelerin görsel verilerden anlam çıkarması için bir yol bulmaya çalışıyorlar.

Bu makalede, modern bilgisayarlı görme sistemlerinin evrişimli sinir ağları tarafından nasıl yönlendirildiğini tanıtmaya çalışacağım.

1950'lerde ortaya çıkan ve yazılım mühendisliği ile ilgisi olmayan bir işle başlayacağım.

Bilgisayarla görmedeki en etkili makalelerden biri 1959'da iki nörofizyolog, David Hubel ve Torsten Wiesel tarafından yayınlandı. "Kedinin Striatal Korteksindeki Tek Bir Nöronun Alıcı Alanı" başlıklı yayınları, görsel korteksteki nöronların temel tepki özelliklerini açıklıyor. Ve kedinin görsel deneyiminin kortikal yapısını nasıl şekillendirdiği.

İkili bazı çok ayrıntılı deneyler yaptı. Anestezi uygulanan kedinin beyninin birincil görsel korteks alanına elektrotlar yerleştirirler ve hayvana çeşitli görüntüler gösterirken bu alanda nöronal aktiviteyi gözlemler veya en azından gerçekleştirmeye çalışırlar. İlk çabaları sonuçsuz kaldı - sinir hücrelerinin hiçbir şeye tepki vermesini sağlayamadılar.

Bununla birlikte, birkaç aylık araştırmadan sonra, kazara değil, projektöre yeni bir slayt kaydırdıklarında bir nöronun ateşlendiğini fark ettiler. Bu şanslı bir tesadüf. Hubel ve Wiesel, ilk kafa karışıklıklarından sonra, nöronları heyecanlandıran şeyin cam tabakanın keskin kenarının gölgesinin yarattığı çizgilerin hareketi olduğunu fark ettiler.

https://goodpsychology.wordpress.com/2013/03/13/235/

Araştırmacılar deneyler yoluyla, birincil görsel korteksin birçok basit ve karmaşık nöron içerdiğini ve görsel işleme sürecinin her zaman belirli bir yönün kenarları gibi basit yapılarla başladığını keşfettiler.

Tanıdık geliyor mu? Bu, derin öğrenmenin ardında saklı olan temel ilkedir.

Bilgisayarla görme tarihindeki bir sonraki kayda değer şey, ilk dijital görüntü tarayıcısının icadıdır.

1959'da Russell ve sınıf arkadaşları, resimleri ikili makineler tarafından anlaşılan gri değerlere dönüştürebilen bir araç geliştirdiler. Başarılarından dolayı artık dijital görüntüleri farklı şekillerde işleyebiliyoruz.

Dijital olarak taranacak ilk resim Russell'ın bebek fotoğrafıdır. 30976 (176 * 176) pikselden oluşan 5cm * 5cm'lik bir resimdir, ancak orijinal resmin Portland Sanat Müzesi'nde saklanması nedeniyle dünyaca ünlü olmuştur.

https://www.engadget.com/2010/06/30/russell-kirsch-helped-create-them-now-he-wants-to-kill-square-p/

Daha sonra, Lawrence Roberts'ın 1963'te yayınlanan ve modern bilgisayar görüşünün öncülerinden biri olarak kabul edilen "Üç Boyutlu Katıların Makine Algısı" nı tartışacağız.

Doktora tezinde Larry, iki boyutlu resimlerden üç boyutlu bilgi elde etme sürecini anlattı. Görsel dünyada gördüklerini geometrik şekillere dönüştürdü.

Makaledeki açıklamasının ve programlamanın amacı, iki boyutlu bir görüntüyü çizgiler halinde işlemek ve daha sonra bu çizgileri üç boyutlu bir temsil oluşturmak için kullanmak ve son olarak nesnenin üç boyutlu yapısını tüm gizli çizgiler olmadan göstermektir.

Larry, 3D'den 2D'ye sunumdan sonra, 2D'den 3D'ye yapının bilgisayar destekli 3D sistem için iyi bir başlangıç olduğunu ve kesinlikle haklı olduğunu yazdı.

Lawrence'ın bilgisayarla görmeye çok fazla enerji harcamadığını, aksine DARPA'ya katıldı ve artık tanınmış projeleri icat etmek için interneti kullandığını belirtmeliyiz.

1960'larda yapay zeka bir konu haline geldi.Bazı araştırmacılar bu alanın geleceği konusunda çok iyimserdi, insanlar kadar akıllı bilgisayarlar yapmanın 25 yıl sürmeyeceğine inanıyorlardı. Aynı dönemde, MITAI Laboratuvarı'ndan Profesör Seymour Papert bir yaz vizyonu projesi başlatmaya ve makine görme problemini birkaç ay içinde çözmeye karar verdi.

Küçük bir grup MIT öğrencisinin yaz aylarında görsel sistemin önemli bir bölümünü geliştirdiğine inanıyor. Seymour ve Gerald Sussman, arka plan / ön plan bölümlemesini otomatik olarak gerçekleştirebilen ve gerçek dünyadaki görüntülerden üst üste binmeyen nesneleri çıkarabilen bir platform tasarlamak için öğrencilerle koordineli çalıştı.

Bu konu başarısız oldu, 50 yıl sonra hala bilgisayarla görmeyi çözmeye doğru ilerliyoruz. Pek çok kişiye göre bu proje, bilgisayar vizyonunun bilimsel bir alan olarak resmi doğumunun bir işaretidir.

1982'de, İngiliz bir sinirbilimci David Marr, başka bir etkili makale yayınladı: "Vizyon: İnsan Performansı ve Görsel Bilgi İşleme Üzerine Hesaplamalı Araştırma".

Hubel ve Wiesel'in fikirlerine dayanarak (görsel işlemenin genel nesneden başlamadığını buldular), David bize bir sonraki önemli görüşü verdi: Bu vizyonun hiyerarşik olduğunu ve görsel sistemin ana işlevinin çevrenin 3 boyutlu bir temsilini oluşturmak olduğunu belirledi. Böylece onunla etkileşim kurabiliriz.

Görsel verilerin yüksek düzeyde anlaşılması için temel olarak kenarları, eğrileri, köşeleri vb. Tespit etmek için düşük seviyeli algoritmaların kullanıldığı bir vizyon çerçevesi tanıttı.

David Marr'ın görsel temsil çerçevesi şunları içerir:

  • Görüntünün kenarları, çubukları, sınırları vb. Temsil eden orijinal taslağı (bu açıkça Hubel ve Wiesel'in araştırmalarından esinlenmiştir);

  • Görüntü üzerindeki yüzey, derinlik ve süreksizlik bilgilerinin birbirine dikildiği 2½ boyutlu taslak gösterimi;

  • Yüzey ve hacim temellerine göre katmanlar halinde düzenlenmiş 3 boyutlu bir model.

David Marr'ın çalışması o zamanlar çığır açıyordu, ancak çok soyut ve ileriydi. Yapay görme sistemlerinde kullanılabilecek herhangi bir matematiksel modelleme bilgisi içermediği gibi herhangi bir öğrenme sürecinden de bahsetmez.

Aynı zamanda, Japon bilgisayar bilimcisi Kunihiko Fukushima, kalıpları tanıyabilen ve konumdaki değişikliklerden etkilenmeyen basit ve karmaşık hücrelerden oluşan, kendi kendini organize eden yapay bir ağ oluşturmak için Hubel ve Wiesel'den ilham aldı. Neocognitron ağı birkaç evrişimli katman (genellikle dikdörtgen) içerir ve alıcı alanı bir ağırlık vektörüne (filtre olarak adlandırılır) sahiptir.

Bu filtrelerin işlevi, iki boyutlu bir girdi değerleri dizisi (görüntü pikselleri gibi) üzerinde kaymak ve belirli hesaplamaları yaptıktan sonra, ağın sonraki katmanlarına girdi olarak kullanılacak etkinleştirme olayları (iki boyutlu bir dizi) oluşturmaktır.

Fukushima'nın Neocognitron'u tartışmasız ilk sinir ağıdır; bugünün sinir ağının büyükbabasıdır.

Birkaç yıl sonra, 1989'da genç bir Fransız bilim adamı Yann LeCun, Fukushima'nın evrişimli sinir ağı yapısına geriye doğru yayılma tarzı bir öğrenme algoritması uyguladı. Projeyi tamamladıktan birkaç yıl sonra LeCun, bugün hala CNN'de kullandığımız bazı temel bileşenleri tanıtan ilk modern ağ olan LeNet-5'i piyasaya sürdü.

LeCun, Fukushima'nın önünde buluşunu karakter tanımaya uygulamaya karar verdi ve hatta posta kodlarını okumak için ticari bir ürün yayınladı.

Buna ek olarak, çalışması, muhtemelen makine öğrenimindeki en ünlü karşılaştırma veri kümesi olan el yazısıyla yazılmış rakamlardan oluşan MNIST veri kümesini yaratıyor.

1997'de bir Berkeley profesörü Jitendra Malik (ve öğrencisi Jianbo Shi), algısal gruplama sorununu çözme girişimini anlatan bir makale yayınladı.

Araştırmacılar, görüntüyü makul parçalara ayırmak için makinenin grafik teorisi algoritmalarını kullanmasını sağlamaya çalıştı (görüntüdeki hangi piksellerin birbirine ait olduğunu otomatik olarak belirleyin ve nesneyi çevredeki ortamdan ayırın).

Çok ileri gitmediler; algısal gruplama sorunu, bilgisayar görme uzmanlarının çözmek için çok çalıştıkları bir sorundur.

1990'larda bilgisayar görüşü bir alan olarak odağını büyük ölçüde değiştirdi.

1999 civarında, birçok araştırmacı 3B modellerini (Marr tarafından önerilen yol) oluşturarak nesneleri yeniden yapılandırmayı denemeyi bıraktı, bunun yerine çabalarını özellik tabanlı nesne tanımaya çevirdi. David Lowe'un "Yerel Ölçekte Değişmeyen Özelliklerden Nesne Tanıma" adlı çalışması özellikle bu noktayı göstermektedir.

Makale, döndürme, konum ve kısmi aydınlatmadaki değişikliklere değişmeyen yerel özellikleri kullanan bir görsel tanıma sistemini açıklar. Lowe'a göre, bu özellikler, primat görüşünde nesne algılama sürecine dahil olan, infratemporal kortekste bulunan nöronların özelliklerine bir şekilde benzer.

Kısa süre sonra, 2001'de Paul Viola ve Michael Jones ilk gerçek zamanlı yüz algılama çerçevesini başlattı. Derin öğrenmeye dayalı olmasa da, algoritma yine de derin bir öğrenme stiline sahiptir, çünkü görüntüleri işlerken, hangi özelliklerin (çok basit, Haar özelliklerine benzer) yüzlerin bulunmasına yardımcı olabileceğini anlar.

https://www.researchgate.net/figure/Haar-features-used-for-Viola-Jones-face-detection-method_fig1_268348020

Viola / Jones yüz dedektörleri hala yaygın olarak kullanılmaktadır. Birkaç zayıf sınıflandırıcıdan oluşan güçlü bir ikili sınıflandırıcıdır; Bu durumda çok zaman alan öğrenme aşamasında, zayıf sınıflandırıcıların kademesini eğitmek için Adaboost'u kullanın.

İlgili nesneyi (yüzü) bulmak için model, giriş görüntüsünü dikdörtgen bloklara böler ve hepsini zayıf dedektörler kademesine sunar. Yama, kademenin her aşamasından geçerse, pozitif bir sayı olarak sınıflandırılır, aksi takdirde, algoritma bunu hemen reddeder. Bu süreç çeşitli ölçeklerde defalarca tekrarlanır.

Makalenin yayınlanmasından beş yıl sonra Fujitsu, Viola / Jones algoritmasına dayanan gerçek zamanlı yüz algılama özelliğine sahip bir kamera çıkardı.

Bilgisayar vizyonunun sürekli gelişmesiyle birlikte, topluluk, modellerinin performansını karşılaştırmak için acilen kıyaslama görüntü veri setlerine ve standart değerlendirme göstergelerine ihtiyaç duyar.

2006 yılında Pascal VOC projesi başlatıldı. Nesne sınıflandırması için standartlaştırılmış bir veri seti ve veri setine ve ek açıklamalara erişim için bir dizi araç sağlar. Kurucular ayrıca 2006 ile 2012 yılları arasında farklı nesne tanıma yöntemlerinin performansının değerlendirilmesine izin veren yıllık bir yarışma düzenlediler.

2009 yılında, bir başka önemli özellik tabanlı model, Pedro Felzenszwalb, David McAllester ve Deva Ramanan tarafından deforme olabilen bir parça modeli geliştirildi.

Esasen, nesneyi kısmi koleksiyonlara ayırır (1970'lerde Fischler ve Elschlager tarafından sunulan görüntü modeline dayanarak), aralarında bir dizi geometrik kısıtlama uygular ve simüle edilmiş potansiyel nesnenin merkezini bir potansiyel olarak ele alır. değişken.

DPM, nesne algılama görevlerinde (nesneleri yerelleştirmek için sınırlayıcı kutuları kullanarak) iyi performans gösterdi ve şablon eşleştirme ve o sırada popüler olan diğer nesne algılama yöntemlerini bozdu.

2010'da başlayan ImageNet Büyük Ölçekli Görsel Tanıma Yarışması'nı (ILSVRC) duymuş olabilirsiniz. PASCAL VOC'den sonra, yılda bir kez, katılımcıların öğrendiklerini tartıştıkları bir maç sonrası semineri de dahil olmak üzere düzenlenir. En yaratıcı çalışma.

Yalnızca 20 nesne sınıfına sahip Pascal VOC'nin aksine, ImageNet veri kümesi, 1k nesne sınıfını kapsayan, manuel olarak temizlenmiş bir milyondan fazla görüntü içerir.

ImageNet mücadelesi, başlangıcından bu yana, çok sayıda nesne kategorisinde nesne kategorisi sınıflandırması ve nesne algılaması için bir kriter haline geldi.

2010 ve 2011 yıllarında, ILSVRC'nin görüntü sınıflandırma hata oranı% 26 civarındaydı. Ancak 2012'den beri Toronto Üniversitesi'nden bir ekip, her şeyi değiştiren rekabete evrişimli bir sinir ağı modelini (AlexNet) girdi. Model,% 16,4 hata oranıyla Yann LeCun'un LeNet-5 yapısına benzer.

Bu CNN için çığır açan bir an.

Önümüzdeki birkaç yıl içinde, ILSVRC'deki görüntü sınıflandırmasının hata oranı yüzde birkaç puana düştü ve 2012'den beri kazanan evrişimli bir sinir ağı oldu.

Daha önce bahsettiğim gibi, 1980'lerden beri evrişimli sinir ağları var. Peki popüler olmaları neden bu kadar uzun sürüyor?

Dolayısıyla, mevcut CNN popülaritemizin üç faktörü vardır:

Moore Yasası sayesinde, makinemiz artık 1990'larda piyasaya sürülen LeNet-5'ten daha hızlı ve daha güçlü.

NVIDIA'nın paralelleştirilebilir grafik işleme birimi, derin öğrenmede önemli ilerleme kaydetmemize yardımcı oldu.

Son olarak, günümüz araştırmacıları büyük, etiketli yüksek boyutlu görsel veri setlerine (ImageNet, Pascal, vb.) Erişebilirler. Bu nedenle, derin öğrenme modellerini tam olarak eğitebilir ve aşırı uyumdan kaçınabilirler.

sonuç olarak

Son zamanlardaki etkileyici ilerlemelere rağmen, bilgisayarla görme sorunlarını çözmeye henüz yakın değiliz. Bununla birlikte, birçok tıp kurumu ve şirketi, CNN tarafından yönlendirilen bilgisayarlı görme sistemlerini gerçek dünya sorunlarına uygulamanın bir yolunu buldu. Bu eğilimin yakın zamanda durması pek olası değil.

Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?

[Bilgisayar Görünün (ve Evrişimli Sinir Ağlarının) Kısa Geçmişi] 'ne tıklayın veya aşağıdaki adrese basın:

https://ai.yanxishe.com/page/TextTranslation/1518

AI Araştırma Enstitüsü bugün önerilir : Lei Feng Wang Lei Feng Wang Lei Feng Wang

Li Feifei, koz kartı kursu, bilgisayarla görmenin derinleşme seyri, bilgisayar görüşü alanında sinir ağının uygulanması, görüntü sınıflandırma, konumlandırma, algılama ve diğer görsel tanıma görevlerinin yanı sıra arama, görüntü anlama, uygulama, haritalama, tıp ve sürücüsüz sürüş konularında ders veriyor. Uçaklar ve otonom araçlar alanında en son uygulamalar.

Videoyu ücretsiz izlemek için gruba katılın: https://ai.yanxishe.com/page/groupDetail/19

Xiaomi Youpin, akıllı bir not defterine koyar: 799 yuan fiyatıyla orijinal el yazısı geri yüklemesini destekler
önceki
Yeni müzisyenler nasıl kuluçkaya yatırılabilir? "T made" size söyler
Sonraki
Red Devils e-spor cep telefonunun ikinci nesil Master Lu'nun koşu skoru gösterimi: Snapdragon 845 + 8G, 360.000'in üzerinde puan alıyor
Yeni piyasaya sürülen bu dört SUV, 100.000'den az olduğu sürece şimdiden çok satıyor!
Huawei P30 Pro DxO ön kamera derecelendirmeleri açıklandı
Pazar durgun ve film dosyaları değiştirmekle meşgul ... Bugün "Tianzhu'da Bir Taciz" dahil 4 film ayarlandı.
Hollywood'un yeni yıl gişe rekorları kıran filminde Xu Qing, "24 Saat: Yeniden Doğuş" kaçırılmaması gereken bir kadın dedektife dönüşüyor.
Çok sayıda elektrikli araba gördünüz, ancak fren olarak kullanılabilen bir elektrikli araba gördünüz mü?
Nubia Z18 ayrıntılı değerlendirme: En iyi amiral gemisini oluşturmak için Snapdragon 845+ kenarlıksız su damlası ekranı
Kung Fu İmparatoru Jet Li, 2,000 yuan almak için iki yıl çekildi, onun ve Liu Jialiang'ın yüzlerini çevirmesine şaşmamalı!
İnternet isabetleri on milyarı aşacak, "Splendid Weiyang" önde gelen kadın başrol için "alternatif" bir metodoloji oluşturuyor
25.990 NT $ fiyatla Tayvan'da piyasaya sürülen Razer Phone 2, Bank of China versiyonu da piyasaya sürülecek.
Vivo World Yapay Zeka Konferansı "AI Piramidi Stratejisi" ni resmen açıkladı
Ye Wen rolünü oynayan Donnie Yen, Jet Li'ye eşit mi? şaka! Jet Li'nin dört büyük ustasının hepsi oynadı!
To Top