g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Derin öğrenme evrişimi bölümünü sezgisel olarak anlayın

Lei Feng Net Not: Bu makale, Lei Feng'in altyazı grubu tarafından derlenen teknik bir blogdur.Orijinal başlık Derin Öğrenme için Sezgisel Dönüşümleri Anlamak ve yazar Irhum Shafkat'tır.

Tercüme | Yu Zhipeng, Zhao Pengfei, redaksiyon | Zhai Xiuchuan, harmanlama | Fan Jiang

Son yıllarda, güçlü derin öğrenme çerçevelerinin ortaya çıkmasıyla birlikte, derin bir öğrenme modelinde evrişimli bir sinir ağı oluşturmak çok kolay hale geldi ve hatta sadece bir satır kodla tamamlanabiliyor.

Bununla birlikte, özellikle evrişimsel sinir ağlarında yeni olan insanlar için evrişimi anlamak, genellikle evrişim çekirdekleri, filtreler, kanallar ve bunların istifleme mimarisi gibi kavramlarla karıştırılır. Bununla birlikte, evrişim güçlü ve oldukça ölçeklenebilir bir kavramdır. Bu makalede, evrişim işlemi prensibini kademeli olarak ayrıştıracağız, onu standart tam bağlantılı bir ağa bağlayacağız ve bunu yapmak için güçlü bir görsel hiyerarşi nasıl inşa edeceğimizi keşfedeceğiz. Yüksek performanslı görüntü özelliği çıkarıcı.

2 boyutlu evrişim: işlem

2 boyutlu evrişim oldukça basit bir işlemdir: evrişim çekirdeğinden başlayarak, bu küçük bir ağırlık matrisidir. Bu evrişim çekirdeği 2 boyutlu girdi verileri üzerinde "kayar", mevcut girdinin bazı öğelerinde matris çarpımı gerçekleştirir ve ardından sonucu tek bir çıktı pikselinde toplar.

Standart bir evrişim

Evrişim çekirdeği, iki boyutlu bir matrisi başka bir iki boyutlu matrise dönüştürerek, tüm resmi geçene kadar bu işlemi tekrarlar. Çıktı özelliği, esasen giriş verilerindeki aynı konumun ağırlıklı toplamıdır (ağırlık, evrişim çekirdeğinin kendisinin değeridir)

Girdi verilerinin bu "yaklaşık olarak benzer alana" düşüp düşmediği, doğrudan konvolüsyon çekirdeğinden sonraki verilerin çıktısını belirler. Bu, yeni özellikler oluşturulurken evrişim çekirdeğinin boyutunun kaç tane (veya birkaç) girdi özelliğinin birleştirileceğini doğrudan belirlediği anlamına gelir.

Bu, tamamen bağlı katmanın tam tersidir. Yukarıdaki örnekte, girdi özelliğimiz 5 * 5 = 25 ve çıktı verisi 3 * 3 = 9'dur. Standart olarak tamamen bağlı bir katman kullanırsak, 25 * 9 = 225 parametreli bir ağırlık matrisi üretilecektir. , Her çıktı, tüm giriş verilerinin ağırlıklı toplamıdır. Evrişim işlemi, bu dönüşümü sadece 9 parametre ile gerçekleştirmemize izin verir.Her bir çıkış özelliği için her bir giriş özelliğini "görmek" yerine, sadece giriş özelliklerini kabaca aynı konumdan "görmek". Lütfen bu noktaya dikkat edin, çünkü daha sonra tartışmamız için çok önemlidir.

Yaygın olarak kullanılan bazı teknikler

Evrişimli sinir ağlarını tanıtmaya devam etmeden önce, evrişimli katmanlarda yaygın olarak kullanılan iki tekniği tanıtın: Dolgu ve Adımlar

Dolgu: Yukarıdaki animasyonu görürseniz, evrişim çekirdeğinin kaydırma işlemi sırasında, kenarların temelde "kesildiğini" ve 5 * 5 özellik matrisinin 3 * 3 özellik matrisine dönüştürüldüğünü fark edeceksiniz. Kenarlardaki pikseller hiçbir zaman evrişim çekirdeğinin merkezinde değildir, çünkü çekirdeğin kenarların ötesine uzanacak hiçbir şeyi yoktur. Bu ideal değildir, çünkü genellikle çıktı boyutunun girdiye eşit olmasını isteriz.

Bazı dolgu işlemleri

Dolgu, bu sorunu çözmek için çok akıllıca bir yol yaptı: kenarları fazladan "yanlış" piksellerle doldurun (genellikle 0, bu nedenle "sıfır dolgu" terimi genellikle kullanılır). Bu şekilde, kayma sırasında evrişim çekirdeği, kenarın dışındaki sahte piksele uzanırken orijinal kenar pikselinin merkezinde yer almasına izin verebilir ve böylece girdi ile aynı boyutta bir çıktı üretebilir.

Striding: Evrişimli bir katman çalıştırırken, genellikle çıktı boyutunun girdiden daha düşük olmasını isteriz. Bu, kanal sayısını artırırken uzamsal boyutu azaltan evrişimli sinir ağlarında yaygındır. Bir yol, bir havuz katmanı kullanmaktır (örneğin, uzamsal boyutu yarıya indirmek için her 2 × 2 ızgaranın ortalamasını / maksimumunu almak). Başka bir yol da Striding'i kullanmaktır:

Adım boyutu 2 olan bir evrişim işlemi

Stride'ın fikri, bazı pikselleri atlamak için evrişim çekirdeğinin adım boyutunu değiştirmektir. Adım 1'dir, evrişim çekirdeğinin standart bir evrişim modu olarak en temel tek adımlı kayma olan 1 ayrı piksel boyunca kayması anlamına gelir. Adım 2, evrişim çekirdeğinin hareket adımının 2 olduğu, bitişik pikselleri atladığı ve görüntünün orijinalin 1 / 2'sine indirildiği anlamına gelir. Adım 3'tür, yani evrişim çekirdeğinin hareket adımı 3'tür, bitişik 2 piksel atlanır ve görüntü orijinalin 1 / 3'üne indirilir.

ResNet gibi giderek daha fazla sayıda yeni ağ yapısı, havuzlama katmanını tamamen terk etti. Stride yöntemi, görüntünün küçültülmesi gerektiğinde kullanılır.

Çok kanallı versiyon

Tabii ki, yukarıdaki görüntü yalnızca tek bir giriş kanalına sahip görüntülerle ilgilidir. Aslında, çoğu giriş görüntüsü 3 kanallıdır ve kanal sayısı yalnızca ağınızın derinliğini artıracaktır. Genellikle görüntünün kanalları bir bütün olarak ele alınır ve farklılıklarına dikkat edilmeden genel yönü vurgulanır.

Çoğu zaman, RBG'nin üç kanallı görüntüleriyle ilgileniyoruz (Kredi: Andre Mouton)

Filtre: evrişim çekirdekleri koleksiyonu

Bu iki terim arasında temel bir fark vardır: yalnızca 1 kanal durumunda, filtre ve çekirdek terimleri eşdeğerdir ve genel olarak farklıdırlar. Her filtre aslında evrişim çekirdeklerinin bir koleksiyonudur Katmanın her giriş kanalı bir evrişim çekirdeğine sahiptir ve benzersizdir.

Evrişimli katmandaki her filtre yalnızca bir kanal çıkarır. Bunlar şu şekilde uygulanır:

Filtrenin her evrişim çekirdeği kendi hesaplama sonucunu üretmek için giriş kanalında "kayar". Bazı çekirdekler, belirli giriş kanallarını bazı çekirdeklerden daha fazla vurgulamak için diğer çekirdeklerden daha büyük ağırlıklara sahip olabilir (örneğin, filtrenin kırmızı kanal evrişim çekirdeği diğer kanal evrişim çekirdeklerinden daha ağır olabilir, bu nedenle, Kırmızı kanalın özelliklerine yanıt diğer kanallarınkinden daha güçlüdür).

Daha sonra her kanal işleminin sonuçları bir kanal oluşturmak için bir araya getirilir. Filtrenin evrişim çekirdeğinin her biri karşılık gelen bir kanal çıktısı üretir ve son olarak tüm filtre toplam bir çıktı kanalı üretir.

Son terim: önyargı. Buradaki ofsetin etkisi, nihai çıkış kanalını üretmek için her çıkış filtresine bir ofset terimi eklemektir.

Diğer filtre sayılarının üretimi, tek bir filtreninkiyle aynıdır: her filtre, giriş verilerini işlemek için yukarıdaki işlemle birlikte farklı bir evrişim çekirdeği kümesi ve bir skaler sapma terimi kullanır ve son olarak bir çıktı kanalı oluşturur. Ardından, çıkış kanallarının sayısının filtre sayısı olduğu bir toplam çıktı üretmek için bunları birbirine bağlayın. Çıktı verileri başka bir evrişimli katmana gönderilmeden önce, genellikle doğrusal olmayan bir etkinleştirme işlevi uygulanır. Ağ yapımını tamamlamak için yukarıdaki işlemleri tekrarlayın.

2D Evrişim: Sezgi

Evrişim hala doğrusal bir dönüşümdür

Evrişimsel katman mekanizması ile bile, onu standart ileri besleme ağına bağlamak hala zordur ve evrişimin neden görüntü veri işleme alanına yayıldığını açıklayamaz ve bu konuda iyi performans gösterir.

Diyelim ki bir 4 × 4 girişimiz var ve onu 2 × 2 dizisine dönüştürmemiz gerekiyor. İleri beslemeli bir ağ kullanırsak, önce 4 × 4 girişi 16 uzunluğunda bir vektöre dönüştüreceğiz ve ardından 16 giriş ve 4 çıkışa sahip yoğun bir şekilde bağlanmış bir katman gireceğiz. Bu katman için bir ağırlık matrisi W hayal edebilirsiniz:

Toplamda 64 parametre var.

Evrişim çekirdek işlemi ilk bakışta garip görünse de, yine de doğrusal bir dönüşümdür ve eşdeğer bir dönüşüm matrisine sahiptir. 2 × 2 çıktı elde etmek için dönüştürülmüş 4 × 4 girdiye 3 boyutunda bir çekirdek K uygularsak, eşdeğer dönüşüm matrisi şöyle olacaktır:

9 parametre var

(Not: Yukarıdaki matris eşdeğer bir dönüşüm matrisi olmasına rağmen, gerçek işlem genellikle çok farklı bir matris çarpımı olarak uygulanır)

Evrişim, bir bütün olarak hâlâ doğrusal bir dönüşümdür, ancak aynı zamanda benzersiz bir dönüşümdür. 64 öğeli bir matris için yalnızca 9 parametre yeniden kullanılır. Her çıkış düğümü yalnızca belirli girişlerin sayısını görebilir (çekirdek içindeki girişler). Ağırlık 0 olarak ayarlandığından diğer girdilerle etkileşim yoktur.

Evrişim işlemini ağırlık matrisinin bir öncüsü olarak düşünmek faydalıdır. Bu yazıda ağ parametrelerini önceden tanımladım. Örneğin, görüntü sınıflandırması için önceden eğitilmiş bir model kullandığınızda, temel amaç, önceden eğitilmiş ağ parametrelerini yoğun bağlantı katmanı için bir özellik çıkarıcı olarak kullanmaktır.

Bu anlamda, her ikisinin de neden etkili olduğuna dair bir sezgi var (ikamelerine kıyasla). Aktarım öğrenmenin verimliliği, rastgele başlatmadan çok daha büyük düzeydedir, çünkü yalnızca son tam bağlantılı katmanın parametrelerini optimize etmeniz gerekir, bu da sınıf başına yalnızca düzinelerce görüntü ile mükemmel performansa sahip olabileceğiniz anlamına gelir.

Burada 64 parametrenin tamamını optimize etmenize gerek yok çünkü bunların çoğunu 0 olarak ayarlıyoruz (ve her zaman bu değeri koruyoruz) ve geri kalanı paylaşılan parametrelere dönüştürülüyor, bu da aslında yalnızca 9 parametreyi optimize etmeye ihtiyaç duyacak. Bu verimlilik çok önemlidir.MNIST'in 784 girişinden gerçek 224 × 224 × 3 görüntüye dönüştürülürken 150.000 giriş olacaktır. Yoğun katman görünümü, girdiyi 75.000'e yarıya indirir ve bu da hala 10 milyar parametre gerektirir. Buna karşılık, ResNet-50 toplamda yalnızca 25 milyon parametreye sahiptir.

Bu nedenle, bazı parametreler 0'a sabitlenir ve bağlanma parametreleri verimliliği artırır, ancak transfer öğrenmede, transfer öğrenmede a priori'nin iyi olup olmadığını biliyoruz, çünkü çok sayıda görüntüye bağlı, bunun iyi mi kötü mü olduğunu nasıl biliyoruz? Ne?

Cevap, özellik kombinasyonunda yatmaktadır ve önceki parametreler öğrenilmesi gereken parametrelerdir.

Yerellik

Bu makalenin başında aşağıdaki konuları tartıştık:

Evrişim çekirdeği, bir çıktı oluşturmak için yalnızca küçük bir yerel alandaki pikselleri birleştirir. Başka bir deyişle, çıktı özellikleri, yalnızca küçük bir yerel alandan giriş özelliklerini "görür".
Evrişim çekirdeği, çıktı matrisini oluşturmak için görüntünün tamamına uygulanır.

Geri yayılım ağın sınıflandırma düğümlerinden geldiği için, evrişim çekirdeğinin yerel girdilerden ağırlıkları öğrenmek ve özellikler üretmek için ilginç bir görevi vardır. Ek olarak, evrişim çekirdeğinin kendisi tüm görüntüye uygulandığından, evrişim çekirdeği tarafından öğrenilen özellikler görüntünün herhangi bir bölümünden gelebilecek kadar evrensel olmalıdır.

Bu başka herhangi bir tür veri ise, örneğin APP kurulumlarının sınıflandırma verileri ise felaket olacaktır, çünkü uygulama kurulumlarınızın ve uygulama tiplerinizin sayısı bitişiktir, herhangi bir uygulama kurulumuna sahip oldukları anlamına gelmez. Kullanım tarihi ve saati, "yerel ve paylaşılan özellikler" kadar yaygındır. Tabii ki, keşfedilebilecek potansiyel olarak yüksek seviyeli bir özelliğe sahip olabilirler (örneğin, insanların en çok hangi uygulamalara ihtiyacı vardır), ancak bu bize ilk iki parametrenin ve son iki parametrenin tamamen olduğuna inanmak için yeterli neden vermez. aynısı. Bu dördü herhangi bir (tutarlı) sırada olabilir ve hala çalışıyor olabilir!

Ancak pikseller her zaman tutarlı bir sırada görünür ve yakındaki pikseller birbirini etkiler. Örneğin, belirli bir pikselin yakınındaki tüm pikseller kırmızıysa, piksel de büyük olasılıkla kırmızıdır. Bir sapma varsa, bu bir özelliğe dönüştürülebilen ilginç bir anormalliktir ve tüm bu sapmalar, çevreleyen piksellerle karşılaştırılarak tespit edilebilir.

Bu fikir aslında birçok erken bilgisayar görme özelliği çıkarma yönteminin temelidir. Örneğin, kenar algılama için sabit parametrelere sahip bir çekirdek olan Sobel kenar algılama filtresini kullanabilirsiniz.Hesaplama işlemi, standart tek kanallı evrişim ile aynıdır:

Dikey kenar algılama evrişim çekirdeğini kullanın

Kenarları olmayan diziler için (gökyüzü arka planı gibi), piksellerin çoğu aynı değere sahiptir, dolayısıyla bu noktalarda evrişim çekirdeğinin çıktısı 0'dır. Dikey kenarlı bir dizi için, kenarın sol ve sağ taraflarındaki pikseller farklıdır ve evrişim çekirdeğinin hesaplama sonucu da sıfırdan farklıdır, dolayısıyla kenarı ortaya çıkarır. Yerel bir aralıktaki anormallikleri tespit ederken, evrişim çekirdeği bir seferde yalnızca 3x3'lük bir dizi üzerinde hareket eder, ancak tüm görüntüye uygulandığında, küresel aralıktaki görüntüdeki herhangi bir konumdan belirli bir özelliği tespit etmek yeterlidir. ,!

Öyleyse, derin öğrenmede yarattığımız en önemli fark şu soruyu sormaktır: yararlı çekirdekler öğrenilebilir mi? Orijinal piksellere dayalı ilk katman için, kenarlar, çizgiler vb. Gibi oldukça düşük seviyeli özelliklere sahip özellik dedektörlerini makul bir şekilde bekleyebiliriz.

Derin öğrenme araştırmasının, sinir ağlarının yorumlanabilirliğine odaklanan eksiksiz bir dalı vardır. Bu daldaki en güçlü araçlardan biri, optimizasyon yöntemlerini kullanarak özellikleri görselleştirmektir. Temel fikir basit: mümkün olduğunca güçlü hale getirmek için filtreyi etkinleştirmek için görüntüyü (genellikle rastgele gürültü ile başlatılır) optimize edin. Bu gerçekten sezgiseldir: Optimize edilmiş görüntü tamamen kenarlarla doluysa, bu, filtrenin kendisinin aradığının ve etkinleştirildiğinin güçlü bir kanıtıdır. Bunu kullanarak öğrenme filtresine göz atabiliriz ve sonuçlar harika:

GoogLeNet'in ilk evrişimli katmanından 3 farklı kanalın özellik görselleştirmesi Farklı kenar türlerini algıladıklarında bile, yine de çok düşük seviyeli kenar dedektörleri olduklarını unutmayın.

İkinci ve üçüncü konvolüsyonlardan kanal 12'nin özelliklerini görselleştirin.

Burada dikkat edilmesi gereken önemli bir nokta, kıvrımlı görüntünün hala bir görüntü olmasıdır. Küçük piksel dizisinin görüntünün sol üst köşesinden çıktısı hala sol üst köşededir. Böylece, hayal edebileceğimiz gibi, daha derin özellikler elde etmek için diğerinin üzerine başka bir evrişimli katman çalıştırabilirsiniz (soldaki iki gibi).

Bununla birlikte, özellik dedektörlerimiz daha fazla değişiklik yapmadan ne kadar derinliği tespit edebilirse etsin, yine de yalnızca çok küçük görüntülerde çalışabilirler. Dedektörünüz ne kadar derin olursa olsun, 3x3 diziden insan yüzlerini tespit edemeyeceksiniz. Algılama alanı kavramı budur.

Alıcı alan

Herhangi bir CNN mimarisi için temel bir tasarım seçeneği, giriş boyutunun ağın başından sonuna kadar küçülmesi ve küçülmesi ve kanal sayısının daha da derinleşmesidir. Daha önce belirtildiği gibi, bu genellikle bir adım boyutu veya havuzlama katmanı aracılığıyla yapılır. Yerellik, çıktı katmanı tarafından görülen önceki katmanın girdisini belirler. Alıcı alan, çıktı perspektifinden görülen tüm ağın orijinal girdi alanını belirler.

Saçak evrişim kavramı, sadece sabit bir mesafeyle ilgilenmemiz ve ortadakileri görmezden gelmemizdir. Farklı bakış açılarından, çıktıyı yalnızca sabit bir mesafede tutuyoruz ve gerisini kaldırıyoruz.

3 × 3 evrişim, adım boyutu 2

Sonra çıktıya doğrusal olmayanlık uygularız ve ardından olağan duruma göre üste yeni bir evrişim katmanı ekleriz. İlginç olduğu yer burası. Aynı boyutta ve aynı yerel alana sahip bir çekirdeğe (3 × 3) sahip olsak bile, saçak evrişimin çıktısına uygulandığında, çekirdek daha büyük bir alıcı alana sahip olacaktır:

Bunun nedeni, şeritli katmanın çıktısının hala aynı görüntüyü temsil etmesidir. Yeniden boyutlandırma gibi kırpılmaz, tek sorun çıktıdaki her pikselin, orijinal girdinin aynı kaba konumundan daha geniş bir alanın "temsili" olmasıdır (diğer pikseller atılır). Bu nedenle, bir sonraki katmanın çekirdeği çıktı üzerinde çalıştığında, aslında daha geniş bir alandan toplanan pikseller üzerinde çalışır.

(Not: Dilate evrişime aşina iseniz, yukarıdakinin genişlemiş evrişim olmadığını unutmayın. Her ikisi de alıcı alanı artırmak için yöntemlerdir. Genişlemiş evrişim tek bir katmandır ve bu normal bir evrişimde ve ardından çizgilerle gerçekleşir Evrişim, orta çerçeve doğrusal değildir)

Karmaşıklıktaki kademeli artışı göstermek için her ana evrişim bloğu kümesinin kanallarını görselleştirin

Alıcı alanın bu uzantısı, karışık3a katmanında gördüğümüz gibi, evrişimli katmanın düşük seviyeli özellikleri (çizgiler, kenarlar) daha yüksek seviyeli özelliklerle (eğriler, dokular) birleştirmesine izin verir.

Havuzlama / yayılma katmanının ardından ağ, daha yüksek seviyeli özellikler (bileşenler, modeller) için detektörler oluşturmaya devam eder. Mixed4a'da gördüğümüz gibi.

Ağda, görüntü boyutunun tekrar tekrar küçültülmesi, 224 × 224 girişine kıyasla evrişimin beşinci bloğunun giriş boyutunun sadece 7 × 7 olmasına neden olur. Bu bakış açısından, her bir piksel oldukça büyük olan 32 × 32 piksel bir diziyi temsil eder.

Önceki katmanla karşılaştırıldığında, önceki katman için bir aktivasyon, bir sınırı tespit etmek anlamına gelir ve burada 7 × 7'deki aktivasyon, kuşlar gibi gelişmiş bir özelliktir.

Ağın tamamı, yalnızca düşük seviyeli özellikleri tespit edebilen az sayıda filtreden (GoogLeNet 64'e sahiptir) çok sayıda filtreye (son evrişimli ağda 1024) kadar büyümüştür, her filtre belirli yüksek seviyeli özellikleri bulmak için kullanılır . Bundan sonra havuzlama katmanı, her 7 × 7 dizi 1 piksele indirgenir ve her kanal, tüm görüntüye karşılık gelen alıcı bir alana sahip bir özellik detektörüdür.

İleriye doğru yayılma ağı tarafından yapılan işle karşılaştırıldığında, buradaki çıktı şaşırtıcıdır. Standart bir ileri yayılma ağı, bir görüntüdeki bir dizi pikselden, eğitim için işlenmesi zor olan çok sayıda veri gerektiren soyut öznitelik vektörleri üretir.

Evrişimsel sinir ağları, üzerine empoze edilen önceliklerle, düşük seviyeli özellik dedektörlerini öğrenerek başlar.Alıcı alanı, katman katman genişler, bu düşük seviyeli özellikleri kademeli olarak yüksek seviyeli özelliklerle birleştirmeyi öğrenir; bu, her bir pikselin soyutlaması değildir. Kombinasyon, ancak güçlü bir görsel hiyerarşi kavramı.

Birinci seviyenin özelliklerini tespit ederek ve bunları görsel hiyerarşi geliştikçe üst düzey özellikleri tespit etmek için kullanarak, nihayet insan yüzleri, kuşlar, ağaçlar vb. Gibi tüm görsel konsepti tespit etmek mümkündür. Bu yüzden bu kadar güçlü ama etkilidirler. Görüntü verilerini etkili bir şekilde kullanın.

Karşı saldırılarla ilgili son notlar

Görsel hiyerarşik evrişimli sinir ağlarının inşasıyla, görsel sistemlerinin insanlara benzer olduğunu makul bir şekilde varsayabiliriz. Gerçek dünyadaki görüntüleri işlemede harikadırlar, ancak bazı şekillerde başarısız olurlar, bu da görsel sistemlerinin tamamen insanlara benzemediğini gösterir. Ana sorun: rakip numuneler, bu numuneler modelin kandırılmasına neden olacak şekilde özel olarak değiştirildi.

İnsanlar için, iki resim açıkça pandadır, ancak model için durum böyle değil.

İnsanlar modelin başarısız olmasına neden olan tahrif edilmiş örnekleri fark edebilirlerse, o zaman rakip örnekler sorun olmayacaktır. Sorun şu ki, bu modeller çok az değiştirilmiş örneklerden gelen saldırılara açık ve açıkça hiçbir insanı aldatmayacak. Bu, otonom araçlardan sağlık hizmetlerine kadar çok çeşitli uygulamalar için oldukça tehlikeli olan küçük bir arıza olan model için bir kapı açar.

Saldırılara karşı sağlamlık şu anda oldukça aktif bir araştırma alanıdır.Birçok makale, hatta yarışmalar ve çözümler kesinlikle CNN mimarisini geliştirerek daha güvenli ve daha güvenilir hale getirecektir.

sonuç olarak

Evrişimli sinir ağları, bilgisayar vizyonunun basit uygulamalardan karmaşık ürün ve hizmetlere, fotoğraf kitaplığınızdaki yüz tanımadan daha iyi tıbbi teşhisler yapmaya kadar genişlemesine olanak tanıyan modellerdir. Bilgisayar görüşünün ilerletilmesi için anahtar bir yöntem olabilir veya bazı yeni atılımlar göz önünde olabilir.

Her durumda, kesin olan bir şey var: bunlar, günümüzün birçok yenilikçi uygulamasının merkezinde yer alan harika şeyler ve derinlemesine anlamaya en çok değer.

Referanslar

Derin öğrenme için evrişim aritmetiği rehberi (https://arxiv.org/abs/1603.07285)

CS231n Görsel Tanıma için Evrişimli Sinir Ağları - Evrişimli Sinir Ağları (

Özellik Görselleştirme - Sinir ağları görüntü anlayışını nasıl geliştirir (not: buradaki özellik görselleştirmeleri, bu dergi makalesindeki tekniklerin açık kaynaklı bir uygulaması olan Lucid kitaplığı ile üretilmiştir) (https://distill.pub/2017/ özellik görselleştirme /)

Tartışmalı Örneklerle Makine Öğrenmesine Saldırmak (https://blog.openai.com/adversarial-example-research/)

Daha fazla kaynak

fast.ai - Ders 3: Görüntü Sınıflandırıcınızı İyileştirme (

Conv Nets: A Modular Perspective (

Çok az veri kullanarak güçlü görüntü sınıflandırma modelleri oluşturma (https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html)