g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Manuel özellik çıkarmadan derin öğrenmeye kadar üç görüntü alma yöntemi

Leifeng.com AI Technology Review Not: Bu makale, köşe yazarı Rabbit Boss tarafından AI Technology Review için yazılmış özel bir el yazmasıdır.

Önsöz

Görüntü alma, bilgisayarla görme, dijital görüntü işleme ve diğer alanlarda ortak bir konudur.İlgili bilgileri öğrenme sürecinde, görüntü alma benim ilk demomdur. Bu işlem, benzer resimleri tanımlamak için python kullanımında kaydedilir (1) ve Benzer resimleri tanımlamak için python kullanın (2) İki makale, sırasıyla histogram eşleştirme kaydı, phash / ortalama hash / dhash üç hash tabanlı yöntem.

Genel görüntü alma çerçevesi, belirli özellikleri çıkarmak ve benzerliği hesaplamak için kabaca iki adıma ayrılabilir. Bunların arasında, yukarıda bahsedilen yöntemlerin tümü, özellik çıkarma adımına karşılık gelir ve Öklid mesafesi / Hamming mesafesi / Triplet gibi yöntemler, benzerliği hesaplamak için sıklıkla kullanılır. Açıkçası, yukarıdaki yöntemlerin tümü, özellikleri çıkarmak için yapay olarak tasarlanmış yöntemlerdir. Yapay olarak tasarlanmış yöntemlerin yerini almak için günümüzün çok sıcak derin öğrenimini kullanmayı düşünmek doğaldır, bu nedenle bu makale esas olarak derin öğrenmeye dayalı görüntü almayı tanıtmaktadır. .

Bu makalede ağırlıklı olarak tanıtılan makaleler şu şekildedir:

Hızlı Görüntü Erişimi için İkili Karma Kodların Derin Öğrenimi - CVPR WORKSHOP 2015
HIZLI GÖRÜNTÜ GERİ ÇAĞIRMA İÇİN DERİN DENETLENMİŞ HASHING - CVPR 2016
Özellik Öğrenmeye dayalı Çift Yönlü Etiketlerle Derin Denetimli Hashing - IJCAI 2016

Görüntü özelliklerini çıkarmak için derin öğrenmenin kullanılması söz konusu olduğunda, endüstri genel olarak mevcut görüntü modellerinde, ilgili özelliklerin çıkarılmasından önceki evrişimli katmanın sorumlu olduğuna ve sınıflandırmadan tamamen bağlantılı son katman veya küresel havuzlamanın sorumlu olduğuna inanmaktadır. Bu nedenle, genel yaklaşım doğrudan ilk birkaçını almaktır. Katman evrişiminin çıktısı ve ardından benzerliği hesaplayın.

Ama bu bir problem içeriyor: Birincisi veri doğruluğu problemidir, çünkü doğrudan özellik çıktısı çoğunlukla kayan nokta sayılarıdır ve boyutluluk yüksektir, bu da bu görüntülerin özellik değerlerinin depolanmasının çok fazla yer kaplamasına neden olur ve ikincisi yüksek enlemdir. Benzerliği hesaplamak için Öklid mesafesini kullanmak boyutsal bir felaketi tetikleyebilir ve benzerliği temsil etmek için Öklid mesafesini kullanma yöntemini geçersiz kılar.

Çözümlerden biri, benzerliğin nasıl hesaplanacağını öğrenebilen bir sinir ağı oluşturmak için Triplet işlevini kullanmaktır. Üçlü yöntemi bu makalenin kapsamında olmasa da, okuyucuların ilgili yöntemleri yatay olarak karşılaştırabilmeleri için aşağıdaki Üçlü temelli yöntemlere kaba bir giriş aşağıda verilmiştir.

Triplet yöntemi çok basittir Üçlü bir küme manuel olarak oluşturulur Üçlü küme içerir (resim A, resim B, A'ya benzer, resim C, A'ya benzemez) ve sinir ağının iki resim girişini kabul etmesi beklenir. Benzer ise, daha yüksek bir puan verin, değilse daha düşük bir puan verin.

Triplet Loss'un yapısı yukarıdaki formülde gösterilmektedir, burada f (xi) sinir ağındaki orijinal görüntünün çıktı puanıdır, f (xj) sinir ağındaki benzer görüntünün çıktı puanıdır ve f (xk), farklı görüntünün çıktı puanıdır. Bu ifadede, benzer resimlerin puanlarının olabildiğince yakın olmasını ve farklı resimlerin puanlarının olabildiğince uzakta olmasını bekliyoruz. dikkate alınmadığında bir sorun var. Açıkçası,

içinde

Ne zaman, L = 0,

Bu şekilde, benzer resimlerin ve farklı resimlerin puanlarının uzayda belirli bir aralığa sahip olmasını umduğumuz hedefine ulaşamadık ve ayarı bu aralıktır.

Açıktır ki, çok küçük ayarlanırsa, sinir ağının benzer resimleri ayırt etmesi kolay değildir ve ayar çok büyükse, sinir ağındaki daha yüksek gereksinimlere eşdeğerdir ve sinir ağının yakınsaması daha dengesiz olacaktır.

Üçlü, her kategorinin örneği, yüz algılama gibi görüntü alımında büyük olmadığında uygundur. Bununla birlikte, bazı çalışmalar, Triplet setinin oluşturulmasının eğitimin etkisini, yani benzerlik ve farklılıkları yapay olarak nasıl tanımlayacağını etkileyeceğini, dolayısıyla Triplet'in yapımı ile ilgili çalışmalar olduğunu, ancak bu makale esas olarak başka bir yöntemden bahsediyor. Üç hash yöntemi.

Hızlı Görüntü Erişimi için İkili Karma Kodların Derin Öğrenimi - CVPR WORKSHOP 2015

Öncelikle bu makaleyi tartışma için seçmemin sebebi, bu makalenin çalışma fikirleri ve yukarıda bahsedilen yöntemlerin aşağıda belirtilen makaleden daha doğal olması okuyucuların anlaması için uygun olmasıdır.

Yukarıda belirtildiği gibi, en basit yol, benzerliği değerlendirmek için uzaysal mesafeyi hesaplamak için sinir ağı özellik katmanının çıktısını kullanmaktır, ancak bu, kayan nokta veri depolama tüketimine ve boyutsal felaketlere yol açacaktır. Bu iki soruna yanıt olarak, bu makalede önerilen yöntem daha basittir.

Kayan nokta verileri ne olacak? Bunu ikili verilere ayırın, yani bir dizi 0 ve 1 karma, böylece yalnızca birkaç bayt bir veri depolayabilir.

Boyut yüksekse ne yapmalı? Onu düşük boyutlu bir ilahiye sıkıştırdı.

Bu yüzden bu makalenin fikrinin çok doğrudan ve anlaşılması kolay olduğunu ve geçiş için ilk makale için çok uygun olduğunu söyledim.

Makalenin belirli yöntemleri hakkında konuşmama izin verin:

Özelliğin çıktısının 0 ve 1 olarak ayrıştırılabileceğini umduğumuz için, özelliğin dağılımının belirli bir değer etrafında simetrik olmasını umuyoruz ve daha sonra eşik bu değere göre ikilileştirildiği sürece adım adım türetebilir ve doğal olarak tanh kullanmayı düşünebiliriz Veya sigmoid işlevi, çünkü çıktısı 0 civarında simetrik veya yaklaşık 0,5 simetriktir. Bu yazıda kullanılan sigmoid, önceden eğitilmiş ağın sondan bir önceki katmanının ReLU işlevinin yerini alır ve çıktı boyutu 12 ile 48 arasında sıkıştırılır ve ardından ince ayar yapılır.

İnce ayar sürecinde birkaç nokta vardır: Genel olarak, ince ayar yöntemimiz, önceki evrişimin ağırlıklarının dondurulmasını ve ardından sonraki sınıflandırıcıların ağırlıklarının eğitilmesini ifade eder. Ancak burada, boyutsallığın azalmasından kaynaklanıyor ve ikincisi, orta katmanın aktivasyon işlevi olarak sigmoidin gradyanın kaybolmasına neden olabilmesi ve sinir ağının kabiliyetinin aslında bir dereceye kadar zayıflatılmış olmasıdır. Bu nedenle, ince ayar yaparken, yazar sigmoid katmanının parametrelerini rastgele seçti ve sınıflandırıcı parametrelerinin çoğu dahil olmak üzere kalan parametreler korunur.Daha sonra, eğitim sırasında sigmoid 1e-3 öğrenme oranını kullanır ve kalan katmanlar 1e- 4 öğrenme oranı. Cifar10 için, veri geliştirmeyi kullandıktan sonra, yaklaşık% 89 Doğruluk oranına ulaşabilir ve görüntü alma için harita% 85'e ulaşabilir, bunun performans açısından çok etkileyici olduğu söylenebilir.

Kağıt bağlantısı:

Referans uygulama: https://github.com/flyingpot/pytorch_deephash

HIZLI GÖRÜNTÜ GERİ ÇAĞIRMA İÇİN DERİN DENETLENMİŞ HASHING - CVPR 2016

Yukarıda bahsedildiği gibi, ayrıştırırken çıktı almak istediğimiz özellikler belirli bir değer etrafında simetriktir, bu nedenle bazı makaleler, özellik katmanının çıktısının etkinleştirme işlevi olarak sigmoid kullanır, ancak sigmoid işlevine doğrudan atıfta bulunulması bazı sorunlara neden olacaktır. sorun? Evet, çıktıyı belirli bir aralıkla sınırlamak için normal yöntemler kullanmaktır.

Bu CVPR 2016 makalesi bunu yapar.Yukarıdaki makale gibi hash yapmak için sınıflandırma ağının ara katmanını kullanmaz, ancak doğrudan hash kodunu öğrenmek için sinir ağını kullanır ve kodu kısıtlamak için normalleştirme yöntemini kullanır.

Spesifik olarak, sinir ağının çıktısının normal yöntemlerle {-1,1} ile sınırlandırılmasına izin verin (daha sonra ayrıklaştırma için eşik olarak 0 kullanın) ve ardından ağın çıktısının aşağıdaki gereksinimleri karşılamasına izin verin. Benzer olduğunda, vektör mesafesi Daha yakın olmalı ve bunun tersi de geçerlidir.

Amaç fonksiyonu:

Bunlar arasında, b1, b2 sinir ağı tarafından çıkarılan vektörlerdir ve y bir işarettir. Benzer olduğunda 0, olmadığında 1 olarak kaydedilir. İki hiperparametre vardır. M, b1 ve b2 arasındaki optimum aralığı kontrol etmek için kullanıldığında ve , normal terimin ağırlığıdır.Giriş benzer resimler olduğunda, y = 0 olduğu görülebilir. L'yi en aza indirmek için, iki vektör ile normal terim arasındaki mesafenin en aza indirilmesi gerekir. Resimler benzer olmadığında, y = 1, L'yi en aza indirmek, m yakınında dağılmış iki vektör arasındaki mesafeyi ve normal terimi en aza indirmeyi gerektirir.

Son düzenli terim, çıktı özelliği vektörünün {-1, 1} 'de dağıtılmasını sağlar.

Aşağıdaki şekil, m ve 'nın çıktı dağılımı üzerindeki etkisini göstermektedir.

CIFAR-10 için, nihai harita yalnızca 0,54 ~ 0,61 olabilir, bu yukarıda belirtilen ilk yöntemden daha düşüktür, ancak aslında bu yöntem daha esnektir.

Makaleye bağlantı: https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Liu_Deep_Supervised_Hashing_CVPR_2016_paper.pdf

Referans uygulama: https://github.com/yg33717/DSH_tensorflow

Özellik Öğrenmeye dayalı Çift Yönlü Etiketlerle Derin Denetimli Karma Oluşturma-IJCAI 2016

Şekilde gösterildiği gibi, bu makale kabaca yukarıda bahsedilen ikinci yönteme benzer. Özellik olarak sınıflandırma ağının orta katmanını kullanmak yerine, hash işlevini öğrenmek için doğrudan bir sinir ağı kullanır ve çıktı özelliği dizisini belirli bir aralıkla sınırlamak için normal yöntemi kullanır.

Aşağıda, belirli bir süreç bir amaç işlevi biçiminde açıklanmaktadır:

B çıktı vektörü olduğunda, Sij etikettir, benzerlik 1'dir, aksi takdirde 0'dır, ij = bi * bjT ve W, v son katmanın ağırlığı ve önyargısıdır ve (x; ) son katmandır Katman 2 çıkışı.

Algoritmanın güncelleme adımları aşağıdaki gibidir:

Bu yöntem, CIFAR-10 veri setinde 0.71 ila 0.80 arasında bir harita değeri elde eder.

Makaleye bağlantı: https://cs.nju.edu.cn/lwj/paper/IJCAI16_DPSH.pdf

Referans uygulama: https://github.com/jiangqy/DPSH-pytorch

sonuç olarak

Bu makale, benzerliği ölçmek için görüntü özelliklerini çıkarmak için kuralları manuel olarak tasarlamanın önceki yöntemini paylaşıyor, ardından görüntü aramada derin öğrenme sürecini tanıtıyor ve görüntü alma görevlerinin genel çerçevesini ve düşünce sürecini tanıtan üç makale veriyor.

Xiaomi'nin bu sefer büyük bir sorunu var! Ya da ilk kez genç bir adam bir ev satacak

Google Pixel amiral gemisi yeni makine çıkış zamanı onaylandı, arka kısım hala en güçlü tek kameralı çözüm!