g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Sabitleme Kutuları - hedef tespit kalitesinin anahtarı

Lei Feng.com AI teknolojisi yorum notu: Her yıl bilgisayarla görme teknolojisinin popülaritesiyle, hedeflerin gerçek zamanlı takibi için bilgisayar görüntü işleme teknolojisinin kullanımı giderek daha popüler hale geliyor. Peki, hedef tespitinin kalitesi nasıl iyileştirilir? Anders Christiansen, Bağlantı Kutularının doğru ayarlanmasının, modelin bilinmeyen boyut ve şekildeki nesneleri algılama yeteneğini büyük ölçüde geliştirebileceğine inanıyor. Aşağıda Leifeng.com AI Technology Review tarafından derlenen ve derlenen görüşü yer almaktadır.

Çapa Kutuları, hedef tespiti için evrişimli sinir ağlarını öğrenirken anlaşılması en zor kavramlardan biridir. Ayrıca, veri setinin performansını iyileştirirken ayarlayabileceğiniz en önemli parametrelerden biridir. Aslında, Bağlantı Kutuları doğru şekilde ayarlanmadıysa, sinir ağınız belirli küçük, büyük veya düzensiz nesnelerin varlığını asla bilemeyecek ve onları asla tespit etme fırsatı bulamayacaktır. Neyse ki, bu tuzağa düşmemenizi sağlamak için atabileceğiniz birkaç basit adım var.

Bir görüntüdeki birden çok nesneyi algılamak için YOLO veya SDD gibi bir sinir ağı kullandığınızda, ağ aslında binlerce algılama yapar ve yalnızca nesne olarak belirlediği algılama sonuçlarını görüntüler. Aşağıdaki formatta birden çok test çıktı:

Tahmin 1: (x, y, yükseklik, genişlik), sınıf

Tahmin ~ (80000): (x, y, yükseklik, genişlik), sınıf

Bunlar arasında (X, Y, yükseklik, genişlik) "sınırlayıcı kutu" olarak adlandırılır. Kutu ve nesne sınıfı, insan yorumcular tarafından manuel olarak işaretlenir.

Oldukça basitleştirilmiş bir örnekte, iki tahmini olan ve aşağıdaki görüntüleri alan bir modelimiz olduğunu varsayalım:

Ağımıza, öğrenebilmesi için tahminlerinin her birinin doğru olup olmadığını söylememiz gerekir. Fakat sinir ağına tahmin sınıfını ne söylemeliyiz? Tahmin sınıfı şöyle olmalıdır:

Tahmin 1: Armut

Tahmin 2: Apple

veya şunlar olabilir:

Tahmin 1: Apple

Tahmin 2: Armut

Ağ tahmin ederse:

Armut ve elma arasında ayrım yapabilmek için ağımızın iki belirleyicisine ihtiyacımız var: Bu onların işi. Bunu yapmak için birkaç araç var. Tahmin edici, belirli bir boyuttaki nesnelere, belirli bir en boy oranına sahip nesnelere (yükseklik ve genişlik) veya görüntünün farklı bölümlerindeki nesnelere adanabilir. Çoğu ağ, üç standardı da kullanır. Armut / elma görüntüsü örneğimizde, soldaki nesne için Tahmin 1'i ve sağdaki nesne için Tahmin 2'yi kullanabiliriz. Ardından ağın neyi öngörmesi gerektiğini yanıtlayabiliriz:

Tahmin 1: Armut

Tahmin 2: Apple

En gelişmiş nesne algılama sistemleri aşağıdaki gibidir:

Her bir kestirici için binlerce "sınırlayıcı kutu" veya "önceki kutu" oluşturulur ve bu, özellikle nesnenin ideal konumunu, şeklini ve boyutunu tahmin etmek için kullanıldığını gösterir.

Her sınırlayıcı kutu için, hangi nesnenin sınırlayıcı kutularının en yüksek örtüşmeye sahip olduğunu, örtüşmeme bölüp hesaplayın. Buna crossover veya union denir.

En yüksek IOU% 50'den fazlaysa, bağlantı kutusuna en yüksek IOU'ya sahip nesneyi algılaması gerektiğini söyleyin.

Aksi takdirde, IOU% 40'tan fazlaysa, sinir ağına gerçek algılamanın belirsiz olduğunu söyleyin, bu örnekten ders almayın.

En yüksek IOU% 40'tan azsa, bağlantı kutusu nesne yok olarak tahmin edilmelidir.

Bu yöntem pratikte iyi bir performans sergiliyor ve binlerce tahminci, nesne türlerinin görüntüde görünüp görünmediğine karar verme konusunda çok iyi bir iş çıkarıyor. RetinaNet'in açık kaynak uygulamasına bir göz atın, en gelişmiş nesne dedektörüdür, bağlantı kutusunu görselleştirebiliriz. Çok fazla nesne olduğunda aynı anda görselleştiremezsiniz, ancak burada sadece% 1:

Varsayılan bağlantı kutusu yapılandırmasının kullanılması, aşırı spesifik bir tahmin oluşturabilir ve görüntüde görünen nesneler,% 50 IOU elde etmek için herhangi bir bağlantı kutusunu kullanamayabilir. Bu durumda sinir ağı bu nesnelerin varlığını asla bilemeyecek ve onları tahmin etmeyi asla öğrenemeyecektir. Bağlantı kutumuzu, şu% 1'lik numuneler gibi çok daha küçük hale getirecek şekilde ayarlayabiliriz:

Retina mesh konfigürasyonunda minimum bağlantı kutusu boyutu 32 × 32'dir. Bu, bundan daha küçük birçok nesnenin algılanmayacağı anlamına gelir. Burada, WiderFace veri kümesinden bir örnek var, burada sınırlayıcı kutuları ilgili bağlantı kutularıyla eşleştiriyoruz, ancak bazıları çatlaklara sıkışmış durumda. Veri kümesinin URL'si:

Bu durumda, herhangi bir bağlantı kutusuyla örtüşen yalnızca dört kesin sınırlayıcı kutu vardır. Sinir ağları diğer yüzleri tahmin etmeyi asla öğrenmeyecek. Varsayılan bağlantı kutusu yapılandırmasını değiştirerek bu sorunu çözebiliriz.

Tahmini çevreleyen piksellere bağlı olan çok küçük bir yüzümüz olduğu için (kollar ve bacaklar varsa yüz olma olasılığı daha yüksektir), bu nedenle tahmin için kullanılan 32x32 nesnesini tutarken en küçük bağlantı kutusu boyutunu küçülttük. Aynı alıcı alan. Yeni konfigürasyonumuzla, tüm yüzler en az bir bağlantı kutusu ile düzenlenmiştir ve sinir ağımız onları nasıl algılayacağını öğrenebilir!

Genel bir kural olarak, modeli eğitmeye başlamadan önce, kendinize veri seti hakkında aşağıdaki soruları sormalısınız:

Algılamak istediğim en küçük boyutlu kutu nedir?

Algılamak istediğim en büyük kutu nedir?

Kutu ile algılama alanı arasındaki oran nedir? Yani, tahmin sırasında her bir sınırlayıcı kutunun ne kadarı etrafındaki verilere bağlıdır?

Bu kutu nasıl bir şekil olabilir? Örneğin, araba veya kameranın yana dönme şansı olmadığı sürece, bir araba dedektörünün kısa ve geniş bağlantı kutuları olabilir.

Veri setindeki en uç boyut ve en-boy oranını gerçekten hesaplayarak bu parametreleri kabaca tahmin edebilirsiniz. Başka bir nesne dedektörü olan YOLO v3, ideal sınırlayıcı kutuları tahmin etmek için K-araçlarını kullanır. Diğer bir seçenek de bağlantı kutusu yapılandırmasını öğrenmektir. Ancak, yalnızca nesnelerin bağlantı kutuları ile eşleştirilmesini optimize etmek istemediğinizi unutmamak önemlidir. Ayrıca, nesneyi doğru bir şekilde algılamak için çevreleyen piksellerden ne kadar bilgi gerektiğini de düşünmelisiniz. Örneğin, küçük bir yüzü tespit etmek için, tüm insan vücudunun tespitine güvenmeniz gerekir.

Bu konuları dikkatlice düşündükten sonra, bağlantı kutularınızı tasarlamaya başlayabilirsiniz. Bunları gerçek referans standartlarınızı kodlayarak ve sonra kod çözerek test ettiğinizden emin olun, çok fazla. Sınırlayıcı kutuları geri yükleyebilmelisiniz.

Ayrıca, sınırlayıcı kutuların ve bağlantı kutularının merkezi farklıysa, bunun GÇ'yi azaltacağını unutmayın. Küçük bağlantı kutularınız olsa bile bağlantı kutuları arasındaki mesafe büyükse, bazı standart algılama nesnelerini kaçırabilirsiniz. Bunu iyileştirmenin bir yolu, IOU eşiğini% 50'den% 40'a düşürmektir.

Bağlantı kutularının neden bu kadar önemli olduğunu anlamak için lütfen David Pacassi Torrico'nun mevcut yüz algılama API uygulama yöntemlerini ve etkilerini karşılaştıran makalesine bakın. Gördüğünüz gibi, küçük yüzleri algılamanın yanı sıra, bu algoritmalar iyi çalışıyor. Aşağıda hiçbir yüzün algılanmadığı bazı fotoğraflar bulunmaktadır. David Pacassi Torrico'nun makale adresi:

https://www.liip.ch/en/blog/face-detection-an-overview-and-comparison-of-different-solutions-part1