En gelişmiş nesne dedektörü fillere göz yumuyor

Yazar | Liu Pingping

Düzenle | Kongun Sonu

Yaygın olarak kullanılan nesne dedektörlerinin artık bazı bariz ve kolayca gözden kaçan sorunları var, tıpkı "evdeki fil" gözünü çevirmek gibi. Bu sorunları analiz etmek ve optimize etmek, görüntü tanıma teknolojisinin ilerlemesi için özellikle önemlidir.

Günümüzde görüntü tanıma teknolojisi, otonom sürüş, tıbbi görüntüleme ve sıcak makine görüşü alanlarında vazgeçilmez bir rol oynamaktadır ve sabit bir sistem, görüntü tanıma kalitesinde anahtar rol oynamaktadır. Bununla birlikte, en gelişmiş nesne dedektörlerinin bile bazı ortak hataları vardır: Bir görüntüdeki bir nesne başka bir görüntüye nakledildiğinde, nesne dedektörünün sapmaları algılamasına veya hatta tanımamasına neden olur.

Tanımlama başarısızlığına ne sebep olur? Bu sorunu optimize etmenin bir yolu var mı? Amir Rosenfeld tarafından yayınlanan "The Elephant in the Room", York Üniversitesi'nden John K. Tsotsos, Toronto Üniversitesi'nden Richard Zemel ve diğerleri bu soruları ayrıntılı olarak incelemiş ve yanıtlamıştır.

sorun bulundu

Araştırmacılar, bir fotoğraftaki "fili" hedef olarak çıkarıp başka bir resme aktardılar ve birkaç bariz problem buldular (Şekil 1):

Şekil 1

1. Kararsız izleme: hedef tespit edilemeyebilir ve tespit edilme olasılığı Çok azaltmak;

2. Bildirilen nesnenin kimliği tutarsızdır: konuma bağlı olarak, nesne çeşitli farklı kategoriler olarak tespit edilebilir;

3. Hedef, yerel olmayan etkilere neden olacaktır: hedefle örtüşmeyen nesneler kimlikleri, sınırlayıcı kutuları değiştirebilir veya tamamen kaybolabilir.

Yukarıdaki problemlerin varlığını daha da doğrulamak için, araştırmacılar daha sonraki deneyler için rastgele çok sayıda resim seçtiler.

Şaşırtıcı olmayan bir şekilde: bir görüntüdeki bir nesne başka bir görüntüye nakledildiğinde, nesne detektörünün tanınması önyargılı olacak ve hatta tanınmayacaktır. Ve şu anki en doğru dedektör üzerinde birkaç farklı model kullanıldığında, daha hızlı_rcnn_nas_coco, bu sorun değişen derecelerde ortaya çıkar.

Yukarıdaki deneylerin hepsi rastgele seçilmiş resimlerdir, bu nedenle seçilen nesneler, bir resimde hiç görünmeyen iki özel kombinasyondur. Ancak, ağın bu tür resimleri ve kombinasyonları başarıyla işlemesi zordur. Araştırmacılar, bu sorunun neden olduğu deneye müdahaleyi ortadan kaldırmak için, bir görüntüden bir nesneyi kopyaladı ve aynı görüntüde başka bir konuma kopyaladı.

şekil 2

Sonuçlar, hedef hareket ettirildiğinde kısmi kapanma ve bağlamın tanıma üzerinde belirli bir etkiye sahip olduğunu göstermektedir (Şekil 2). Örneğin, b sütunundaki ineklerin ayakları TV'ye yakın olduklarında uzaktan kumanda olur. D sütununda, bitkinin bir kısmı örtüldüğünde ve insan eli yakın olduğunda, bitkinin tabanı bir el çantası veya fincan olarak tanınır.

sebep analizi

Nesne algılayıcıda neden bu sorun var? Araştırmacılar bu sorunu keşfetmeye çalışmak için daha fazla deney yapıyorlar.

Araştırmacılar, vücudunun sadece bir kısmını gösteren bir kedinin yanlışlıkla zebra olarak tanımlandığı bir resim seçtiler. Araştırmacılar aşağıdaki deneyleri yaptı:

1. Algılama sınırlayıcı kutusunun dışındaki tüm pikselleri atın: nesnenin sınıflandırması sabitlenemez ve kedi yine de bir zebra olarak tanınır; bu, ROI'deki (ilgi alanı) özelliklerin kafa karışıklığına neden olabileceğini gösterir;

2. ROI'deki kedi olmayan tüm pikselleri atın, kedi kedi olarak tanımlanır ve sınıflandırma sabitlenir;

3. Sınırlayıcı kutunun dışındaki aralıkta tekrar rastgele gürültü ekleyin: kedi yine bir zebra olarak tanınır ve algılama yanlıştır.

Bu deney, ROI dışındaki özelliklerin nihai tespit sonucunu etkileyeceğini göstermektedir.

Araştırmacılar, orijinal görüntüde ve değiştirilmiş görüntüde dedektör tarafından oluşturulan bir dizi sınırlayıcı kutuyu eşleştirerek sahne tanımanın kaç kez değiştiğini hesaplar. Aşağıdaki şekilde hesaplanmıştır:

29 farklı resmi belirleyip hesaplayarak, herhangi bir orijinal nesnenin algılanmasına neden olan, nakledilen nesnelerin ortalama konum yüzdesini hesapladılar.Sonuçlar aşağıdaki gibidir. Eşik , eşleşmelerle aynı kategorideki iki sınırlayıcı kutuyu hesaplamak için minimum çakışmadır.

  • Etkilenen sınıf Agnostik: sınırlayıcı kutular arasındaki kategori bağımsız eşleşmenin sonucu;

  • Etkilenen-Tıkalı-20: Sonuç yalnızca, her orijinal nesnenin alanının en fazla% 20'sinin hedef nesne tarafından kaplandığı durumu hesaplar;

  • Etkilenen-No-Occ: Hedef nesnenin herhangi bir nesneyi engellememesinin sonucu.

Birkaç çıkarım

Yukarıdaki deneyler aracılığıyla araştırmacılar, nesne dedektörlerindeki yaygın arızaların nedenleri ile ilgili aşağıdaki çıkarımlara sahipler:

1. Kısmi kapsam: Kısmi kapsama, nesne dedektörlerinin geliştirilmesi için hala büyük bir zorluktur. Bununla birlikte, bilim adamları, hedefin karartılmasından kaynaklanan ayrımcılık önyargısı sorununu çözmek için hedefi tanımlamak için veriye dayalı ve yerel kanıt gibi yöntemler önermişlerdir.

2. Dağıtılmamış bir örnek: Araştırmacılar hedefi başka bir resme aktardıklarında, hedef çerçevede ani bir kenar oluşacaktır ve kenar modifikasyonundan sonra görüntünün eğitim setinin görüntü dağılımı altında oluşması olası değildir. Dahası, ani kenar değişiklikleri gibi bu küçük rahatsızlıklar, ağ çıktısında büyük değişikliklere neden olarak tanıma yanlılığına neden olabilir.

3. Sinyal koruma: Uzay havuzu, verimliliği ve deformasyon olmaması nedeniyle uzay deformasyonu problemi için çok etkilidir, ancak mevcut araştırmalar, uzay havuzunun katmanlaşmasının ağın sürekli yer değiştirmesini engellediğini göstermektedir.

4. Bağlamsal akıl yürütme: Mevcut nesne algılayıcılar bağlamsal akıl yürütme yeteneğine sahip değilken, ağ muhakemesi nesne kategorileri ve bunların göreceli uzamsal düzenleri arasındaki etkileşimi kodlar.Bu bağlamsal muhakeme, Şekil 2'de gösterildiği gibi genellikle tanıma yanlılığına neden olur.

5. Maksimum olmayan bastırma: Maksimum olmayan bastırmanın varlığından dolayı, diğer nesnelerin tıkanma durumu, nesnelerin transplante edilmesi sürecinde değişir, bu da nakledilen nesneden uzaktaki nesnelerin tanınmasında da sorunlara neden olur.

6. İşlevsel girişim: Mevcut nesne algılayıcı, nihai nesne kategorisini ve dikdörtgen sınırlayıcı kutu tahminini oluşturmak için evrişimli katmandan elde edilen özellikleri kullanır. Bu, sınırlayıcı kutu içindeki nesne olmayan parçayı da tanıma nesnesinin bir parçası haline getirir Nesne kategorisi, nesne özelliği açık olmadığında nesne olmayan bölüm bağlamından çıkarılabilse de, aynı zamanda nesnenin doğru tanınmasına da müdahale edecektir.

Tüm nedenler arasında, işlevsel müdahale en temel nedendir ve kısmi kapanma veya bağlamsal akıl yürütmenin neden olduğu etki, bu sorunun somut bir tezahürüdür.

Şu anda bu sorunun çözülmesi zor olsa da, bilim adamı Tsotsos hala bir çözüm modeli öneriyor: Görsel hiyerarşinin ilk geçişi tamamlandığında, baskın sinyal, sinyalin bir sonraki seviyesine uzamsal ve özellik zayıflaması gerçekleştirerek hiyerarşi boyunca yayılacaktır. İlgili nesne hakkında, yani çevredeki özelliklerle daha az karışmış bilgiler içerecektir. Bu modelin tanıma önyargısı sorununu hafifletmesi bekleniyor ve gelecekte gerçekten işe yarayıp yaramayacağını bekleyip göreceğiz.

En üst düzey konferans raporu teklif için nasıl gerekli bir koşul haline geldi?
önceki
"duman" mı? Bekle, bir düşün
Sonraki
2019'da uzayda hangi uzay çevre olayları oldu?Arama Alanı
Kum sabitleyen çalılardan kurtulmanın yolu
90'larda doğan on milyonlarca insan olan Ningbo evlendi ve sadece 4 sofra şarabı vardı! Tören bir saatten az sürdü ve nedimeler yoktu! Gelin dedi ki ...
Evdeki tuvalet bakıma muhtaç ve adam yarım ay boyunca alt kata dışkı atıyor.
Adam banyo yaparken trafik kazasında yakalandı ama iki kilometre uzakta öldü mü?
Büyük Veri Wuhan halkı, yaklaşan Bahar Festivali tatilinde başlangıçta nereye uçtu?
Gökbilimciler kuasarların ilk geometrik mesafe ölçümünü gerçekleştirdi
Blazar ışık dejenerasyonu çalışmasında yeni ilerleme kaydedildi
İki akademinin akademisyenleri, 2019'da Çin ve dünyadaki ilk on bilimsel ve teknolojik ilerlemeyi seçiyor
Pterosaur hyoid kemik evrimi üzerine araştırma ilerlemesi
Keşfedilmemiş bir kristal dünya inşa etmek için "yapı taşları" nasıl kullanılır?
HIZLI "Gökyüzünün Gözü" ne kadar uzağı görebilir?Konular
To Top