En gelişmiş hedef dedektörü fillere göz yumuyor

Lei Feng Net Not: Bu makalenin yazarı Liu Pingping'in izinsiz yeniden basılması yasaktır.

Yaygın olarak kullanılan nesne dedektörlerinin artık bazı bariz ve kolayca gözden kaçan sorunları var, tıpkı "evdeki fil" gözünü çevirmek gibi. Bu sorunları analiz etmek ve optimize etmek, görüntü tanıma teknolojisinin ilerlemesi için özellikle önemlidir.

Günümüzde görüntü tanıma teknolojisi, otonom sürüş, tıbbi görüntüleme ve sıcak makine görüşü alanlarında vazgeçilmez bir rol oynamaktadır ve sabit bir sistem, görüntü tanıma kalitesinde anahtar rol oynamaktadır. Bununla birlikte, en gelişmiş nesne dedektörlerinin bile bazı ortak hataları vardır: Bir görüntüdeki bir nesne başka bir görüntüye nakledildiğinde, nesne dedektörünün sapmaları algılamasına veya hatta tanımamasına neden olur.

Tanımlama başarısızlığına ne sebep olur? Bu sorunu optimize etmenin bir yolu var mı? Amir Rosenfeld tarafından yayınlanan "The Elephant in the Room", York Üniversitesi'nden John K. Tsotsos, Toronto Üniversitesi'nden Richard Zemel ve diğerleri bu soruları ayrıntılı olarak incelemiş ve yanıtlamıştır.

sorun bulundu

Araştırmacılar, bir fotoğraftaki "fili" hedef olarak çıkarıp başka bir resme aktardılar ve birkaç bariz problem buldular (Şekil 1):

Şekil 1

1. İzleme istikrarsızdır: hedef tespit edilemeyebilir ve tespit edilme olasılığı büyük ölçüde azalır;

2. Bildirilen nesnenin kimliği tutarsızdır: konuma bağlı olarak, nesne çeşitli farklı kategoriler olarak tespit edilebilir;

3. Hedef, yerel olmayan etkilere neden olacaktır: hedefle örtüşmeyen nesneler kimlikleri, sınırlayıcı kutuları değiştirebilir veya tamamen kaybolabilir.

Yukarıdaki problemlerin varlığını daha da doğrulamak için, araştırmacılar daha sonraki deneyler için rastgele çok sayıda resim seçtiler.

Şaşırtıcı olmayan bir şekilde: bir görüntüdeki bir nesne başka bir görüntüye nakledildiğinde, nesne detektörünün tanınması önyargılı olacak ve hatta tanınmayacaktır. Ve şu anki en doğru dedektör üzerinde birkaç farklı model kullanıldığında, daha hızlı_rcnn_nas_coco, bu sorun değişen derecelerde ortaya çıkar.

Yukarıdaki deneylerin hepsi rastgele seçilmiş resimlerdir, bu nedenle seçilen nesneler, bir resimde hiç görünmeyen iki özel kombinasyondur. Ancak, ağın bu tür resimleri ve kombinasyonları başarıyla işlemesi zordur. Araştırmacılar, bu sorunun neden olduğu deneye müdahaleyi ortadan kaldırmak için, bir görüntüden bir nesneyi kopyaladı ve aynı görüntüde başka bir konuma kopyaladı.

şekil 2

Sonuçlar, hedef hareket ettirildiğinde kısmi kapanma ve bağlamın tanıma üzerinde belirli bir etkiye sahip olduğunu göstermektedir (Şekil 2). Örneğin, b sütunundaki ineklerin ayakları TV'ye yakın olduklarında uzaktan kumanda olur. D sütununda, bitkinin bir kısmı örtüldüğünde ve insan eli yakın olduğunda, bitkinin tabanı bir el çantası veya fincan olarak tanınır.

sebep analizi

Nesne algılayıcıda neden bu sorun var? Araştırmacılar bu sorunu keşfetmeye çalışmak için daha fazla deney yapıyorlar.

Araştırmacılar, vücudunun sadece bir kısmını gösteren bir kedinin yanlışlıkla zebra olarak tanımlandığı bir resim seçtiler. Araştırmacılar aşağıdaki deneyleri yaptı:

1. Algılama sınırlayıcı kutusunun dışındaki tüm pikselleri atın: nesnenin sınıflandırması sabitlenemez ve kedi yine de bir zebra olarak tanınır; bu, ROI'deki (ilgi alanı) özelliklerin kafa karışıklığına neden olabileceğini gösterir;

2. ROI'deki kedi olmayan tüm pikselleri atın, kedi kedi olarak tanımlanır ve sınıflandırma sabitlenir;

3. Sınırlayıcı kutunun dışındaki aralıkta tekrar rastgele gürültü ekleyin: kedi yine bir zebra olarak tanınır ve algılama yanlıştır.

Bu deney, ROI dışındaki özelliklerin nihai tespit sonucunu etkileyeceğini göstermektedir.

Araştırmacılar, orijinal görüntüde ve değiştirilmiş görüntüde dedektör tarafından oluşturulan bir dizi sınırlayıcı kutuyu eşleştirerek sahne tanımanın kaç kez değiştiğini hesaplar. Aşağıdaki şekilde hesaplanmıştır:

29 farklı resmi belirleyip hesaplayarak, herhangi bir orijinal nesnenin algılanmasına neden olan, nakledilen nesnelerin ortalama konum yüzdesini hesapladılar.Sonuçlar aşağıdaki gibidir. Eşik , eşleşmelerle aynı kategorideki iki sınırlayıcı kutuyu hesaplamak için minimum çakışmadır.

Etkilenen sınıf Agnostik: sınırlayıcı kutular arasındaki kategori bağımsız eşleşmenin sonucu;

Etkilenen-Tıkalı-20: Sonuç yalnızca, her orijinal nesnenin alanının en fazla% 20'sinin hedef nesne tarafından kaplandığı durumu hesaplar;

Etkilenen-No-Occ: Hedef nesnenin herhangi bir nesneyi engellememesinin sonucu.

Birkaç çıkarım

Yukarıdaki deneyler aracılığıyla araştırmacılar, nesne dedektörlerindeki yaygın arızaların nedenleri ile ilgili aşağıdaki çıkarımlara sahipler:

1. Kısmi kapsam: Kısmi kapsama, nesne dedektörlerinin geliştirilmesi için hala büyük bir zorluktur. Bununla birlikte, bilim adamları, hedefin karartılmasından kaynaklanan ayrımcılık önyargısı sorununu çözmek için hedefi tanımlamak için veriye dayalı ve yerel kanıt gibi yöntemler önermişlerdir.

2. Dağıtılmamış bir örnek: Araştırmacılar hedefi başka bir resme aktardıklarında, hedef çerçevede ani bir kenar oluşacaktır ve kenar modifikasyonundan sonra görüntünün eğitim setinin görüntü dağılımı altında oluşması olası değildir. Dahası, ani kenar değişiklikleri gibi bu küçük rahatsızlıklar, ağ çıktısında büyük değişikliklere neden olarak tanıma yanlılığına neden olabilir.

3. Sinyal koruma: Uzay havuzu, verimliliği ve deformasyon olmaması nedeniyle uzay deformasyonu problemi için çok etkilidir, ancak mevcut araştırmalar, uzay havuzunun katmanlaşmasının ağın sürekli yer değiştirmesini engellediğini göstermektedir.

4. Bağlamsal akıl yürütme: Mevcut nesne algılayıcılar bağlamsal akıl yürütme yeteneğine sahip değilken, ağ muhakemesi nesne kategorileri ve bunların göreceli uzamsal düzenleri arasındaki etkileşimi kodlar.Bu bağlamsal muhakeme, Şekil 2'de gösterildiği gibi genellikle tanıma yanlılığına neden olur.

5. Maksimum olmayan bastırma: Maksimum olmayan bastırmanın varlığından dolayı, diğer nesnelerin tıkanma durumu, nesnelerin transplante edilmesi sürecinde değişir, bu da nakledilen nesneden uzaktaki nesnelerin tanınmasında da sorunlara neden olur.

6. İşlevsel girişim: Mevcut nesne algılayıcı, nihai nesne kategorisini ve dikdörtgen sınırlayıcı kutu tahminini oluşturmak için evrişimli katmandan elde edilen özellikleri kullanır. Bu, sınırlayıcı kutu içindeki nesne olmayan parçayı da tanıma nesnesinin bir parçası haline getirir Nesne kategorisi, nesne özelliği açık olmadığında nesne olmayan bölüm bağlamından çıkarılabilse de, aynı zamanda nesnenin doğru tanınmasına da müdahale edecektir.

Tüm nedenler arasında, işlevsel müdahale en temel nedendir ve kısmi kapanma veya bağlamsal akıl yürütmenin neden olduğu etki, bu sorunun somut bir tezahürüdür.

Şu anda bu sorunun çözülmesi zor olsa da, bilim adamı Tsotsos hala bir çözüm modeli öneriyor: Görsel hiyerarşinin ilk geçişi tamamlandığında, baskın sinyal, sinyalin bir sonraki seviyesine uzamsal ve özellik zayıflaması gerçekleştirerek hiyerarşi boyunca yayılacaktır. İlgili nesne hakkında, yani çevredeki özelliklerle daha az karışmış bilgiler içerecektir. Bu modelin tanıma önyargısı sorununu hafifletmesi bekleniyor ve gelecekte gerçekten işe yarayıp yaramayacağını bekleyip göreceğiz.

Lei Feng.com raporları. Lei Feng

Söylentilere göre Megviinin halka arz başvurusu Hong Kong Borsası tarafından onaylandı ve minimum 500 milyon ABD doları toplandı
önceki
Federal öğrenme, derin sahte, şoförsüz ... Önümüzdeki on yıl içinde ne olacak?
Sonraki
ImageNet'in yüz bin etiket hatası olduğunu biliyor muydunuz?
"Baharı Bekliyor" serisi sıcak kalp biter, bulut rüzgarı altında yeni bir eğlence sahnesi yaratır
Otoyol geçiş ücretleri ne zaman devam edecek? Kararı kim etkiliyor?
Bir damla eski tadı, koku daha uzun sürecek
Vali Luoyuan Son sessizliği hatırlıyor musunuz? Yeni yüzyıldan bu yana kaç "Ulusal Yas Günü" yaşandı?
Eğlenmek için Linyi'ye "uçmak" için Sarı Nehir ve Tai Dağı üzerinden 1200 yuan uçmaya ne dersiniz?
Malezya, salgınla mücadelede Çin'i desteklemek için kaligrafi etkinliği düzenledi
Huawei'nin Samsung katlanır ekranları kullanacağı açık; Alipay aşırı yıllık faturalara yanıt veriyor; Lenovo dünyanın ilk 5G bilgisayarını piyasaya sürüyor | Lei Feng Morning Post
Özel Röportaj DJI Incubation Livox Lidar'a Girdi: Başarıdan Başarı Nasıl Kopyalanır? | CES 2020
Bilgisayar yapay zeka performansı artırılacak, Intel, 10 nm Tiger Lake işlemci yapay zeka motoru haberlerini açıkladı
Bitmain, yapay zeka iş CEO'su Zhan Ketuan'ı atadı: İşten çıkarmalara karşı çıkın! İntihar oynayamayız
Today's Paper | Streamline BERT; yüz değişimi; 3D nokta bulutu; DeepFakes ve 5G vb.
To Top