Görüntü tanımanın geleceği: fırsatlar ve zorluklar bir arada var

Bilgisayar görüşü alanında, görüntü tanımanın son yıllarda sıçramalarla ve sınırlarla geliştirilmesi, ancak daha yaygın olarak kullanılmadan önce, çözmemiz gereken birçok zorluk var. Bu makalede, Microsoft Asya Araştırma Enstitüsü Görsel Hesaplama Grubu'ndan araştırmacılar, derin öğrenmenin karşılaştığı mevcut zorlukları görüntü tanıma ve araştırma yönlerinde gelecekteki değeri ile sıraladılar.

Görüntüleri tanımak insanlar için son derece kolaydır, ancak makineler için de uzun zaman geçti.

Bilgisayar görüşü alanında, görüntü tanıma son yıllarda büyük bir hızla gelişti. Örneğin, PASCAL VOC nesne algılama kıyaslama testinde, dedektörün performansı ortalama% 30'luk bir doğruluk oranından bugün% 90'ın üzerine çıktı. Görüntü sınıflandırması için, son derece zorlu ImageNet veri setinde, mevcut gelişmiş algoritmaların performansı insanlarınkini bile aşıyor.

Video izleme, otonom sürüş ve akıllı tıbbi bakım gibi çevremizde yüksek değerli görüntü tanıma teknolojisi uygulamaları gerçekleşiyor Görüntü tanımadaki en son gelişmelerin arkasındaki itici güç derin öğrenmedir. Derin öğrenmenin başarısı temel olarak üç yönden kaynaklanmaktadır: büyük ölçekli veri kümelerinin oluşturulması, güçlü modellerin geliştirilmesi ve büyük miktarda mevcut bilgi işlem kaynağı. Çeşitli görüntü tanıma görevleri için, iyi tasarlanmış derin sinir ağları, daha önce yapay olarak tasarlanmış görüntü özelliklerine dayalı olanları çok geride bıraktı.

Derin öğrenme şimdiye kadar görüntü tanımada büyük başarı elde etmiş olsa da, daha yaygın olarak kullanılmadan önce yüzleşmemiz gereken birçok zorluk var. Aynı zamanda, gelecekteki değeri olan birçok araştırma yönü de gördük.

Zorluk 1: Modelin genelleme yeteneği nasıl geliştirilir

Görüntü tanıma teknolojisi yaygın olarak kullanılmadan önce, bir modelin daha önce hiç görünmemiş sahneler için hala iyi bir genelleme yeteneğine sahip olduğunun nasıl bilinmesi önemli bir zorluktur.

Mevcut uygulamada, veri seti rastgele eğitim seti ve test setine bölünmekte ve model buna göre bu veri seti üzerinden eğitilmekte ve değerlendirilmektedir. Bu yaklaşımda, test setinin eğitim setiyle aynı veri dağılımına sahip olduğu unutulmamalıdır, çünkü hepsi benzer sahne içeriğine ve görüntüleme koşullarına sahip verilerden örneklenmiştir.

Bununla birlikte, pratik uygulamalarda, test görüntüsü eğitim sırasında farklı bir veri dağılımından gelebilir. Daha önce hiç görünmeyen veriler, görüş açısı, boyut ölçeği, sahne yapılandırması ve kamera özellikleri açısından eğitim verilerinden farklı olabilir.

Bir çalışma, veri dağıtımındaki bu farklılığın, çeşitli derin ağ modellerinin doğruluğunda önemli bir düşüşe neden olacağını göstermektedir. Mevcut modellerin veri dağıtımındaki doğal değişikliklere duyarlılığı, otonom sürüş gibi temel uygulamalar için ciddi bir sorun haline gelebilir.

Zorluk 2: Küçük ölçekli ve süper ölçekli verileri kullanma

Yüzleşmemiz gereken bir diğer önemli zorluk, küçük ölçekli eğitim verilerinin nasıl daha iyi kullanılacağıdır. Derin öğrenme, büyük miktarda etiketli veri kullanarak çeşitli görevlerde büyük başarı elde etse de, mevcut teknoloji genellikle küçük veri senaryolarında çöker çünkü yalnızca birkaç etiketli örnek mevcuttur. Bu senaryo genellikle "birkaç aşamalı öğrenme" olarak adlandırılır ve pratik uygulamalarda dikkatlice dikkate alınması gerekir. Örneğin, bir ev robotunun görevi tamamlaması beklenir: ona yeni bir nesne gösterin ve onu yalnızca bir kez gösterin, ardından nesneyi tanıyabilir. Bir kişi, nesne daha sonra manipüle edilmiş olsa bile, örneğin bir battaniye katlanmış olsa bile, bu görevi doğal olarak tamamlayabilir. İnsanlar gibi sinir ağı genelleme yeteneklerinin nasıl verileceği açık bir araştırma sorusudur.

Diğer uç nokta, tanıma algoritmalarının performansını etkili bir şekilde iyileştirmek için süper büyük ölçekli verilerin nasıl kullanılacağıdır. Otonom sürüş gibi kritik uygulamalar için, görüntü tanımada hata maliyeti çok yüksektir. Bu nedenle araştırmacılar, zengin ek açıklamalara sahip yüz milyonlarca görüntü içeren çok büyük veri kümeleri oluşturdular ve bu verileri modelin doğruluğunu önemli ölçüde iyileştirmek için kullanmayı umuyorlar.

Ancak, mevcut algoritmalar bu ultra büyük ölçekli verileri iyi bir şekilde kullanamıyor. 300 milyon açıklamalı resim içeren JFT veri setinde, çeşitli derin ağların performansı yalnızca eğitim verilerinin miktarı arttıkça logaritmik bir gelişme gösterdi (Şekil 1). Büyük ölçekli veriler söz konusu olduğunda, eğitim verilerini artırmaya devam etmenin faydaları gittikçe daha az belirgin hale gelecektir ki bu, çözülmesi gereken önemli bir sorundur.

Şekil 1 JFT-300M veri setinde hedef tespit performansı, eğitim örneklerinin artmasıyla logaritmik olarak artar. X ekseni, logaritmik ölçekte veri boyutudur. Y ekseni, hedef tespit performansıdır. Soldaki resim COCO minival test setindeki mAP @ göstergesini kullanır ve sağdaki resim PASCAL VOC 2007 test setindeki mAP@0.5 göstergesini kullanır. Kırmızı ve mavi eğriler iki farklı modeli temsil eder.

Zorluk 3: Kapsamlı sahne anlayışı

Eğitim verileri ve genelleme yetenekleri ile ilgili bu konulara ek olarak, bir diğer önemli araştırma konusu da kapsamlı sahne anlayışıdır. Sahnedeki nesneleri tanımanın ve konumlandırmanın yanı sıra, insanlar nesneler ve nesneler arasındaki ilişkiyi, parçadan bütüne hiyerarşiyi, nesnelerin niteliklerini ve üç boyutlu sahnenin düzenini de çıkarabilir.

Sahnenin daha geniş bir şekilde anlaşılması, robot etkileşimi gibi uygulamalara yardımcı olacaktır, çünkü bu uygulamalar genellikle nesne tanımlama ve konumdan başka bilgiler gerektirir. Bu görev sadece sahnenin algılanmasını değil, aynı zamanda gerçek dünyanın bilişsel anlayışını da içerir. Bu hedefe ulaşmak için daha gidecek çok yolumuz var. Kapsamlı bir sahne anlayışına örnek, Şekil 2'de gösterildiği gibi panoramik bölümlemedir.

Şekil 2 (a) Orijinal görüntü; (b) Anlamsal bölümleme: Gökyüzü, çimen, yollar vb. Gibi sabit şekiller içermeyen sayılamayan maddeleri tanıma İşaretleme yöntemi genellikle her pikseli etiketlemektir; (c) Örnek bölümleme: İnsanlar, hayvanlar veya araçlar gibi sayılabilir ve bağımsız nesne örneklerini, genellikle hedefi işaretlemek için sınırlayıcı kutular veya segmentasyon maskeleri kullanarak segmentlere ayırmak için; (d) Panoramik segmentasyon: Malzemeleri tanımlayabilen birleşik, global segmentasyon görüntüsü oluşturun ve Nesneleri tanımlayın.

Zorluk 4: Otomatik ağ tasarımı

Bahsetmeye değer son zorluk, ağ tasarımını otomatikleştirmektir. Son yıllarda, görüntü tanıma alanının odak noktası, daha iyi özellikler tasarlamaktan yeni ağ mimarileri tasarlamaya doğru kaymıştır. Bununla birlikte, bir ağ mimarisi tasarlamak, çok sayıda hiperparametre ve tasarım seçeneği ile uğraşmayı gerektiren uzun ve sıkıcı bir süreçtir. Bu unsurları ayarlamak, deneyimli mühendislerin çok fazla zaman ve enerji harcamasını gerektirir.

Daha da önemlisi, bir görev için en uygun mimari, başka bir görev için optimum mimariden tamamen farklı olabilir. Otomatik sinir mimarisi araştırması üzerine araştırmamız başlamış olsa da, bunlar hala erken aşamadalar ve yalnızca görüntü sınıflandırma görevlerine uygulanabilir. Mevcut yöntemlerin arama alanı çok dardır, çünkü mevcut ağ modüllerinin (derin ayrılabilir evrişim ve kimlik bağlantıları gibi) yerel olarak optimal bir kombinasyonunu ararlar ve yeni modüller bulamazlar. Bu mevcut yöntemlerin daha karmaşık görevler için yeterli olup olmadığı belirsizdir.

Şekil 3 Sinir mimarisi arama algoritmasının soyut çizimi. Arama stratejisi önce önceden tanımlanmış arama alanından bir mimari A seçer Bu mimari daha sonra değerlendirme stratejisi tarafından değerlendirilir ve A'nın değerlendirilen performansı arama stratejisine aktarılır.

Görüntü tanıma alanında yukarıda bahsedilen birçok zorluğa rağmen, görüntü tanıma alanında derin öğrenmenin büyük potansiyeline hala inanıyoruz. Bu sorunları çözme fırsatları çoktur. Şimdi şu araştırma yönergelerinden bazılarına bir göz atalım:

Yön 1: Sağduyuyu entegre edin

Görüntü tanıma alanındaki önemli bir araştırma yönü, sağduyuyu derin öğrenmeye entegre etmektir. Şu anda, derin öğrenme esas olarak salt veriye dayalı bir teknoloji olarak kullanılmaktadır. Derin öğrenmede, sinir ağı doğrusal olmayan bir işlevi öğrenmek için eğitim setindeki etiketli örnekleri kullanır ve ardından öğrenilen işlevi test sırasında resim piksellerine uygular. Eğitim seti dışındaki bilgiler hiç kullanılmamaktadır.

Buna karşılık, insanlar nesneleri yalnızca gördükleri örneklere göre değil, aynı zamanda gerçek dünya hakkındaki sağduyularına göre de tanırlar. İnsanlar mantıksız tanıma sonuçlarından kaçınmak için gördükleri hakkında akıl yürütebilirler. Ek olarak, yeni veya beklenmedik bir şeyle karşılaştıklarında, insanlar bu yeni deneyimi açıklamak için bilgilerini hızla ayarlayabilirler. Derin ağlarda sağduyu kazanmak ve ifade etmek ve akıl yürütmek için sağduyu kullanmak bir sorundur.

Yön 2: Geometrik akıl yürütme

Görüntü tanıma ve geometrik muhakemenin birlikte uygulanması, bir başka umut verici yöndür. Görüntü tanımanın ana modeli yalnızca iki boyutlu görünümü dikkate alırken, insanlar üç boyutlu sahnenin düzenini algılayabilir ve içsel anlamsal kategorisini çıkarabilir. Üç boyutlu düzen, yalnızca dürbün görüşünden değil, aynı zamanda insanların fotoğraflara bakarken yaptıkları gibi iki boyutlu girdinin geometrik çıkarımından da elde edilebilir. Ortak görüntü tanıma ve geometrik akıl yürütme, her iki taraf için de fayda sağlar.

Geometrik akıl yürütmeden belirlenen üç boyutlu düzen, görünmez perspektif, deformasyon ve görünüm durumunda tanımaya rehberlik edebilir. Ayrıca mantıksız anlamsal düzenleri ortadan kaldırabilir ve üç boyutlu şekli veya işlevi ile tanımlanan kategorileri belirlemeye yardımcı olabilir. Örneğin kanepe kategorisinde görünüşte çok büyük farklılıklar var. Ancak, onları tanımlamaya yardımcı olabilecek ortak özellikleri paylaşırlar. Örneğin, hepsinin oturma için yatay bir yüzeyi ve destek için bir arka tarafı vardır. Öte yandan, tanımlanan anlambilim geometrik akıl yürütmenin çözüm uzayını normalleştirebilir. Örneğin, bir sahnede bir köpek tanınırsa, karşılık gelen üç boyutlu yapısı köpeğin üç boyutlu şekil modeline uygun olmalıdır.

Şekil 4 Karmaşık dinamik sahnenin nokta bulutu, videonun iki farklı perspektifinin karelerinden yeniden oluşturulur.

Yön 3: İlişkileri modelleme

İlişki modellemesi aynı zamanda büyük bir araştırma potansiyeline sahiptir. Bir sahneyi tam olarak anlamak için, sahnedeki hedef varlıklar arasındaki ilişkiyi ve etkileşimi modellemek çok önemlidir (Şekil 4). İki resim düşünün, her resimde bir kişi ve bir at var. Biri ata binen bir kişiyi, diğeri de bir kişinin üzerine çıkan bir atı gösteriyorsa, bu iki resim açıkça tamamen farklı anlamlar ifade ediyor. Ek olarak, ilişkisel modelleme yoluyla çıkarılan temel sahne yapısı, sınırlı veriler nedeniyle mevcut derin öğrenme yöntemlerinin belirsizliğini ve belirsizliğini telafi etmeye yardımcı olabilir. İnsanlar ilişki modelleme sorununu çözmeye çalışıyor olsalar da, bu araştırma hala başlangıç niteliğindedir ve keşif için hala çok yer vardır.

Şekil 5 Hedef tespitte ilişki ağı. Bir nesnenin görünüm özelliklerini temsil eder, nesnenin geometrik özelliklerini temsil eder

Yön 4: Nasıl öğrenileceğini öğrenin

Burada bahsetmeye değer bir başka yön de meta öğrenmedir, amacı öğrenme sürecini öğrenmektir. Bu konu son zamanlarda büyük ilgi gördü ve sinir mimarisi araştırması da bunun bir uygulaması olarak düşünülebilir.

Bununla birlikte, öğrenme süreçlerini modellemeye yönelik mekanizmalar, temsiller ve algoritmalar hala nispeten ilkel olduğundan, meta-öğrenme üzerine araştırmalar hala erken aşamalarındadır. Örnek olarak sinir mimarisi aramasını ele alalım, mevcut ağ modüllerinin basit bir kombinasyonu ile sınırlıdır. Meta öğrenenler, yeni ağ modülleri oluşturmak için gereken ince sezgiyi ve keskin içgörüyü yakalayamazlar. Meta öğrenmenin ilerlemesiyle, otomatik mimari tasarımın potansiyeli tamamen serbest bırakılabilir ve bu da manuel tasarımın çok ötesinde bir ağ yapısı ile sonuçlanabilir.

Şekil 6 Meta öğrenmedeki son gelişmeler. Soldan sağa, meta-öğrenme hiperparametre optimizasyonu, sinir mimarisi araması ve az sayıda örnek görüntü sınıflandırması vardır.

Bu heyecan verici bir görüntü tanıma çağı, saha geliştirmeyi teşvik etmek ve gelecekteki uygulamaları etkilemek için fırsatlarla dolu bir çağ. Önümüzdeki ilerlemeyi dört gözle bekliyoruz ve hayatlarımızı derin ve büyülü şekillerde değiştirmek için bu yeni teknolojileri dört gözle bekliyoruz.

Kaynak: Microsoft Research AI manşetleri

Yazar: Nesil zirve sezonu, Lin Side, Guo Baining

- SON -

TÜFE 2.Çağa geri dönüyor, Çin domuzları petrodolar peynirini hareket ettirmek üzere olabilir
önceki
Dünyanın en havalı 10 yüzme havuzunu izledikten hemen sonra suya atlamak istiyorum
Sonraki
Nakit paranın kral olduğu dönüm noktası mı yoksa Çin parasının fiyatının altına indiği mi ortaya çıktı?
Cesur! Korkusuz! ateşlemek!
Sarhoş araba kullanmak başkalarına zarar verir ve trafik polisi bunu engellemek için bu uyarı sözcüklerini bile ortaya atmıştır!
Anıları korumak, "herkes" sorumludur!
Eylül, birkaç insanı ve güzel manzarasıyla kaçmak için en uygun şehirdir, birkaç gününü rahat geçirmek için birini seçin
Giriş fiyatı 150.000 kadar düşük, zorlu adamlar için sahip olunması gereken bir SUV! Hangisinin senin yemeğin olduğunu gör
Panda Live çevrimdışı ve Wang Sicong güvenilmez!
Çin'in yapay zeka çip savaşı zor başladı
Sabah saat ikide babam kızını almak için tren istasyonunda bekliyordu ...
Neden bu kadar çok insan manuel şanzımanı seviyor? Netizen: Kimse arabayı ödünç almaz, gerçekten kimse ödünç almaz!
Üzgünüm, Moments'ın güzel görüntüsüne layık değilsiniz
Dünyada bir numara olmak o kadar kolay değil! Neymar'ın sınırsız ihlal edildiğini görün!
To Top