MSRA 20. Yıl Araştırma Trendi Makalesi Görüntü Tanıma'nın Geleceği: Fırsatlar ve Zorluklar Bir Arada Var

Microsoft Research Asia'nın kuruluşunun 20. yıl dönümü olan bu yıl, şimdi araştırmacı teknoloji trendleri imzalı makaleler yayınlıyor.Bu makale, Microsoft Research Asia tarafından DeepTech yayınlama yetkisine sahip.

Görüntüleri tanımak insanlar için son derece kolaydır, ancak makineler için de uzun zaman geçti.

Bilgisayar görüşü alanında, görüntü tanıma, son yıllarda büyük bir hızla gelişti. Örneğin, PASCAL VOC nesne algılama kıyaslama testinde, dedektörün performansı ortalama% 30'luk bir doğruluk oranından bugün% 90'ın üzerine çıktı. Görüntü sınıflandırması için, son derece zorlu ImageNet veri setinde, mevcut gelişmiş algoritmaların performansı insanlarınkini bile aşıyor.

Video gözetimi, otonom sürüş ve akıllı tıbbi bakım gibi çevremizde yüksek değerli görüntü tanıma teknolojisi uygulamaları gerçekleşiyor Görüntü tanımadaki en son gelişmelerin arkasındaki itici güç derin öğrenmedir. Derin öğrenmenin başarısı temel olarak üç yönden kaynaklanmaktadır: büyük ölçekli veri kümelerinin oluşturulması, güçlü modellerin geliştirilmesi ve mevcut büyük miktarda bilgi işlem kaynağı. Çeşitli görüntü tanıma görevleri için, iyi tasarlanmış derin sinir ağları, daha önce yapay olarak tasarlanmış görüntü özelliklerine dayananları çok geride bıraktı.

Derin öğrenme şimdiye kadar görüntü tanımada büyük başarı elde etmiş olsa da, daha yaygın olarak kullanılmadan önce yüzleşmemiz gereken birçok zorluk var. Aynı zamanda, gelecekteki değeri olan birçok araştırma yönü de gördük.

Zorluk 1: Modelin genelleme yeteneği nasıl geliştirilir

Görüntü tanıma teknolojisi yaygın olarak kullanılmadan önce, bir modelin daha önce hiç görünmemiş sahneler için hala iyi bir genelleme yeteneğine sahip olduğunun nasıl bilinmesi önemli bir zorluktur.

Mevcut uygulamada, veri seti rastgele bir eğitim seti ve bir test setine bölünmekte ve model buna göre bu veri seti üzerinde eğitilmekte ve değerlendirilmektedir. Bu yaklaşımda, test setinin eğitim setiyle aynı veri dağılımına sahip olduğuna dikkat edilmelidir, çünkü hepsi benzer sahne içeriğine ve görüntüleme koşullarına sahip verilerden örneklenmiştir.

Ancak pratik uygulamalarda test görüntüsü eğitim sırasında farklı bir veri dağılımından gelebilir. Daha önce hiç görünmeyen veriler, perspektif, boyut ölçeği, sahne yapılandırması ve kamera özellikleri açısından eğitim verilerinden farklı olabilir.

Bir çalışma, veri dağıtımındaki bu farkın, çeşitli derin ağ modellerinin doğruluğunda önemli bir düşüşe neden olacağını gösterdi. Mevcut modellerin veri dağıtımındaki doğal değişikliklere duyarlılığı, otonom sürüş gibi temel uygulamalar için ciddi bir sorun haline gelebilir.

Zorluk 2: Küçük ölçekli ve süper ölçekli verileri kullanma

Yüzleşmemiz gereken bir diğer önemli zorluk, küçük ölçekli eğitim verilerinin nasıl daha iyi kullanılacağıdır. Derin öğrenme, büyük miktarda etiketli veri kullanarak çeşitli görevlerde büyük başarı elde etmesine rağmen, mevcut teknoloji genellikle küçük veri senaryolarında çöker çünkü yalnızca birkaç etiketli örnek mevcuttur. Bu senaryo genellikle "birkaç aşamalı öğrenme" olarak adlandırılır ve pratik uygulamalarda dikkatlice dikkate alınması gerekir. Örneğin, bir ev robotunun böyle bir görevi tamamlaması beklenir: ona yeni bir nesne gösterin ve onu yalnızca bir kez gösterin, ardından nesneyi tanıyabilir. Bir kişi, nesne daha sonra manipüle edilmiş olsa bile, örneğin bir battaniye katlanmış olsa bile, bu görevi doğal olarak tamamlayabilir. İnsanlar gibi genelleme yeteneklerine sahip sinir ağlarının nasıl verileceği açık bir araştırma sorusudur.

Diğer uç nokta, tanıma algoritmalarının performansını etkili bir şekilde iyileştirmek için süper büyük ölçekli verilerin nasıl kullanılacağıdır. Otonom sürüş gibi kritik uygulamalar için, görüntü tanımadaki hataların maliyeti çok yüksektir. Bu nedenle araştırmacılar, zengin ek açıklamalara sahip yüz milyonlarca görüntü içeren çok büyük veri kümeleri oluşturdular ve bu verileri modelin doğruluğunu önemli ölçüde artırmak için kullanmayı umuyorlar.

Ancak, mevcut algoritmalar bu tür ultra büyük ölçekli verileri iyi bir şekilde kullanmamaktadır. 300 milyon açıklamalı görüntü içeren JFT veri setinde, çeşitli derin ağların performansı yalnızca eğitim verilerinin miktarı arttıkça logaritmik bir gelişme gösterdi (Şekil 1). Büyük ölçekli veriler söz konusu olduğunda, eğitim verilerini artırmaya devam etmenin faydaları gittikçe daha az belirgin hale gelecektir ki bu çözülmesi gereken önemli bir sorundur.

Şekil | JFT-300M veri setinde hedef tespit performansı, eğitim örneklerinin artmasıyla logaritmik olarak artar. X ekseni, logaritmik ölçekte veri boyutudur. Y ekseni, hedef tespit performansıdır. Soldaki resim COCO minival test setindeki mAP @ göstergesini kullanır ve sağdaki resim PASCAL VOC 2007 test setindeki mAP@0.5 göstergesini kullanır. Kırmızı ve mavi eğriler iki farklı modeli temsil eder. (Kaynak: Microsoft)

Zorluk 3: Kapsamlı sahne anlayışı

Eğitim verileri ve genelleme yetenekleri ile ilgili bu konulara ek olarak, bir diğer önemli araştırma konusu da kapsamlı sahne anlayışıdır. Sahnedeki nesneleri tanımlamanın ve konumlandırmanın yanı sıra, insanlar nesneler ve nesneler arasındaki ilişkiyi, parçanın bütünün seviyesini, nesnelerin niteliklerini ve üç boyutlu sahnenin düzenini de çıkarabilir.

Sahnenin daha geniş bir şekilde anlaşılması, robot etkileşimi gibi uygulamalara yardımcı olacaktır, çünkü bu uygulamalar genellikle nesne tanımlama ve konumdan başka bilgiler gerektirir. Bu görev sadece sahnenin algılanmasını değil, aynı zamanda gerçek dünyanın bilişsel anlayışını da içerir. Bu hedefe ulaşmak için daha almamız gereken uzun bir yol var. Kapsamlı bir sahne anlayışına örnek, Şekil 2'de gösterildiği gibi panoramik bölümlemedir.

Şekil | (a) Orijinal görüntü; (b) Anlamsal bölümleme: Gökyüzü, çimen, yol vb. Gibi sabit bir şekli olmayan sayılamayan şeyleri tanıma. İşaretleme yöntemi genellikle her pikseli etiketlemektir; (c) Örnek bölümleme: İnsanlar, hayvanlar veya araçlar gibi sayılabilir ve bağımsız nesne örneklerini bölümlere ayırmak için genellikle hedefi bir sınırlayıcı kutu veya bölümleme maskesi ile işaretleyin; (d) Panoramik bölümleme: Her iki malzemeyi de tanıyabilen birleşik, küresel bölümlere ayrılmış bir görüntü oluşturun Nesneleri tanımlayın. (Kaynak: Microsoft)

Zorluk 4: Otomatik ağ tasarımı

Bahsetmeye değer son zorluk, ağ tasarımını otomatik hale getirmektir. Son yıllarda, görüntü tanıma alanının odak noktası, daha iyi özellikler tasarlamaktan yeni ağ mimarileri tasarlamaya doğru kaymıştır. Bununla birlikte, bir ağ mimarisi tasarlamak, çok sayıda hiperparametre ve tasarım seçeneği ile uğraşmayı gerektiren uzun ve yorucu bir süreçtir. Bu unsurları ayarlamak, deneyimli mühendislerin çok fazla zaman ve enerji harcamasını gerektirir.

Daha da önemlisi, bir görev için en uygun mimari, başka bir görev için optimum mimariden tamamen farklı olabilir. Otomatik sinir mimarisi araştırması konusundaki araştırmamız çoktan başlamış olsa da, bunlar hala erken aşamadalar ve yalnızca görüntü sınıflandırma görevlerine uygulanabilir. Mevcut yöntemlerin arama alanı çok dardır, çünkü mevcut ağ modüllerinin (derin ayrılabilir evrişim ve kimlik bağlantıları gibi) yerel olarak optimal bir kombinasyonunu ararlar ve yeni modüller bulamazlar. Bu mevcut yöntemlerin daha karmaşık görevler için yeterli olup olmadığı belirsizdir.

Şekil | Sinir mimarisi arama algoritmasının soyut çizimi. Arama stratejisi önce önceden tanımlanmış arama alanı A'dan bir mimari A seçer. Bu mimari daha sonra değerlendirme stratejisi tarafından değerlendirilir ve A'nın değerlendirilen performansı arama stratejisine aktarılır. (Kaynak: Microsoft)

Görüntü tanıma alanında birçok zorluk olmasına rağmen, görüntü tanıma alanında derin öğrenmenin büyük potansiyeline hala inanıyoruz. Bu sorunları çözme fırsatları çoktur. Şu araştırma yönergelerinden bazılarına bir göz atalım:

Yön 1: Sağduyuyu entegre edin

Görüntü tanıma alanındaki önemli bir araştırma yönü, sağduyuyu derin öğrenmeye entegre etmektir. Şu anda, derin öğrenme esas olarak salt veriye dayalı bir teknoloji olarak kullanılmaktadır. Derin öğrenmede, sinir ağı doğrusal olmayan bir işlevi öğrenmek için eğitim setindeki etiketli örnekleri kullanır ve ardından öğrenilen işlevi test sırasında resim piksellerine uygular. Eğitim seti dışındaki bilgiler hiç kullanılmamaktadır.

Buna karşılık, insanlar nesneleri yalnızca gördükleri örneklere göre değil, aynı zamanda gerçek dünya hakkındaki sağduyularına göre de tanırlar. İnsanlar mantıksız tanıma sonuçlarından kaçınmak için gördükleri hakkında akıl yürütebilirler. Ek olarak, yeni veya beklenmedik bir şeyle karşılaştıklarında, insanlar bu yeni deneyimi açıklamak için bilgilerini hızla ayarlayabilirler. Derin ağlarda sağduyu kazanmak ve ifade etmek ve akıl yürütmek için sağduyu kullanmak bir sorundur.

Yön 2: Geometrik Akıl Yürütme

Görüntü tanımanın ve geometrik muhakemenin birlikte uygulanması, bir başka umut verici yöndür. Görüntü tanımanın ana modeli yalnızca iki boyutlu görünümü dikkate alırken, insanlar üç boyutlu sahnenin düzenini algılayabilir ve içsel anlamsal kategorisini çıkarabilir. Üç boyutlu düzen sadece dürbün görüşünden değil, aynı insanların fotoğraflara bakarken yaptıkları gibi iki boyutlu girdinin geometrik muhakemesinden de elde edilebilir. Ortak görüntü tanıma ve geometrik akıl yürütme, her iki taraf için de fayda sağlar.

Geometrik akıl yürütmeyle belirlenen üç boyutlu düzen, görünmez perspektif, deformasyon ve görünüm durumunda tanımaya yardımcı olabilir. Ayrıca mantıksız anlamsal düzenleri ortadan kaldırabilir ve üç boyutlu şekli veya işlevi ile tanımlanan kategorileri belirlemeye yardımcı olabilir. Örneğin kanepenin görünümünde çok büyük farklılıklar var. Ancak, onları tanımlamaya yardımcı olabilecek ortak özellikleri paylaşırlar. Örneğin, hepsinin oturma için yatay bir yüzeyi ve destek için bir sırtı vardır. Öte yandan, belirlenen anlambilim, geometrik akıl yürütmenin çözüm uzayını normalleştirebilir. Örneğin, bir sahnede bir köpek tanınırsa, karşılık gelen üç boyutlu yapısı köpeğin üç boyutlu şekil modeline uygun olmalıdır.

Şekil | Videonun farklı perspektiflerinden iki kareden karmaşık dinamik bir sahnenin nokta bulutunu yeniden oluşturun (Kaynak: Microsoft)

Yön 3: İlişkileri modelleme

İlişki modellemesi aynı zamanda büyük bir araştırma potansiyeline sahiptir. Bir sahneyi tam olarak anlamak için, sahnedeki hedef varlıklar arasındaki ilişkiyi ve etkileşimi modellemek çok önemlidir (Şekil 4). İki resim düşünün, her resimde bir kişi ve bir at var. Biri ata binen bir kişiyi, diğeri de bir insanın üzerine çıkan bir atı gösteriyorsa, bu iki resim açıkça tamamen farklı anlamlar ifade ediyor. Ek olarak, ilişkisel modelleme yoluyla çıkarılan temel sahne yapısı, sınırlı veriler nedeniyle mevcut derin öğrenme yöntemlerinin belirsizliğini ve belirsizliğini telafi etmeye yardımcı olabilir. İnsanlar ilişki modelleme problemini çözmeye çalışıyor olsalar da, bu araştırma hala başlangıç niteliğindedir ve keşif için hala çok yer vardır.

Şekil | Hedef tespitte ilişki ağı. Nesnenin görünüm özelliklerini ve nesnenin geometrik özelliklerini temsil eder (Kaynak: Microsoft)

Yön 4: Nasıl öğrenileceğini öğrenin

Burada bahsetmeye değer bir başka yön de meta-öğrenmedir, amacı öğrenme sürecini öğrenmektir. Bu konu son zamanlarda büyük ilgi gördü ve sinir mimarisi araştırması da bunun bir uygulaması olarak düşünülebilir.

Bununla birlikte, öğrenme sürecini modellemek için mekanizmalar, temsiller ve algoritmalar hala nispeten ilkel olduğundan, meta-öğrenme üzerine araştırma hala erken bir aşamadadır. Örnek olarak sinir mimarisi aramasını ele alalım, mevcut ağ modüllerinin basit bir kombinasyonu ile sınırlıdır. Meta öğrenenler, yeni ağ modülleri oluşturmak için gereken ince sezgiyi ve keskin içgörüyü yakalayamazlar. Meta öğrenmenin ilerlemesiyle, otomatik mimari tasarımın potansiyeli tamamen serbest bırakılabilir ve bu da manuel tasarımın çok ötesinde bir ağ yapısı ile sonuçlanabilir.

Şekil | Meta öğrenmenin son ilerlemesi. Soldan sağa, meta-öğrenme hiperparametre optimizasyonu, sinir mimarisi araması ve az sayıda örnek görüntü sınıflandırması vardır. (Kaynak: Microsoft)

Bu, alanın gelişimini teşvik etmek ve gelecekteki uygulamaları etkilemek için fırsatlarla dolu bir çağ olan heyecan verici bir görüntü tanıma çağıdır. Önümüzdeki ilerlemeyi dört gözle bekliyoruz ve hayatlarımızı derin ve büyülü şekillerde değiştirmek için bu yeni teknolojileri dört gözle bekliyoruz.

Karanlıkta "Dansçılar": Huntington hastalığı grubu portresi
önceki
On yıllık Japon kızları ve Çinli kadınlar: Japon hükümeti özür dilemeden Hainan'a devam edecek
Sonraki
"Hangzhou kundakçılık davasına" karışan dadı kovuşturuldu | Yangından iki ay sonra: iyileşmesi zor yaralar
NEEQ Piyasa Yapıcı Sıralaması: Birçok aracı kurumun piyasa değerindeki büyüme
Talk ColumnRocket Lab 140 milyon doları yeniden finanse etti, ancak pazar rekabeti giderek kızışıyor
Kumarbaz, Yazar, Cinayet Şüpheli | Zhejiang "Miemen Katliamı" Zanlısının 22 Yıl Boyunca Beyaz Badanası
Bu çorbayı soğukta daha fazla iç ve yıl boyunca öksürme!
Bankacılık Yüksekokulu Öğrencilerinin Üç Kapısı | Öneri
Üçüncü listede kaybetti! Canaan Zhizhi, Hong Kong'un halka arzının hayal kırıklığına uğradığını ve dönüşüme giden yolun dikenlerle dolu olduğunu bildirdi.
WeChat resmi hesabı, diş macunu sıkma, daha çok güncellemeler için güncelleme gibi kuralları günceller
"Killing Godfather Matt" Luo Fuxing'in dönüşümü
MLM'ye girmeyi reddetme, kaderle mücadele, kız üniversite öğrencisi Lin Huarong nehre atmadan 25 gün önce
Teknoloji şirketi genel merkezinin büyük gayrimenkulü: Apple bir "uzay gemisi" inşa ediyor Google bir "çadır" kuruyor, WeChat "büyük bir platform" ile geliyor ...
Tanıklar MLM rutinlerinden bahsediyor: kuzey fraksiyonu basit ve kaba, güney fraksiyon saldırıyor ve beyin yıkıyor
To Top