ICCV 2019 bildirileri önceden kabul ediyor, yayınlanan 11 seçilmiş bildiriyi küçümsüyor | Kaynaklar

Aufei Tapınağı'ndan Balık ve Koyun

Qubit Raporu | Genel Hesap QbitAI

ICCV 2019'un nihai makale kabul sonuçları nihayet açıklandı.Bu kez% 25 kabul oranıyla toplam 1.077 makale kabul edildi.

ICCV'nin tam adı IEEE Uluslararası Bilgisayarlı Görü Konferansı, IEEE sponsorluğundaki Uluslararası Bilgisayarlı Görü Konferansı ve Bilgisayarla Görme Örüntü Tanıma Konferansı (CVPR) ve Avrupa Bilgisayarlı Görü Konferansı (ECCV), bilgisayarla görme yönündeki en önemli üç konferans olarak adlandırılıyor.

ICCV yalnızca iki yılda bir düzenlenir, düşük kağıt kabul oranıyla bilinir ve üç konferans arasında en yüksek olarak kabul edilir.

Bu ICCV 27 Ekim - 2 Kasım tarihleri arasında Güney Kore, Seul'deki COEX Kongre Merkezi'nde düzenlenecek.

Bu kez, AI Unicorn Megvii'nin metinden resme, veri setlerinden yeni modellere kadar 11 kağıt seçildi ve içerik oldukça zengin. Gelin ve kübitlerle öğrenin ~

Giriş

1. Makalenin başlığı: Objects365: Nesne Algılama için Büyük Ölçekli, Yüksek Kaliteli Veri Kümesi

Kağıt bağlantısı: Hayır

Açık kaynak bağlantısı: https://www.objects365.org/overview.html

Anahtar kelimeler: nesne algılama, veri seti

Özet:

Bu makalede, 600.000'den fazla görüntü, 365 kategori ve 10 milyondan fazla yüksek kaliteli sınırlayıcı kutuya sahip yeni bir büyük ölçekli nesne algılama veri kümesi Objects365'i sunuyoruz. İyi tasarlanmış üç adımlı bir açıklama ardışık düzeniyle manuel olarak etiketlenen bu, bugüne kadarki en büyük nesne algılama veri kümesidir (tam açıklamalarla) ve topluluk için daha zorlu bir kıyaslama oluşturur.

Objects365, hedef algılama ve segmentasyon gibi konuma duyarlı görevler için daha iyi bir özellik öğrenme veri seti olarak kullanılabilir.

Objects365 ön eğitim modeli, ImageNet eğitim öncesi modelinden önemli ölçüde daha iyidir: AP, 90K / 540K yinelemeleri için COCO eğitimi alırken 5,6 (42'ye karşı 36,4) / 2,7 (42'ye karşı 39,3) artar. Aynı zamanda, aynı doğruluğa ulaşıldığında, ince ayar süresi büyük ölçüde azaltılabilir (farkın 10 katına kadar). CityPersons, VOC Segmentation ve ADE'de, Object365'in daha iyi genelleme yeteneği de doğrulanmıştır. Veri kümesini ve önceden eğitilmiş tüm modelleri yayınlayacağız.

Objects365, Megvii Araştırma Enstitüsü tarafından yayınlanan genel bir nesne tespit veri setidir.Araştırma ekibi, Megvii Teknolojisinin baş bilim adamı Sun Jian tarafından yönetilmektedir.

Bundan önce, Objects365 ve daha önce piyasaya sürülen büyük ölçekli kalabalık sahne veri kümesi için CrowdHuman, Megvii Technology ve Beijing Zhiyuan Yapay Zeka Araştırma Enstitüsü de Detection In the Wild 2019 (DIW 2019) yarışmasını başlattı ve 2019 CVPR Workshop'a katıldı.

2. Kağıt adı: ThunderNet: Gerçek Zamanlı Genel Nesne Algılamaya Doğru

Makaleye bağlantı: https://arxiv.org/abs/1903.11752

Anahtar kelimeler: genel nesne algılama

Özet:

Bilgisayar görüşü alanında, mobil cihazlarda gerçek zamanlı hedef tespitinin nasıl gerçekleştirileceği çok önemli ve çok zorlu bir görevdir. Bununla birlikte, mevcut CNN tabanlı hedef tespit ağları genellikle çok büyük hesaplama ek yükü gerektirir ve bu da bu ağ modellerinin mobil cihazlara yerleştirilip uygulanamamasına neden olur.

Bu makalede, mobil gerçek zamanlı hedef tespit görevlerinde iki aşamalı hedef tespit modelinin etkinliğini araştırdık ve hafif bir iki aşamalı hedef tespit modeli ThunderNet önerdik. Omurga ağı bölümünde, önceki hafif omurga ağının eksikliklerini analiz ettik ve hedef tespit görevleri için tasarlanmış hafif bir omurga ağı önerdik. Algılama ağı kısmında, çok basit bir RPN ve algılama kafası tasarımını benimsedik. Daha ayırt edici bir özellik temsili üretmek için iki ağ modülü tasarladık: Bağlam Geliştirme Modülü (CEM) ve Uzamsal Dikkat Modülü (SAM). Son olarak, giriş çözünürlüğü, omurga ağı ve hafif hedef tespit modelinin tespit kafası arasındaki dengeyi tartıştık.

Önceki hafif tek aşamalı hedef algılama modeliyle karşılaştırıldığında ThunderNet, Pascal VOC ve COCO veri setlerinde daha iyi algılama doğruluğu elde etmek için hesaplama ek yükünün yalnızca% 40'ına ihtiyaç duyar. ThunderNet ayrıca mobil cihazlarda 24.1 fps gerçek zamanlı algılama elde etti. Bunun, ARM platformunda bildirilen ilk gerçek zamanlı algılama modeli olduğu biliniyor.

Tezin ortak yazarı, Megvii'de pratik yapan CS'de doktora adayı Zheng Qin'dir.

Diğeri, Despise Araştırma Enstitüsü'nde araştırmacı olan Li Zeming.

3. Kağıt adı: Piksel Toplama Ağı ile Etkin ve Doğru, Keyfi Şekilli Metin Algılama

Kağıt bağlantısı: Hayır

Anahtar kelimeler: metin algılama

Özet:

Sahne metin algılama, sahne metin okuma sisteminde önemli bir adımdır Evrişimli sinir ağlarının hızla gelişmesiyle, sahne metni algılama da büyük ilerleme kaydetmiştir. Bununla birlikte, metin algılamanın gerçek dünya uygulamalarına dağıtımını engelleyen iki ana zorluk vardır.

İlk konu, hız ve doğruluk arasındaki dengedir. İkincisi, rastgele şekillerin metin örneklerini modellemektir. Son zamanlarda, rastgele şekillerin metin tespiti ile ilgilenmek için bazı yöntemler önerilmiştir, ancak bunlar, gerçek uygulama ortamında sınırlı olabilen, algoritmanın çalışma süresini ve verimliliğini nadiren dikkate almaktadır.

Bu yazıda, adı verilen verimli ve doğru bir rastgele şekil metin detektörü öneriyoruz. PSENet V2 Düşük maliyetli bir segmentasyon modülü ve öğrenilebilir bir post-processing yöntemi ile donatılmıştır. Daha spesifik olarak, segmentasyon modülü, bir özellik piramidi geliştirme modülünden (FPEM) ve bir özellik füzyon modülünden (FFM) oluşur. FPEM, daha iyi segmentasyonu yönlendirmek için birden fazla seviye ve bilgi sunabilen, kademeli U şeklinde bir modüldür. FFM, FPEM tarafından verilen farklı derinlikteki özellikleri nihai segmentasyon özelliğinde birleştirebilir. Öğrenilebilir son işlem, tahmin edilen benzerlik vektörü aracılığıyla metin piksellerini doğru bir şekilde bir araya getirebilen piksel toplama modülü (PA) tarafından gerçekleştirilir.

Birkaç standart karşılaştırma testi, önerilen PSENet V2'nin üstünlüğünü doğrulamaktadır. Metodumuzun CTW1500'de 84,2 FPS'de% 79,9 F ölçümüne ulaşabildiğini belirtmekte fayda var. Bildiğimiz kadarıyla PSENet V2, rastgele şekillerin metin örneklerini gerçek zamanlı olarak algılayabilen ilk yöntemdir.

4. Makalenin başlığı: Karşılıklı Rehberlik ile Ağ Tarafından Yarı Denetimli Cilt Algılama

Kağıt bağlantısı: Hayır

Anahtar kelimeler: yarı denetimli öğrenme, cilt bölümleme

Özet:

Tek bir portre resminden cilt alanını sağlam bir şekilde hesaplayabilen yeni bir veriye dayalı cilt segmentasyon yöntemi öneriyoruz.

Önceki yöntemden farklı olarak, insan vücudu bölgelerini zayıf anlamsal rehberlik olarak kullanıyoruz, çünkü elle etiketlenmiş çok sayıda cilt verisinin elde edilmesinin çok zor olduğunu düşünüyoruz. Özellikle, yarı denetimli bir öğrenme stratejisi aracılığıyla cildi ve bedeni birlikte tespit etmek için çift görevli bir ağ öneriyoruz. Ağ, sırasıyla cilt ve gövdeyi tespit etmek için paylaşılan bir kodlayıcı ve iki bağımsız kod çözücü içerir. Herhangi bir kod çözücü için, çıktısı ayrıca başka bir kod çözücü kılavuzunun rolünü oynar. Bu şekilde, iki kod çözücü aslında birbirini yönlendirir.

Çok sayıda deney, karşılıklı rehberlik stratejisinin etkinliğini kanıtlamıştır ve sonuçlar aynı zamanda bu yöntemin cilt segmentasyonu görevinde mevcut yöntemlerden daha iyi olduğunu göstermektedir.

5. Makalenin başlığı: Sözde Etiketleri Kullanarak Yarı Denetimli Video Çıkıntılı Nesne Algılama

Kağıt bağlantısı: Hayır

Anahtar kelimeler: yarı denetimli öğrenme, video algılama

Özet:

Derin öğrenmeye dayalı video anahtar bölge tespiti, çok sayıda denetimsiz yöntemi geride bırakmıştır. Ancak, bu yöntem büyük miktarda manuel olarak etiketlenmiş veriye dayanır.

Bu makalede, yarı denetimli video anahtarı bölge algılama sorununu çözmek için sözde etiketler kullanıyoruz. Spesifik olarak, bir uzaysal bilgi geliştirme ağı ve bir uzay-zamansal modül içeren bir video anahtar alan detektörü öneriyoruz. Bu yapıya ve optik akışa dayanarak, seyrek olarak etiketlenmiş çerçevelerden piksel düzeyinde sözde etiketler oluşturmak için bir yöntem öneriyoruz. Oluşturulan sözde etiketleri ve bazı manuel açıklamaları kullanarak, dedektörümüz uzay-zamansal kontrast ve çerçeveler arası tutarlılığın ipuçlarını öğrenir ve böylece doğru anahtar alanlar elde eder.

Deneyler, bu yöntemin birden fazla veri kümesinde mevcut tam denetimli yöntemleri büyük ölçüde aştığını kanıtlamıştır.

6. Kağıdın adı: Çözülmüş Görüntü Örtüsü

Kağıt bağlantısı: Hayır

Anahtar kelimeler: resim anahtarlama

Özet:

Image Matting problemi için yeni bir çerçeve öneriyoruz. Önceki görüntü anahtarlama algoritmalarının çoğu, girdi kırpmasına bağlı olarak görüntünün belirtilen alanındaki alfa değerini (alfa) hesaplar. Üç parçalı haritanın bilinmeyen alanına bölünmüş tam arka plan ve ön plan pikselleri için, bu yöntemlerin doğru bir şekilde 0 ve 1 alfa değerlerini üretmesi beklenir.

Bu makale, önceki çözümün aslında iki farklı sorunu karıştırdığına işaret etmektedir: 1. Onaylanacak alandaki ön plan, arka plan ve karışık pikselleri ayırt edin 2. Karışık pikseller için alfa değerini doğru bir şekilde hesaplayın. Bunların arasında ilk görevi Trimap Adaptasyonu olarak adlandırıyoruz ve ikinci görev Alfa Tahminidir. Bunlar arasında, üç parçalı grafik ayarı tipik bir sınıflandırma problemidir ve Alfa değeri tahmini tipik bir regresyon problemidir.Bu makalede önerilen uçtan-uca AdaMatting çerçevesi, Çok Görevli Öğrenmeyi kullanarak bu iki problemi ayrı ayrı çözer. En iyi sonuçlar, birden çok görüntü veri setindeki tüm ortak göstergelerde elde edilmiştir.

7. Makalenin başlığı: Kişi Arama için Yeniden Kimlik Odaklı Yerelleştirme Ayrıntılandırması

Kağıt bağlantısı: Hayır

Anahtar kelimeler: yaya arama

Özet:

Birçok uygulamada, dedektör bir yukarı akış görevi olarak kullanılır ve sonuç, aşağı akış görevini, özellikle algılama çerçevesinin konumlandırma doğruluğunu doğrudan etkiler. Mevcut ana yaklaşım, aşağı akış görevlerini dikkate almadan dedektörü ayrı ayrı eğitmektir, bu nedenle elde edilen algılama çerçevesi aşağı akış görevleri için uygun olmayabilir.

Bu makalede, yaya arama görevini örnek olarak alıyor ve belirli bir göreve daha uygun hale getirmek için algılama çerçevesinin konumlandırma doğruluğunu optimize etmek için yeni bir yöntem öneriyoruz. Yaya araması, yayaları tam resimlerden tespit etmeyi ve tanımlamayı amaçlar ve iki göreve ayrılır: algılama ve yaya yeniden tanımlama (Re-ID). Makale, algılama ağı tarafından oluşturulan algılama çerçevesinin ince ayarını yapmak için yeniden kimlik kaybını kullanan, yeniden kimlik odaklı bir konumlandırma ayarlama çerçevesi önerir. Makale, algılama çerçevesinin koordinatlarına göre orijinal görüntüden karşılık gelen konum resmini kırpabilen ve ardından bunu yeniden kimlik ağına gönderebilen kılavuzlanabilir bir ROI dönüştürme modülü tasarlar. Tüm süreç yönlendirilebilir olduğundan, yeniden kimlik kaybı, algılama çerçevesinin koordinatlarını denetleyebilir, böylece algılama ağı, yayaları arama görevi için daha uygun bir algılama çerçevesi oluşturabilir.

Çok sayıda deneysel sonuç, makalenin yönteminin çoklu veri setlerinde en gelişmiş performansı elde ettiğini kanıtlamaktadır.

8. Kağıt adı: Bakış Açısına Uygun Metrik Öğrenme ile Araç Yeniden Tanımlama

Kağıt bağlantısı: Hayır

Anahtar kelimeler: araç yeniden tanımlama, metrik öğrenme

Özet:

Araç yeniden tanıma görevinde, aşırı görüş açısı değişiklikleri (180 dereceye kadar değişken görüş açıları) mevcut yöntemlere büyük zorluklar getirdi.

İnsanların araçları tanıma biçiminden esinlenerek, perspektif algısına dayalı bir metrik öğrenme yöntemi öneriyoruz. Bu yöntem, benzer perspektifler ve farklı perspektifler için iki özellik alanında iki ölçütü öğrenir ve sonuçta Perspektif algılama ağı (VANet) . Eğitim sürecinde ortak eğitim için iki kısıtlama getirdik. Test sürecinde, öncelikle aracın perspektifini tahmin ediyoruz ve tahmini sonuca göre ölçüm yapmak için ilgili ölçüm yöntemini kullanıyoruz.

Deneysel sonuçlar, VANet'in araç yeniden tanımlama doğruluğunu önemli ölçüde artırabildiğini ve farklı bakış açılarına sahip araçları tanımlamanın etkisinin daha açık olduğunu kanıtlıyor. Yöntemimiz, her iki kıyaslama veri setinde şimdiye kadarki en iyi sonuçları elde ediyor.

9. Makalenin başlığı: MetaPruning: Otomatik Sinir Ağı Kanal Budaması için Meta Öğrenme

Makaleye bağlantı: https://arxiv.org/abs/1903.10258

Anahtar kelimeler: model sıkıştırma, meta-öğrenme

Özet:

Kanal Budama, etkili bir model sıkıştırma yöntemidir, yöntemimiz MetaPruning Yeni bir Budama fikri önerildi.

Geleneksel Budama, her katmanın sıkıştırma oranını ayarlamak için genellikle manuel olarak veya bazı deneysel kriterlere dayalı olarak gerektirir ve ardından hangi kanalların kaldırılacağını yinelemeli olarak seçer Bu işlem zaman alıcıdır ve yoğun emek gerektirir. MetaPruning, hangi kanalı seçeceğinizi atlayın ve her katman için kaç kanal ayrıldığını doğrudan arayın. Her katman için optimum kanal kombinasyonunu verimli ve doğru bir şekilde bulmak için, MetaPruning önce bir PruningNet'i eğitir ve olası her PrunedNet'in doğruluğunu tahmin etmek için meta-öğrenmeyi kullanır. Ağ Mimarisi Arama fikrini ödünç alın ve en iyi PrunedNet'i aramak için evrimsel algoritmayı kullanın. PruningNet, PrunedNet için doğrudan güvenilir doğruluğu tahmin ederek evrimsel aramayı çok verimli hale getirir.

Son olarak, MetaPruning'in doğruluğu, MobileNet V1 / V2 taban çizgisinden% 9,0 /% 9,9 daha yüksektir. Mevcut optimum AutoML tabanlı Budama yöntemiyle karşılaştırıldığında MetaPruning ayrıca daha yüksek doğruluk elde etti. Ve MetaPruning çok esnektir ve FLOP kısıtlamaları altında budama veya belirli donanım hızı kısıtlamaları için budama uygulanabilir.

Bu makale, Hong Kong Üniversitesi, Tsinghua Üniversitesi, Megvii ve Huazhong Bilim ve Teknoloji Üniversitesi tarafından ortaklaşa hazırlanmıştır.

Tezin ilk çalışması, Hong Kong Üniversitesi'nden Dr. Zechun Liu'dur.

10. Kağıt adı: Sahne Metni Tanıma için Simetri ile kısıtlanmış Düzeltme Ağı

Kağıt bağlantısı: Hayır

Anahtar kelimeler: metin tanıma

Özet:

Metin yazı tiplerinin ve şekillerinin çeşitliliği ve doğal sahnelerin karmaşıklığı nedeniyle, doğal sahnelerde metin tanıma her zaman çok zor bir görev olmuştur. Son yıllarda, düzensiz şekil sahne metninin tanınması giderek daha fazla araştırmacının dikkatini çekmiştir.Etkili ve sezgisel araştırma yönlerinden biri, tanımadan önce metin alanını düzeltmek, yani düzensiz şekli tanımadan önce düzeltmektir. Metin, normal bir şekle dönüştürülür. Bununla birlikte, basit metin düzeltmesi, aşırı deforme olmuş veya eğimli metinler için işe yaramayabilir.

Bu sorunu çözmek için önerdik ScRN (Simetri kısıtlamalı Düzeltme Ağı) , Metin simetri kısıtlamalarını kullanan bir metin düzeltme ağı. ScRN, metnin merkez çizgisi, karakter boyutu ve karakter yönü bilgileri dahil olmak üzere metin alanının birçok matematiksel özelliğini kullanır. Bu bilgiler, ScRN'nin doğru metin alanı açıklamaları oluşturmasına yardımcı olabilir, böylece ScRN mevcut yöntemlerden daha iyi düzeltme efektleri elde edebilir ve böylece daha yüksek tanıma doğruluğu sağlayabilir.

Birden çok düzensiz veri setinde yüksek tanıma doğruluğu iyileştirmeleri elde ettik (ICDAR 2015, SVT-Perspective, CUTE80).

11. Makalenin başlığı: Model Tabanlı Derin Güçlendirmeli Öğrenme ile Boyamayı Öğrenmek

Makaleye bağlantı: https://arxiv.org/abs/1903.04411

Açık kaynak kodu: https://github.com/hzwer/ICCV2019-LearningToPaint

Anahtar kelimeler: pekiştirmeli öğrenme, boyama

Özet:

Büyüleyici resimler yaratmak için birkaç vuruş kullanarak makineyi bir ressam gibi nasıl yapabilirim? Derin güçlendirme öğrenme yöntemini ve sinir ağı oluşturucuyu birleştirerek, aracının kendi kendini keşfetme sırasında zengin dokulara sahip doğal görüntüler çizmek için yüzlerce vuruş kullanmayı öğrenmesine izin verdik.Her vuruşun şekli, konumu ve rengi bağımsız olarak onun tarafından belirlenir. Temsilcinin eğitim süreci, insan çizim deneyimi veya inme yörünge verileri gerektirmez.

Bu makalenin yazarı, bir bilişim yarışmasında doğan ve Fujian İl Ekibi'ne seçilen Pekin Üniversitesi'nden bir lisans öğrencisi olan Huang Zhewei'dir. Peking Üniversitesi'ne katıldıktan bir yıl sonra, Megvii Technology'nin Intelligent Computing Group (IC Group) bünyesinde stajyer oldu.

Bu yapay zeka serbest el sanatçısı için Qubit ayrıntılı bir rapor hazırladı:

https://mp.weixin.qq.com/s/1QQ2_vkQ_vLvuxvR-fboQg

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Yayınlanacak geri sayım, dört gözle beklemeye değer Samsung Note 10 serisinin öne çıkan özellikleri
önceki
"Haber Ağı" değişti, bu adam yanıyor
Sonraki
Bilim ve teknoloji sevgisi gökyüzünde uçuyor! Bu Tanabata skr için tatlı
ACL 2019'un en iyi kağıdı yayınlandı: Çin ekibi en iyi uzun ve kısa kağıdı devraldı
Xiaomi ve Redmi, 64 milyon ultra net kamera başlatmak için Samsung ile el ele verdi, gelecekte 100 milyon piksel var
Doğa'nın kapağındaki Tsinghua "Tianji" çipi: dünyanın ilk heterojen füzyon beyin çipi
Offshore renminbi bir seferde 600 puandan fazla düştü! ABD hisse senetleri şokta, panik endeksi% 10'dan fazla yükseldi, küresel pazar testle karşı karşıya
Huawei Cloud DevCloud öne çıkıyor
Huawei'in "Hongmeng" cep telefonu yıl sonunda piyasaya çıktı ve başlangıçta ağırlıklı olarak düşük kaliteli telefonlardı.
Vanke projesi ihlal şüphesiyle görüşüldü! Ofis alanı "değişim" dairesi?
Yayınlanacak geri sayım, dört gözle beklemeye değer Samsung Note 10 serisinin öne çıkan özellikleri
Bu Çinli AI şirketi, Singapur'un AI "Hinterlandına" giriyor
Fırtına krizi tırmandı, asıl denetleyicinin suç işlediğinden şüphelenildi ve zorunlu önlemler alındı ve 40 milyarlık piyasa değeri 2 milyar düştü
NeurIPS incelemesi Tucao konferansına ve başarısız insanların hepsi saçma fikirlere yol açtı: Teşekkür ederim
To Top