"Google ImageNet'i Yükseltiyor" Büyük Ölçekli Görsel Anlama Yarışması WebVision Şampiyon Paylaşımı | Yeni Bilgelik CVPR-17 Özel

1Yeni Bilgelik Raporu-CVPR 2017 Özel

26 Temmuz 2017'de CVPR 2017 semineri "ILSVRC'nin Ötesinde" ImageNet yarışmasının sona erdiğini resmi olarak duyuracak. Ancak bu, alanın görüntü tanımaya olan ilgisinin azaldığı anlamına gelmez. Aslında, ilgili ilgi artıyor.

ImageNet yarışması bilgisayarla görmenin, özellikle görüntü tanıma teknolojisinin gelişimine büyük katkı sağlamıştır, bunların arasında büyük ölçekli yapay olarak etiketlenmiş bir veri setine sahip olmak çok önemlidir. Ancak, eğitim için insanlar tarafından dikkatle etiketlenmiş verileri toplamak pahalıdır. İşletme, finans ve tıbbi bakım gibi birçok pratik alanda sorun, veri eksikliği değil, uzman notlarının ve tutarsız notların eksikliğidir. Bu nedenle, giderek daha fazla sayıda araştırmacı, görüntü tanıma sistemlerini eğitmek için düşük maliyetli verileri (manuel açıklamalar içermeyen veriler gibi) kullanmaya odaklanmaya başlıyor.

Farklı çözümler arasında, internetten veri almak ve ağı derin temsilleri öğrenmek için bir denetim kaynağı olarak kullanmak, çeşitli bilgisayarla görme uygulamalarında güçlü bir uygulanabilirlik göstermiştir.

Bu yılın ilk yarısında, ETH Zürih ve Google Zürih Araştırma Enstitüsü ve diğer kurumlar, görsel tanıma için WebVision adında büyük ölçekli bir Web görüntü veri seti yayınladı. Bu veri setine dayanarak, aynı zamanda WebVision yarışması olarak da bilinen "Web Verilerinden Öğrenerek Görsel Anlama Zorluğu" adlı görsel bir anlayış yarışması düzenlediler.

ImageNet'in WebVision yarışmasını devralın: daha zor, daha pratik

WebVision yarışması, Zurich Federal Institute of Technology (ETH), Google Research ve Carnegie Mellon University (CMU) tarafından ortaklaşa düzenlenmektedir ve ImageNet'i devralma yarışması olarak bilinir. ImageNet ve WebVision, tanıma yarışması için aynı 1000 nesne kategorisini kullanarak nesne tanımaya odaklanır; ancak ikisi arasındaki verilerin saflığı ve dengesi temelde farklıdır.

WebVision tarafından kullanılan veri kümesi, manuel açıklama olmadan doğrudan İnternet'ten taranır, veriler çok fazla gürültü içerir ve veri kategorilerinin sayısı son derece dengesizdir. Temiz veriler olan (tamamen manuel olarak etiketlenen) ImageNet rekabet verileri ile karşılaştırıldığında, WebVision çok daha zordur, ancak aynı zamanda gerçek uygulama sahnesine daha yakındır. .

WebVision veritabanının, Google aramasından 1 milyon görüntü ve Flickr'dan 1.4 milyon görüntü dahil olmak üzere doğrudan İnternet'ten toplanan 2,4 milyon görüntüyü kapsadığı bildirildi.

WebVision veritabanı bu sefer son derece dengesiz

Bu kez, dünya çapında 100'den fazla takım WebVision yarışmasına katılmak için kaydoldu ve çok fazla katılımcı takım nedeniyle yarışma için son tarih ertelendi. Bazı takımlar yarışmadan sonra isimsiz kalmayı seçti ve sonuçları açıklamadı.Sonuçları halka açık olarak sunan takımlar arasında SnapChat, Tsinghua Üniversitesi, Şangay Bilim ve Teknoloji Üniversitesi, UCF ve dünyanın her yerinden diğer en iyi akademik ve Ar-Ge kurumları listede yer alıyor.

Dünya çapında 100'den fazla ekip WebVision yarışmasına katılmak için kaydoldu

Son iki ImageNet Zorluğunun algoritmanın kendisinden çok insan ve makine hesaplama gücüyle rekabet ettiğine dair giderek daha fazla görüş var. ImageNet'in yerleşik veritabanının çığır açan derin öğrenme teknolojisini üretmesi zor olmuştur. Belki de bu, birçok takımın WebVision yarışmasına katılmasının nedenlerinden biridir. WebVision'ın daha karmaşık ve dengesiz veritabanı algoritmik olarak daha zordur ve aynı zamanda algoritma yeniliğini de teşvik eder.

Şampiyon takım teknoloji paylaşımı

Çin'den bir başlangıç şirketi olan Malong Technology'nin bu WebVision yarışmasında birinciliği kazandığını belirtmekte fayda var.Onlar tarafından sunulan beş tanınma sonucunun doğru oranı, tüm tanınma sonuçları sıralamasında ilk beş ve en iyileri oluşturuyordu. Sonuç (% 94.78) ikinciliğe göre% 2.5 daha yüksek, bu da bilgisayarla görme teknolojisi yarışmaları alanında büyük bir avantaj (geçen yıl ImageNet görüntü tanıma yarışmasında birincilik, ikinciliğe göre yalnızca% 0,04 daha yüksekti).

Malong Technology'nin algoritma mühendisi Xinzhiyuan ile yaptığı bir röportajda, WebVision ve ImageNet'in temel zorluğunun, verilerin manuel olarak açıklanmaması ve çok fazla gürültü içermesi olduğunu, bu nedenle yarı denetimli bir öğrenme yöntemini benimsediklerini belirtti.

Araştırmacılar önce kaba bir modeli eğitmek için tüm meta verileri kullanır ve bu kaba modeli tüm meta veriler için bir özellik temsili çıkarmak için kullanır. Daha sonra, müfredat öğreniminin tanıtımı (müfredatla öğrenme), her meta veri kategorisini biri nispeten temiz bir kategoriye ait olan farklı düzeylerde kategorilere ayıran bir kümeleme algoritması tasarladı. Ardından, iyi bir model eğitmek için bu temiz veri kümesini kullanın. Gürültü verilerinin miktarını kademeli olarak artırarak, model karmaşıklığı ve genelleme yeteneği geliştirilir.

Malong algoritma ekibi, kazanmanın verdiği en büyük ilham için şunları söyledi:

"Bu yarışmanın en büyük amacı, daha iyi bir derinlik modeli eğitmek için manuel olarak açıklama eklenmemiş verilerin nasıl kullanılacağıdır. Yarışmanın ilk aşamalarında, organizatörün verilerini dikkatlice inceledik ve verilerin çok büyük bir kısmının yanlış etiketlendiğini gördük. Bu nedenle, gürültülü veriler için bir eğitim stratejisi araştırdık.Eğitim stratejisi, Yarı Denetimli Öğrenme ve müfredat öğrenimini (Y. Bengio ve diğerleri tarafından 2009'da önerilmiştir) ilk kez birleştirir. Öğrenme yöntemi, büyük ölçekli gürültülü veri eğitimine tanıtıldı.

"Yeni tasarlanan algoritma stratejisi, yanlış etiketlemenin olumsuz etkisini etkili bir şekilde bastırır. En önemli şey, bu algoritmanın, modelin sağlamlığını büyük ölçüde iyileştirmek için bu yanlış etiketleri etkili bir şekilde kullanabilmesi ve aynı zamanda eğitimli modeli ImageNet manuel etiketlemeden daha iyi hale getirmesidir. Veriler üzerinde eğitilen model daha iyi genelleme yeteneğine, daha güçlü çok yönlülüğe ve diğer ilgili görevlere daha iyi geçişe sahiptir. "

WebVision yarışmasının sonuçları, modern derin öğrenme teknolojisinin tamamen yapay olarak etiketlenmiş verilere dayanamayacağını, genel yarı denetimli ve denetimsiz öğrenme üzerine gelecekteki araştırmalar için bir kapı açamayacağını ve aynı zamanda zayıf yapay zekanın güçlü yapay zekaya doğru geliştirilmesi için önemli olduğunu gösteriyor. adım.

ILSVRC'nin ötesinde: Görüntü öğrenmeye ve anlamaya odaklanan WebVision yarışması

Özet

İnsanların örnekleri manuel olarak etiketlemesine gerek kalmadan web görüntülerine dayalı derin öğrenmeyi gerçekleştirmeyi amaçlayan açık bir görüntü tanıma yarışması olan 2017 WebVision yarışmasını öneriyoruz. ILSVRC, Places2 ve PASCAL VOC gibi önceki bilgisayarla görme zorlukları, model tasarımı ve standartlaştırılmış karşılaştırma testi için büyük miktarda açıklama verisi sağlayarak bilgisayar vizyonunun geliştirilmesinde önemli bir rol oynamıştır. Ruhlarını devam ettirmek için, bu yılki CVPR 2017'de büyük ölçekli ağ görüntüsü veri setlerine dayalı açık bir yarışma düzenlemek üzere bir seminer düzenledik. WebVision veri seti, ILSVRC 2012 karşılaştırmasında 1.000 anlamsal kavramdan oluşturulan sorgular kullanılarak İnternette tarayıcılar tarafından toplanan 2,4 milyondan fazla web görüntüsü içerir. Meta bilgileri de dahildir.

Ek olarak, WebVision veri seti ayrıca inceleme veri setleri ve test veri setleri sağlar.Bu veri setlerindeki veriler manuel olarak etiketlenir ve bu da algoritmaların geliştirilmesini kolaylaştırır. 2017 WebVision Challenge, biri WebVision test veri setinde görüntü sınıflandırma ve PASCAL VOC 2012 veri setinde aktarım öğrenimi olmak üzere iki kategoriye ayrılmıştır. Bu makalede, veri toplama ve ek açıklama ayrıntılarını açıklıyor, WebVision veri setinin özelliklerini vurguluyoruz ve ilgili değerlendirme göstergelerini tanıtıyoruz.

İş ayrıntılarını görüntülemek için orijinal metni okumak için tıklayın ve katılmanızı dört gözle bekleyin ~

Venezuela'nın petrodolar ile ayrılmasının ardından, Fed'in Venezuela'nın geri dönüşünü reddetme hakkı yok.
önceki
Apple, Google ve Amazon'un iç ekolojisini tek bir makalede okuyun
Sonraki
Çaresizce sürdürdüğünüz günlük aktivite tek bir formülle yapılabilir.
Parlak ve güzel Apenninler, Avrupa'da seyahat ederken kaçırılmaması gereken ilk durak!
300.000 sert SUV! Tuda, Mu Ranger ve Roewe RX8 nasıl seçilir?
Dünyanın gazisi May Blow Lineker, Ronaldo'yu öfkeyle övdü! Netizenler şaşırdı, dedi: Ben de Ronaldo oynuyorum!
"The Complete Tang Poetry" deki bazı "taklitçiler" şiirlerden daha ünlüdür!
Bir arabada en pahalı parça montajı hangisidir? Motor veya şanzıman değil mi?
Avustralya doları düştü, demir cevheri düştü, altının nerede olduğu şüpheli, Avustralya ekonomisi geri dönebilir
2018'de Çin'in en mutlu şehrini gizler! Chengdu'nun ötesinde, Hong Kong rakip değil!
Çin, Rusya ve diğer 19 ülkenin dolarlarını düşürdükten sonra, 20. ülke dolara hayır diyebilir ve büyük bir adım atabilir mi?
"Ocean Jing Piao" Maggie: Jingdezhen benim memleketim gibi
Messi'nin ruhu ele geçirildi! Tianjin'in dış yardımı arka arkaya dört gol attı ve bir keresinde kaleci olabileceklerini ciddi bir şekilde ifade etti!
5 koltuklu mu yoksa 7 koltuklu SUV mu seçin? Kavgayı bırak, avantajları ve dezavantajları burada
To Top