Google 9 milyon ek açıklama görüntü veri seti yükseltmesi: ses, metin, fare izi eşzamanlı açıklama ekleyen ilk

Yunao Fei Tapınağı'ndan Balık ve Koyun Qubit Raporu | Genel Hesap QbitAI

Google'ın 9 milyon ek açıklamalı görüntü veri kümesi Açık Görüntüler yeniden gelişti.

Bu V6 sürümü yalnızca 1.400 tür görsel ilişki ek açıklaması eklemekle kalmaz, aynı zamanda 23,5 milyon manuel olarak doğrulanmış görüntü düzeyinde etiket ekler, 2,5 milyon insan eylemi ek açıklaması içerir ve yeni özellikleri günceller. Kısmi anlatı (Yerelleştirilmiş anlatılar).

Sözde kısmi anlatım, tarif edilen nesnenin senkronize konuşma, metin ve fare izini içeren yepyeni bir çok modlu açıklama biçimidir.

Kaynak: Google Blog

Açık Görüntüler V6'da bu moda uygun 500.000 görüntü vardır.

Aynı zamanda Google, COCO veri setinin tam 123.000 görüntüsünün kısmi bir açıklamasını da yayınladı.

Kısmi anlatı

Açık Görüntüler'in bu yükseltmesinin en önemli özelliği, kısmi bir anlatımın eklenmesidir.

Open Images V6'da eklendi 507444 Kısmi bir anlatı.

Google, açıklama verilerinin bu bölümünde, fare izinin toplam uzunluğunun yaklaşık 6.400 kilometre olduğunu; tüm metin anlatımlarını okumanın 1,5 yıl sürdüğünü söyledi.

Görme ve dil arasındaki bağlantıyı araştırırken ve kullanırken, genellikle resim başlıkları kullanılır, yani resimler ve bunların açıklama metinleri arasındaki eşleştirme.

Öyleyse soru, metindeki her bir kelimenin görüntünün hangi kısmına karşılık geldiğidir?

Kısmi anlatım şu anda kullanışlı oluyor.

Bu yorumlar yorumcu tarafından tamamlanır. Açıklayıcı resim açıklama metnini okuduğunda, fareyi kelimeye karşılık gelen resim alanına hareket ettirecektir.

Ek olarak, ses, metin ve fare izlerinin doğru şekilde karşılık gelmesini ve senkronize edilmesini sağlamak için otomatik konuşma tanımanın sonuçlarını manuel olarak düzeltirler.

Bir başka ilginç uygulama noktası da, bu görüntülerin, insanların görüntüleri tanımlama yollarını keşfetmek için potansiyel araştırma yolları sağlamasıdır.

Google, yorum yapanın fareyi nasıl hareket ettireceğini belirtmediğinden, bu yorumlarda nesneleri belirtmenin farklı yollarını görebilirsiniz.

Bu, yeni kullanıcı arayüzünün tasarımına ilham verebilir.

Yeni görsel ilişkiler, insan eylemleri ve görüntü düzeyinde açıklamalar

Kısmi anlatımlara ek olarak, Open Images V6 ayrıca çok sayıda yeni görsel ilişki ve insan eylemi ek açıklaması ekler.

Örneğin, frizbi tutan bir köpeğin görüntüsünde, köpek ve frizbinin yanı sıra ayrı ayrı işaretlenecek, "yakalama" eylemi de işaretlenecektir.

Bilgisayar görüşü için, insan davranışını anlamak da önemli bir araştırma odağıdır. Bu nedenle, Açık Görüntüler V6 artık toplam 2.5 milyon "Zıplamak", "gülümsemek", "uzanmak" gibi insan eylemleri.

Ve manuel olarak doğrulanmış 23,5 milyon yeni görüntü düzeyinde etiket ekledikten sonra, Open Images V6'daki görüntü düzeyi etiketlerinin sayısı 19.957 farklı kategoriyi kapsayarak 59,9 milyona ulaştı.

Şu anda Open Images V6 şunları içerir:

  • 600 kategoride çerçevelenebilen nesnelerin bir alt kümesi. 1.743.042 eğitim görüntüsü, 41.620 görüntüden oluşan bir doğrulama seti ve 125.436 görüntüden oluşan bir test seti içerir.
  • 19.958 kategoride resim düzeyinde etiketlerin bir alt kümesi. Eğitim seti, 7.337.077 yapay olarak doğrulanmış açıklamalı görüntüler ve 8.949.445 makine açıklamalı görüntüler içerir.
  • Koleksiyonun tamamı 9.178.275 resim içeriyor.

Açık Görüntüler Hakkında

Open Images, Google tarafından 2016 yılında başlatılan, yaklaşık 9 milyon resim içeren ve binlerce resim kategorisine ek açıklamalı büyük ölçekli bir resim veri kümesidir.

2019'da Google, Open Images V5'i yayınladı ve görüntü segmentasyon maskesine bir yorum ekledi. 350 kategoriyi kapsayan yaklaşık 2,8 milyon segmentasyon hedef örneği vardır ve bu onu en büyük segmentasyon maskesi veri seti yapar.

Google, 2018'den beri Open Images veri kümesine dayalı bir dizi görev başlattı.

Google, Open Images V6 aracılığıyla, insanların gerçek sahneleri anlamalarını daha da teşvik edebileceğini umuyor.

Portal

Görüntüler V6 indirme adresini açın: https://storage.googleapis.com/openimages/web/index.html

Google Blogu: https://ai.googleblog.com/2020/02/open-images-v6-now-feature-localized.html

- Bitiş -

Qubit QbitAI · Toutiao İmzalama Yazarı

Bize dikkat edin ve en son teknolojiden haberdar olun

Realme 6 Pro pozlama: çift delikli 90Hz ekran / 30W hızlı şarj
önceki
On yılın en zor CVPR'si: kabul oranı% 22, Baidu 19 makale seçildi, 16 makale hor görüldü
Sonraki
Akıllı bir ses kayıt cihazı yazabilir, döndürebilir ve düzenleyebilir: Sogou AI, endüstrinin tavanını yıkmak için teknolojiyi kullanır
LG V60 ThinQ 5G resmi olarak piyasaya sürüldü: çift ekranlı tasarım / Snapdragon 865 / 5000mAh pil
Programcılar "kitaplıkları silip kaçıyorlar", şirketin piyasa değeri 1 milyardan fazla buharlaştı ve 3 milyon mağaza felç oldu
Doğu Bölgesi'ndeki arazi fiyatı yeni bir yükselişte! China Resources Land, Dongdianzi'nin B arsasını kazandı, taban fiyatı 11257,9 yuan /
Uisee insansız aracı, Bosch'tan stratejik bir yatırım aldı ve Hong Kong Havalimanı'na bagaj taşıdı
Xiaoma Zhixing, Çin'in insansız araç rekorunu yeniden kırdı: 3 milyar ABD doları değerleme, 462 milyon ABD doları finansman
32 geliyor! Haynanlılar güzel havaya hazır
Mi 10 standart 65W / GaN 65W / Apple bilgisayar 61W şarj cihazı ağırlığı ve boyut karşılaştırması
Enjie H1 kasasını piyasaya sürdü: önceden yüklenmiş 650W SFX güç kaynağı ve su soğutma
PC için "Minecraft" "Mass Effect" karma paketi başlatıldı
Oyun çok mu zor? Yüce Tanrı "Tea Cup Head" yardımcı modu modunu yaptı
Lenovo YOGA 2020 dizüstü bilgisayar 14/15 inç kapsar ve Core / Ryzen sürümleri mevcuttur
To Top