Yunao Fei Tapınağı'ndan Balık ve Koyun Qubit Raporu | Genel Hesap QbitAI
Google'ın 9 milyon ek açıklamalı görüntü veri kümesi Açık Görüntüler yeniden gelişti.
Bu V6 sürümü yalnızca 1.400 tür görsel ilişki ek açıklaması eklemekle kalmaz, aynı zamanda 23,5 milyon manuel olarak doğrulanmış görüntü düzeyinde etiket ekler, 2,5 milyon insan eylemi ek açıklaması içerir ve yeni özellikleri günceller. Kısmi anlatı (Yerelleştirilmiş anlatılar).
Sözde kısmi anlatım, tarif edilen nesnenin senkronize konuşma, metin ve fare izini içeren yepyeni bir çok modlu açıklama biçimidir.
Kaynak: Google BlogAçık Görüntüler V6'da bu moda uygun 500.000 görüntü vardır.
Aynı zamanda Google, COCO veri setinin tam 123.000 görüntüsünün kısmi bir açıklamasını da yayınladı.
Açık Görüntüler'in bu yükseltmesinin en önemli özelliği, kısmi bir anlatımın eklenmesidir.
Open Images V6'da eklendi 507444 Kısmi bir anlatı.
Google, açıklama verilerinin bu bölümünde, fare izinin toplam uzunluğunun yaklaşık 6.400 kilometre olduğunu; tüm metin anlatımlarını okumanın 1,5 yıl sürdüğünü söyledi.
Görme ve dil arasındaki bağlantıyı araştırırken ve kullanırken, genellikle resim başlıkları kullanılır, yani resimler ve bunların açıklama metinleri arasındaki eşleştirme.
Öyleyse soru, metindeki her bir kelimenin görüntünün hangi kısmına karşılık geldiğidir?
Kısmi anlatım şu anda kullanışlı oluyor.
Bu yorumlar yorumcu tarafından tamamlanır. Açıklayıcı resim açıklama metnini okuduğunda, fareyi kelimeye karşılık gelen resim alanına hareket ettirecektir.
Ek olarak, ses, metin ve fare izlerinin doğru şekilde karşılık gelmesini ve senkronize edilmesini sağlamak için otomatik konuşma tanımanın sonuçlarını manuel olarak düzeltirler.
Bir başka ilginç uygulama noktası da, bu görüntülerin, insanların görüntüleri tanımlama yollarını keşfetmek için potansiyel araştırma yolları sağlamasıdır.
Google, yorum yapanın fareyi nasıl hareket ettireceğini belirtmediğinden, bu yorumlarda nesneleri belirtmenin farklı yollarını görebilirsiniz.
Bu, yeni kullanıcı arayüzünün tasarımına ilham verebilir.
Kısmi anlatımlara ek olarak, Open Images V6 ayrıca çok sayıda yeni görsel ilişki ve insan eylemi ek açıklaması ekler.
Örneğin, frizbi tutan bir köpeğin görüntüsünde, köpek ve frizbinin yanı sıra ayrı ayrı işaretlenecek, "yakalama" eylemi de işaretlenecektir.
Bilgisayar görüşü için, insan davranışını anlamak da önemli bir araştırma odağıdır. Bu nedenle, Açık Görüntüler V6 artık toplam 2.5 milyon "Zıplamak", "gülümsemek", "uzanmak" gibi insan eylemleri.
Ve manuel olarak doğrulanmış 23,5 milyon yeni görüntü düzeyinde etiket ekledikten sonra, Open Images V6'daki görüntü düzeyi etiketlerinin sayısı 19.957 farklı kategoriyi kapsayarak 59,9 milyona ulaştı.
Şu anda Open Images V6 şunları içerir:
Open Images, Google tarafından 2016 yılında başlatılan, yaklaşık 9 milyon resim içeren ve binlerce resim kategorisine ek açıklamalı büyük ölçekli bir resim veri kümesidir.
2019'da Google, Open Images V5'i yayınladı ve görüntü segmentasyon maskesine bir yorum ekledi. 350 kategoriyi kapsayan yaklaşık 2,8 milyon segmentasyon hedef örneği vardır ve bu onu en büyük segmentasyon maskesi veri seti yapar.
Google, 2018'den beri Open Images veri kümesine dayalı bir dizi görev başlattı.
Google, Open Images V6 aracılığıyla, insanların gerçek sahneleri anlamalarını daha da teşvik edebileceğini umuyor.
Görüntüler V6 indirme adresini açın: https://storage.googleapis.com/openimages/web/index.html
Google Blogu: https://ai.googleblog.com/2020/02/open-images-v6-now-feature-localized.html
- Bitiş -
Qubit QbitAI · Toutiao İmzalama Yazarı
Bize dikkat edin ve en son teknolojiden haberdar olun