Li Feifei'nin yeni öğrenci çalışması: Görüntüler oluşturmak için sahne grafiklerini kullanma

Leifeng.com AI Technology Review Press: Li Feifeinin öğrencisi Justin Johnson, kısa süre önce arXiv: Sahne Grafiklerinden Görüntü Oluşturma (Sahne Grafiklerinden Görüntü Oluşturma) üzerine bir makale yükleyerek görüntüleri oluşturmak için yapılandırılmamış metin yerine yapılandırılmış sahne grafikleri kullanmayı önerdi. Bu yöntem, nesneler ve nesneler arasındaki ilişkiyi net bir şekilde analiz edebilir ve birden çok tanımlanabilir nesneyle karmaşık görüntüler oluşturabilir.

Öz

Görsel dünyayı gerçekten anlamak için, bir model sadece görüntüleri tanımalı değil, aynı zamanda onları üretmelidir. Son zamanlarda, resimler oluşturmak için doğal dilde tanımlamada heyecan verici bir ilerleme kaydedildi. Bu yöntemler sınırlı alanlarda (kuşların veya çiçeklerin tanımlanması gibi) şaşırtıcı sonuçlar sağlar, ancak birçok nesne ve ilişki içeren karmaşık cümleler için başarılı bir şekilde kopyalanmaları zordur. Yazar, bu sınırlamanın üstesinden gelmek için sahne grafiklerinden nesneler ve bunların ilişkilerini net bir şekilde çıkarabilen görüntüler oluşturmak için bir yöntem önerdi. Yazar tarafından geliştirilen model, girdi haritasını işlemek için grafik evrişimi kullanır, nesnenin sınırlayıcı kutusunu ve bölütleme maskesini tahmin ederek sahne düzenini hesaplar ve düzeni kademeli bir iyileştirme ağı ile bir görüntüye dönüştürür. Makalenin yazarı, gerçek çıktı görüntüsünün yeterince gerçekçi olmasını sağlamak için bir dizi ayrımcıya karşı rakip bir eğitim ağı kullanıyor. Deney, yöntemini Visual Genome ve COCO-Stuff veri kümeleri aracılığıyla doğrular.Nitatif sonuçlar ve kullanıcı deneyi tekrarları, yöntemin birden çok nesneyle karmaşık görüntüler oluşturabileceğini kanıtlar.

Arka plan tanıtımı

Anlamadığım şeyler yaratamam. Richard Feynman

Yaratıcı davranışın yaratılması, yaratılan şeylerin derinlemesine anlaşılmasına dayanır. Örneğin, şefler yemek yiyenlere göre daha derin bir yemek anlayışına sahiptir, romancılar okuyuculardan daha derin bir yazı anlayışına sahiptir ve film yapımcıları hayranlardan daha derin bir film anlayışına sahiptir. Bir bilgisayar görme sistemi görsel dünyayı gerçekten anlayacaksa, yalnızca görüntüleri tanımalı değil, aynı zamanda üretebilmelidir.

Derin bir görsel anlayış aktarmanın yanı sıra, gerçekçi görüntüler üretme yöntemleri de pratikte yararlı olabilir. Kısa vadede, otomatik görüntü oluşturma, sanatçıların veya grafik tasarımcıların daha iyi çalışmasına yardımcı olabilir. Bir gün, görüntüler ve videolar, algoritmalara dayanan görüntü ve video arama motorlarının yerini alarak, her kullanıcının kişisel ilgi alanlarına göre özelleştirilebilir.

Metinden görüntü sentezine, tekrarlayan sinir ağları ve üretken yüzleşme ağlarının birleşimi yoluyla bu hedeflere ulaşmanın bir adımı olarak, doğal dil tanımlarından görüntüler üretmede heyecan verici bir ilerleme kaydedildi. (Makalenin yazarı bu çalışmayı Google Cloud AI stajı sırasında zaten tamamladı)

Şekil 1

StackGAN gibi cümlelerden görüntü oluşturmak için en iyi yöntemler vardır, ancak karmaşık cümleleri birçok nesneyle gerçekçi bir şekilde tasvir etmek zordur. Makalenin yazarı, sahne grafiğinden görüntüler üreterek bu sınırlamanın üstesinden gelir ve nesneleri ve bunların ilişkilerini net bir şekilde çıkarabilir.

Bu yöntemler, kuşların veya çiçeklerin ayrıntılı açıklamaları gibi sınırlı alanlarda şaşırtıcı etkiler yaratabilir. Bununla birlikte, Şekil 1'de gösterildiği gibi, cümlelerden görüntü oluşturmanın ana yöntemi, birçok nesne içeren karmaşık cümlelerle karşılaşıldığında iyi çalışmaz.

Cümleler birbiri ardına doğrusal bir yapıya sahiptir; ancak, Şekil 1'de gösterildiği gibi, karmaşık cümlelerin ilettiği bilgiler genellikle nesneler olarak ve bunların ilişkileri sahne grafikleri olarak daha açık bir şekilde ifade edilebilir. Sahne grafikleri, görüntülerin ve dilin güçlü yapılandırılmış temsilleridir; anlamsal görüntü elde etmek; görüntü altyazısını değerlendirmek ve iyileştirmek için kullanılmıştır. Yöntem aynı zamanda cümleleri sahne grafiklerine dönüştürmek için geliştirildi ve görüntülerden sahne grafiklerine tahmin için kullanıldı.

Bu makalede yazar, modelin nesneleri ve bunların ilişkilerini net bir şekilde açıklayabilmesi için sahne grafiklerinin oluşturulmasını ayarlayarak birden çok nesne ve karmaşık ilişkiler içeren görüntüler oluşturmayı amaçlamaktadır.

Bu yeni görev, yeni zorluklar getiriyor. Yazarlar, sahne grafiği girdisini işlemek için yöntemler geliştirmelidir; bunun için, grafiğin kenarları boyunca bilgi iletmek için bir grafik evrişimli ağ kullanırlar. Görüntü işlendikten sonra sembolik grafik yapının girdisi ile iki boyutlu görüntünün çıktısı arasındaki boşluk doldurulmalıdır; bunun için görüntüdeki tüm nesnelerin sınırlayıcı kutu ve bölütleme maskesi tahmin edilerek sahne düzeni oluşturulur. Yerleşim önceden ayarlandıktan sonra, onunla ilgili bir görüntü oluşturulmalıdır; bunun için düzeni sürekli artan bir mekansal ölçekte işleyen kademeli bir iyileştirme ağı (CRN) kullanılır. Son olarak, oluşturulan görüntülerin gerçek olduğundan ve tanımlanabilir nesneler içerdiğinden emin olmak gerekir; bu nedenle, görüntü yamaları ve oluşturulan nesneler için bir dizi ayırıcı ağ, yüzleşme için eğitilir. Modelin tüm bileşenleri uçtan uca birlikte öğrenir.

Yazar iki veri seti üzerinde deneyler yapıyor: Görsel Genom yapay olarak açıklamalı sahne grafikleri sağlar ve COCO-Stuff yerdeki gerçek nesnelerin konumuna göre sentetik sahne grafikleri oluşturur. Her iki veri setinde de, yöntemin karmaşık görüntüler oluşturma becerisini gösteren niteliksel sonuçlar gösterilecektir. Bu karmaşık görüntüler, giriş sahne grafiğinin nesnelerini ve ilişkilerini içerir ve modelin her bir bileşenini doğrulamak için kapsamlı görüntü segmentasyonu gerçekleştirir.

Oluşturulan görüntü modelinin otomatik olarak değerlendirilmesi başlı başına zorlu bir sorundur, bu nedenle deneysel sonuçlar iki Amazon Mechanical Turk kullanıcı çalışması aracılığıyla değerlendirilmiştir. StackGAN ile karşılaştırıldığında, bu önde gelen bir metinden görüntüye sentez sistemidir.Kullanıcılar, bu yöntemle üretilen sonuçların, denemelerin% 68'inde COCO altyazılarıyla daha iyi eşleşebileceğini ve% 59'dan fazla tanımlanabilir nesneyi içerdiğini keşfettiler.

deneysel yöntem

Yazarın amacı, nesneleri ve bunların ilişkilerini tanımlayan bir sahne grafiğini girdi olarak alan ve grafiğe karşılık gelen gerçekçi bir görüntü oluşturan bir model geliştirmektir. Üç ana zorluk vardır: Birincisi, bir grafik yapı girdisini işleme yöntemi geliştirilmeli; ikincisi, oluşturulan görüntünün grafik tarafından belirtilen nesneleri ve ilişkileri içermesi sağlanmalıdır; üçüncüsü, kompozit görüntünün doğru olduğundan emin olunmalıdır.

Yazar, sahne grafiğini Şekil 2'de gösterildiği gibi, sahne grafiğini G ve gürültü z'yi giren ve bir görüntü I = f (G, z) çıkaran görüntü oluşturma ağının bir görüntüsüne dönüştürür.

Sahne grafiği G, her nesnenin gömme vektörünü veren bir grafik evrişimli ağ tarafından işlenir; Şekil 2 ve Şekil 3'te gösterildiği gibi, katman evrişimin her katmanı, grafiğin kenarı boyunca bilgiyi karıştırır.

Her nesnenin sınırlayıcı kutusunu ve bölütleme maskesini tahmin etmek için grafik evrişimli ağdan nesne gömme vektörünü kullanırız, böylece G'den gelen nesnelere ve ilişkilere saygı duyarız; bunlar, Şekil 2'nin ortasında gösterildiği gibi bir sahne düzeni oluşturmak için birleşir. Grafikler ve görüntü alanları arasında bir ara katman görevi görür.

Çıktı görüntüsü I ^, Şekil 2'de sağda gösterildiği gibi Basamaklı İyileştirme Ağı (CRN) kullanılarak düzenden oluşturulur. Her modül düzeni işliyor, uzamsal ölçeği artırıyor ve son olarak I ^ görüntüsünü oluşturuyor. Dimg ve Dobj gibi bir çift ayrımcı ağ üzerinde düşmanca eğitimle gerçekçi görüntüler oluşturuyoruz.Bu ağlar I ^ imajını gerçekçi görünmeye teşvik ediyor.

Deneydeki her bir bileşenin daha ayrıntılı bir açıklaması için lütfen orijinal makaleye bakın: https://arxiv.org/abs/1804.01622

şekil 2

Görüntü oluşturma ağı f, sahne grafiğinden görüntünün bir genel görünümünü oluşturmak için kullanılır. Modelin girdisi, nesneleri ve ilişkileri belirleyen bir sahne grafiğidir; tüm nesnelerin gömme vektörlerini hesaplamak için bilgileri kenarlar boyunca ileten grafiksel bir evrişimli ağ (Şekil 3) tarafından işlenir. Bu vektörler, nesnenin sınırlayıcı kutusunu ve bölütleme maskesini tahmin etmek için kullanılır ve sahne düzenini oluşturmak için birleştirilir (Şekil 4). Düzeni bir görüntüye dönüştürmek için Basamaklı İyileştirme Ağı (CRN) kullanın. Model, bir çift ayrımcı ağa karşı eğitilmiştir. Eğitim sırasında model, kesin referans nesnesinin sınırlayıcı kutusunu ve (isteğe bağlı) segmentasyon maskesini gözlemler, ancak bunlar test sırasında model tarafından tahmin edilir.

Tek bir grafik evrişimli katman için örnek bir hesaplama diyagramı Şekil 3'te gösterilmiştir.

resim 3

Bilgisayar grafikleri, tek bir grafik değişikliği katmanını temsil eder. Grafik, o1, o2 ve o3 olmak üzere üç nesneden ve iki kenardan (o1, r1, o2) ve (o3, r2, o2) oluşur. Her kenar boyunca, üç giriş vektörü gs, gp ve go işlevlerine aktarılır; gp doğrudan kenarın çıkış vektörünü hesaplarken, gs ve go, nesnenin çıktı vektörünü hesaplamak için simetrik havuz işlevine beslenen aday vektörleri hesaplar. .

Bir görüntü oluşturmak için, görüntü etki alanından görüntü etki alanına taşınmalıdır. Bu amaçla, yazar, oluşturulan görüntünün kaba bir 2B yapısını veren sahne düzenini hesaplamak için nesne yerleştirme vektörünü kullanır; sahne düzeni, Şekil 4'te gösterildiği gibi, her nesne için bölümleme maskesini ve sınırlayıcı kutuyu tahmin etmek için nesne düzeni ağı kullanılarak hesaplanır. Gösterildi.

Şekil 4

Şekil 4, sahne düzeni hesaplanarak görüntü alanından görüntü alanına aktarılır. Her nesnenin gömme vektörü, nesnenin düzenini tahmin eden ve sahne düzenini vermek için tüm nesnelerin düzenini özetleyen bir nesne yerleşim ağına aktarılır. Nesne yerleşim ağı, dahili olarak bir yumuşak ikili bölümleme maskesini ve bir nesnenin sınırlayıcı kutusunu tahmin eder; bunlar, nesne düzenini oluşturmak için çift doğrusal enterpolasyon kullanan gömme vektörleriyle birleştirilir.

Şekil 5

Şekil 5, 64 × 64 görüntü oluşturmak için Görsel Genom (soldaki dört sütun) ve COCO (sağdaki dört sütun) test setlerinden alınan grafikleri örnek olarak kullanır. Her örnek için, giriş sahne grafiği ve sahne grafiğinin manuel olarak metne dönüştürülmesi gösterilir; model sahne grafiğini işler ve tüm nesneler için sınırlayıcı kutulardan ve bölümleme maskelerinden oluşan düzeni tahmin eder; daha sonra bu düzen, görüntüyü oluşturmak için kullanılır. Yazar ayrıca, öngörülen sahne düzeni yerine temel gerçeği kullanarak modelin bazı sonuçlarını gösterir. Çift oklarla gösterildiği gibi, bazı sahne grafikleri tekrarlanan ilişkilere sahiptir. Açıklık adına, gökyüzü, sokak ve su gibi belirli kategorilerdeki nesneler için maskeler görmezden gelinir.

Şekil 6

Yazarın yöntemi ile oluşturulan görüntüler Görsel Genom üzerine eğitilmiştir. Her satıra soldaki basit sahne grafiğiyle başlıyoruz ve yavaş yavaş daha fazla nesne ve ilişki ekliyor ve sağa doğru hareket ediyoruz. Görüntüler, "uçurtma altındaki arabalar" ve "çimenlerde tekneler" gibi ilişkileri içeriyor.

Bazı deneysel sonuçların karşılaştırılması

tablo 1

Tablo 1, Başlangıç puanlarını kullanan ablasyon çalışmalarını göstermektedir. Her bir veri setinde yazar, test seti örneklerini rastgele 5 gruba ayırır ve grupların ortalamasını ve standart sapmasını bildirir. COCO'da, farklı sentetik sahne grafikleri oluşturularak her test seti görüntüsü için beş numune oluşturulur. StackGAN için yazar, her bir COCO test seti başlığı için bir görüntü oluşturur ve makaledeki yöntemle adil bir karşılaştırma için 256 × 256 çıktısını 64 × 64'e altörneklemektedir.

Tablo 2

Tablo 2, tahmin edilen sınırlayıcı kutunun istatistikleridir. R @ t, IoU eşiği t olan bir nesne çağrısıdır ve yer gerçeği kutusu ölçümü ile uyumludur. x ve sırasıyla her nesne kategorisindeki x çerçevesinin konumu ve alanının standart sapmasını hesaplar ve ardından çerçevenin değişimini ölçmek için her kategorinin ortalamasını alır.

Sonuçların analizi

Şekil 5, Görsel Genom ve COCO test setlerinden örnek sahne grafiklerini ve yazarın yöntemi kullanılarak oluşturulan görüntülerin yanı sıra tahmini nesne sınırlayıcı kutuları ve segmentasyon maskelerini göstermektedir.

Bu örneklerden, bu yöntemin birden çok nesneye sahip sahneler ve hatta aynı nesne türünün birden çok örneğini oluşturabileceği açıkça görülebilir: örneğin, Şekil 5 (a) iki koyunu gösterir, (d) iki koyunu gösterir Bir otobüs, (g) üç kişiyi gösterir, (i) iki arabayı gösterir.

Bu örnekler ayrıca yöntemin girdi grafiğinin ilişkisini içeren görüntüler ürettiğini göstermektedir; örneğin (i) ikinci brokolinin solunda bir brokoli ve ikinci brokolinin altında bir havuç; (j) 'de adam Ata biniyor ve adamın bacakları ve atın bacakları uygun şekilde yerleştirilmiş. Şekil 5 ayrıca, bu yöntemin tahmin edilen nesne düzeninden ziyade temel gerçeklerden üretilen görüntüleri kullandığını göstermektedir.

Bazı durumlarda, bu yöntemin öngörülen düzeni, kesin referans nesnelerinin düzeninden çok farklı olabilir. Örneğin şekil (k) 'de kuşun konumu belirtilmemiştir, bu yöntem onun yerde durmasını sağlar ancak gerçek yer düzeninde kuş gökyüzünde uçmaktadır. Model bazen, görüntü kalitesini önemli ölçüde iyileştirmek için öngörülen düzen yerine kesin gerçeği kullanmak gibi (n) düzen tahmini darboğazından muzdariptir.

Şekil 6'da, soldaki basit grafikten başlayarak, modelin karmaşık görüntüler oluşturma yeteneğini göstermek için kademeli olarak daha karmaşık grafikler oluşturun. Bu örnekten, nesnenin konumunun şekildeki ilişkiden etkilendiğini görebilirsiniz: üst sıraya "uçurtmanın altındaki araba" ilişkisinin eklenmesi, arabanın sağa hareket etmesine ve uçurtmanın sola hareket etmesine neden olur. İlişki de değişti. En alttaki sırada, "tekne çimde" ilişkisinin eklenmesi, geminin konumunun değişmesine neden olur.

sonuç olarak

Bu makalede yazar, sahne grafiklerinden görüntüler oluşturmak için uçtan uca bir yöntem geliştiriyor. Metin açıklamalarından görüntü oluşturmanın önde gelen yöntemleriyle karşılaştırıldığında, yazarın yapılandırılmamış metin yerine yapılandırılmış sahne grafiklerinden görüntüler üretme yöntemi, nesneler ve nesneler arasındaki ilişkiyi net bir şekilde analiz edebilir ve birden çok tanımlanabilir nesne oluşturabilir. Karmaşık görüntü.

Kağıt indirme adresi: https://arxiv.org/abs/1804.01622

Leifeng.com AI Teknolojisi İncelemesi

Lei Feng

Yeni mi eski mi? Apple Apple Watch Series 4 veri kapsamlı karşılaştırması Series 3
önceki
Doğrudan 2019MWC'yi vurdu, OnePlus'ın ilk 5G cep telefonu tam hızda çıktı
Sonraki
Bilgisayarın ısısını telefona takın
John Krafcik'in Waymo olarak geçirdiği üç yıla baktığımızda: Bu havadan CEO nedir?
MeToo hareketinin aktristi, iki canlandırılan anne ve oğlu olan erkeklere cinsel saldırıya uğradı.
Bu hafta oyun zamanı sıcak: oyunun içi dışarı çıktığında
AMD ailesinin kılıcı: APU
Katlanabilir geniş ekranlı giyilebilir küçük ekran: akıllı telefonların geleceği iki geliştirme yönüdür
Apple lansmanının öne çıkan noktaları nelerdir? Bu makale sizi anlatacak!
Bahar Şenliği yaklaşıyor, bu güvenli gaz rehberi tam size göre!
Sıfır esaret sürükleyici deneyim Sony WI-C600N Bluetooth gürültü önleyici kulaklık incelemesi
Kahraman katil olarak oynandığında: Oyundaki anlatı düzensizliği üzerine
Bir virajda sollamak, cep telefonu kamerasının karşı saldırısını izlemek
Sevgililer Günü'nde arabada romantizm duygusu nasıl yaratılır? Yeter
To Top