Xinzhiyuan Raporu
Kağıt adresi: https://github.com/zsdonghao/text-to-image
Görselin metin açıklamasına göre görüntüleri otomatik olarak sentezleyin
Görsellerin metin açıklamasına dayalı olarak gerçekçi tarzda görüntüleri otomatik olarak sentezlemek ilginç ve kullanışlıdır, ancak mevcut AI sistemi hala bu hedefe ulaşmaktan uzaktır. Bununla birlikte, son yıllarda, ayırt edici metin özelliği temsilini öğrenebilen genel ve güçlü bir tekrarlayan sinir ağı mimarisi ortaya çıktı. Aynı zamanda, Deep Convolution Generative Adversarial Network (GAN), çok dikkat çekici yüzler, albüm kapakları ve oda iç mekanları gibi belirli türde görüntüler üretmeye başladı. Bu araştırmada, metin ve görüntü modellemedeki bu ilerlemeleri etkin bir şekilde köprüleyen ve görsel kavramları karakterlerden piksellere dönüştüren yeni bir GAN mimarisi geliştirdik. Araştırma, önerdiğimiz mimarinin, ayrıntılı metin açıklamalarından kuş ve çiçeklerin makul görüntülerini üretme yeteneğini göstermektedir.
Araştırmada, tek bir cümleyle insanlar tarafından yazılan görüntü açıklamalarını doğrudan görüntü piksellerine dönüştürüyoruz. Örneğin, "Bu küçük kuşun kısa, sivri bir turuncu gagası ve beyaz bir karnı var" veya "Bu çiçeğin yaprakları pembe, diğeri sarı." Görsel betimlemelerden görüntüler oluşturmak her zaman araştırma ilgi alanlarından biri olmuştur, ancak çözülmekten uzaktır.
Şekil 1. Bir metin açıklamasıyla oluşturulan bir görüntü örneği. Sol: Açıklama, sistemin daha önce hiç görmediği bir metin olan sıfır örnek verilerinden geliyor; Sağ: Açıklama, eğitim setinden geliyor.
Öznitelikleri temsil etmek için özniteliği kullanmak iyidir, ancak sorun özniteliklerin belirli alan bilgisi gerektirebilmesidir. Buna karşılık, doğal dil, herhangi bir görsel kategori alanındaki nesneleri tanımlamak için evrensel ve esnek bir etkileşimli arayüz sağlar. İdeal olarak, metin açıklamasının çok yönlülüğünü ve özniteliklerin ayırt edici doğasını birleştirmeliyiz.
Bu zorlu problemi çözmek için iki alt problemin çözülmesi gerekir: birincisi, önemli görsel ayrıntılara işaret eden metin özelliği temsillerini öğrenin; ikincisi, sahte görüntüleri sentezlemek için bu özellikleri kullanın. Neyse ki, son birkaç yılda, derin öğrenme bu iki alt problemde - doğal dil temsili ve görüntü sentezi - büyük ilerleme kaydetti, çabalarımız buna dayalı olacak.
Bununla birlikte, derin öğrenmede çözülmemiş bir sorun, metin açıklamalarına göre oluşturulan görüntülerin dağılımının oldukça çok modlu olmasıdır.Bir anlamda, belirli bir metin açıklaması birçok doğru piksel konfigürasyonuna karşılık gelebilir. Resimlerden metne dönüştürme de bu sorundan etkilenir.
Bu multimodalite, üretken ağın, rakip eğitim için kullanılan ayrımcıyı kandırmak için optimize edildiği, üretken karşıt ağlar için çok doğal bir uygulamadır. Jeneratörü ve ayırıcıyı ayarlayarak, bu fenomeni doğal olarak modelleyebiliriz çünkü ayırt edici ağ, "akıllıca" adapte olabilen bir kayıp fonksiyonudur.
Yöntem ve ağ mimarisi
Ana katkımız, çiçeklerin ve kuşların insan tasvirlerinden görüntülerin sentezini sağlayan basit ve etkili bir GAN mimarisi ve eğitim stratejisi geliştirmektir. Esas olarak Caltech-UCSD Birds veri seti ve Oxford-102 Flowers veri setini kullandık ve değerlendirme ayarlarımız olarak her görüntü için 5 metin açıklaması topladık. Modelimiz eğitim kategorisinin bir alt kümesi üzerinde eğitildi ve eğitim seti ve test setindeki performansını gösterdi (yani metinden sıfır örnek sentezlenmiş görüntüler). Kuşlara ve çiçeklere ek olarak, modeli MSCOCO veri kümesindeki daha genel görüntü ve metin açıklamalarına da uyguluyoruz.
Generative Adversarial Network (GAN), küçültme algoritmasında rekabet eden bir jeneratör G ve bir ayırıcı D'den oluşur: ayırıcı sentetik görüntüler ile gerçek eğitim verileri arasında ayrım yapmaya çalışırken, jeneratör ayırıcıyı kandırmaya çalışır. D ve G arasındaki oyun V (D, G) 'de başlar:
Yöntemimiz, hibrit karakter düzeyinde evrişimli tekrarlayan sinir ağı tarafından kodlanan metin özelliklerine dayanır ve derin bir evrişimli üretici yüzleşme ağını (DC-GAN) eğitir.
Algoritma 1 Eğitim sürecimiz
Ağ mimarisi
Şekil 2: Metin koşullu evrişimli GAN mimarimiz, metin kodlaması (t) hem oluşturucu hem de ayırıcı için kullanılır.
Şekil 3: GAN, GAN-CLS, GAN-INT ve GAN-INT-CLS kullanılarak Zero-shot (bilinmeyen bir test seti kategorisinden metin) tarafından oluşturulan bir kuşun görüntüsü.
Şekil 4: Zero-shot, GAN, GAN-CLS, GAN-INT ve GAN-INT-CLS kullanarak çiçeklerin görüntülerini oluşturur. Tüm değişkenler makul görüntüler üretti. Eğitim sırasında belirli test kategorilerinin şekilleri (3. ve 4. sütunlar gibi) gösterilmese de, renk bilgileri korunur.