Ian Goodfellow ve arkadaşları kendine dikkat GAN'ı önerdi, ImageNet görüntü sentezi en iyi sonuçları elde etti

Xinzhiyuan Derlemesi

Kaynak: arxiv.org

Çeviri: Xiao Qin

Xin Zhiyuan Rehberi Görüntü sentezi, bilgisayarla görmede önemli bir konudur. Google Brain'den Ian Goodfellow ve diğerleri, ImageNet çok sınıflı görüntü sentezinde evrişime ek olarak, öz-dikkat mekanizmasını evrişimli GAN'a sokan "Self-Attention Generative Adversarial Network" (SAGAN) adlı son araştırmalarında önerdiler. Görevde en iyi sonuç elde edildi.

Kağıt adresi: https://arxiv.org/pdf/1805.08318.pdf

Görüntü sentezi (Görüntü sentezi) bilgisayarla görmede önemli bir konudur. Generative Adversarial Networks'ün (GAN) ortaya çıkması ile bu yönde önemli ilerlemeler kaydedildi. Derin evrişimli ağlara dayalı GAN özellikle başarılıdır. Ancak bu modellerin oluşturduğu örneklerin dikkatlice kontrol edilmesiyle, ImageNet gibi birçok görüntü kategorisine sahip veri kümeleri üzerinde eğitim yapılırken, evrişimli GAN'lar tarafından sentezlenen görüntülerin tatmin edici olmadığı gözlemlenebilir.

Bu soruna yanıt olarak, Google Brain'den Ian Goodfellow ve Augustus Odena ve Rutgers Üniversitesi'nden Han Zhang ve Dimitris Metaxas, vb. Son araştırmalarında öne sürdüler. "Öz Dikkat Yaratan Tartışmalı Ağ" (SAGAN) , Öz-dikkat mekanizması, evrişime ek olarak evrişimli GAN'a dahil edilir ve en iyi sonuçlar elde edilir.

Özet

Bu yazıda, Self-Attention Generative Adversarial Network (SAGAN) öneriyoruz. SAGAN, görüntü oluşturma görevleri için dikkat odaklı, uzun korelasyon modellemesine izin verir. Geleneksel evrişimli GAN tarafından üretilen yüksek çözünürlüklü ayrıntılar, yalnızca düşük çözünürlüklü özellik haritasındaki uzamsal yerel noktaların bir işlevidir. SAGAN'da, tüm özellik konumlarından ipuçları ayrıntı oluşturmak için kullanılabilir. Ek olarak, ayırıcı, görüntünün uzak kısmının oldukça ayrıntılı özelliklerinin birbiriyle örtüşüp örtüşmediğini kontrol edebilir. Ek olarak, son çalışmalar, jeneratör koşullarının GAN'ların performansını etkileyebileceğini göstermiştir. Bu bulguları kullanarak, spektrumu GAN oluşturucusuna normalleştirdik ve bunun eğitim dinamiklerini iyileştirdiğini gördük. Önerdiğimiz SAGAN, en yeni sonuca ulaştı, Başlangıç puanını mevcut en yüksek 36,8'den 52,52'ye yükseltti ve zorlu ImageNet veri kümesinde Frechet Inception mesafesini 27,62'den 18,65'e düşürdü. Dikkat katmanının görselleştirilmesi, jeneratörün sabit bir şekle sahip yerel bir alan yerine nesnenin şekline karşılık gelen mahalleyi kullandığını göstermektedir.

SAGAN: Öz-dikkat mekanizmasını GAN'a tanıtmak

En gelişmiş ImageNet GAN modeli neredeyse sentezlemede iyidir. Yapısal kısıtlama yok Görsel kategorileri (örneğin, okyanus, gökyüzü ve manzara, fark, Doku Geometrik yapıdan ziyade), ancak Geometrik desen veya yapı deseni (Örneğin, köpeklerin genellikle gerçekçi kürk dokuları vardır, ancak açıkça ayırt edilen ayakları yoktur).

Olası bir açıklama, önceki modelin Evrişime büyük ölçüde bağımlı Farklı görüntü bölgeleri arasındaki bağımlılıkları modellemek. Evrişim operatörü yerel bir alıcı alana sahip olduğundan, yalnızca birkaç evrişimli katmandan geçtikten sonra uzun mesafeli korelasyonlarla ilgilenebilir.

Çeşitli nedenlerle bu öğrenmeyi engelleyebilir Uzun vadeli bağımlılıklar : Küçük modeller onları temsil edemeyebilir, optimizasyon algoritmaları parametre değerlerini bulamayabilir, bu parametre değerleri bu korelasyonları yakalamak için birden fazla katmanı dikkatlice koordine eder ve bu parametrelendirmeler, daha önce görülmemiş olanlara uygulandığında istatistikte oldukça kırılgan olabilir. Geçmişe girerken başarısız olmak kolaydır. Evrişim çekirdeğinin boyutunu artırmak, ağın karakterizasyon yeteneğini geliştirebilir, ancak bunu yapmak, yerel evrişim yapısı kullanılarak elde edilen hesaplama ve istatistiksel verimliliği de kaybedecektir.

diğer yandan, Öz dikkat, modelin uzun korelasyonunu ve hesaplama ve istatistiksel verimliliğini daha iyi dengeleyebilir . Öz-dikkat modülü, ağırlıklar (veya dikkat vektörleri) sadece küçük bir hesaplama maliyeti ile hesaplandığında, tüm konumların özelliklerinin ağırlıklı toplamına dayalı olarak tepkiyi hesaplar.

Şekil 1: Önerdiğimiz SAGAN, tutarlı bir nesne / sahne oluşturabilen sabit şekilli bir yerel alan yerine görüntünün uzak kısmının tamamlayıcı özelliklerini kullanarak görüntüler üretir. Şekildeki her satırın ilk resmi, renk kodlu noktalarla beş temsili sorgu konumunu gösterir. Diğer beş görüntü, ilgili renk kodlu okların en çok odaklanan alanları özetlediği bu sorgu konumları için dikkat haritalarıdır.

bu görevde Öz-dikkat mekanizmasını evrişimli GAN'a sokan Öz Dikkat Üreten Çekişme Ağı'nı (SAGAN) öneriyoruz. . Öz-dikkat modülü, evrişime bir tamamlayıcıdır ve görüntü bölgeleri arasında uzun mesafeli, çok katmanlı bağımlılıkları simüle etmeye yardımcı olur. Öz dikkat sayesinde, jeneratör bir görüntü çizebilir ve çizilen görüntüdeki her bir konumun ince ayrıntıları görüntünün uzak ucunun ince ayrıntılarıyla tam olarak koordine edilir. Ek olarak, ayırıcı, global görüntü yapısı üzerinde karmaşık geometrik kısıtlamaları daha doğru bir şekilde gerçekleştirebilir.

Şekil 2: Önerilen öz-ilgi mekanizması. Matris çarpımını temsil eder ve her satırda softmax işlemini gerçekleştirir

Öz dikkatin yanı sıra, hakkında da konuşacağız. Ağ ayarı (Ağ koşullandırma) içgörüleri GAN performansı ile birleştirilir. A. Odena ve arkadaşları tarafından yapılan araştırma, iyi ayarlanmış jeneratörlerin daha iyi performans gösterme eğiliminde olduğunu gösterdi. Kullanmanızı öneririz Spektrum normalleştirme tekniği (Spektral normalleştirme) GAN jeneratörünün ayarını güçlendirmek için.

Önerilen öz-dikkat mekanizmasının ve stabilizasyon tekniğinin etkinliğini doğrulamak için ImageNet veri kümesi üzerinde birçok deney yaptık. SAGAN'ın görüntü sentezindeki performansı, son teknoloji ürünü performansın çok üzerinde, Önceden bildirilen en yüksek Başlangıç puanını 36,8'den 52,52'ye yükseltin ve Fréchet Başlangıç mesafesini (FID) 27,62'den 18,65'e düşürün . Dikkat katmanının görsel sunumunda üretici, sabit şeklin yerel alanı yerine nesnenin şekline karşılık gelen alanı kullanır.

ImageNet üzerinde görüntü sentezi deneyi

Önerilen yöntemi değerlendirmek için, LSVRC 2012 (ImageNet) veri seti üzerinde çok sayıda deney gerçekleştirdik. Öncelikle değerlendirmemiz GAN eğitimini stabilize etmek için iki teknik Etkililik deneyleri yapın. İkinci olarak, önerilen öz-ilgi mekanizması incelenir. Son olarak, SAGAN diğer son teknoloji görüntü oluşturma yöntemleriyle karşılaştırılır.

Değerlendirme indeksi

Biz Başlangıç puanı (IS) ve Fréchet başlangıç mesafesini (FID) kullanarak nicel değerlendirme . Başlangıç puanı ne kadar yüksekse, görüntü kalitesi o kadar iyi olur. FID daha kural tabanlı ve kapsamlı bir göstergedir ve üretilen örneklerin gerçekliğini ve değişkenliğini değerlendirmek açısından insan değerlendirmesiyle daha tutarlı olduğu kanıtlanmıştır. FID değeri ne kadar düşükse, sentetik veri dağıtımı ile gerçek veri dağıtımı arasındaki mesafenin daha yakın olduğu anlamına gelir.

Şekil 3: Önerdiğimiz stabilizasyon tekniğini kullanarak temel modelin ve modelimizin eğitim eğrisi

Tablo 1: GAN'ın Öz Dikkat ve Artık bloğunun Karşılaştırması. Bu bloklar, ağın farklı katmanlarına eklenir. Tüm modeller 1 milyon yineleme için eğitilmiştir ve en iyi Başlangıç skorunu (IS) ve Fréchet başlangıç mesafesini (FID) rapor eder.

Şekil 4: Modelimiz tarafından rastgele oluşturulmuş temel model ve 128 × 128 görüntü örnekleri

Şekil 5: Dikkat haritalarının görselleştirilmesi. Bu görüntülerin tamamı SAGAN tarafından oluşturulmuştur

Son teknoloji modelle karşılaştırma

ImageNet'te SAGAN, en gelişmiş GAN modeli ile karşılaştırılır. Tablo 2'de gösterildiği gibi, önerdiğimiz SAGAN Başlangıç puanı ve FID aldı. Başlangıç puanı açısından SAGAN, bir önceki en yüksek 0 olan 0'ı 36,8'den 52,52'ye çıkardı; FID (18,65) ayrıca, SAGAN'ın orijinal görüntüyü daha iyi simüle etmek için öz-dikkat modülünü kullanarak görüntü bölgeleri arasındaki küresel bağımlılığı modelleyebileceğini gösterdi. Dağıtım. Şekil 6, SAGAN tarafından oluşturulan bazı örnek görüntüleri göstermektedir.

Tablo 2: Önerilen SAGAN'ı son teknoloji GAN modeli ile karşılaştırın, görev ImageNet'te kategori koşullu görüntüler oluşturmaktır

Şekil 6: SAGAN tarafından oluşturulan 128 × 128 çözünürlüklü örnek görüntülerin farklı kategorileri. Satır başına bir kategori gösteren örnek

sonuç olarak

Bu araştırmada, öz-dikkat mekanizmasını GAN çerçevesine getiren Öz Dikkat Üreten Çekişme Ağı'nı (SAGAN) öneriyoruz. Öz-dikkat modülü, uzun vadeli bağımlılıkları modellemede çok etkilidir. Ek olarak, jeneratöre uygulanan spektral normalizasyonun GAN eğitimini stabilize edebileceğini ve TTUR'un düzenlenmiş ayırıcı eğitimini hızlandırdığını kanıtlıyoruz. SAGAN, ImageNet'in sınıflandırma koşullu görüntü oluşturma görevinde en gelişmiş performansı elde eder.

Topluluğa katıl

Xinzhiyuan AI teknolojisi + endüstri topluluğunun işe alımında, AI teknolojisi + endüstrisiyle ilgilenen öğrenciler küçük bir WeChat asistanı hesabı ekleyebilirler: aiera2015_3 Gruba katılın; incelemeyi geçtikten sonra sizi gruba katılmaya davet edeceğiz. Topluluğa katıldıktan sonra, grup açıklamalarını değiştirmelisiniz (isim-şirket-pozisyon; profesyonel grup incelemesi katıdır, lütfen anlayın).

Xi Jinping'in Yeni Yıl Endişesi
önceki
Almanya çevresindeki bu en iyi rotayı bilmelisiniz!
Sonraki
Farklı tarzlara sahip üç Japon SUV'u satın almak hangi açıdan daha mantıklı?
Bugün baharın başlangıcı Bir ağacın çiçek açmasını bekleyin, gelişinizi bekleyin ...
En popüler olanı, Nisan ayında gezilebilecek en uygun 9 yer olan Nisan.
33 raundun ardından, Guangsha Liaoning'e liderlik ediyor ve ikinci sırada yer alıyor, ilk sekiz temelde şiddetli rekabetle ilk dört sırada yer alıyor.
Fiyatlar benzer ve yakın, Porsche Macan ve Jaguar F-pace'i nasıl seçersiniz?
Japon bir baba çocuğunun fotoğrafını içtenlikle fotoğrafladı ve Hayao Miyazaki'nin bir animasyonu oldu!
Bahar Şenliği buluşması sırasında çok fazla eğlence var, bu yüzden bunlara dikkat edin!
Volkswagen Weiling: Shenche Partisi istasyon vagonu için ödeme yapacak mı?
Çin Futbol Federasyonu girişimi! Karışık futbol ve atlet seçimi, futbol sahasındaki Bolt artık bir hayal değil
"Sahara" nın yerli versiyonu yine en güzel zamanı başlattı, romantizm kaybı yok
Jingdezhenin Bahar Şenliği sırasında kültür ve turizm ziyafeti sona erdi, lütfen kontrol edin
Guangdong'a sadece sabah çayı için gidebilir mi? Yangzhou nereye koyuyorsun
To Top