Neden GAN yakında mevcut fotoğraf teknolojisinin yerini alacak?

Xinzhiyuan Kılavuzu GAN'ın doğuşundan bu yana, bilgisayar görüşü alanındaki performans çarpıcı olarak tanımlanabilir: metin-görüntü dönüştürme, etki alanı geçişi, görüntü onarımı / genişletme, yüz sentezi ve hatta ince ifade değişiklikleri. Bu makale bunu değerlendirdi ve yazar şöyle dedi: GAN yakında mevcut fotoğraf teknolojisinin yerini alabilir!

Yapay zeka tarafından oluşturulan görüntüler, mevcut fotoğrafçılık tekniklerinin yerini alabilir.

Pek çok insan "yapay zeka", "makine öğrenimi" veya "bot" u duyduğunda, akla gelen ilk şey, bilim kurgu filmlerinde sıklıkla görülen, yürüyebilen ve konuşabilen fütüristik robot olmalıdır.

bu gerçek değil! Yapay zeka, uzun yıllardır etrafımızda "gizleniyor". Artık akıllı telefonunuzda (Siri / Google Voice Assistant), araç GPS sisteminde mümkün.

Ancak, son birkaç yılda hiçbir alan adında Bilgisayar görüşü Bundan daha çok etkileniyor.

Teknolojinin gelişmesiyle birlikte, görsel olarak çekici süper yüksek çözünürlüklü görüntüler gittikçe daha yaygın hale geliyor. İnsanların görüntüleri iyileştirmek ve değiştirmek için Photoshop ve CorelDRAW gibi araçların nasıl kullanılacağını öğrenmesine artık gerek yok çünkü yapay zeka bu alanlarda en iyi sonuçları veren görüntüler üretebilir. Ancak, son fikir aslında görüntü oluşturmak için AI kullanmaktır.

Geçmişte gördüğümüz tüm imgeler, üretim süreçlerinde az ya da çok insan katılımına sahip olmalıdır. Ancak bir bilgisayar programının sıfırdan çizmesini istediğiniz her şeyi çizebileceğini hayal edin. Yakın gelecekte ona yalnızca "Eyfel Kulesi'nin yanında duran bir resim istiyorum" gibi bazı talimatlar vermeniz gerekir. Ardından görüntü oluşturulur (tabii ki girdinizin doğru olması gerekir)!

Generative Adversarial Network (GAN)

"Makine öğreniminin son 10 yılında, GAN en ilginç fikir."

-Yann LeCun

Bu bileşik görüntüyü oluşturmanın temeli şudur: Generative Adversarial Network (GAN) .

Ian Goodfellow ve meslektaşları araştırma makalelerini 2014 yılında keşfedip yayınladığından beri GAN, derin öğrenmede en etkileyici ve en yaygın kullanılan tekniklerden biri olmuştur. Bu teknolojinin sonsuz uygulamaları, yalnızca bilgisayarla görü değil, aynı zamanda veri analizi, robotik ve tahmine dayalı modeller de dahil olmak üzere sözde rakip eğitimin temelini oluşturmaktadır.

Peki, GAN hakkında bu kadar harika olan ne?

Üretken yüzleşme ağları bir dizi üretken modele aittir. Bu, işlerinin tamamen otomatik bir süreçte yeni veriler oluşturmak veya "üretmek" olduğu anlamına gelir.

Ian Goodfellow'un makalesinde oluşturulan görüntü.

Adres: https://arxiv.org/abs/1406.2661

Adından da anlaşılacağı gibi, GAN aslında birbiriyle (çatışmalı bir şekilde) rekabet eden iki bağımsız sinir ağından oluşur. Bir sinir ağına, rastgele gürültüden yeni veri örnekleri oluşturan bir jeneratör adı verilir; diğer sinir ağına, bu örneklerin gerçekliğini değerlendiren bir ayırıcı adı verilir. Başka bir deyişle, ayırıcı, incelediği her veri örneğinin gerçek eğitim veri setine ait olup olmadığına karar verir.

Basit bir örnek

Görevinizin ünlü bir tabloyu kopyalamak olduğunu varsayalım. Ne yazık ki bu sanatçının kim olduğunu bilmiyorsunuz ve resimlerini hiç görmediniz. Ancak sizin göreviniz onu kopyalayıp müzayedede orijinal çalışmalardan biri olarak sergilemektir.

Sadece biraz boya ve tuvalin var. Ancak müzayedeciler, eserleri istedikleri zaman satmak istemiyorlar, bu yüzden resimlerin gerçekliğini tespit etmek için bir dedektif tuttular. Dedektif, bu şaheserin otantik eserine sahiptir, bu nedenle, eğer bir iş çıkarırsanız, dedektif, resminizin sahte (hatta tamamen farklı) olduğunu hemen anlar.

Dedektif bir kez reddettiğinde, başka bir iş yaratacaksınız. Ancak bu deneyim sayesinde, dedektiften bazı ipuçları elde edeceksiniz (bu ipuçları gerçek resmin nasıl görünmesi gerektiğiyle ilgilidir).

Tekrar denediğinizde, resim ilk seferinden daha iyi olacak. Bu noktada, dedektif hala bunun gerçek olduğuna inanmıyor, bu yüzden bazı ipuçları alırsanız, tekrar deneyin, vb. 1000 kez resim yapana kadar, dedektif yüksek kopya eserlerinizi elinde tutuyor ve artık hangi resmin orijinal olduğunu bilmiyor.

GAN'ın iş akışı nedir?

Yukarıdaki düşünce sürecini sinir ağı kombinasyonuna uygulayarak, GAN'ın eğitim süreci aşağıdaki adımları içerir:

GAN'ın temel çerçevesi.

Adres: https://medium.freecodecamp.org/an-intuitive-introduction-to-generative-adversarial-networks-gans-7a2264a81394

  • Başlangıçta, jeneratör bir miktar rastgele gürültü alır ve bunu ayırıcıya iletir;
  • Ayırıcı, gerçek görüntülerin veri setine eriştiği için, bu gerçek veri setlerini jeneratörden aldığı görüntülerle karşılaştırır ve gerçekliğini değerlendirir;
  • İlk görüntü yalnızca rasgele gürültü olduğundan "yanlış" olarak değerlendirilecektir;
  • Jeneratör, parametreleri sürekli değiştirerek daha iyi görüntüler oluşturmaya başlar;
  • Eğitim ilerledikçe, sahte görüntüler üreten jeneratörler ve bunları tespit eden ayrımcılar daha akıllı hale gelecek;
  • Son olarak, jeneratör, gerçek görüntü veri kümesindeki görüntülerden ayırt edilemeyen bir görüntü oluşturmayı başarır. Şu anda, ayırt edici, verilen görüntünün doğru mu yanlış mı olduğunu ayırt edemez;
  • Bu noktada eğitim bitmiştir ve oluşturulan görüntü istediğimiz nihai sonuçtur.
  • Kendi GAN'ımız araba logosu görüntüleri oluşturur.

    lehte ve aleyhte olanlar

    Diğer teknolojiler gibi, GAN'ın da kendi avantajları ve dezavantajları vardır.

    İşte bazı GAN potansiyeli Avantaj :

    • GAN, eğitim için her zaman etiketli örneklere ihtiyaç duymaz;
    • Monte Carlo (Monte Carlo) yaklaşım logaritmik bölme fonksiyonu gradyanına dayanan üretken bir modeli eğitmek daha kolaydır. Monte Carlo yöntemi yüksek boyutlu alanlarda iyi çalışmadığından, böyle bir üretken model, ImageNet ile eğitim gibi gerçek dünyadaki görevlerde iyi performans gösteremez.
    • Herhangi bir deterministik önyargı getirmediler. Varyasyonel otomatik kodlayıcılar gibi bazı oluşturma yöntemleri deterministik önyargı sunar çünkü olasılığın kendisinden ziyade log olasılığının alt sınırını optimize ederler.

    Benzer şekilde, GAN'ın da Dezavantaj :

    • GAN'ı eğitmek özellikle zordur. Bu ağların optimize etmeye çalıştıkları işlev, esasen kapalı formda olmayan bir kayıp işlevidir. Bu nedenle, bu kayıp işlevini optimize etmek çok zordur ve ağ yapısında ve eğitim protokolünde çok fazla deneme yanılma gerektirir;
    • (Özellikle) görüntü oluşturma için, doğruluğu değerlendirmek için uygun önlemler yoktur. Bileşik görüntü bilgisayarın kendisi tarafından gerçekleştirilebildiğinden, gerçek sonuç çok öznel bir konudur ve insan gözlemciye bağlıdır. Bunun yerine, performanslarını ölçmek için başlangıç puanı ve Frechet başlangıç mesafesi gibi işlevlere sahibiz.

    GAN Uygulaması

    İşte en ilginç kısım geliyor!

    GAN ile yapabileceğimiz tüm harika şeyler. Tüm potansiyel kullanımları arasında GAN, bilgisayarla görme alanında çok sayıda uygulamaya ulaşmıştır.

    Metin-görüntü dönüştürme

    Bu kavram için TAC-GAN (Karşıt Ağ Oluşturan Metin Koşul Destekli Sınıflandırıcı) gibi birçok deneysel yöntem vardır.

    Sol: TAC-GAN yapısının şematik diyagramı. Sağ: Ağa bir metin satırı girmenin sonucu.

    Alan Adı Transferi

    GAN, stil aktarımı gibi kavramlarda oldukça popülerdir. :

    Görüntüden görüntüye dönüştürme için CGAN (Koşullu Üretken Karşıt Ağ) adlı özel bir GAN türünün kullanımını içerir.

    Boyama ve kavramsal tasarım hiç bu kadar kolay olmamıştı.

    Bununla birlikte, GAN, eskizlerinden cüzdan gibi basit çizimleri tamamlayabilse de, mükemmel yüzler gibi daha karmaşık şeyler çizmek, şu anda GAN'ın güçlü noktası değildir.

    CGAN pix2pix'in deneysel sonuçları

    Görüntü Boyama (görüntü düzeltme) / Görüntü Dış Boyama (görüntü genişletme)

    Ağ oluşturmak için çok heyecan verici iki uygulama şunlardır: görüntü restorasyonu (Inpainting) ve image extension (Outpainting).

    Birincisi, görüntü restorasyonu olarak görülebilen görüntüdeki doldurma veya gürültüyü içerir. Örneğin, bozuk bir görüntü verildiğinde, GAN onu "fena" bir şekilde düzeltebilir.

    Öte yandan, görüntü genişletme, bir görüntünün mevcut sınırlar dışında nasıl görünebileceğini hayal etmek için ağın kendi öğrenmesini kullanmayı içerir.

    Sol: Görüntü geri yükleme sonucu; Sağ: Görüntü genişletme sonucu.

    Yüz sentezi

    Üretim ağının varlığı nedeniyle, farklı açılardan tek bir yüz görüntüsü oluşturmayı içeren yüz sentezi mümkündür.

    Bu nedenle yüz tanıma için yüzlerce yüz numunesi gerekmez, sadece bir numune tanınabilir.

    Sadece bu değil, aynı zamanda "yapay yüzler" oluşturmak da mümkündür. NVIDIA kısa süre önce, yüksek çözünürlüklü sentetik görüntü oluşturmanın ilk örneği olan Celeba Hq veri kümesinde yüksek çözünürlüklü çözünürlüklü yapay yüzler oluşturmak için GAN 2.0'ı kullandı.

    Hayali ünlü yüzleri oluşturmak için Aşamalı GAN'ı kullanın.

    GANimasyon

    GAN, yüz hareketini değiştirmek gibi şeyleri mümkün kılar. GANimation, kendisini "bir görüntüden anatomik olarak önemli yüz animasyonunu çıkarmak" olarak tanımlayan PyTorch'u kullanan bir araştırma sonucudur.

    GANimation'ın resmi uygulaması.

    Adres: https://www.albertpumarola.com/research/GANimation/index.html

    Resim-fotoğraf dönüştürme

    Resimleri daha gerçekçi hale getirmek için GAN'ı kullanmanın bir başka örneği de resimleri fotoğraflara dönüştürmektir.

    Bu, iki jeneratör ve iki ayırıcı kullanan CycleGAN adlı özel bir GAN türü kullanılarak yapılır.

    Görüntüyü X alanından Y alanına dönüştüren bir jeneratör G olarak adlandırıyoruz. Diğer oluşturucu, görüntüyü Y'den X'e dönüştüren F olarak adlandırılır. Her jeneratör, sentezlenmiş görüntüsünü gerçek görüntüden ayırmaya çalışan karşılık gelen bir ayırıcıya sahiptir.

    CycleGAN'ın sonucu.

    Adres: https://github.com/junyanz/CycleGAN

    GAN, iki ucu keskin bir kılıçtır

    Makine öğrenimi ve GAN, yakın gelecekte görüntüleme ve fotoğrafçılık üzerinde kesinlikle büyük bir etkiye sahip olacak.

    Şu anda bu teknoloji, metin girişinden basit görüntüler oluşturabilir. Ancak öngörülebilir gelecekte, yalnızca yüksek çözünürlüklü doğru görüntüler değil, aynı zamanda eksiksiz bir video da oluşturabilecektir.

    Bir filmin senaryoyu GAN'a girerek oluşturulabileceğini hayal edin. Sadece bu da değil, herkes kendi filmlerini yaratmak için basit bir etkileşimli uygulama kullanabilir (hatta kendi içinde başrolde olabilir!).

    Tabii ki teknoloji bir İki ucu keskin kılıç .

    Böyle iyi bir teknoloji kötü adamlar tarafından kullanılırsa, sonuçları hayal bile edilemez. Kusursuz sahte görüntüler de onları tanımlamanın ve tespit etmenin bir yoluna ihtiyaç duyar ve bu tür görüntülerin üretimini kontrol etmemiz gerekir.

    Şu anda GAN, sahte videolar veya "Deepfake" üretmek için kullanılıyor, bu videolar, ünlülerin sahte kötü videolarını oluşturmak veya insanların bilgisi olmadan "yorum yapılmasına" izin vermek gibi olumsuz bir şekilde kullanılıyor.

    Ses ve video sentezleme tekniklerinin kötü yöntemler kullanması, yayılma sonuçları çok korkunç olacaktır.

    Orijinal bağlantı:

    https://medium.com/sfu-big-data/ai-the-future-of-photography-c7c80baf993b

    [2019 Xinzhiyuan AI Teknoloji Zirvesi için 16 günlük geri sayım]

    27 Mart 2019'da Xinzhiyuan, AI'nın gücünü yeniden birleştirdi ve Beijing Taifu Hotel'de AI Açılış Töreni-2019 Xinzhiyuan AI Teknoloji Zirvesi düzenledi. Zirve "ile başlıyor Akıllı Bulut Çekirdek Dünya "Tema olarak, akıllı bulutların ve AI çiplerinin geliştirilmesine odaklanın ve gelecekteki AI dünya modelini yeniden şekillendirin.

    Aynı zamanda, Xinzhiyuan yetkili olarak birkaç kişiyi serbest bırakacak AI teknik raporu , Endüstriyel zincirin yenilikçiliğine ve faaliyetine odaklanın, Çinli yapay zeka bilim adamlarının etkisi hakkında yorum yapın ve Çin'in birinci sınıf yapay zeka rekabetinde geçmesine yardımcı olun.

    Bilet satın al

    Etkinlik hattı bileti satın alma bağlantısı: 2019 Xinzhiyuan AI Teknoloji Zirvesi-Akıllı Bulut Temel World_Wonderful şehir hayatı, hepsi etkinlik hattında! !

    Auchan COS1 ° 'nin belirli satış öncesi fiyatı açığa çıktı! 10.38-149.800 yuan 7 modeli itmek için
    önceki
    Yarından itibaren bu yeni düzenlemeler herkesin hayatını etkileyecek
    Sonraki
    Başka bir Asya takımı elendi, 9 Avrupa takımı 8 koltuk işgal etmeye hak kazandı, 10 takım elendi
    Kredi kartı olan herkes dikkat etmelidir: 2019'daki en son dolandırıcılık, sayısız insan kandırıldı!
    Yeni nesil CC: "Markalaşmayı" tanıtmaya başlayan bir halk için ne kadar korkunç?
    Jingdezhen Belediye İdaresi Duyurusu Olağandışı hava, her zaman ona bağlı kalın!
    PyTorch'u sıfırdan öğrenin (bölüm 2): lojistik regresyon ve görüntü sınıflandırması
    Bankacılık sektörü gitti mi? Ping An Bank yıl sonu bonusu 1.5 yuan görünüyor
    Kaleye 6 şut attı ve 5 gol kaybederek neredeyse "hedefe şut" oldu, De Gea sözlü eleştirilere maruz kaldı veya ana pozisyonu kaybetti
    Arrizo GX burada, Emgrand GL hakim olmaya devam edebilir mi?
    5G'nin ilkelerine gelince, bu resim her şeyi açıklıyor
    BAT devi nihai kazanan oldu, çantadaki "tek boynuzlu at" 290 milyar ABD dolarından fazla toplam değere sahip
    Canlı yayın ayda 150 milyon yuan çekiyor Denizaşırı medyada bir yakın dövüşte son gülen kim olabilir?
    Cadillac XT4: Lüks kompakt SUV pazarı bundan dolayı değişecek mi?
    To Top