Yapay zeka bir "ressam" olmanıza nasıl yardımcı olabilir | Zor Yaratılış Açık Sınıfı

Yapay zeka filtresi bir zamanlar arkadaş çevresini patlattı.Prizma ve "Adınız" filmi aynı filtrelerdir, ancak yapay zekanın görüntülerdeki ilerlemesi bundan çok daha fazladır.

Yapay zeka, "sanat filtreleri" oluşturmanın yanı sıra, kullanıcıların resim oluşturmasına, doku eklemesine ve zayıf pikselli resimleri süper çözünürlükte işlemesine yardımcı olarak bir "ressam" olmanıza yardımcı olabilir. Kullanılan teknoloji aynı zamanda son zamanlarda popüler olan "Generative Adversarial Networks" (GAN'lar) ile de ilgilidir.

Bu halka açık derste, Leifeng.com, Tupu Technology'den bir makine öğrenimi mühendisi olan Vincent'ı yapay zekanın bir "ressam" olmanıza yardımcı olabileceğinin sırrını açıklamaya davet etti. Vincent Birleşik Krallık'ta iki yıl okudu, Çin'e döndükten sonra Tupu'ya makine öğrenimi mühendisi olarak katıldı, Tupu'nun birçok ürününün araştırma ve geliştirmesine katıldı ve ölümüne derin öğrenmeye katılmaya söz verdi.

Misafir tanıtımı:

Tupu Technology'de makine öğrenimi mühendisi olan Vincent, esas olarak endüstriyel düzeyde derin öğrenme algoritmalarının araştırılması ve geliştirilmesiyle ilgileniyor. Eskiden JPMorgan Chasein Avrupa Teknoloji Merkezinde analist ve IBM Edinburgh ofisinde yazılım mühendisiydi. Doğal dil işleme (metin sınıflandırması, dil modelleri vb.), Görüntü dönüştürme (sanat filtreleri, görüntü renklendirme vb.) Ve sınıflandırma algoritmalarına aşinadır.

Aşağıdaki bölümler açık sınıftan düzenlenir ve paylaşılır.

Görüntü tanımada derin sinir ağının gelişimi

Alexnet 2012'de doğduğundan ve ImageNet görüntü sınıflandırma yarışmasını bir çırpıda kazandığından beri, derin öğrenme fırladı ve evrişimli ağlar tarafından yönetilen derin sinir ağları, çeşitli bilgisayarla görme görevlerinin en son teknolojisini sürekli olarak yeniledi. Geçtiğimiz dört ya da beş yılda, akademinin sürekli olarak farklı yapılara sahip çeşitli evrişimsel sinir ağları geliştirdiğini görebiliyoruz Üstelik bu yapılar sadece Alexnet'in katman sayısını derinleştirmesine dayanmıyor, aynı zamanda kendi yollarında. Yönetmen.

Bu açık sınıf, üç sinir ağı yapısını paylaşmaya odaklanır:

  • Ağda Ağ (NIN, ağdaki ağ): Evrişimli ağ doğrusal bir işlemdir ve doğrusal olmama performansı sınırlıdır. NIN geliştiricileri, geleneksel evrişimli ağ MLPconv'dan daha karmaşık bir işlem tasarladı ve birlikte kullanıyor Küresel ortalama havuzlama, evrişimli ağların boyutunu büyük ölçüde geliştirir.

  • VGG ve GoogLeNet (inception_v1): Her ikisi de 2014 ImageNet yarışmasının ikilisidir. VGG'nin tasarım konseptinin tümü, ağın derinliğini artırmak için 3x3 evrişim kullanır. GoogLeNet, Google'ın Inception serisine aittir. Ağ hesaplamalarının miktarını azaltmak ve eğitimi hızlandırmak için daha şık bir ağ tasarımı kullanır.

  • Resnet (derin artık ağ): Sonsuz yaklaşım teoremine (Evrensel Yaklaşım Teoremi) göre, boyuttan boyuta herhangi bir eşleme elde etmek için bir sinir ağı katmanı kullanabiliriz, ancak ağ parametrelerinin miktarı (ağ genişliği) takip edecektir. Problemin karmaşıklığındaki artış çok büyük hale gelir ve ağın derinliğinin artması, aynı eşlemeyi daha az parametre ile elde etmemizi sağlar. Bununla birlikte, sinir ağı katmanlarının sayısı arttıkça, eğitim sırasında gradyan ortadan kalktığı için eğitimleri gittikçe zorlaşacaktır. Resnet bu sorunu iyi çözerek sinir ağlarını 1.000'den fazla katmanla eğitmeyi mümkün kılıyor.

Görüntü sınıflandırmasına ek olarak, RCNN serisinin öncülüğünü yaptığı sinir ağı teknolojileri de nesne algılama görevlerinde önemli ilerlemeler kaydetmiştir.Son yıllarda, daha hızlı (YOLO) ve daha iyi algoritmalar (SSD) da ortaya çıkmıştır.

Son zamanlarda popüler olan GAN bir eğitim çerçevesidir.GAN'ın ortaya çıkmasından önce, üretken modelin eğitimi nispeten zordu.GAN'ın ortaya çıkmasından sonra, üretken model eğitiminin etkinliği büyük ölçüde iyileştirildi.

GAN uygulamalarının çoğu aynı zamanda resim, müzik, metin vb.Oluşturmak için kullanılan üretken modellerin uygulamalarıdır. Bununla birlikte, karşı eğitim, ayırt edici modeli eğitmek için de çok yararlıdır, çünkü doğrusal olmayan bir etkinleştirme işlevi olmasına rağmen, derin ağ hala oldukça doğrusaldır ve hatalar biriktirir. Birikmiş hata sonuçları çıplak gözle ayırt edilemez, ancak Evrişimli ağdan görülebilir. Ancak sıradan doğrusal modellerden farklı olarak, derin sinir ağları, bu sorunu iyi çözmek için düşmanca eğitime uyabilir. Çözüm, ağın rakip örneklere karşı daha toleranslı olmasını sağlayan karşıt örnekler oluşturmaktır.

Son iki yılda, GAN, düşük çözünürlüklü resimleri netliklerini etkilemeden büyütmeyi amaçlayan son genel sınıfta Dr. Feng Jiashi'nin bahsettiği süper çözünürlük de dahil olmak üzere pek çok ilginç uygulama üretti.

Doku dönüşümü

Son aylardaki sıcak doku dönüşümü, derin öğrenmeden önce de çok zor bir problem olan sözde görüntü stilizasyonudur. Bunun temel nedeni, önceki derin olmayan öğrenme yöntemlerinin yalnızca hedef görüntünün düşük seviyeli görüntü özelliklerini elde edebilmesidir, bu da bu yöntemlerin görüntünün anlamsal içeriğindeki ve tarzındaki değişiklikleri bağımsız olarak etkili bir şekilde modelleyememesine ve dolayısıyla iyi performans gösterememesine neden olur. İkisi ayrıştırılır ve sentezlenir.

Stilizasyon algoritması artık iki nesil boyunca değişti.

Birinci nesil stilizasyon algoritması: Sinirsel Stil

2015 yılında, Almanya'daki Tübingen Üniversitesi'nden bilim adamları, derin bir sinir ağının her katmanının yanıtlarını kullanarak resimlerin stilini ve içeriğini ifade etmek için bir yöntem önerdiler. Yöntem şu şekilde özetlenebilir:

  • ImageNet veri seti üzerinde eğitilmiş VGG ağını hazırlayın ve ardından katmanlardan bazılarını stil semantiğinin ayıklama katmanı olarak ve bazı katmanları içerik semantiğinin ayıklama katmanı olarak seçin;

  • Stili temsil eden stil resminin üst düzey anlamsal bilgilerini çıkarmak için bu eğitimli VGG'yi kullanın Spesifik olarak, stil resmi VGG'nin girdisi olarak kullanılır ve ardından stil semantik seçim katmanındaki aktivasyon değerinin Gramian Matrisi çıkarılır. Gram matrisinin matematiksel anlamının, etkinleştirme değerleri arasındaki korelasyonu yakalamasına izin verdiğinden bahsetmeye değer, böylece resmin stil özelliklerini iyi ifade edebilir;

  • Stilize resim tarafından temsil edilen içeriğin üst düzey anlamsal bilgilerini çıkarmak için VGG'yi kullanın.Özellikle, resmi VGG'nin girdisi olarak alın ve ardından içerik anlamsal çıkarma katmanının etkinleştirme değerini çıkarın. Bu yöntem, yalnızca resim öğelerinin yapısal bilgilerini yakalamakla kalmayan, aynı zamanda ayrıntılar için belirli bir hata toleransı derecesine sahip olan evrişimli sinir ağının doğasını iyi bir şekilde kullanır;

  • Rastgele bir resmi başlatın, ardından 2 ve 3'te tanıtılan yöntemleri kullanarak stil ve içerik özelliklerini çıkarın ve ardından bunları stil resminin stil özelliklerinden ve içerik resminin içerik özelliğinden çıkarın ve optimizasyon olarak belirli bir ağırlıkta ekleyin Amaç işlevi.

VGG'nin ağırlığını değiştirmeden tutun ve hedef işlevi görece küçük bir değere düşene kadar başlatılan görüntü üzerinde doğrudan gradyan inişi gerçekleştirin.

Bu yöntemin stilizasyon etkisi akademik dünyayı şok etti, ancak eksiklikleri de ortadadır.Bu stilizasyon yöntemi, esasen gradyan iniş kullanan yinelemeli bir optimizasyon süreci olduğundan, etkisi iyi olmasa da, stilizasyon hızı nispeten yüksektir. Yavaş, GPU'daki bir görüntünün işlenmesi yaklaşık on saniye sürer. Bu web sitesi deepart.io, görüntü dokularını dönüştürmek için bu teknolojiyi kullanır.

İkinci nesil stilizasyon algoritması: Fast Neural Style

Görüntü stilini ve içeriğini ayırmanın bir yolu ile, stilize bir görüntü elde etmek için yalnızca ileri geçiş yapmamız gerekecek şekilde uçtan uca bir ağı eğitebiliriz. Bu nedenle, bir resim oluşturmanın genel adımları, çıktıyı dönüştürülen ağa göre almak, VGG ağına çıkarmak ve stil özelliklerini çıkardıktan sonra stil resminin özellikleriyle karşılaştırmaktır.İçerik resminin özellikleri de çıkarılacak ve içerik resmi ile karşılaştırılacaktır.

Bu algoritmanın avantajı hızlı olması ve GPU'da gerçek zamanlı olarak oluşturulabilmesidir. Bu teknoloji, geçen yılın ortasında tüm dünyada popüler hale gelen Prisma'nın arkasındaydı. Bununla birlikte, bu teknik hala kusurludur.Örneğin, evrişimli ağların doğasında var olan doğası nedeniyle, elle çizim gibi resmin ayrıntılarını dikkatlice seçemez, bu nedenle cesur bir empresyonist ressam gibidir ve bazı detaylar gerektirir. Karakter animasyonu gibi daha yüksek görevler için bu yöntem uygun değildir.

Bu nedenle, daha popüler olan "Adınız" filtresinin kullandığı teknoloji bir süre önce Prisma ile aynı değil. Bu filtrenin uçtan uca olmadığını tahmin ediyoruz, ancak bulmak için önce orijinal resmi piksele böleceğini tahmin ediyoruz. Gökyüzünün bir parçası olabilir ve ardından Xin Haicheng'in karakteristik bulutunu ekler ve diğer parçalar bir miktar filtreleme ile işlenir.

Doku dönüştürmenin bir başka ilginç uygulaması da Neural Doodle'dır.Bu teknolojiyi kullanarak, üç yaşındaki çocukları Monet gibi kolaylıkla usta ressamlar haline getirebiliriz. Özünde, bu teknik, anlamsal haritasını elde etmek için dünyaca ünlü bir resmin (Pierre-Auguste Renoir'in Bank of a River gibi) piksel segmentasyonunu yapmak ve sinir ağının her alanı öğrenmesine izin vermektir. Tarzı.

Daha sonra, bu semantik haritayı bir çocuk gibi çizmemiz yeterlidir (örneğin, resmin ortasına bir nehir ve sağ üst tarafa bir ağaç çizmek istiyoruz) ve sinir ağı onu semantik haritadaki alana göre oluşturabilir. , Ve sonunda bir Empresyonizm şaheserine geldi.

AI alanındaki bilgiler konusunda endişeleriniz varsa, Facebook'un caffe2go çerçevesini duyurduğunu ve cep telefonlarında gerçek zamanlı stilize edilmiş videolarını gösterdiğini de biliyor olabilirsiniz.Bu başarı büyük önem taşıyor ve temelde cep telefonlarında çok verimli olma becerisine yansıyor. Yapay zeka algoritmalarını çalıştırın ve ilginç yapay zeka teknolojilerini avucunuzun içine uygulayın. Örneğin canlı yayınlarda veya videolarda insan yüzlerine çeşitli sevimli hayvan ifadeleri ekleyebilen teknoloji, aynı zamanda ağırlıklı olarak yüz anahtar nokta algılama teknolojisini kullanan yapay zeka teknolojisidir.

Video stilize etmedeki zorluklar şunlardır:

  • Görüntü stilizasyonu gibi ağır uygulamalar için, cep telefonlarında gerçek zamanlı efektler elde etmek istiyorsanız, birçok mühendislik optimizasyonu ve algoritma yönüne ihtiyacınız var ve etkiyi mümkün olduğunca etkilemeden ağ parametrelerinin miktarını azaltın;

  • Tek resim stilizasyonuyla karşılaştırıldığında, video stilizasyonu için dikkate alınması gereken daha fazla şey vardır. Videonun her karesi, çerçeveler arasındaki korelasyondan bağımsız olarak ayrı olarak işlenir ve bu da stilize video titremesine ve tutarsızlığa neden olur.

Siyah beyaz fotoğraf boyama

Tanıtılacak son teknik Renkli Görüntü Renklendirme ... Yapay zeka bu görevi iyi başarırsa eski fotoğraflara, eski filmlere ve kolayca renkli çizgi romanlara renk katmak için kullanabileceğimizi hayal edin. . Bu açık sınıfta, geçen yıl ECCV'de Berkeley'deki California Üniversitesi'nden bir makalede tanıtılan yöntemi tanıtacağım. Bu yöntemle önceki yöntem arasındaki fark, fotoğraf boyamayı bir sınıflandırma problemi olarak ele almasıdır - görüntünün her pikselindeki 300'den fazla rengin olasılık dağılımını tahmin eder. Bu yöntem, görevin kendisinin belirsizliğini giderir.Örneğin, siyah beyaz bir elma gördüğünüzde onun kırmızı olduğunu düşünebilirsiniz, ancak elma camgöbeği ise çok fazla ihlal duygusu yoktur. . Demolarını denemek için yazarın web sitesine de gidebilirsiniz.

Bu makalede tanıtılan yöntemin çok önemli iki püf noktası vardır:

Renk yeniden dengeleme (Sınıf yeniden dengeleme)

Hepimiz biliyoruz ki, dünyadaki tüm renkli fotoğraflarda her rengin dağılımı aynı değildir. Örneğin, çoğu fotoğrafta gökyüzü, duvarlar, çimen vb. Olabilir. Makalenin yazarı ImageNet veri setinde renk dağılımını vermiştir.Görüntü LAB ile temsil ediliyorsa (L kanalı pikselin parlaklığı, AB kanalı renktir) düşük ab değerine sahip rengin frekansı bundan çok daha yüksektir. diğer renkler.

Bu sorunu dikkate almazsak, hedef işlevimiz daha yüksek ab değerine sahip renklere aşırı derecede duyarsız olacaktır. Bu nedenle, tezin yazarı eğitim sırasında her pikseli bir katsayı ile çarpmak için bir yöntem önermiştir.Katsayının boyutu, pikselin ab değerinin dağılımı ile ilgilidir. Bu numarayı kullanarak, çıktı resminin rengi daha çeşitli ve gerçek resme daha yakın olacaktır.

Olasılık dağılımından tahmin edilen renk değerini elde edin (Nokta tahmini)

Bu ağın çıktısının, her pikselin ab değerinin olasılık dağılımı olduğunu biliyoruz, peki bu olasılık dağılımıyla ab değerini nasıl elde ederiz? Tabii ki, tahminimiz olarak en yüksek olasılığa sahip değeri doğrudan seçebiliriz Bu şekilde çıktı resminin rengi daha canlı olacak, ancak çoğu durumda doğal olmayan yamalar görünecektir. Diğer bir yaklaşım, bu olasılık dağılımının ortalamasını tahmin olarak almaktır, bu da çıktı resmimizin çok düşük kontrasta sahip olmasına neden olur. Yazar bu makalede bir uzlaşma önerdi: Softmax fonksiyonunun sıcaklığını ayarlayabilir ve ardından yeni olasılık dağılımının ortalamasını bulabiliriz.

Bu makalede açıklanan yöntem iyi çalışsa da, yine de kusurludur. Örneğin, bir köpeğin resmini renklendirirken, dilinden dışarı çıkmasa bile, sinir ağı her zaman onun dışarı çıktığını "hayal eder" ve sonra burnun altındaki küçük bir alanı kırmızıyla boyar. Dahası, renkli resimde bazen küçük, ani bir yama vardır.

Yukarıda tanıtılan teknikler mükemmel değildir, ancak kusurları gizlenmemiştir.Derin öğrenmenin potansiyelini görebilir ve sınıflandırma ve tespit etmekten çok daha fazlasını yapabileceğini anlayabiliriz. Toplum derin öğrenme konusunda daha hevesli hale geldikçe, daha ilginç sonuçların üretilmeye devam edeceğine inanıyorum. Yukarıdaki tekniklerin harika olduğunu düşünüyorsanız, söz veriyorum, sürpriziniz daha yeni başladı.

Ürünleştirme hakkında düşünme

Elbette akademi sonuçlarını endüstriye uygulamak kolay bir iş değil. Makine öğrenimi yapan bizler, tüm problemler için en uygun algoritmayı bulmamızın imkansız olduğunu söyleyen, Bedava Öğle Yemeği Yok Teoremi adlı iyi bilinen bir teoremi biliyoruz. ImageNet veri setinde en iyi performansı gösteren algoritmalar, endüstriyel düzeyde büyük, karmaşık ve değiştirilebilir veriler üzerinde mutlaka iyi performans göstermeyecektir. Bu nedenle, farklı müşteri veri dağıtımına göre birçok özel optimizasyon da yaptık. Örneğin, Inke için inceleme hizmetleri veriyoruz. Canlı yayın sahnesinin kendisi çok çeşitli ve karmaşık. Canlı video arayüzü göründüğünde, başka bir arayüzün içeriğini oynatmak için cep telefonları veya bilgisayarlar gibi birçok elektronik ürünün kullanıldığını gördük.Tüm resimle karşılaştırıldığında, içerik sunulur. Oran çok küçük, çok belirsiz ve göze çarpmıyor.Pornografi, şiddet ve terörizm gibi kötü bilgiler olduğunda, manuel ve standartlaştırılmış denetim modellerini doğru bir şekilde tespit etmek zordur ve yanlış değerlendirme ve ihmal olasılığı yüksektir. Bu nedenle, bu sorunu özel olarak optimize etmemiz ve ardından resim içinde resim verilerini tanımlamamız ve ardından sıradan denetim modelini çağırmamız gerekiyor. Lei Feng Ağı Lei Feng Ağı

Tupu'nun ürünleri birçok endüstride iyi bir şekilde uygulanmıştır, ancak gözden geçirilen insan gücünün çoğunu ancak belirli bir ölçüde azaltabilirler ve emeğin yerini tamamen alamazlar. Bu finansman turundan sonra, ürün işlem hızını ve sağlamlığını iyileştirmek için hizmetlere ve bilgi işlem yeteneklerine yatırımı artıracağız; algoritmalar açısından, görüntü tanımanın doğruluğunu ve geri çağırma oranını iyileştirmeye devam edeceğiz.Vizyonumuz, gözden geçirme insan gücünü tamamen serbest bırakmaktır. Ayrıca, daha doğrudan, verimli ve çeşitlendirilmiş görevler sağlamak için yüz tanıma, artırılmış gerçeklik vb. Gibi denetimin ötesinde başka yönlerde de işimizi genişleteceğiz.

Dünyada "başka bir dünya" var mı? "Kepler" Süper Dünya'yı keşfetti! İyi kitap seçimi
önceki
Arabayı bir kenara bırakın, baharda size ait olan bir gezintiye çıkın ve farklı bir ruh hali hissedin!
Sonraki
Model oyun kontrolü: Renk eşleşen Wing Gundam ile EVA ilk makine
Huang Bo ve Chen Kun, "Ejderha Tekniğini Arayış" ın ardından bir kez daha yapımcı ile işbirliği yaptı: gişe 15 milyar!
Ağaç dikmeye ek olarak, Alipay hala tavuk yetiştirebilir mi? Yeni oyunu biliyor musun?
Model oyun kontrolü: eski model yeni değişim, süper elektromanyetik adam
OPPO Find X amiral gemisinin önemli noktalarını, saf bir amiral gemisine nasıl ulaşacağınızı ayrıntılı olarak açıklayın
Koşarım, atlarım, yanıp sönerim! Son yıllarda denemeye değer platform aksiyon oyunları
Hanergy Power Wall "Hanwall" en az 3 ila 5 yıl önce teknolojik bir avantajla dünya çapında piyasaya sürüldü
Win 10'un kilit ekranı duvar kağıdını çıkarmanın bir yolu var mı? Hafif işin var 155
19 günlük çekimlerden sonra, gişe sonunda Deng Chao ve Shen Teng'i yenerek 1 milyar dolar kırdı. 63 yaşındaki süperstar hala kral!
Model oyun kontrolü: yabancı illüstratör Daniel Kamarudin Gundam illüstrasyon paylaşımı, belirleyici koleksiyon
Aşk geri dönüşümü "evrim 2.0" ile başlar: self servis geri dönüşüm makineleri alt kattaki marketinize yayılır
Facebook Çinli bir arkadaş çevresi mi oluşturdu? Anakara'da doğrudan kullanılabilir!
To Top