Tek bir cümleyle yeni bir tür yaratın, Microsoft'un yeni aracı dünyayı "yaratmanıza" olanak tanır

Metin: Li Chaofan

Şimdi 1 milyonluk bonusla Superman'in canlı yanıtlama sitesi. Lütfen bu cevabın son sorusuna bakın:

Resimdeki kuşun bilimsel adı nedir?

Bu soru doğruysa, kimsenin gerçekten doğru cevaplayamayacağı tahmin ediliyor. Cevaplama asistanını kullansanız bile, bilim uzmanlarına ve hatta zoologlara sorun, yok olacaksınız.

Bu küçük kuş gerçekte var olmadığı için, Microsoft'un AI aracı AttnGAN tarafından oluşturulan sahte bir fotoğraftır.İşlem çok basittir, bu kuşun hayal gücünüze göre tek cümlelik bir tanımını girdiğiniz sürece, bu kuş mevcut değildir. Doğdu.

Bu, yakın zamanda Microsoft Research Labs tarafından geliştirilen ve AI'nın altyazılara benzer metin açıklamalarına dayalı olarak karşılık gelen resimler oluşturmasına izin veren bir yapay zeka teknolojisi AttnGAN'dır.

Aslında, metinden görüntü oluşturma teknolojisi yeni değil, ancak Microsoft, AttnGAN tarafından oluşturulan görüntü kalitesinin önceki metin üreten görüntü teknolojilerinden yaklaşık 3 kat daha yüksek olduğunu iddia ediyor.Microsoft Araştırma Laboratuvarı baş araştırmacısı Xiaodong He şunları söyledi:

Dört yıl önce kimse bu teknolojinin bu seviyeye ulaşabileceğine inanmıyordu.

AI hayal gücüne sahip olduğunda

Sonuçta, AttnGAN teknolojisinin harika yanı nedir? Özetlemek gerekirse, aslında üç kelime var: hayal gücü.

Örnek olarak kuşu başlangıçta ele alalım, eğer onu ince havadan çekecek olsaydık, genel prosedür şöyle olurdu.Önce bu resmin aklımızda nasıl göründüğünü hayal edin: kırmızı beyaz karınlı, siyah kanatlı ve kısa gagalı bir kuş. Ardından, önce kuşun vücudunun ana hatlarını kağıda çizin, ardından kuşun vücudunun çeşitli kısımlarını çizmek için farklı renkli fırçalar kullanın ve son olarak kısa siyah gagayı çizin.

(Resim: Mtime.com)

AttnGAN, zengin hayal gücü gerektiren bu tür görevleri de tamamlayabilir ve Microsoft araştırmacıları buna bir çizim robotu diyor. Xiaodong Bu teknolojinin zorluğunun çizim robotunun metin açıklamasında bulunmayan detayları hayal etmesi gerektiğine inanıyor:

Bu, yapay zekanın bu görüntünün eksik kısımlarını hayal etmek için makine öğrenimi algoritmalarını kullanmasına izin vermeniz gerektiği anlamına gelir.

Şu anda, Google ve Adobe'nin bazı görüntü oluşturma teknolojileri gerçek resimlere dayanıyor, Microsoft'un çizim robotu ise gerçekten "hayali" olan piksellerden üretiliyor.

(Kuş fotoğrafı oluşturma süreci)

Örneğin, kuşun fotoğrafında, girdi metni bir dal üzerinde duracağından bahsetmiyordu.Nihai sonuç aslında çok fazla veri öğrendikten sonra AI'nın hayal gücünden geliyor.

Bütün bunlar bir Generative Adversarial Network (GAN) aracılığıyla yapılır. Adından da anlaşılacağı gibi, bu iki "düşmanca" makine öğrenimi modelinden oluşur. Biri metin açıklamalarından görüntü üretmekten sorumlu, diğeri ise üretilen görüntülerin gerçekliğini yargılamaktan sorumlu bir ayırıcı.

Ayrımcı, oluşturulan görüntünün niteliksiz olduğunu belirlerse, geri arayacak ve yineleyecektir. Metin açıklamalarından görüntü üretmekten sorumlu AI modeli, ayrımcının gözünü "aldatmak" için görüntülerin gerçekliğini iyileştirmenin yollarını bulmalıdır. İkisi birbiriyle çelişiyor ve nihai üretim imajını daha inandırıcı kılmak için birbirleriyle işbirliği yapıyor.

Ek olarak, Microsoft'un çizim robotu, insan çizimi fikrini oldukça taklit ediyor. İnsan boyama sürecinde, tasvir edilen parçaya çok odaklanacaklar ve bir sonraki bölümün içeriğini tekrarlanan hayal gücüne dayanarak çizecekler.

AttnGAN, giriş metnini tek tek kelimelere ayırarak ve ardından bu anahtar kelimeleri görüntüdeki belirli alanlarla eşleştirerek bu süreci simüle etti. Microsoft Araştırma Laboratuvarı baş araştırmacısı Xiaodong He şunları söyledi:

Dikkat bir insan kavramıdır ve bu kavramı bir makine öğrenimi problemine dönüştürüyoruz.

Microsoft'un çizim robotu, metin-görüntü oluşturma konusunda bir atılım yapmış olsa da, hala yeterince olgun değil. Yukarıda bahsedilen "var olmayan" kuş, fotoğrafta yapabileceği sınır olan yalnızca 256 x 256 piksele sahiptir.

Bu makinelerin ürettiği fotoğraflara yakından bakarsanız, hala birçok kusur var. Örneğin, "yerleştirilen muz ve kivi" metin açıklamasına göre oluşturulan bu fotoğrafta muzların açıkça deforme olduğu görülüyor.

Bazı daha karmaşık metin açıklamaları karşısında, AttnGAN açıkça onu hala iyi anlayamıyor. Araştırmacılar, "gölde yüzen kırmızı çift katlı otobüs" girmek gibi bir dizi zorluk testi gerçekleştirdiler. Sonuç kırmızı ve beyaz bir yat ... AI otobüsün gölde yüzmesinin imkansız olduğuna inanıyor olabilir.

Ve görünüşte basit olan bazı metin açıklamaları AttnGAN anlayamayabilir, örneğin, "pizza yiyen bir kız" metin komutuyla karşılaşıldığında, neredeyse tanınmaz ve hatta biraz korkutucu bir yüze sahip bir resim oluşturur.

Microsoft araştırmacıları, bu çizim robotunun daha gerçekçi ve karmaşık görüntüler çizmek için daha fazla sağduyu ve arka plan bilgisi öğrenmesi gerektiğini söyledi.

Çizim robotu bir lütuf mu yoksa lanet mi?

Bunu söyledikten sonra, Microsoft'un çizim robotunun hayatta ne faydası var?

Microsoft, bu metinden görüntüye üretim teknolojisi olgunlaştıkça ressamlar ve tasarımcılar için akıllı bir yardımcı olarak kullanılabileceğini ve ayrıca sesli komutlarla resimleri güzelleştirebileceğini ve hatta film senaryolarına dayalı animasyonlu filmler oluşturarak animasyonlu film üretimini azaltabileceğini söyledi. maliyet.

(AI tarafından yazılan "Sunspring" filmi, YouTube'dan alınmıştır)

Bununla birlikte, hayali bir fotoğraf oluşturmak için yalnızca bir cümle yeterliyse, bu kadar düşük bir eşik, sahte haberlerin ve söylentilerin büyümesine ve yayılmasına da büyük bir silah katabilir.

Sosyal ağlarda, bazı pazarlama hesaplarının tuhaf veya soyu tükenmiş yeni türlerin fotoğraflarını "keşfettiğini" ve bazen bazı medyalarda haber olarak bildirildiğini görüyoruz.

En bilinenleri 2007'de meydana gelen Güney Çin Kaplanı olayıydı. Shaanxi Ormancılık Departmanı, avcı Zhou Zhenglong tarafından dijital ve film kameralarıyla çekilen vahşi Güney Çin kaplanlarının fotoğraflarını yayınladı.

O sırada vahşi Güney Çin kaplanı temelde nesli tükenmişti, bu nedenle fotoğraflar yayınlandıktan sonra ulusal dikkatleri çekti, ancak bu fotoğrafların yeni yıl resmine dayalı olarak sahte olduğu kısa sürede kanıtlandı.

Geçmişte, bu tür sahte haberler yapmak daha iyi bir P-resim teknolojisi gerektiriyordu ve Microsoft'un çizim robotu gibi araçlar sahte fotoğraflar oluşturmayı kolaylaştırabilirdi ve doğru ile yanlışı ayırt etmek daha zordu.

Geçen yıl Temmuz ayında, Amerika Birleşik Devletleri'ndeki Washington Üniversitesi'ndeki araştırmacılar, yapay zeka ve dijital görüntü sentezi teknolojisini kullanarak Obama'nın konuşmasının doğru ve yanlış arasında ayrım yapması zor bir video oluşturdu.

(Obama'nın gerçek konuşma videosunun hangisi olduğunu söyleyebilir misiniz? Kaynak: YouTube)

Son zamanlarda, bazı insanlar Hollywood aktrislerinin yüzlerini pornografik filmlerdeki oyunculara aşılamak için AI araçlarını kullanıyor.

(Gal Gadot'un oynadığı "Wonder Woman" ın yüzü pornografik film oyuncusu olarak "değiştirildi", fotoğrafın kaynağı: anakart)

Yine de bu teknoloji hakkında çok fazla endişelenmenize gerek yok. Pek çok teknolojik ürün iki ucu keskin kılıç yeteneğine sahiptir, tıpkı nükleer fisyonun zincirleme reaksiyonunun insanlara büyük miktarda enerji vermesi gibi, aynı zamanda bir nükleer sızıntıya veya bir şehri yok etmek için nükleer bombaya dönüşmesine neden olabilir.

Teknoloji hayatı daha iyi hale getirir.Önül, onu kontrol edebilmemizdir.Yapmamız gereken, yan etkileri nedeniyle onu bir kutuya kapatmak yerine kontrol etmenin bir yolunu bulmak.

Başlığın resmi şu kaynaktan geliyor: Uzay ve bölümün resmi: Microsoft Research

Rocket Clippers çatışması: Xiaoli Ariza'ya bağırdı, Paul insanları engellemek için takımı arka kapıdan geçirdi!
önceki
Bebeklik dönemindeki tatlım hiç siyah değildir, ama Zhong Liti'nin kızı eskiden küçük bir çocuk gibiydi!
Sonraki
Politika baskısı altında çevrimiçi filmler nasıl "fantezi" olabilir?
Savaş alanını canlandırın: kuru ürünler! El bombası kullanmanın doğru yolu, insanların% 50'si işe yaramaz değil
"Radyasyon" serisi geliştirici B şirketi "başarısız bir IP" yi yeniden başlatacak mı? Fragman önceden sızdırıldı
Jeremy Lin, 36 maçta Nets patronu olarak oturdu, Ping Kidd için 1 rekor ve 3 puan satılık değil
Patlamak! Rockets, üç oyunculu oyundan sonra Nehirleri aradı ve Paul onları arka kapıdan geçirdi!
Samsung S9 yeni haber: iris + yüz tanıma, iPhone X'e karşı yüz kimliği
Zhong Liti'nin defalarca başarısızlıkları ayakkabılarda ve platform ayakkabılarının efendileri aslında bu ikisi!
Sıralamada en çok dikkat çeken 5 kahraman olan Jiang Ziya listede yer aldı ve ilk karşılaştığı anda ağladı.
Ana akım Çinli seyircilerin gerçekten profesyonel dramalara ihtiyacı var mı?
DNF: Kişiliği bir garanti olarak kullanın, Xuxu'nun bebeği Habu'daki her türlü başarısızlığa karşı güçlü olacak, bu beceri kullanmayı unuttu
Hardenweiss'in her birinin MVP'ye yardımcı olacak bir dövücüsü var, 2,18 milyon mavi yakalı Wang Cheng kazandı
Toutiao ve BuzzFeed bir işbirliğine, daha fazla uluslararasılaşmaya ulaştı
To Top