Yapay zekaya hikayeler anlatın, resmi beyin doldurmasını nasıl öğretirsiniz?

Ali Mei's Guide: Görsel hayal gücü insanoğlunun doğasında var, AI benzer yeteneklere sahip olabilir mi? Örneğin: Bir hikaye konusu verildiğinde, makine hayal gücünü nasıl ortaya çıkarabilir ve resmi "akıllıca tamamlayabilir"? Ali AI Labs Perception Lab öğrencilerinin bu sorunu nasıl çözdüğüne bir göz atın.

1. Arka Plan-Görsel Hayal Gücü

1.1 Görsel hayal gücü nedir?

Görsel hayal gücü, insan beyninin önemli bir işlevidir, bazı soyut kavramları görselleştirebilir ve sonra bu görsel hayal gücünü düşünmek için kullanabilir. Şekil 1'in en soldaki sütununda aklımıza: Kahverengi ve beyaz kanatlı ve sivri gagalı sarı bir kuş, aklımızda sarı bir kuş resmi hayal etmiş olabiliriz. Bu görsel hayal gücüdür. Amacımız, yapay zekanın kademeli olarak bu yeteneğe sahip olmasına izin vermektir.

Şekil 1: Yapay zeka tarafından "hayal edilen" resim, ilk satırdaki metinle tanımlanmıştır.

1.2 YZ'nin görsel hayal gücünün etkisi nedir?

Yapay zekanın görsel hayal gücü varsa, insanların ihtiyaçlarını daha iyi anlayacak ve bazı geleneksel endüstriler üzerinde yıkıcı bir etkisi olabilir. İşte iki örnek.

Şekil 2, anlamsal görüntü arama alanındaki bir durumu göstermektedir. Google'da beyaz teknede balık tutan ve şapka takan adamı aradık ve döndürülen sonucun olası kalitesi (a) oldu ve motor sadece ara sıra arama niyetimizi anladı. Makine belirli bir görsel hayal gücüne sahip olduğunda, arama sonucu (b) olabilir, bu da bilgi erişim verimliliğimizi büyük ölçüde artıracaktır ve bu bilgi görüntüde taşınır.

Şekil 2: Görsel hayal gücüne sahip yapay zeka, anlamsal görsel arama üzerinde önemli bir etkiye sahip olacaktır.

Başka bir örnek, anlamsal görüntü oluşturma alanındadır. Bir hayal edin: Bir sahneyi dilde tanımladığımızda, makine sahneyi otomatik olarak oluşturmak için devasa deneyim verilerini kullanır. Şekil 3'te gösterildiği gibi, farklı görünüm özelliklerine sahip bir kişiyi tarif edersek, makine, kişinin görünüşünü otomatik olarak hayal edecek ve bu da suç soruşturması gibi alanı altüst edecektir (örneğin, mağdur suçluların görünümünü anlatmaktadır).

Şekil 3: Görsel hayal gücüne sahip yapay zeka, anlamsal görüntülerin üretilmesinde önemli bir etkiye sahip olacaktır.

2. Konu seçimi-devlerin omuzlarında duruyor

2.1 Sahadaki ağrı noktaları nerede?

Odağı metin-görüntü sentezi alanına taşıdık. Bu alanda, kuşlar, çiçekler, insan yüzleri vb. Gibi basit tek özne görüntü üretimi için, GAN fikrine dayanan bir dizi algoritma, Şekil 1'de gösterildiği gibi bazı tatmin edici sonuçlar elde etti. Bununla birlikte, metin birbiriyle ilişkili birden fazla nesne içerdiğinde, aşağıdaki sol resimde gösterildiği gibi, oluşturulan efekt büyük ölçüde azalacaktır. Bunun başlıca nedeni aşırı esnek ve yapılandırılmamış metindir.

Şekil 4: Mevcut oluşturma algoritmasının soldaki StackGan algoritması gibi birden çok etkileşimli nesne oluşturmak zordur. Sağdaki sg2im algoritması, bu sorunu bir dereceye kadar çözme potansiyeline sahiptir.

Bu nedenle, Johnson ve Stanford Üniversitesi özgeçmiş grubundan diğerleri, CVPR2018'de metin üretimini görüntüye daha fazla kontrol edilebilir alt soruna bölme fikrini önerdiler. Bu, daha önce CVPR2015-Sahne Grafiği ve Anlamsal Yerleşim'de önerdikleri yeni bir sahne ifadesi yöntemi kullanır.

Şekil 5: Sahne grafiği ve anlamsal kompozisyonun şematik diyagramı.

Sahne grafiği, varlık, özellik ve ilişkinin üç öğesini içeren ve anlamsal bir modda yapılandırılmış bir ifade olarak kabul edilebilen yönlendirilmiş bir grafiktir.

Sahne grafiğindeki her varlığın görüntüde karşılık gelen bir bbox'ı olacaktır. Görüntünün kendisine bakmazsanız, görüntüdeki tüm bbox'lara bakın ve bir görüntünün anlamsal bir kompozisyonunu oluşturursunuz, bu nedenle anlamsal kompozisyon evrensel anlamı olan bir görüntünün yapılandırılmış bir ifadesi olarak görülebilir.

Tablo 1: Yapı isimleri ve modalitelerinin karşılaştırma tablosu.

2.2 Nasıl çözülür? Gözlerimizdeki büyük çerçeve

Büyük ineklerin omuzlarında duran, gözümüzde metinden resme nesil kabaca aşağıdaki alt görevlere ayrılabilir:

Tablo 2: Metin oluşturma görüntü görevinden ayrılmış alt görevlerin listesi.

Kontrol edilebilir üretim ve bilginin kademeli olarak güncellenmesi amacına ulaşmak için, tüm süreç kabaca yukarıdaki alt görevlere bölünebilir. Her alt görevin, burada ayrıntılı olarak gerçekleştirilmeyecek ilgili bazı işleri vardır.

2.3 Kağıdın odak noktası

Tez, alt görev 3'ü çözmeye odaklanıyor: Sahne grafiğinden sahne kompozisyonu nasıl oluşturulur?

Bu görevin önemli olmasının nedeni, bu görevden, yapılandırılmış anlamsal bilginin, makineye görsel hayal gücü vermenin anahtarı olan görüntünün yapılandırılmış ifadesi olarak "hayal edilebilmesidir".

3. Makalenin motivasyonu ve katkısı

3.1 Güncel sorunlar

3.1.1 En yakın iş ve kombinatoryal patlama sorunu

Şekil 6: sg2im, grafik evrişimli ağını kullanır ve tüm semantik kompozisyonu oluşturmak için tüm sahne grafiğini girdi olarak alır.

En yakın çalışma, Stanford Johnson ve arkadaşları tarafından CVPR2018'de yayınlanan sg2im algoritmasından gelmektedir (Şekil 6). Önce her bir varlığın özelliklerini yerleştirmek için bir grafik evrişimli ağ kullanırlar ve daha sonra bu özellikleri bir nesne yerleşim ağı aracılığıyla anlamsal bir kompozisyon oluşturmak için kullanırlar. Benimsedikleri üretim yöntemi, tüm sahne grafiğinden tüm anlamsal kompozisyona kadardır. Sahne grafiği bir bütün olarak birkaç varlık ve ilişki içerir. Bu varlıkların ve ilişkilerin birleşimi, modelin bu kadar çok değişikliği etkili bir şekilde ifade etmesini zorlaştıran ve sonuçta anlamsal kompozisyonun tatmin edici olmayan öğrenme etkilerine yol açan birçok değişikliğe sahip bir sahne grafiği oluşturur. Biz buna kombinatoryal patlama problemi diyoruz.

3.1.2 Anlamsal kompozisyon için değerlendirme göstergelerinin eksikliği

Bir diğer büyük zorluk ise: Anlamsal kompozisyon oluşumunu doğrudan ve otomatik olarak nasıl değerlendirebilirim?

Geçmişte, işin çoğu dolaylı otomatik değerlendirme ile gerçekleştiriliyordu ve anlamsal kompozisyondan elde edilen görüntüler Başlangıç puanı veya Resim altyazılama puanı kullanılarak puanlanıyordu. Bu şekilde, anlamsal kompozisyon üretimini değerlendirmek imkansızdır ve büyük ölçüde sadece nihai GAN ağının etkili olup olmadığını değerlendirmek imkansızdır. Bir çok çalışma manuel puanlamayı da ekledi .. Puanlama sonucu verilse de, tam olarak yeniden üretilmesi neredeyse imkansız, bu da bu alanın gelişimini büyük ölçüde engelliyor.

3.2 Seq-SG2SL'nin Motivasyonu

Seq-SG2SL, kombinatoryal patlama problemleri için sahne grafiklerinden anlamsal kompozisyon oluşturmayı önerdiğimiz bir çerçevedir. Bu bölüm çerçevenin kendisinden bahsetmiyor, önce bir hikaye anlatalım.

Hikaye arka planı: Öğretmenlerin, öğrencilere mimari çizimlere bakarak bina inşa etmeyi öğretmeleri gerekir. Şekil 7'de gösterildiği gibi.

Şekil 7: Yukarıdaki resim, mimari çizimin şematik bir diyagramıdır ve aşağıdaki diyagram, tamamlanan odanın şematik bir diyagramıdır (resim internetten gelir).

Öğretmen A hızlı dersler veriyor. Kalın bir çizim yığınını işaret ederek öğrencilere şöyle dedi: "Bak bu bir önceki çizim. Çizime göre yapılmış binanın adresi var. Bu çizimleri alıp binalara bakabilirsin. Yapının olduğunu anlayabilmelisin. Bunu nasıl yaptın? Gelecekte sana yeni bir çizim vereceğim ve binayı inşa edebileceksin. "Öğrenciler, Öğretmen A'nın yöntemini izlediler ve öğrenmeye gittiler. A Öğretmeni bir sınava girdiğinde, neredeyse hiçbir öğrencinin binayı planlara göre inşa edemeyeceğini gördü. Öğretmen A öfkeyle şöyle dedi: "Bu hızlı olacak. Bu öğrenci grubu fazla anlayışlı. Benzetmeler yapamazlar."

Öğretmen B yavaş dersleri öğretir. Öğrencilere şöyle dedi: "Size bazı çizimler vereceğim. Bugün size nasıl bir oturma odası yapılacağını öğreteceğim ve yarın size nasıl bir mutfak yapılacağını öğreteceğim. Amacımız önce her odanın inşaat rutinlerini öğrenmek ve sonra herkese birlikte nasıl inşa edileceğini öğretmek. Bütün bir oda. Son olarak, size bir binanın nasıl inşa edileceğini öğreteceğim. Bu çizimlere bakın, endişelenmeyin, size gerçek binanın hangi bölümünün her bir parçaya karşılık geldiğini söyleyeceğim. Tüm bina farklı görünse de, Bu parçalar çok rutin ve ustalaştıktan sonra bir bina inşa edeceksiniz. Yeterince, Öğretmen B'nin dikkatli rehberliği altında tüm öğrenciler testi çabucak geçti ve küçük Benben Yuanfang bile binayı inşa etmek için çizimleri nasıl okuyacağını öğrendi. .

Hikâyede öğretmen A'nın öğrencileri hızlı sınıfta olsalar da hepsi akıllı ama bina sürekli değişiyor ve öğrencilerin bu çizimlerle ortaklığı öğrenmeleri zor. Ve öğretmen B'nin öğrencileri, genel öğrenmenin daha yavaş olmasına ve hafızanın iyi olmamasına rağmen, ancak öğretmen B, binayı inşa etmek için gereken bazı temel bilgileri öğreterek öğrencilere bu ortak noktaları öğretir ve aptal kuş önce uçabilir.

Sahne grafiği mimari bir çizim gibidir ve anlamsal kompozisyon bir bina gibidir. Öğretmen Anın öğretme yöntemi aslında kombinatoryal patlama sorunuyla karşılaştı. Öğretmen B, en temel bina işlemlerini öğreterek kombinatoryal patlama sorunundan kaçındı.

Bundan esinlenerek, sahne grafiklerinden anlamsal kompozisyon oluşturma sorununa bakmak için yeni bir bakış açısı önerdik. Anlamsal kompozisyon bir sonuçtur ve öğrenmek istediğimiz şey doğrudan bir sonuç değil, sonucu üreten süreç olmalıdır. Daha temel birimleri öğrenerek kombinatoryal patlama problemini çözün.

3.3 SLEU'nun Motivasyonu

Doğrudan otomatikleştirilmiş değerlendirme göstergelerinin eksikliği sorununu çözmek için, yeni bir gösterge öneriyoruz: anlamsal düzen değerlendirme yedek parçası veya kısaca SLEU. Bu gösterge, tanınmış makine çevirisi göstergesi BLEU'dan esinlenmiştir.

Arkasındaki mantık şudur:

  • 1) Otomatik değerlendirmeyi tamamlamak için doğruluk değerleri gerekli olmalıdır.
  • 2) SLEU'nun tasarım amacı, üretilen bir anlamsal kompozisyon ile onun gerçek değeri arasındaki farkı ölçmektir.

Bu nedenle, yukarıdaki mantığı takip ederek, makine çeviri göstergesi BLEU'nun tasarımını benzettik, BLEU'nun temel konseptini 1D'den 2D'ye genişlettik ve SLEU önerdik.

3.4 Makalenin katkıları

1) Bir dizi üst üste binen işlemin sonucu olarak anlamsal kompozisyonu dikkate alan yeni bir Seq-SG2SL çerçevesi önerilmiştir. Önceki yöntemlerden farklı olarak, AI, sonuçtan ziyade üretim sürecini öğrenir. Bu sıradan sıraya öğrenme yöntemi, kombinasyonel patlama problemini çözebilir.

2) Bu alandaki sonuç çoğaltma problemini çözecek ve farklı kompozisyon oluşturma yöntemlerinin doğrudan karşılaştırılması için bir temel sağlayacak olan anlamsal kompozisyon üretiminin kalitesini doğrudan ve otomatik olarak değerlendirmek için bir SLEU önerilmiştir.

4. Yöntem noktalarının kısa açıklaması

4.1 Seq-SG2SL çerçevesi

Şekil 8: Seq-SG2SL çerçevesi.

Anlamsal bir kompozisyonu ne belirler? Bu bir ilişki. Bu nedenle, bir sahne grafiğindeki ilişkisel üçlüler (özne-yüklem-nesne), anlamsal bir kompozisyonda özne ve nesneye karşılık gelen iki bbox'ı belirler. Konuya ve nesneye karşılık gelen bbox, sırasıyla görsel özne ve görsel nesne olarak adlandırılır.

Bu nedenle, anlamsal kompozisyon oluşturma süreci bir dizi temel eylem segmentine bölünebilir ve her temel eylem segmenti bir tuğla eylem kodu segmenti (BACS) olarak adlandırılır. Her BACS tarafından gerçekleştirilen işlem, görsel bir özneyi ve görsel bir nesneyi anlamsal kompozisyona yerleştirmek ve sırasıyla kategori, konum ve boyutlarını ayarlamaktır. Ve her BACS, sahne grafiğindeki karşılık gelen ilişki üçlüsü tarafından kesin olarak belirlenir. Özne-yüklem-nesnenin ilişkisel üçlüsü sırayla bağlanır ve üç kelime, anlamsal parçalar (SF) dediğimiz temel bir anlamsal parça oluşturur. Şekil 8'de gösterildiği gibi, kaldırıma ağaç bir SF'dir ve ilgili şekilde BACS Sırasında gösterilen 10 kod (c0002 h14) BACS'dir ve bu 10 kodun yürütülmesinin sonucu en sağdaki düzendeki ağaçtır. İki çardak ve kaldırım.

Bir dizi SF, bir SF dizisi (SF dizisi) oluşturmak için seri olarak bağlanır. Bu SF dizisi, karşılık gelen her BACS'nin birleştirilmesiyle oluşturulan bir BACS dizisine karşılık gelir. Bu iki dizi iki dil gibidir.Tek yapmamız gereken makine öğrenimini SF dilinden BACS diline "çevirmek". Tabii ki, sahne grafiğindeki yönlendirilmiş grafik bilgilerini korumak için, esas olarak dizideki hangi varlıkların aynı varlığa ait olduğunu belirlemek ve sahne grafiğindeki varlıkları düğüm dizisi aracılığıyla doğrudan bağlamak için ek olarak bir düğüm dizisini (Düğüm dizisi) sürdürüyoruz. Öznitelikler, anlamsal kompozisyonda bbox'a aktarılır. Bu şekilde, tüm Seq-SG2SL çerçevesi esnek ve çok yönlüdür.

Bu sürecin, öğrencilere tasarım çizimlerinden binalar inşa etmeyi öğreten öğretmen hakkında anlattığımız hikaye gibi olup olmadığını hatırlayın. Sahne grafiğinde bir parça (bir SF) gördük ve sonra binadaki ilgili parçanın (anlamsal yerleşim) nasıl inşa edildiğini (bir BACS öğrenin) öğrenmeye gittik ve nihayet entegre edip öğrencilere inşa etmeyi öğrettik. Bütün bina. Bu sezgisel ve nesnel yasalara uygun değil mi? Öğrencilerimizin (modellerimizin) dahi olmasını istemiyoruz, ancak öğretmenlerimizin iyi sonuçlar elde etmek için yöntemleri öğretmesine ihtiyacımız var.

Çerçevenin ana fikri bitti.Detaylarla ilgilenen okuyucular makaleyi okuyabilir.

4.2 SLEU göstergesi

SLEU'yu tanıtmadan önce, okuyucuların makine çevirisinde BLEU göstergesinin ne olduğuna aşina olduklarını umuyoruz.

BLEU'nun temeli n-gramdır. N-gram, metinde sürekli olarak görünen n kelimeyi ifade eder ve (n-1)-sıra Markov zincirine dayanan olasılıklı bir dil modelidir. Basitçe söylemek gerekirse, mevcut n'inci sözcüğün olasılığının yalnızca önceki (n-1) sözcüğe bağlı olduğunu ve önceki sözcükle hiçbir ilgisi olmadığını varsayar. Makine çevirisinde, BLEU değerlendirmesinin temel birimi kelimedir Bir unigram, çevirinin yeterliliğini değerlendirmek için bir kelimeyi temsil ederken, daha uzun bir n-gram, çevirinin akıcılığını değerlendirmek için bir kelime dizisini temsil eder. BLEU'nun fikri, cümleleri n-gramlara bölmek, yerel benzerliği değerlendirmek ve ardından genel çeviri etkisini puanlamaktır.

Makine çevirisi için en küçük bölünebilir birim bir kelimedir, ancak anlamsal kompozisyon oluşturma problemi için en küçük bölünebilir birim nedir? Bu bir ilişkidir. Bu nedenle, anlamsal kompozisyon üretimi için unigramımız bir ilişki haline gelir. Yeterliliği değerlendirmek, tek bir ilişkinin eşleşip eşleşmediğini değerlendirmektir; akıcılığı değerlendirmek, n ilişkinin aynı anda eşleşip eşleşmeyeceğini değerlendirmektir. Ayrıca n-sıralı Markov zinciri varsayımını yaptık, yani: bir ilişkinin ortaya çıkması yalnızca (n-1) diğer ilişkilerden fazlasına bağlı değildir ve daha fazla ilişkiyle ilgisi yoktur. Sahne grafiğindeki nesneler ve anlamsal kompozisyon birebir örtüştüğü için kesinlik ve hatırlama kavramı yoktur, tek bir ilişkinin değerlendirilmesine unigram doğruluğu, çoklu ilişkilerin değerlendirilmesine n-gram doğruluğu diyoruz.

Buradaki özel tasarım üzerinde ayrıntılı bilgi vermeyeceğim. İlişkiyi unigram olarak görmek bizim temel fikrimizdir. İşimiz sadece bu konsepti tasarlamak ve BLEU konseptini 1D'den 2D'ye genişletmektir. İlgilenen okuyucular makaleye başvurabilir ve göstergelerin uygulanması da açık kaynak olacaktır.

5. Deneysel sonuçların önizlemesi

Şekil 9: Seq-SG2SL çerçevesi tarafından test setinde gösterilen bazı sonuçlar.

Yukarıdaki şekil, test setinde Seq-SG2SL kullanılarak üretilen bazı sonuçlardır.İlk satır girdi, ikinci satır üretilen anlamsal kompozisyon ve üçüncü satır bir referans anlamsal kompozisyon ve karşılık gelen görüntüdür. Sonuçlarımızın, çoklu ilişkilere sahip karmaşık sahneler için kompozisyon oluşturabileceği görülebilir.

İşte sadece bir giriş, daha nicel analiz, esas olarak temel algoritma ile karşılaştırma ve spesifik tasarım üzerine bazı gerekli deneyler dahil olmak üzere makalede ayrıntılı olarak açıklanmıştır. Sadece bir rehber olduğu için, sonuç ve gelecekteki çalışma burada tekrarlanmayacak, ilgilenen okuyucular makaleyi doğrudan okuyabilirler.

Bu makale, ICCV 2019 tarafından kabul edilen "Seq-SG2SL: Sıradan diziye öğrenmeye dayalı sahne grafiklerinden anlamsal kompozisyon oluşturma algoritması" na bir giriş niteliğindedir. Makaledeki tüm içeriği içermez, ancak yalnızca bazı konular üzerindeki düşüncemize odaklanır. Teze dayalı olmasına rağmen, yazı, okuyucuları daha popüler bir biçimde göstermeye çalışıyor, takip araştırmaları ve uygulama senaryolarına ilham vermeyi umuyor.

Bu makale @ tarafından yazılmıştır ve sonuç, birkaç küçük ortağın kristalleşmesidir @ @ @ , biz Ali AI Labs Perception Lab'deniz. Araştırmayla ilgileniyorsanız veya iş yönünüz için ilham alıyorsanız, şu adrese yazabilirsiniz, sizinle görüşmekten memnuniyet duyarız.

Kağıt indirme bağlantısı: https://arxiv.org/abs/1908.06592

Referanslar:

Qiao ve diğerleri, MirrorGAN: Yeniden Tanımlama ile Metin-Görüntü Oluşturmayı Öğrenme, CVPR 2019.

Johnson ve diğerleri, Sahne Grafiklerini Kullanarak Görüntü Erişimi, CVPR 2015. https://github.com/SummitKwan/transparent_latent_gan Zhang ve diğerleri, StackGan: Yığınlanmış Üretken Çekişmeli Ağlarla Metinden Foto-Gerçekçi Görüntü Sentezine, ICCV 2017. Johnson ve diğerleri, Sahne Grafiklerinden Görüntü Oluşturma, CVPR 2018. Krishna ve diğerleri, Görsel Genom: Kitle Kaynaklı Yoğun Görüntü Açıklamaları Kullanarak Dili ve Görmeyi Birleştirme, IJCV 2017.

Çocuk itaatkar değil mi? Hikaye ne yapılacağını biliyor! Bu üç adım sizi bir hikaye ustası yapar
önceki
10.000 karakter 1 dakika ve 36 saniye, 10 milyar, Alipay Teknolojisi Çift 11 Cevap: İmkansız
Sonraki
P4'ten P9'a, Jack Ma'nın evindeki kodu Double 11'in ön ucundaki PM'ye yazın
Ali Entertainment ilk kez halka açıldı! AI, patlamanın içeriğini nasıl tahmin ediyor?
10.000 seviyeli K8'ler nasıl yönetilir? Ants Double 11 çekirdek teknolojisi piyasaya sürüldü
268,4 milyar! Ali CTO Zhang Jianfeng: Double 11'i hiçbir bulut destekleyemez
Ali mühendisleri için çılgın çağrı
Test mühendisleri bunları anlamalı
Yazılım tasarımında kıt yetenekler kimlerdir?
Alibaba mühendisleri, girişimlerin 5 büyük Java hizmeti ikilemini nasıl ortadan kaldırabilir?
0 ila 10 milyon DAU arasında, Xianyu mimarisi son beş yılda nasıl gelişti?
Çok güzel kokuyor! Ali mühendisinin bir parçası beni acıktırıyor
Jia Yangqing: Hayatınızı ilginç şeylere harcayın
Bir kılıcı bilemenin on yılı: "Go to IOE" nin başlangıcından OceanBase'in ilk TPC-C sıralamasına
To Top