"Google Sketch RNN, Süper Yapay Zekayı Hedefliyor" duvar resimlerinin sıçramasından doğdu, yapay zeka soyut kavramları özetlemeyi öğrendi

Xinzhiyuan Derlemesi

Yapay zeka çizimi- "Soyut kavramları insanlara benzer şekilde özetleyin"

İnsanlar kayaların üzerine resim yapmaya başladığından beri, bilişsel yeteneklerde bir sıçrama oldu - şimdi bilgisayarlar da aynısını yapmayı öğreniyor.

Birinin sizden bir domuz ve sonra bir kamyon çizmenizi istediğini hayal edin. Belki böyle boyarsın:

Oldukça basit. Ama sonra, sizden bir "domuz kamyonu" çizmenizin istendiğini düşünün. Bir insan olarak, bu iki şeyin göze çarpan özelliklerini nasıl karıştıracağınızı sezgisel olarak anlayacaksınız ve sonunda şöyle bir şey çizebilirsiniz:

Küçük kıvırcık domuz kuyruğuna, gözler gibi yuvarlak araba pencerelerine ve tekerlek mi yoksa toynak mı olduğunu anlayamayan iki daireye bakın. Bu resmi çizseydiniz, ben, insan dostlarınız, öznel olarak onu "domuz kamyonunun" mükemmel bir tasviri olarak görürdüm.

Yakın zamana kadar, bu tür bir kavramsal entegrasyon hilesini yalnızca insanlar yapabilirdi, ancak şimdi durum farklı. Yukarıdaki domuz kamyonunun yazarı aslında bir SketchRNN AI sistemi, Google AI'nın sanat eserleri yaratıp yaratamayacağına dair bir araştırma projesinin parçasıdır. Proje denir "Macenta Projesi" , Doug Eck tarafından yönetiliyor.

Geçen hafta, Google Brain ekibinin Mountain View'daki ofisinde Eck'i ziyaret ettim. Magenta projesi burada başlatılıyor. Eck akıllı, rahat ve alçakgönüllü. 2000 yılında Indiana Üniversitesi'nden bilgisayar bilimi alanında doktora derecesi aldı ve o zamandan beri müzik ve makine öğrenimi alanlarında çalıştı. Önce AI'nın yuvası olan Montreal Üniversitesi'nde profesör olarak çalıştı ve ardından Google'a gitti. İlk önce Google Müzik'te çalıştım ve daha sonra Magenta projesinin araştırmasına katılmak için Google Brain'e transfer oldum.

Eck'in sanatsal yaratma yeteneğine sahip AI araçlarını geliştirmesi sadece bir hevesdi. "Ama üzerinde düşündükten sonra," dedi, "Tabii ki bunu yapmalıyız, bu gerçekten önemli!"

Kendisinin ve Google'ın meslektaşı David Ha'nın yazdığı gibi, SketchRNN'nin önemi sadece resim yapmayı öğrenmek değil, aynı zamanda "insanlara benzer şekilde soyut kavramları teşvik etmeyi" öğrenmektir. "Domuzları çizebilen bir makine yaratmak istemiyorlar. Yaratmak istedikleri şey, kamyonlar gibi çiftlik hayvanlarıyla ilgili olmayan bazı hızlı sözcükler de girilse bile," domuz konseptini "tanıyabilen ve çıktı verebilen bir makinedir.

Burada üstü kapalı bir argüman var: İnsanlar resim yaptığında dünyayı soyutlayacaklar. Belirli bir kavramdan ziyade genel "domuz" kavramının ana hatlarını çizdiler. Başka bir deyişle, beynimizin "domuz kavramını" nasıl depoladığı ile domuzları nasıl çizdiğimiz arasında bir bağlantı vardır. Bir domuzun nasıl çizileceğini öğrenirseniz, bazı insan soyut ve kapsamlı yeteneklerini öğrenebilirsiniz.

Aşağıda yazılımın nasıl çalıştığı anlatılmaktadır. Google, "Quick, Draw!" Adlı bir oyun geliştirdi! İnsanlar oyun oynadığında, domuzlar, yağmurlar, itfaiye araçları, yoga pozları, bahçeler ve baykuşlar dahil olmak üzere büyük bir yapay görüntü veritabanı oluşturur.

Çizim yaptığımızda, zengin, renkli ve karmaşık dünyayı birkaç (dijital) fırça hareketine yoğunlaştırırız. Bu basit çizgiler, SketchRNN'nin temel veri setidir. Her tür boyama, kedi, yoga pozu, yağmur, belirli bir sinir ağı türünü eğitmek için Google'ın açık kaynak TensorFlow yazılım kitaplığını kullanabilir. Bu, haber bültenlerinde yaygın olan resim tabanlı çalışmadan farklıdır. Makinelere Van Gogh veya DeepDream tarzı resimler çizmeyi veya rastgele şekiller çizip kedi özellikleri vb. Eklemeyi öğreten projeler insanlara tuhaf geliyor. Çizdikleri işler insan resimlerine benziyor ancak insanın gerçek dünya algısına tam olarak uymuyor.

SketchRNN tarafından çıkarılan eserler hiç de grotesk değil. Eric bana, "Hepsi birbirine benziyor," dedi, "" çok insana benziyor "diyemem, ancak pikseller tarafından oluşturulanlardan çok resimlere benziyorlar."

Macenta, Google'ın insan özelliklerini toplamaya ve anlamaya yönelik kapsamlı girişimlerinin bir parçasıdır

Bu, Magenta ekibinin temel felsefesidir. Eric ve Ha gazetede şöyle anlatıyor: "İnsanların dünyayı algılama şekli, insanların gördüklerini piksel ağlarına değil, soyut kavramlara dönüştürmektir." Gençliğimizden beri, kağıt üzerine kurşun kalem veya boya kalemi ile resim çizme fikrini geliştirdik. İletişim kurma yeteneği ".

İnsanların böyle yetenekleri varsa, Google makinelerin de bu tür yeteneklere sahip olabileceğini umuyor. Google CEO'su Sundar Pichai geçen yıl "AI First" hedefini önerdi. AI, Google'ın "bilgileri küresel ölçekte entegre etme ve herkes için erişilebilir hale getirme ve bundan yararlanma" misyonunun doğal bir uzantısıdır. Şimdi değişen şey, Google'ın yapay zeka etrafında bütünleştirdiği ve onu herkes için erişilebilir kılması ve bundan faydalanmasıdır. Macenta, Google'ın insan özelliklerini toplamaya ve anlamaya yönelik kapsamlı girişimlerinin bir parçasıdır.

Makine öğrenimi, Google tarafından kullanılan çeşitli araçlar için genel bir terimdir. Genellikle ML olarak kısaltılan makine öğrenimi, etiketli verileri girerek çeşitli görevleri tamamlamayı öğrenmek için bilgisayarı "eğiten" bir bilgisayar programlama yöntemini ifade eder. Makine öğreniminin belirli bir yöntemi, kabaca insan beyni bağlantı sisteminin modellenmesine dayanan sinir ağlarını kullanmaktır. Çeşitli düğümler (yapay nöronlar) birbirine farklı ağırlıklarla bağlanır.

Son yıllarda, çok seviyeli sinir ağlarının, özellikle çeviri ve görüntü tanıma / işleme alanlarında karmaşık problemleri çözmede etkili olduğu kanıtlanmıştır. Google, temel hizmetlerinin çoğunu bu yeni mimariler üzerinde yeniden oluşturdu. İnsan beyninin bilinen işlevlerini simüle ederek, bu sinir ağları, girişteki farklı kalıpları (görüntüler gibi) tanıyan bağlantılı katmanlara sahip olur. Düşük seviyeli katman, aydınlık ve karanlık gibi basit özellikleri tanıyan nöronlar içerebilir ve yüksek seviyeli katman, köpek yüzleri, arabalar veya kelebekler gibi tanıyabilir.

Bir sinir ağı oluşturmak için yukarıdaki yapıyı ve makineyi kullanmak son derece verimlidir. Son derece karmaşık hesaplama problemi, bir tür model ayarlama ve eğitim ve bazı görüntü işleme birimlerinin kısa vadeli hesaplanması şeklinde basitleştirilmiştir. Gideon Lewis-Kraus'un New York Times makalesinde açıkladığı gibi, Google Translate'in oluşturulması on yıl süren karmaşık bir sistemdir, ancak derin öğrenme sistemini kullanarak yeniden yapılandırmayı tamamlamak yalnızca dokuz ay sürdü. "AI sistemi, orijinal sistemin bir gecede orijinal sistemin ömrü boyunca elde edebileceği iyileştirmeyi başardı."

Bu nedenle, sinir ağlarının kullanımı ve türleri patladı. SketchRNN için, giriş dizisini işlemek için tekrarlayan bir sinir ağı kullanırlar. İnsanların sinir ağlarını eğitmek için farklı şeyler çizerken kullandıkları bir dizi çizgi kullanırlar.

Eğitimi tanımlamanın en kolay yolu, onu bir kodlama yöntemi olarak kullanmaktır. Verileri girdikten (eskiz) sonra, sinir ağı işlenen verilerdeki bazı genel kuralları özetlemeye çalışır. Bu genel kurallar, ağdaki nöronların özelliklerini tanımlayan matematikte saklanan veri modelidir.

Bu konfigürasyon, canlı bir şekilde, domuzların, kamyonların veya yoga pozlarının özelliklerinin depolandığı gizli alan veya Z bölgesi olarak adlandırılır. Örnekleme, sistemden eğitim aldığı şeyi çizmesini istemektir ve SketchRNN bir domuz, kamyon veya yoga pozunun bir taslağını çizecektir. Çizdiği şey öğrendiği şeydir.

SketchRNN insanlara yakın resimler yarattı

SketchRNN ne öğrenebilir? Aşağıdaki, itfaiye araçları üretmek için eğitilmiş bir sinir ağıdır. Modelde "sıcaklık" adında bir değişken vardır ve araştırmacı çıktının rasgeleliğini yukarı veya aşağı ayarlar. Aşağıdaki resimde, daha mavi görüntünün sıcaklığı daha düşük ve daha kırmızı görüntü "daha sıcak".

Ya da belki baykuşları görmek istersiniz:

Ve en iyi örnek yoga asanasıdır:

Bunlar artık insan resimlerine benziyor ama insanlar tarafından boyanmıyorlar. İnsan resminin davranışının rekonstrüksiyonlarıdır. Bazıları iyi boyanmış, bazıları çok iyi değil, ancak AI ile oynamaya gelirseniz, resimlere bakın ve kelimeleri tahmin edin, bu yeterli olacaktır.

SketchRNN ayrıca insan çizimleri biçiminde girdi alabilir. Bazı veriler giriyorsunuz ve kuralları düzeltmeye çalışıyor. Kedi verisi üzerine eğitilmiş bir model çalışmada, üç gözlü bir kedi resmi girerseniz ne olur?

bak? Modelden sağdaki çeşitli çıktılarda (yine farklı bir "sıcaklık" göstererek) üçüncü gözü ortadan kaldırır! Nedeni ne? Model öğrendiği için kedinin üçgen kulakları, iki sakalı, yuvarlak bir yüzü ve sadece iki gözü vardır.

Elbette bu model kulağın ne olduğunu, bir kedinin sakalının hareket edip edemeyeceğini veya yüzün ne olduğunu bilmiyor. İnsan gözü, görüntüleri insan beynine iletmek için insan retinasının belirli hücrelerindeki rodopsin şeklini değiştirmek için fotonları kullanıyor. biliyorum. Çizdiği her şeyin neden atıfta bulunduğu hakkında hiçbir fikri yok.

Ancak insanların kedileri, domuzları, yogayı veya yelkeni nasıl algıladıklarını anlıyor.

Google'dan Eck, "Bir yelkenli teknesinin resmini oluşturmaya veya çizmeye başladığımızda, model resimdeki diğer yüzlerce yelkenli modelle dolu olabilir." Dedi. "Hepsi bizim için mantıklı, çünkü bu model tüm bu eğitim verilerinden platonik yelkenli tekneler çıkardı - bunu söylediğimde mutlu olmayabilirsiniz, ama bu 'yelkenli tekneniz'. Bu bir Belirli bir yelkenli, ancak bir yelkenli kavramı. "

Konuşur konuşmaz küstahlığından pişman olmuş gibiydi. "Sanırım pek çok saldırıyı çekeceğim" dedi, "ama bir taslak olarak, oldukça iyi." (Atlantic Monthly'den Ian Bogost, "Felsefi açıdan bakıldığında, bu saf materyalizmdir" dedi.)

Yapay zeka hareketinin bir parçası olarak, bu açık ara en heyecan verici teknoloji projesi , En azından içindeki insanlar için ve diğerleri de böyle hissediyor.

Demek istediğim, yağmur resmine dayalı bir ağ kur. Ardından kabarık bir bulutun bir taslağını girin, böylece çizdi:

Yağmur, modele girdiğiniz bulutun dışına düştü. Bunun nedeni, birçok insan yağmuru boyadığında önce bulutları ve ardından bulutlardan düşen sahneyi boyamalarıdır. Yani sinir ağı bir bulut görürse, şeklin altından yağmur yağmasına izin verir. (İlginç bir şekilde, veriler bir dizi çizgi olsa da, yağmurla başlarsanız model bulut oluşturmayacaktır)

Eck, bu resimlerle ilgili en ilginç şeyin çok az bilgiye sahip olmaları, ancak çok fazla şey içermeleri olduğunu düşünüyor. "Birkaç vuruşta gülen bir yüz çiziyorsun" dedi. Bu birkaç ana hat ve yüksek çözünürlüklü fotoğraf tamamen farklı yüzler gösteriyor ancak 3 yaşındaki bir çocuk size yüz olduğunu söyleyebilir ve mutlu mu yoksa üzgün mü olduğunu da söyleyebilir. Eck bunun bir tür sıkıştırma, bir tür kodlama olduğunu, SketchRNN tarafından kodunun çözüldüğünü ve daha sonra istenildiği zaman yeniden kodlanabileceğini düşünüyor.

Birkaç eskizde zeka toplanıyor

OpenAI araştırmacısı Andrej Karpathy, "SketchRNN'nin çalışmasını çok destekliyorum. Gerçekten harika. Yapay zeka araştırmasında anahtar bir düğüm haline geldi. Ancak aynı zamanda modeldeki çizgilerin önemi hakkında çok güçlü varsayımlar yaptıklarına da dikkat çekti. Bu, AI'nın genel gelişimi için çok yararlı olmadıkları anlamına gelir.

"Geliştirdiğimiz üretken modelin genellikle mümkün olduğunca veri kümesinin ayrıntılarıyla hiçbir ilgisi yoktur ve görüntü, ses, metin veya başka bir şey olsun, hangi veriyi koyarsanız koyun çalışmalıdır." Dedi, "görüntüler hariç" , Bunlar satırlardan oluşmuyor. "

Şöyle ekledi: "Güçlü varsayımlar yaptılar, bunları modelde derlediler ve belirli alanlarda etkileyici sonuçlar elde ettiler. Bunu tamamen anlıyorum."

Eck ve Ha, herhangi bir oyunu anlayıp oynayabilen bir yapay zeka yerine satranç oynamaya daha çok benzeyen bir yapay zeka geliştiriyorlar. Karpathy'nin görüşüne göre, bu araştırmanın uygulama kapsamı sınırlı görünmektedir.

Ancak çizgi resmin insan düşüncesinin temeli olduğuna inanmak için nedenler var. Eskizlerin gücünden etkilenen tek araştırmacı Google çalışanları değil. 2012 yılında, Georgia Teknoloji Enstitüsü'nden James Hays, bir taslak veri kümesi ve bunları tanımak için bir makine öğrenimi sistemi oluşturmak üzere Berlin'deki Technische Universität'tan Mathias Eitz ve Marc Alexa ile işbirliği yaptı.

Onlar için eskizler, standart bilişsel işlevlere sahip tüm insanların yapabileceği bir "evrensel iletişim" biçimidir. Şöyle yazmışlardı: "Tarih öncesi çağlardan beri insanlar görsel dünyayı eskiz benzeri kaya resimleri veya mağara resimleri ile sundular. Bu tür hiyeroglifler dilden yüz binlerce yıl önce ortaya çıktı ve eskiz çizme ve tanıma yeteneği günümüzde evrenseldir. . "

Toronto Üniversitesi sinirbilimci Dirk Walther tarafından "Proceedings of the National Academy of Sciences" da yayınlanan bir makaleden söz ettiler. Makale, basit ve soyut eskizlerin beynimizi gerçek uyaranlara benzer bir şekilde harekete geçireceğine işaret ediyor. Walther ve ortak yazarları, bu çizgi çizimlerinin "doğal dünyamızın özünü yakaladığını" varsaydılar. Piksel düzeyinde bile, bir kedi taslağı, bir kedinin fotoğrafına hiç benzemiyor.

Beynimizdeki nöronlar, sinir ağları tarafından taklit edilen hiyerarşik bir şekilde çalışıyorsa, eskizler, belirli bir depolama katmanında soyulmuş nesnelerin kavramını çıkarmanın bir yolu olabilir, bu Walther'in "öz" dediği şeydir. Başka bir deyişle, atalarımızın son 100.000 yılda modern formlara dönüştüklerinde sahip oldukları yeni düşünce tarzını aktarıyorlar. İster mağara duvarında, ister bir peçetenin arkasında olsun, eskiz, at kavramından at konseptine, günlük deneyimden soyutlamaya, sembolik düşünceye ve onun üzerindeki modern insanlara bir sıçrama olabilir.

Modern yaşamın çoğu bu dönüşümden kaynaklanıyor: dil, para, matematik ve hatta hesaplamanın kendisi. Bu nedenle, eskizlerin sonuçta güçlü yapay zeka yaratmada önemli bir rol oynaması şaşırtıcı değildir.

Ama elbette insanlar için eskizler gerçek şeylerin tasviridir. Dört soyut çizgi ile şeyin kendisi arasındaki ilişkiyi kolayca anlayabiliriz. Bu kavram bizim için anlamlıdır. SketchRNN için eskiz, zaman içinde oluşan bir şekil olan çizgiler dizisidir. Makinenin görevi, çizimlerde tasvir edilen şeylerin özünü çıkarmak ve onları dünyayı anlamak için kullanmaya çalışmaktır.

SketchRNN ekibi birçok yönden keşfediyor. İnsan geribildirimiyle daha iyi resim yapmaya çalışmak için bir sistem kurabilirler. Modeli eğitmek için birden çok çizim kullanabilirler. Belki de domuz kavramını anlamak için eğittikleri modelin gerçekçi görüntülere genellenip genellenemeyeceğini görmenin bir yolunu bulacaklar. Kedi fotoğrafları üzerinde eğitilmiş bileşenler gibi modellerine eklenen diğer bazı modülleri görmeyi çok isterim. Örneğin, Berkeley'deki California Üniversitesi tarafından oluşturulan "kedilerin dokusunu bilir" sinir ağını kullanarak çizimleri renklendirmek, onları kedilerin resminde daha ayrıntılı hale getirecektir.

SketchRNN'nin yalnızca "ilk adım" olduğunu ve öğrenilecek çok şey olduğunu kabul ediyorlar. Bu eskiz kod çözücüleri, uzun bir insanlık tarihiyle karşı karşıya olduklarını ve sanatta geri beslenen insanlık tarihinin teknolojik çağa ayak uydurmadığını fark ediyor.

The New Yorker'dan Judith Thurman, Avrupa mağara resminde, Paleolitik sanatın çoğunun değişmediğini yazdı: "25.000 yıldır neredeyse hiçbir yenilik veya yenilik olmadı." "Bu, kaydedilen insanlık tarihinin dört katıdır."

Bir bilim adamı Thurman'a sanatın insanların kalplerinde derin bir şekilde kök saldığını, ancak kültürün daha istikrarlı olduğunu söyledi.

Bilgisayarlar, özellikle de yeni AI teknolojileri, insanların uzun süredir iyi olduğu şeyleri yok ediyor. 1990'larda insanlar dama, sonra satranç ve son zamanlarda Go'ya yenildi.

Bununla birlikte, AI'daki bazı yeni gelişmeler, en gelişmiş teknolojilerdeki ilerlemelerden kaynaklanmamaktadır (ilerlemeleri de çok hızlıdır). Eck için bulmaya çalıştıkları şey, insanların nasıl düşündüğünün ve "biz kimiz" sorusuna kadar uzanan temel taşıdır. Eck bana "Sanatın gerçek özü, insan doğasıdır ve bu aynı zamanda insanların birbirleriyle iletişim kurmalarının temelidir." Dedi.

Derin öğrenmenin genel perspektifinden, herkes kendini insan yaşamının temel mekanizmalarını incelemeye adamıştır - nasıl görüyoruz, nasıl hareket ediyoruz, nasıl konuşuyoruz, yüzleri nasıl tanıyoruz, kelimeleri nasıl hikayelere dönüştürüyoruz? Müzik nasıl çalınır - Bu, belirli bir kişinin ana hatlarını oluşturmaz, aksine insan doğasını ana hatlarıyla belirtir.

Şimdi, bu düşük çözünürlüklü, az vuruşlu bir taslak, ancak taslaktan toplanan zekayı görmek zor değil.

Orijinal adres: https://www.theatlantic.com/technology/archive/2017/06/google-drawing/529473/

Polis, "Shenzhen kızının ebeveynleri tarafından dövülmesi" olayındaki son gelişmeleri bildirdi.
önceki
Nihai AI nedir?
Sonraki
Bir Günde Toplanan Mao Eserlerini Okuyun: 002 Cai Hesen'e Mektup
Bahar Şenliği sırasında evde yeterli yer olmaması konusunda endişeli misiniz? Bu orta boy SUV'lar 90.000 kadar düşük
2019'un TOP1 en iyi seyahat ülkesi, neden burayı ziyaret etmeye değer?
Uçan kek denen bir çeşit uzun geçiş var, topu durdurduğunuz sürece tek elle kek yiyebilirsiniz!
On şiir, on yemin, dünyayı hareket ettiriyor
2018'de ortaya çıkan blockchain kavramı tam olarak nedir?
Güney Amerika'nın çok uzak olduğunu mu düşünüyorsunuz? Avrupa ile Asya'nın kesişme noktasındaki bu "gökyüzü aynası" herkesin gözlerini hayrete düşürdü!
"AI + Eğlence" iQiyi'nin beyninin gelişmiş versiyonunu anlamak için bir resim, akıllı video zirvesinde AI daha fazla sevgi var
Çifte yenilik ve çifte onarım devam ederken Jingdezhen: Güzel bir köy inşa etmek ve mutlu bir ev yaratmak
Hokkaido, dünyayı sadece karla fethetti
Renminbi kılık değiştirerek "faiz oranlarını düşürüyor", ABD tahvil fiyatları keskin bir şekilde yükseldi ve Çin-ABD para politikalarının farklılığı artıyor
2018'in en ilgi çekici arkadaş çevresi: Bu yıl 40 yılı birlikte geçirdik
To Top