g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Li Feifei'nin son konuşmasının tam metni: Makineler, görüntüleri ve videoları "anlayabilir", ancak yine de yapay zeka araştırmasının başlangıç noktasındayız

Kaynak: Araştırma Grubu

geçen hafta sonu, Yapay zeka alanındaki en seçkin bilim adamlarından biri: Stanford Üniversitesi'nde kadrolu profesör ve Google Cloud'un baş bilim adamı Li Feifei Gelecek Forumu'nun yıllık toplantısında bize "ImageNet'in Ötesinde Görsel Zeka" adlı harika bir konuşma yaptık. Bize söyledi AI yalnızca nesneleri doğru bir şekilde tanımlamakla kalmaz, aynı zamanda resimlerin içeriğini de anlayabilir, hatta bir resme dayalı kısa bir makale yazabilir ve videoları "anlayabilir" ...

Konuşma Li Feifei

Wei Xiao'yu bitirmek ve tercüme etmek

Bugün size getirdiğim son araştırma fikirlerimizden bazıları Bugün konuşmam görsel zeka ile ilgili. Hepimiz yeryüzünde pek çok hayvan türü olduğunu ve çoğunun gözleri olduğunu biliyoruz, bu bize görmenin en önemli duygu ve idrak yolu olduğunu söylüyor. Hayvanların hayatta kalması ve gelişmesi için hayati öneme sahiptir.

Yani ister hayvan zekası ister makine zekası hakkında konuşalım, Vizyon çok önemli bir köşe taşıdır . Dünyada var olan bu sistemler arasında şu anda en çok anladığımız şey insan görsel sistemidir. 500 milyon yıldan fazla bir süre önceki Kambriyen patlamasından bu yana, görsel sistemimiz sürekli gelişti ve gelişti ve bu önemli süreç dünyayı anlamamızı sağladı. ve Görsel sistem beynimizdeki en karmaşık sistemdir.Beynin görsel işlemeden sorumlu korteks, tüm korteksin% 50'sini oluşturur. Bu bize insan görsel sisteminin çok dikkat çekici olduğunu söylüyor.

Kambriyen türleri patlaması. Kaynak: genesispark.com

Bir bilişsel psikolog çok ünlü bir deney yaptı: Bu deney size insan görsel sisteminin ne kadar harika olduğunu söyleyebilir. Bu videoya bir bakın. Göreviniz, bir kişi görürseniz elinizi kaldırmaktır. Her resmin sunum süresi çok kısadır, yani 1/10 saniyedir. Sadece bu da değil, herkesten birini aramasını isterseniz, diğer kişinin ne tür bir kişi olduğunu veya kişinin nerede durduğunu, hangi duruşta olduğunu ve hangi kıyafetleri giydiğini bilemezsiniz. Ancak yine de bunu hızlı ve doğru bir şekilde tanımlayabilirsiniz. insanlar.

1996 yılında, ünlü Fransız psikolog ve sinirbilimci Simon J. Thorpe'un makalesi, görsel bilişsel yeteneğin insan beynindeki en dikkat çekici yetenek olduğunu kanıtladı, çünkü hızı çok hızlı, yaklaşık 150 milisaniye. 150 milisaniye içinde beynimiz çok karmaşık görüntüleri hayvanlarla ve hayvanlar olmadan ayırt edebilir . O zamanlar bilgisayarlar ve insanlar çok farklıydı.Bu, bilgisayar bilimcilerini etkiledi.Çözmeyi umdukları en temel sorun, görüntü tanıma sorunudur.

ImageNet dışında, saf nesne tanımanın ötesinde ne yapabiliriz?

Yirmi yıl sonra, bilgisayar alanındaki uzmanlar nesne tanıma için birkaç nesil teknoloji icat ettiler.Bu, ImageNet olarak bilinir. Görüntü tanıma alanında büyük ilerleme kaydettik: 8 yılda, ImageNet Challenge'da, bilgisayarın görüntü sınıflandırma hata oranı 10 kat azaldı. Aynı zamanda, son 8 yılda büyük bir devrim de ortaya çıktı: 2012'de, evrişimli sinir ağı ve GPU (Grafik İşleme Birimi) teknolojilerinin ortaya çıkışı, bilgisayar görüşü ve yapay zeka üzerinde büyük etki yarattı. Çok heyecan verici bir gelişme olduğunu söyledi. Bir bilim adamı olarak düşünüyorum da, ImageNet dışında, saf nesne tanımanın ötesinde ne yapabiliriz?

8 yılda, ImageNet Challenge'da, bilgisayarın görüntü sınıflandırma hata oranı 10 kat azaldı. Resim kaynağı: dsiac.org

Size bir örnekle anlatayım: Her iki resimde de bir hayvan ve bir insan var Bu iki resimde görülen şeyleri basitçe gözlemlerseniz, iki resim birbirine çok benziyor ama sundukları hikayeler tamamen farklı. . Tabii ki, kesinlikle sağdaki sahnede görünmek istemezsiniz.

Bu, çok önemli bir sorunu, yani insanların yapabileceği en önemli ve temel görüntü tanıma işlevini bünyesinde barındırıyor Görüntüdeki nesneler arasındaki ilişkiyi anlayın . İnsanları simüle etmek için bilgisayarın görüntü tanıma görevinde girdi görüntüdür ve bilgisayar tarafından çıkarılan bilgi görüntüdeki nesneleri, konumlarını ve nesneler arasındaki ilişkiyi içerir. Şu anda bazı ön çalışmalarımız var, ancak bilgisayarlar tarafından değerlendirilen nesneler arasındaki ilişkilerin çoğu çok sınırlı.

Son zamanlarda yeni bir çalışmaya başladık, Bilgisayarın görüntüdeki farklı nesneler arasındaki ilişkiyi anlamasını sağlamak için derin öğrenme algoritmaları ve görsel dil modelleri kullanıyoruz. .

Bilgisayarlar bize farklı nesneler arasındaki uzamsal ilişkiyi söyleyebilir, onları karşılaştırabilir, simetrik olup olmadıklarını gözlemleyebilir ve ardından aralarındaki eylemleri ve aralarındaki konumsal ilişkiyi anlayabilir. Yani bu, sadece bir grup nesnenin adlarını tanımlamak değil, görsel dünyamızı anlamanın daha zengin bir yolu.

Dil Öncülleri ile Görsel İlişki Algılama.ECCV.2016

Daha da ilginci, Bilgisayarın Sıfır kısa (sıfır örnek öğrenme) nesne ilişkisi tanımayı gerçekleştirmesine bile izin verebiliriz . Örneğin, eğitim algoritmasının yanında yangın musluğu bulunan bir sandalyede oturan birinin resmini kullanın. Ardından, yangın musluğunun üzerinde tek başına oturarak başka bir fotoğraf çekin. Algoritma bu resmi görmemiş olsa da, "yangın musluğunun üzerinde oturan bir kişi" olduğunu ifade edebilir. Benzer şekilde, eğitim setinde sadece "ata binen insanlar" ve "şapkalı insanlar" resimleri olmasına rağmen, algoritma "şapkalı bir atı" tanıyabilir.

Yapay zekanın görüntüleri anlamasına izin verin

Nesne tanıma problemi büyük ölçüde çözüldükten sonra, bir sonraki hedefimiz nesnenin kendisinden çıkıp nesneler, dil vb. Arasındaki daha geniş ilişkiye odaklanmaktır.

ImageNet bize çok şey kazandırdı, ancak resimlerden tanıyabileceği bilgiler çok sınırlı. COCO yazılımı, bir sahnedeki birden fazla nesneyi tanıyabilir ve sahneyi açıklayan kısa bir cümle oluşturabilir. Ancak görsel bilgi verileri bundan çok daha fazlasıdır. Üç yıllık bir araştırmadan sonra, bu içerikleri farklı etiketler aracılığıyla tanımlamak, bu nesneleri özellikleri, nitelikleri ve ilişkileri dahil olmak üzere tanımlamak ve ardından bunları böyle bir harita aracılığıyla oluşturmak için daha zengin bir yöntem keşfettik. Aramızdaki bağlantı Görsel Genom veri kümesi . Bu veri seti 100.000'den fazla resim, 1 milyondan fazla özellik ve ilişki etiketi ve milyonlarca açıklama ve Soru-Cevap mesajı içerir. Bizimki gibi bir veri kümesinde, nesneler arasındaki ilişkilerin tanınması konusunda daha doğru araştırmalar yürütmek için nesne tanımanın ötesine geçmemize çok kesin bir şekilde izin verebilir.

Resim kaynağı: Visualgenome.org

Peki bu aracı nasıl kullanacağız? Sahne tanıma bir örnektir : Google'da "takım elbiseli adam" veya "sevimli köpek yavrusu" araması gibi, tek başına bakmak basit bir görevdir ve doğrudan ideal sonuçları alabilirsiniz. Ama "şirin köpek yavrusu tutan takım elbiseli bir adam" araması yaptığınızda performansı kötüleşiyor. Bu Nesneler arasındaki ilişki, başa çıkması zor bir şeydir .

Görselleri ararken, arama motorlarının çoğu algoritması yalnızca nesnenin kendisinin bilgilerini kullanabilir. Algoritma basitçe resimde hangi nesnelerin olduğunu anlıyor, ancak bu yeterli değil . Örneğin, sandalyede oturan bir adamın resmini ararsak, nesnenin dışındaki ve sahnenin içindeki tüm ilişkileri dahil edebilirsek ve sonra kesin ilişkiyi çıkarmanın bir yolunu bulursak, sonuç daha iyi olacaktır.

2015 yılında bu yeni sunum yöntemini keşfetmeye başladık, Çok uzun açıklayıcı bir paragraf girebilir, onu ImageNet veri kümesine koyabilir ve ardından sahne grafiğimizle karşılaştırabiliriz. , Önceki görsel arama teknolojisinde gördüğümüz sonuçları çok aşan bu algoritma aracılığıyla iyi bir arama yapmamıza yardımcı olabiliriz.

Bugün denedim (1 Kasım 2017) ve Google Görseller'in doğruluğu önemli ölçüde iyileştirildi

Bu harika görünüyor, ancak herkesin bir sorusu olacak, Bu sahne görüntülerini nerede bulabilirim? Bir sahne grafiğini oluşturmak çok karmaşık ve zor bir şeydir. Görsel Genom veri setindeki mevcut sahne grafikleri Manuel tanımlı , Varlıklar, yapılar, varlıklar arasındaki ilişkiler ve görüntülerin eşleştirilmesi bizim tarafımızdan elle yapılır. Süreç oldukça zahmetli ve bu işi gelecekte her sahne için yapmak istemiyoruz.

Yani bir sonraki adımımız bunu ummaktır Sahne grafiklerini otomatik olarak oluşturmak için bir teknik . Bu yüzden, bu yaz yayınlanan bir CVPR makalesinde otomatik olarak sahne grafikleri oluşturmak için böyle bir şema yaptık: Bir girdi görüntüsü için, önce nesne tanımanın aday sonuçlarını alıyoruz ve ardından varlığı ve varlığı elde etmek için grafik muhakeme algoritmasını kullanıyoruz. İlişki vb; bu işlem otomatik olarak yapılır.

Yinelemeli Mesaj Geçişi ile Sahne Grafiği Üretimi CVPR.2017

Yapay zeka, insanlar gibi videoları okuyabilir mi?

Görsel Genom veri seti, bilgisayarın sahne bilgisini daha iyi anlamasına izin verir, ancak bu yeterli değildir. Aslında, şimdiye kadar, yalnızca bilişsel psikologlar tarafından tartışılan bir kavramı keşfettik - sahne özü algısı: tüm sahnedeki ve aralarındaki nesneleri yalnızca bir bakışta kavrayabilir. İlişki. Bunun ötesinde ne olacak?

On yıl önce California Institute of Technology'de doktora öğrencisiyken yaptığım bir psikoloji deneyine geri dönüp bakmak istiyorum. 10 $ / saat ücret karşılığında insan denekleri işe aldım ve onlara monitör aracılığıyla hızlıca bir dizi fotoğraf gösterdim. Her fotoğraf yanıp söndükten sonra, retinalarında kalan bilgileri temizlemek amacıyla duvar kağıdına benzer bir resimle kaplanır. Sonra görebildikleri kadar yazmalarını isteyin. Bazı fotoğraflar sadece 1/40 saniye (27 milisaniye) gösteriyor, bazı fotoğraflar 0.5 saniye gösteriyor Deneklerimiz sahne bilgisini bu kadar kısa sürede anlayabildiler. Verdiğim deneme maliyeti daha yüksekse, daha da iyisini yapabilirsiniz. Evrim bize sadece bir resim görerek uzun bir hikaye anlatma yeteneği verdi .

2015'ten beri, görüntüler ve dil arasındaki ilişkiyi kurmak için evrişimli sinir ağları ve LSTM gibi tekrarlayan sinir ağı algoritmalarını kullandık. O zamandan beri Bilgisayarı bir cümleyle hemen hemen her şeyi eşleştirebiliriz . Bu iki örneği ele alalım, "turuncu yelek giyen bir işçi yol döşüyor" ve "siyah tişörtlü bir adam gitar çalıyor".

Ancak, görselin içerdiği bilgiler çok zengin, kısa bir cümle her şeyi kapsayacak kadar yeterli değil, bu yüzden bir sonraki adımımız yoğun yakalama (yoğun yakalama). Bilgisayarın bir resmi birkaç parçaya bölmesine izin verin ve ardından tüm sahneyi tek bir cümlede anlatmak yerine her bir parçayı ayrı ayrı tanımlayın. .

Görüntü Açıklamaları Oluşturmak İçin Derin Görsel-Anlamsal Hizalamalar. CVPR.2015

Bunun yanında bu yıl yaptığımız çalışmalar yeni bir seviyeye ulaştı, Bilgisayar, görüntüleri yalnızca cümleleri açıklamakla kalmaz, aynı zamanda metin paragrafları oluşturarak bunları mekansal olarak anlamlı bir şekilde birbirine bağlar. . Bu, bilişsel psikologlar tarafından yapılan deneylerde insanlar tarafından açıklanan sonuçlara çok yakındır.

COCO yazılımı, resme göre birkaç cümle (pembe kısım) yazabilir ve yeni algoritma bir paragraf (mavi kısım) oluşturabilir. Açıklayıcı Görüntü Paragrafları Oluşturmak İçin Hiyerarşik Bir Yaklaşım. CVPR.2017

Ama burada durmadık, bilgisayarın videoyu tanımasına izin vermeye başladık. Bu yeni ve zengin bir bilgisayar görüşü araştırma alanıdır. İnternette çok sayıda video var ve çeşitli veri formları var, bu videoları anlamak çok önemli. Daha uzun öykü bölümlerini açıklamak için yukarıdakine benzer yoğun bir yakalama modeli kullanabiliriz. Bilgisayar, zaman unsurunu ekleyerek bir videoyu tanıyabilir ve onu tanımlayabilir .

Görsel biliş ve mantıksal akıl yürütmenin birleşimi

Son olarak, yapay zekayı basit bilişin ötesinde görev odaklı bir düzeye nasıl getirebileceğimizden bahsetmek istiyorum. En başından beri, insanlar robotlara bir isim vermek için dili kullanmayı umuyorlar ve ardından robotlar dünyayı gözlemlemek, görevleri anlamak ve tamamlamak için görsel yöntemler kullanıyor. .

1970'lerde ve 1980'lerde, yapay zekanın öncüleri zaten bilgisayarların talimatlarına göre görevleri nasıl tamamlayacaklarını inceliyorlardı. Örneğin, aşağıdaki örnekte insanlar şöyle der: "Mavi piramitler iyidir. Kırmızı olmayan küpleri severim, ancak piramitli hiçbir şeyi sevmem. Gri kutuyu sever miyim?" Sonra makine veya yapay zeka cevap verecektir: "Hayır, çünkü bir piramitle desteklenmiştir." Bu karmaşık dünyayı anlayabilir ve akıl yürütebilir.

Son zamanlarda, bu tür bir sorunu yeniden araştırmak için Facebook ile işbirliği yaptık ve Clever veri seti adını verdiğimiz çeşitli geometrik cisimlere sahip sahneler yarattık. Bu Veri seti, özniteliklerin tanımlanması, sayılması, karşılaştırılması, uzamsal ilişkisini vb. İçeren eşleştirilmiş soru ve cevapları içerir. . Bu sorunları nasıl anlayacağını, gerekçelendireceğini ve çözeceğini görmek için yapay zeka soruları soracağız.

Yapay zeka ve insan yanıtlarını bu tür akıl yürütme sorusuyla karşılaştırıyoruz: İnsanlar% 90'ın üzerinde doğruluk elde edebilir, ancak makineler% 70'e yaklaşabilir , Ama yine de büyük bir boşluk var . Bu boşluk, insanların akıl yürütmeyi birleştirebilmesi, ancak makinelerin yapamamasıdır.

Böylece yapay zeka aramaya başladık Daha iyi performans göstermenin yolları : Bir soruyu işlevlere sahip program bölümlerine ayırırız ve ardından soruyu program bölümlerine göre yanıtlayabilen bir yürütme motoru eğitiriz. Bu şema, gerçek dünya sorunları hakkında mantık yürütmeye çalışırken çok daha yüksek kombinatoryal beceriye sahiptir. Bu çalışmayı ICCV'de yeni yayınladık.

Örneğin, "Mor şeyin şekli nedir?" Diye sorarsak, "bir küptür" yanıtını verir ve mor küpün konumunu doğru bir şekilde bulabilir. Bu, mantığının doğru olduğunu gösterir. Aynı zamanda şeylerin sayısını da sayabilir. Bütün bunlar, algoritmanın sahne hakkında akıl yürütebileceğini gösteriyor.

Genel olarak, sizinle paylaştığım şey bir dizi ImageNet'in ötesinde çalışın :

Her şeyden önce, bilgisayar görüşü nesne tanımadan daha fazlasını yapabilir İlişki tanıma, karmaşık anlamsal temsil ve sahne görüntüsü oluşturma

Bundan sonra vizyon + dil işleme kullanıyoruz Tek cümleli etiketleme, paragraf oluşturma, videoyu anlama, ortak akıl yürütme

Son olarak, hala yeni başlayan bir alan olan görev odaklı bir vizyon var. Vizyon ve mantığın birleşiminin bu alanda gerçekten el ele vereceğine inanıyorum. .

İnsan görüşü uzun süredir geliştirildi, Bilgisayarda görsel tanıma, ortaya çıktıktan sonraki 60 yılda büyük ilerleme kaydetmiş olsa da, hala sadece yeni ortaya çıkan bir disiplindir. .

Bu kızımın 20 aylıkken çekilmiş bir fotoğrafı.Görme yeteneği günlük hayatının önemli bir parçası. Okuyor, çiziyor, duygularını gözlemliyor, dünya ile çeşitli bağlantılar kuruyor vs. ama bunların hiçbiri Sorular onun büyümesi için çok önemlidir. Görsel biliş veya görsel zeka, insan anlayışımız, iletişimimiz, işbirliğimiz, etkileşimimiz vb. İçin çok çok kritiktir ve bu yeni dünyayı keşfetmeye yeni başladık. .