Son sekiz yılda ImageNet: Li Feifei ve değiştirdiği yapay zeka dünyası

Li Shan Annie, QZ'den derlendi Qubit Raporu | Genel Hesap QbitAI

2006 yılında Li Feifei bir fikir üzerinde düşünmeye başladı.

O zamanlar, Urbana-Champaign'deki Illinois Üniversitesi'nde bilgisayar bilimi profesörü olarak görev yapmıştı. Tüm akademik çevrenin ve yapay zeka endüstrisinin aynı konsept üzerinde sıkı bir şekilde çalıştığını keşfetti: kararlar almak için daha iyi algoritmalar, ancak verileri umursamıyorlar.

Bu yöntemin sınırlamalarının farkındadır - kullanılan veriler gerçek dünya koşullarını yansıtmıyorsa, en iyi algoritma bile yardımcı olmayacaktır.

Çözümü, daha iyi bir veri kümesi oluşturmaktır.

Li Feifei, ilk başta birlikte çalıştığı küçük ekibe atıfta bulunarak, "Eşi görülmemiş bir şey yapmaya karar verdik." Dedi. "Nesnelerimiz dünyanın her yerindeki nesnelerdir."

Ortaya çıkan veri seti ImageNet olarak adlandırılır. 2009'da bir makale olarak yayınlandığında, sadece Miami Beach Konferansı'nın köşesinde bir poster şeklinde yoğunlaştırılabilirdi, ancak hızla yıllık bir yarışma haline geldi: nerede olduğunu görün Bu algoritma, görüntüde yer alan nesneleri en düşük hata oranıyla belirleyebilir. Birçok insan bunu mevcut yapay zeka dalgası için bir katalizör olarak görüyor.

ImageNet Challenge'a katılan şirketler, teknoloji endüstrisinin her köşesinde yer almaktadır. 2010'daki ilk yarışmanın kazananları, Baidu, Google ve Huawei yöneticileriydi. Matthew Zeiler, Clarifai'yi başlatmak için 2013'te ImageNet Challenge'ı kazanmak için kullandığı prosedürleri kullandı ve şu anda 40 milyon dolarlık risk sermayesine sahip.

2014'te Google, Oxford Üniversitesinden iki araştırmacının katıldığı yarışmayı kazandı. İkisi hızla Google tarafından işe alındı ve yakın zamanda edindikleri DeepMind Lab'a katıldı. Li Feifei, şu anda Google Cloud'un baş bilim adamı, Stanford Üniversitesi'nde profesör ve okulun yapay zeka laboratuvarının direktörüdür.

Bugün, son kez ImageNet'in yıllık sonuçlarını tartışmak için CVPR sahnesinde olacak - 2017 bu yarışmanın son yılı. Sadece 7 yılda, kazananların tanınma oranı% 71,8'den% 97,3'e yükseldi, bu da insanlarınkini geçti ve daha büyük verilerin daha iyi kararlar verebileceğini kanıtladı.

Rekabetin kendisi bitse bile, mirası tüm sektörü etkilemeye devam edecek. 2009'dan bu yana, düzinelerce yeni geliştirilen yapay zeka araştırma veri seti, bilgisayarla görme, sinirsel dil işleme ve konuşma tanıma gibi alt alanlara dahil edildi.

"ImageNet insanların düşünce kalıplarını değiştirdi: Birçok kişi hala modelleri önemsese de, verileri de önemsiyor." Li Feifei, "Veriler, modeller hakkında düşünme şeklimizi yeniden tanımlıyor."

ImageNet nedir?

1980'lerde Princeton Üniversitesi psikoloğu George Miller (George Miller) İngilizce için bir mimari kurmak amacıyla WordNet adlı bir proje başlattı. Bu biraz bir sözlüğe benzer, ancak tüm kelimeler alfabetik sırayla değil, diğer kelimelere göre görüntülenir.

Örneğin, WordNet'te köpek (köpek) köpek (köpek) altına, köpek memelinin (memeli) altına vb. Yerleştirilir. Bu tür bir dil organizasyonu, makinenin anlayabileceği mantığa dayanır ve 155.000'den fazla dizin sözcüğü toplamıştır.

ImageNet'in hiyerarşisi WordNet'ten esinlenmiştir

Li Feifei, Urbana-Champaign'deki Illinois Üniversitesi'nde ilk fakülte pozisyonunu aldığında, her zaman makine öğreniminin temel bir çelişkisine kapılmıştı: aşırı uyum ve genelleme. Bir algoritma yalnızca daha önce gördüğü verilere benzer başka verilerle karşılaştığında çalışırsa, modelin verilere fazla uyduğu kabul edilir. Başka bir deyişle, bu örneklerden daha genel bir veriyi anlayamaz. Öte yandan, bir model veriler arasında doğru örüntüyü seçmezse, buna aşırı genelleme denir.

Li Feifei, mükemmel algoritmanın bizden çok uzakta göründüğünü söyledi. Önceki veri setinin dünyanın çeşitliliğini yansıtmadığına, hatta kedi resimlerinin tanınmasının son derece karmaşık bir konu olduğuna inanıyor. Ancak algoritmaya dünyanın karmaşıklığını anlamasını sağlamak için daha fazla örnek sunarak, matematiksel anlamda gerçekten daha iyi sonuçlar elde edebilir. Sadece 5 kedi resmi gördüyseniz, sadece 5 çekim açısı, ışık ortamı ve belki de sadece 5 kedi vardır. Ancak 500 kedi resmi gördüyseniz, aralarındaki ortak noktaları çizmek için daha fazla örnek var.

Li Feifei, dünyanın çeşitliliğini yansıtmak için başkalarının verileri nasıl kullandığını incelemeye başladı. Bu süreçte WordNet'i buldu.

WordNet'in yöntemlerini inceledikten sonra, Li Feifei 2006 yılında Princeton'u ziyaret ettiğinde, WordNet araştırmasıyla uğraşan Christiane Fellbaum'u buldu. Felbaum, WordNet'in her kelime için alakalı bir resim bulabileceğine inanır, ancak bu, bir bilgisayar görme veri seti oluşturmak için değil, esas olarak referans amaçlıdır. Bu toplantı boyunca Li Feifei, her kelimeye daha fazla örnek sağlamak için daha büyük bir veri kümesi oluşturmak için daha iddialı bir fikir tasarladı.

Feifei Li, mezun olduğu Princeton Üniversitesi'nde birkaç ay geçirdikten sonra, 2007'nin başlarında ImageNet projesine başladı. Bu zorluğun üstesinden gelmek için bir ekip kurmaya başladı, önce başka bir profesör Kai Li'yi işe aldı ve sonra doktora öğrencisi Jia Deng'i Li Feifei'nin laboratuvarına transfer etmeye ikna etti. Jia Deng, o zamandan beri ImageNet projesinin işleyişine 2017 yılına kadar yardım ediyor.

"Bence bu, diğer insanların yaptıklarından çok farklı." Jia Deng, "Bunun görsel araştırma alanının çalışma şeklini kesinlikle değiştireceğini düşünüyorum, ancak bunu nasıl değiştireceğimi bilmiyorum" dedi.

Veri setinde yer alan nesneler, sadece pandalar ve kiliseler gibi fiziksel nesnelerin yanı sıra aşk gibi soyut kavramları da içermektedir.

Li Feifei'nin ilk fikri, fotoğrafları saat başına 10 ABD doları fiyatına manuel olarak bulmaları için lisans öğrencilerini işe almak ve ardından bunları veri setine eklemekti. Ancak kısa süre sonra, lisans öğrencilerinin fotoğraf toplama hızına göre tamamlamanın yaklaşık 90 yıl alacağını keşfetti.

Lisans resim koleksiyonu grubunu dağıttıktan sonra Li Feifei ve ekibi algoritmaya geri döndü. Bilgisayar görme algoritmaları internetten resim seçebilir mi ve insanlar sadece resimlerin doğruluğunu onaylamaktan mı sorumludur? Ancak birkaç ay süren araştırmalardan sonra, bu teknolojinin aynı derecede uygulanabilir olmadığına ve gelecekteki algoritmaların da sınırlı olacağına ve yalnızca veri seti üretildiğinde mevcut olan tanıma yeteneklerini elde edebileceğine inanıyorlar.

Lisans öğrencilerini işe almak zaman kaybıydı ve algoritma kusurluydu. Sorunları daha da kötüleştirmek için ekibin hala parası yoktu. Li Feifei, her yere başvurmasına rağmen, projenin herhangi bir federal fon alamadığını söyledi. Hatta bazıları şöyle diyor: Princeton'ın bu konuyu incelemesi gerçekten utanç verici ve bu konunun tek avantajı Li Feifei.

Li Feifei bir yüksek lisans öğrencisiyle sohbet ederken, işler birdenbire tersine döndü. Yüksek lisans öğrencisi Li Feifei'ye, dünyanın her yerinden birçok insanı bilgisayar başında oturup çevrimiçi olarak bazı basit görevleri tamamlaması için işe alabilen bir hizmet olan Amazon Mechanical Turk'ü daha önce duyup duymadığını sordu ve ücret çok düşük.

"Bana web sitesini gösterdi ve size söyleyebilirim ki o gün ImageNet'in kesinlikle başarabileceğini biliyordum." O, "Birdenbire büyütülebilecek bir araç bulduk. Bir Princeton lisans öğrencisini işe alacak olsaydı Bunun yapılabileceğini hayal etmek imkansız. "

Amazon Mechanical Turk'ün görüntü sınıflandırma arayüzü

Mekanik Türk'ün kendisi de bazı engellerle karşı karşıyadır ve görevlerin çoğu Li Feifeinin doktora öğrencileri Jia Deng ve Olga Russakofsky tarafından çözülmelidir. Örneğin, her bir resmi kaç kişinin görüntülemesi gerekiyor? Belki iki kişi kedinin bir kedi olduğunu belirleyebilir, ancak küçük bir dış yapraklar 10 tur doğrulamadan geçmesi gerekebilir. Ya platforma katılan bazı kişiler sistemi aldatmaya çalışırsa? Li Feifei'nin ekibi nihayet, yalnızca doğru resimlerin veri setine dahil edilmesini sağlamak için Mechanical Turk katılımcılarının davranışları için bir dizi istatistiksel model geliştirdi.

Mechanical Turk'ü bulduktan sonra bile, bu veri setini tamamlamak hala iki buçuk yıl sürdü. 5,247 kategoriye bölünmüş 3,2 milyon etiketli resim ve "memeliler", "arabalar" ve "mobilya" gibi 12 alt ağaç içerir.

2009 yılında, Li Feifei ve ekibi, ekli bir veri kümesi olan bir ImageNet makalesi yayınladı, ancak bunu pek tantana ile tanıtmadı. Li Feifei, bilgisayarla görme araştırması alanında en önemli konferanslardan biri olarak CVPR'nin sözlü tanıtım değil, yalnızca poster göndermelerine izin verdiğini hatırlattı. Bu nedenle ekip insanlara ImageNet markalı kalemler vererek dikkatleri üzerine çekti. O zamanlar insanlar, daha fazla verinin algoritmayı iyileştirebileceğine dair basit gerçeklerden şüphe ediyorlardı.

O sırada birisi dedi ki, 'Tek bir nesneyi bile yapamıyorsanız, neden binlerce veya on binlerce nesne yapmak istiyorsunuz? "Jia Deng.

Veriler yeni çağın petrolüyse, o zaman 2009'da sadece dinozorların kemikleriydi.

ImageNet testi

2009'da Kyoto'da bir bilgisayar vizyonu konferansında, yine katılımcı olan Alex Berg, Li Feifei'yi yakaladı ve görüntü hedeflerini bulmak için algoritmaları kullanma görevinin yarışmaya eklenmesini önerdi.

Li Feifei bir süre düşündü ve neden bize katılmayalım dedi.

Böylelikle Berg, Jia Deng ve Li Feifei, bu veri setlerini kullanarak bu devasa verileri yorumlamak için algoritmaların nasıl kullanılacağını bulmaya çalışan beş makale yazdı. İlk makale, ImageNet'in öncülü olan algoritmalarla görüntüleri sınıflandırmanın standardı haline geldi.

Li Feifei ilk makalesinde, "Bu fikri popüler hale getirmek istiyorsak daha ileri gitmemiz gerektiğini fark ettik."

Daha sonra Li Fei, yüksek profilli resim tanıma yarışması PASCAL VOC'yi bulmak için Avrupa'ya uçtu ve diğer taraf onunla işbirliği yapmayı ve ImageNet'i tanıtmaya yardımcı olmayı kabul etti. PASCAL yüksek kaliteli bir veri setine sahiptir .. ImageNet ile karşılaştırıldığında, PASCAL sadece 20 hedef kategoriye sahiptir.

Yarışma ilerledikçe, 2012 yılına kadar PASCAL, o sıradaki en karmaşık görüntü veri setinde sınıflandırma algoritmasının performansını ölçmek için bir kriter haline geldi.

ImageNet veritabanı ekran görüntüsü

Şu anda, araştırmacılar rekabet dışında bir şey fark etmeye başladılar - algoritmaları ImageNet veri seti üzerinde eğitim aldıktan sonra daha iyi performans gösterdi.

Berg, "ImageNet ile eğitilen modelin diğer tanıma görevleri için bir başlangıç modeli olarak kullanılabileceğini ve ardından görevi tamamlamak için ince ayar yapılabileceğini görünce şaşırdım," dedi. "Bu sadece sinir ağlarında bir ilerleme değil, aynı zamanda geleneksel bilişte de bir sıçrama."

İlk ImageNet'ten iki yıl sonra, 2012'de başka bir büyük olay oldu. Yapay zeka alanının refahı belirli bir rekabete bağlanabilirse, 2012 ImageNet Challenge'ın araştırmanın sonuçlarını açıkladığı an olmalıdır.

O yıl Toronto Üniversitesi'nden Geoffrey Hinton, Ilya Sutskever ve Alex Krizhevsky derin bir evrişimli sinir ağı yapısı önerdiler: ImageNet şampiyonluğunu kazanan ve o sırada ikinciliğe göre% 41 daha yüksek olan AlexNet.

ImageNet büyük ölçekli görüntü tanıma zorluğu sonuçları

Hinton ve iki öğrencisi için ImageNet'ten daha iyi bir fırsat olamaz. Yapay sinir ağları üzerine araştırmanın 1980'de başlamasından bu yana, Yann LeCun ve diğerleri araştırma sonuçlarını Bell Labs aracılığıyla ATM makinelerine uygulayabildiler, ancak Hinton o sırada bir platform bulamadı. Birkaç yıl önce, Nvidia araştırmacıları bu ağların işlenmesini hızlandırdılar, ancak diğer teknolojileri hiçbir zaman aşamadılar.

Hinton ekibi çok sayıda darboğazla karşılaştı. Sinir ağlarının, el yazısı algılama gibi daha küçük veri kümeleri aracılığıyla daha dar bir aralıkta kullanılabileceğini göstermelerine rağmen, bu sinir ağlarını gerçek dünyada uygulamak için daha fazla veriye ihtiyaçları var.

Sutskever, "Tabii ki ImageNet'te başarılı olursanız, görüntü tanıma problemini çözebilirsiniz." Dedi.

Şimdi, evrişimli sinir ağları her yerde - Yann LeCun, fotoğrafları sınıflandırmak için Facebook'ta kullanıyor ve kendi kendine giden arabalar, nesneleri algılamak için kullanıyor. Temelde, görüntülerdeki veya videolardaki herhangi bir teknoloji bunu içerir. Her soyutlama düzeyinde binlerce hatta milyonlarca hesaplama yapabilir, pikseller arasındaki kalıpları arayabilir ve resimde hangi nesnelerin bulunduğunu tanıyabilir.

Sutskerver, "Daha şaşırtıcı olan şey, insanların bunu derin öğrenme yoluyla sürekli olarak geliştirebilmeleri," dedi. Sinir ağları arasındaki katmanlar daha karmaşık kalıpları barındırabilir ve şu anda yapay zeka alanındaki en popüler teknolojidir. "Derin öğrenme En doğru karardır. "

ImageNet araştırmasının 2012'deki sonuçları birçok kişinin bu işleme yöntemini anlamasını ve kopyalamasını sağladı. Eski bir Hinton öğrencisi ve şimdi New York Üniversitesi'nde doktora öğrencisi olan Matthew Zeiler, Toronto Üniversitesi aracılığıyla makalelere ve kodlara erken erişim elde etti.

Bundan sonra Zeiler, Google'daki stajını bıraktı ve 2013 Challenge'a hazırlanmak için New York Üniversitesi'nde sinir ağları profesörü olan Rob Fergus ile güçlerini birleştirdi.

Çaba karşılığını verdi, mücadelede en yüksek puanı kazandılar. Li Feifei, 2014 yılına kadar tüm yüksek puan alan ekip üyelerinin derin sinir ağlarını kullandığını hatırladı.

Zeiler, yabancı medya Quartz ile yaptığı röportajda, "2012'deki ImageNet gerçekten de mevcut AI patlamasının önemli bir nedenidir" dedi. "Daha önce konuşma tanıma alanında bazı tatmin edici sonuçlar vardı, ancak kamuoyu tarafından bilinmiyordu. Ama ImageNet bitti. "

Günümüzde pek çok kişi ImageNet'in birçok sorunu çözdüğünü ve hata oranının% 2'nin altında olduğunu düşünüyor. Bu, sınıflandırma problemine veya görüntü nesnelerini tanıma problemine atıfta bulunur.Bu, algoritmanın bu nesnelerin özelliklerini - kaynak, amaç, üretici veya çevreleyen nesnelerle nasıl etkileşim kuracağını bildiği anlamına gelmez. Basitçe söylemek gerekirse, algoritma gördüğü nesneleri anlayamaz. Konuşma tanımada, doğal dil işlemede bile.

Dolayısıyla araştırmacının bir sonraki amacı, algoritmanın nesneyi anlamasını sağlamaktır. Bu hedefe nasıl ulaştıklarına gelince, dikkat etmemiz gerekiyor.

ImageNet takibi

ImageNet rekabeti sona ermesine rağmen, 13 milyondan fazla görüntünün veri seti hala orada.

Berg, başlangıçta 2014 yılında meydan okumayı durdurmak istediklerini, ancak Google, Facebook ve diğer şirketlerin buna karşı çıktığını söyledi. ImageNet'in yıllık yarışmasında gösterilen karşılaştırmalarla, bu kurumsal araştırma ekipleri kendi puanlarını göstererek şunları söyleyebilir: Aferin. Sonuç olarak, oyunu bitirme fikri ertelendi.

ImageNet ayrıca derin öğrenmenin buna benzer bir veri seti gerektirdiğini kanıtladı, bu nedenle 2010'dan sonra Google, Microsoft ve Kanada İleri Araştırma Enstitüsü kendi yüksek kaliteli veri setlerini art arda başlattı.

Günümüzde veri setleri giderek daha değerli hale geliyor Girişimciler ve risk sermayedarları, başlattıkları en son veri setleri ve algoritmalarının ImageNet üzerinde nasıl çalıştığı hakkında yüksek profilli duyurular yapıyorlar. Google, Facebook ve Amazon gibi internet şirketleri milyonlarca görsel, ses klibi ve metne dayalı olarak kendi dahili veri setlerini oluşturmaya ve bunları platformlarında paylaşmaya başladılar.

Yeni başlayanlar bile kendi veri setlerini toplamaya başladılar - Videoyu anlayan bir yapay zeka girişimi olan TwentyBN, Türk'ün video performansları üzerindeki basit hareket eylemlerini toplamak için Amazon Mechanical Turk'ü kullanıyor. Şirket, her biri 100.000'den fazla video içeren, kullanımı ücretsiz iki akademik veri seti yayınladı.

Li Feifei, "Videolardan konuşmalara, oyunlara ve tüm verilere kadar, veri setleri mantar gibi fışkırıyor." Dedi.

ImageNet verilerinin toplanması ve etiketlenmesi çok fazla insan gücü tüketir, ancak her zaman açıklık ve ücretsiz kullanım ilkesine bağlı kalmıştır ve insanlar buna bile alışmıştır. Bu veri setinin önemi oyunun kendisinden çok daha büyük olabilir.

2016'da Google, 6000'den fazla kategoriye bölünmüş 9 milyon görsel içeren Open Image veri setini yayınladı. Kısa bir süre önce Google, görüntüdeki her nesnenin konumunu belirtmek için bu veri kümesini yükseltti. DeepMind ayrıca kısa süre önce birçok kişinin çeşitli eylemlerini içeren kendi veri setini yayınladı.

Li Feifei, "ImageNet insanların yapay zeka alanındaki veri setlerine ilişkin anlayışını değiştirdi ve insanlar araştırmadaki konumunun algoritmalar kadar önemli olduğunu gerçekten anlamaya başladı." Dedi.

Bitiş

Yeni Teana, New York Otomobil Fuarı'nda tanıtıldı, bu görünüm dört gözle beklemeye değer
önceki
Lakers dört büyük avantaj ortaya koydu, sihirbaz bir kişiyi araştırmaya başladı, KD Paul onun süperstar olması konusunda iyimser!
Sonraki
Tarihteki en çukurlu çevrimiçi oyun! Oyuncular yüz binlerce kişiyi şarj eder ve iki sivili bekleyebilirler
Sun Jihai ve Hao Haidong olmadan, Schuster küçük bir Li Shuai teriyeri yarattı! Yaşlı adam yine resim gönderiyor
1 milyona üç araba alın, nasıl seçilir? Bu düzenlemede mükemmel miyim?
Ürdün'ün peşinden koşan, Curry'yi geride bırakan, Büyük'ü yenen ve Westbrook'u yenen Harden, bu sezon beş kralı alacak!
Çin kadın futbolunun eski 7 numaralı "hızlı ileri sarma" oyuncusu Zhang Ouying hakkında bilmeyebileceğiniz 11 şey
Gong Daxing'e odaklanın: Hayatımda sadece bir kişiyi sevmek istiyorum. Chongqing Sway'in ünlü markası Inter Milan, G01'i onaylıyor
Dünyanın ilk deniz tavuğu oyunu nasıl oynanır? World of Warcraft size cevabı söylüyor
3 + 3 + 3! Paul onu en iyisi olarak nitelendirdi, bilmeden James'i geçti ve ligde birinci oldu.
Zhu Xiaogang, Avrupa golf kulübüne transfer mi? Asistanlardan biri Çin radyosunu alıyor, hayranlar: Amca çok yakışıklı
Centennial Meazza'nın ilk G01'i Inter Milan Stadyumu'nda başlıyor
Çok fazla fast-food mobil oyunu! NetEase tarihinin en zor oyununu yaptı.Küçük bir asker oynayarak 30 kez istismara uğrayabilirsiniz!
Rocket 3 geliyor! Üçüncü sırayı korumak için üst üste 7 galibiyet, Harden Ürdün'e berabere kaldı, Warriors hediye verdi!
To Top