Tencent Youtu Jaya: Yapay zekanın çok modlu gelişimi

"Yapay zekanın nihai uygulaması bizden ne kadar sürer?" Jia Jiaya'nın cevabı: 50-100 yıl sürebilir.

Yazar | Zhang Dong

12 Temmuz - 14 Temmuz 2019 tarihleri arasında 4. Küresel Yapay Zeka ve Robotlar Zirvesi (CCF-GAIR 2019) resmen Shenzhen'de düzenlendi. Zirveye Çin Bilgisayar Federasyonu (CCF) ev sahipliği yaptı, Lei Feng.com, Çin Hong Kong Üniversitesi (Shenzhen) ev sahipliği yaptı ve Shenzhen Yapay Zeka ve Robotik Enstitüsü tarafından ortaklaşa düzenlendi. hükümet Yerli yapay zeka alanında güçlü bir sınır ötesi değişim ve işbirliği platformu oluşturmayı amaçlayan, yerli yapay zeka ve robotik, endüstri ve yatırım olmak üzere üç ana alanda üst düzey bir değişim fuarıdır.

14 Temmuz öğleden sonra, "Akıllı Şehir · Görsel Zeka" özel oturumunda, Tencent Youtu Lab Eş-lideri, Tencent Seçkin Bilim Adamı, Hong Kong Çin Üniversitesi ömür boyu Profesör Jia Jiaya, bunu paylaşan ilk konuk oldu.

Ortaya çıkar çıkmaz nihai bir öneride bulundu: "Yapay zekanın nihai uygulaması bizden ne kadar sürer?" Verdiği cevap şuydu: 50-100 yıllık bir geliştirme alabilir.

Profesör Jia Jiaya, yapay zeka ile insan zekasının gelişimi arasındaki boşluklardan birinin "çok modlu bilginin akıllıca anlaşılması" olduğuna inanıyor.Görme, ses, sembolik dil, koku ve dokunma gibi bilgiler sınırsız çeşitliliğe sahip.

Çok modlu yapay zekada hala birçok teknik zorluk vardır: Birincisi, 2B görüntüler, 3B modeller, yapılandırılmış bilgiler, metin, ses ve nicelendirilemeyen daha fazla veri dahil olmak üzere çeşitli veri modalitelerinin olmasıdır;

İkincisi, çok-modlu verilerin uyuşmamasıdır Örneğin, görüntüden metne, metinden görüntüye, birden çok açıklama ve sunum içeren "bire çok" bir süreçtir;

Üçüncüsü, çok modlu verilerin birleştirilmesidir. Bir yazılımı veya algoritmayı geliştirmek daha kolaydır, ancak birden fazla algoritma birbirine eklendiğinde zorluk geometrik olarak artacaktır. Örneğin, "robota tablonun solundaki şişeyi almasını söyleyin", üç boyutlu dil modelinden geçecektir. Modelleme, otomatik yol bulma, görüntü analizi ve diğer adımlar;

Dördüncüsü multimodal denetimdir. "Robota yanlış adım atması nasıl söylenir" ve "Hangi adım yanlış" da mevcut zorluklardır.

Profesör Jia Jiaya, bu çok modlu bilgi problemlerini çözmek için koku, tat, dokunma ve psikoloji gibi ölçülmesi zor sinyal problemlerini daha iyi incelemeyi ve işbirliğine dayalı öğrenme ve kullanım için çok modlu veriler aracılığıyla hesaplamaları mümkün kılmayı önerdi. Kaynak açısından zengin bir modsal bilgi, başka bir kaynak bakımından zayıf modele yardımcı olur.

Çok modlu yapay zeka sorununu çözmek, yapay zekanın geleceği olacak.

Profesör Jia Jiaya'nın konferanstaki konuşmasının içeriği aşağıdadır: Lei Feng.com orijinal niyeti derledi ve düzenledi:

Jia Jiaya: Herkese merhaba, bugün burada olduğum için çok mutluyum, çünkü son zamanlarda meşguldüm ve nadiren harici konferanslara katılıyorum. Şimdi yaz tatili.Belki tüm öğrenciler veya araştırma meraklıları ders çalışmak ve bir şeyler öğrenmek için dışarı çıkmak istiyor. Ayrıca düşünüyorum, CCF -GAIR daha iyi bir fırsat olabilir.

Bugün size bazı yeni araştırma yönlerini göstereceğim. Öncelikle sizlere bazı fikirler vermek ve yapay zeka alanının gelişiminin mevcut durumuna bakmak istiyorum.

CVPR, son dört ila beş yıl içinde muazzam değişiklikler geçirdi. Yukarıdaki şekil, gönderilen bildiri sayısının ve kabul edilen bildiri sayısının her yıl% 50'den fazla arttığını göstermektedir.

Her yıl bu kadar çok mükemmel makalenin ortaya çıkması, yapay zekanın gelişiminin hala hızla yükselen bir aşamada olduğu anlamına geliyor.

Ek olarak, ACL (doğal dil işleme alanındaki en önemli toplantı) da son beş yılda başvuruların sayısını neredeyse% 100 artarak büyük ölçüde artırdı. Doğal dil işlemenin geliştirilmesi daha zordur çünkü çok sayıda işlemci ve çok yüksek kaliteli algoritmalar gerektirir.

Bu onların eğilimi, daha yüzeysel, daha derin şeylere bakalım.

Yukarıdaki resimde Deep, Image, vb. De dahil olmak üzere CVPR'nin anahtar sözcükleri var. Bugün size bu çok popüler yönlerden bahsetmiyorum, ayrıca herkesin kolayca gözden kaçırdığı bir modül var: Dil.

Daha aşağıda, en popüler ACL'ler Deural, Learning, vs.'dir. Ayrıca çok küçük bir alan vardır: Görsel.

Bu iki alan temelde birbirinden ayrılmıştır.Bu anahtar kelimelerin analizi sayesinde, hepsi en iyi AI konferansları olmalarına rağmen, herkesin pek çok ilginç iş yaptığı, ancak içlerindeki içeriğin temelde kesişme noktası olmadığı görülebilir. ACL'yi anlayan insanlar CVPR'yi anlamayanlar ve CVPR'yi anlayanlar nadiren ACL'de çalışır.

ACM MM, daha disiplinler arası konuları içeren nispeten kapsamlı bir konferanstır, ancak en önemli kısımlar hala Video, Derin vb; çok küçük kısımlar Metin, Konuşma'dır.

Bu konudaki araştırmalarımız sayesinde, bazı fark edilmeyen özellikleri ortaya çıkardık. Neden kazıyorsun? Çünkü bu mesele bizim geleneksel YZ algımızın tam tersi.

Geleneksel AI bilişinde, AI'nın çok iyi bir iş çıkardığına inanıyoruz.

Nereden 199 7 yıllık Deep Blue'dan sonra, 2014 yılında yüz tanıma büyük bir hızla ilerledi. Sözde AI gelişimi aslında belirli bir alt alanda gerçekleştirildi.

Bugün bu kısma başlayacağım ve size söylemek istediğim şey, yapay zeka nasıl gelişmeye devam etmeli? Bu aynı zamanda daha önce birçok insanın sorduğu bir sorudur.

Temel noktam şu: Mevcut AI hala nihai uygulama ve nihai geliştirmeden çok uzak.Bir sonraki AI geliştirme yolunun 10 veya 20 yıldan fazla olacağına ve 50 ila 100 yıllık bir geliştirme yolu olabileceğine inanıyorum.

Öncelikle yapay zekanın gelişimi ile insan zekası arasındaki farkın hala çok çok büyük olduğunu düşünüyorum.

Yapay zeka ile insan zekası arasındaki uçurumun önemli bir nedeni, çok modlu bilginin akıllıca anlaşılmasıdır.Bu herkesin akademik veya endüstriyel çevrelere katılmasının kilit noktasıdır. Dikkat Alanlardan biri.

Beynin yapısından tüm algılama sistemlerimizin entegre olduğu anlaşılabilir.Bu beyin sadece işitme, tat, koku ve dokunma değil, aynı zamanda konuşma, eylem, indüksiyon ve basınç kontrolünü de içerir.

İnsan beyni, tüm algılama sistemlerini entegre edebilen bir merkezi kontrol sistemi gibidir.İnsan beyni ile kıyaslandığında, yapay zekanın mevcut gelişimi hala çok zayıf bir aşamadadır.

Çünkü en basit iki modu üst üste koymak için henüz tam bir sisteme, hatta iyi bir algoritmaya sahip değiliz.

Örneğin, on ya da yirmi yıl içindeki mevcut gelişimimize bakarsak, yüz tanıma insanları geride bıraktı ve özellik tanıma insanları geride bıraktı, bunlar önemsiz, çünkü keşfedilecek daha geniş bir dünyamız var.

Yukarıdaki giriş sayesinde, yapay zekanın olgunluktan hala çok uzak olduğunu göreceğiz.Geçerli yapay zeka, tek modlu bir yapay zeka, hatta tek bir tetikleyici.Gelecekteki çok modlu dünyada, çoğu gerçekleşecek. Daha ilginç şeyler.

Aynı zamanda, bunu iyi yapmanın birçok zorluğu da var.

Birincisi, veri modalitelerinin çeşitliliğidir.

Çok sayıda görselimiz, modelimiz, metinlerimiz, seslerimiz ve yapılandırılmış bilgilerimiz var, bunları nasıl entegre edebiliriz? Bu kadar çok bilgiyi birleştirecek bir sahneyi nasıl bulabilirsin?

Tüm bu bilgileri bir araya getirdiğinizde bizim için en uygun sektör hangisidir? Bu otomobil endüstrisi.

İster araba ile araba arasındaki iletişim, ister araba ile yol arasındaki iletişim olsun, araba aslında daha çok bir robota benziyor ve yakın gelecekte araba fabrikalarının ve çeşitli teknolojilerin entegrasyonu ile bu sektörün çok ilginç şeyler üreteceğine inanıyorum. Uygulamalar.

Buna ek olarak, multi-modalite hala nicelendirilemeyen birçok veriye sahiptir.Örneğin, koku henüz nicelleştirilemiyor Örneğin, bir kokuyu koklayın, nasıl ölçülür?

İkinci zorluk, çok modlu verilerin birbiriyle uyuşmamasıdır.

Basit bir örnek vermek gerekirse, farz edin ki insanlar yukarıdaki resmi gördüklerinde, aslında onu tanımlamanın birçok yolu var.

Ancak ifade etmek için çok modlu verileri kullandığımızda, iki tür ilgisiz veriyi tamamen ve doğal olarak insanlar gibi nasıl ifade edeceğimiz çok zordur.

Üçüncüsü, çok modlu verilerin birleştirilmesidir.

Bir yazılımın veya algoritmanın ilerlemesinin çok kolay olduğunu her zaman söylemişimdir, ancak birden fazla algoritma birbirine bağlanırsa zorluğu geometrik olarak artar.

Pek çok robot dans edebilir ve etkileşim kurabilir, ancak hiçbir üretici bir komutu beş yıl içinde tamamlayamaz: Masanın solundaki şişeyi almama yardım et.

Bu, dil modelleme, üç boyutlu modelleme, otomatik yol bulma, görüntü analizi ve geri bildirim mekanizmalarını içerir.Bu kadar basit bir görevin kontrol edilmesi hala zordur.

Güçlü Tencent platformunun yardımıyla, Youtu Lab geçmişte bu alanda bazı ilginç keşifler yaptı.

Bu küçük bir video, eğer birisi ne demek istediğini anlarsa, göstermek için elini kaldırabilir.

Orada bulunan yüzlerce dinleyici arasından hiçbiri onun ne ifade ettiğini bilmiyordu, aslında ben de bilmiyordum.

Buna dayanarak, mevcut çok iyi iskelet sistemi setinde işaret dili insanları ve normal insanlar arasındaki iletişim için bir çevirmen ekledik.

Bunu yapmadan önce, bir anket yaptık ve ülkemizde 72 milyon işitme engelli insan olduğunu, ülkenin toplam nüfusunun% 5'ini oluşturduğunu, dünyada 466 milyondan fazla insanın, dünya nüfusunun 5'ini oluşturan, işitme engelli işitme kaybından muzdarip olduğunu gördük. %.

Bu olay beni çok etkiledi ve sonuç olarak Youtu Lab geçtiğimiz aylarda bu konuya bazı Ar-Ge personeli yatırımı yaptı.

İşitme engellilerin iletişim sorunlarını çözebilecek bir işaret dili tercümanı olmayı umuyoruz. Bu şey çok basit görünüyor, ancak bunu yapma sürecinde pek çok zorluk var.

Her şeyden önce, Çin'in henüz bir dizi standart işaret dili standardı yok Shenzhen'in işaret dili Pekin'in işaret dilinden farklı ve Dongguan'ın işaret dili Shenzhen'in işaret dilinden farklı olabilir.

O zamanlar, yapmanın kolay olduğunu ve daha güçlü bir algoritma ile üç ay içinde yapılabileceğini kabul ettik.

Durum böyle değil, şu anki soruna ek olarak çok zor bir sorun var, veri toplandıktan sonra verilerin uygulamaya nasıl dönüştürüleceği.

Öncelikle, bir görüntü modu olan bir jest tanıma yapmanız, ardından bir zaman dizisi modu olan eylem tanıma yapmanız; ardından anlamsal dönüşüm yapmanız ve son olarak da kaba bir süreç olan bir dil modeli yapmanız gerekir.

Bu süreçte, anahtar noktaları ve el şekillerini çıkarmamız, sonra bunları kelimelere dönüştürmemiz ve nihayet onları dil düzeyinde bir ifade haline getirmek için birbirine yapıştırmamız gerekiyor. Bu çok büyük bir sistem. Sonunda bunu çok aşan bir şekilde yaptık O zamanki tahmini mühendislik miktarı ve algoritma teknolojisi içeriği.

Şu anda, yalnızca bazı anahtar cümlelerde daha iyi yapıyoruz. hükümet , Okullarda kullanıldığında, geliştirilmesi bir aydan fazla veya daha uzun sürebilir.

Dil ve görüntü birleştirme işlemi açısından, bir resim için bir soru sorarsanız, şu anda yapabileceklerimiz de dahil olmak üzere, makinenin yanıtlayabileceği çok az yanıt vardır ve hatta biraz daha karmaşık yapılamaz.

Örneğin yukarıdaki resimde bu çiçek hangi renktir? Bana cevap verecek bu sarı.

Aynı resim, çiçekler nerede? "Vazoda" bilgisini almanız gerekiyor, size bunun bir vazo olduğunu söyleyecektir. Bu, görüntülerin ayrıntılı bir şekilde anlaşılmasını ve doğal dilin füzyon ve çözüm sürecini içerir.

Bu, bunu yapmak için tasarladığımız bir model.

Geriye dönüp baktığımızda, çoklu modalite ile ilgili sorunlar nelerdir? Birincisi, veri setinde çok büyük bir Önyargı var. Örneğin, bu resmi gördüğünüzde, çoğu insan bunun bir zürafa olup olmadığı hakkında sorular soruyor. Cevap Evet".

Ancak çok az kişi bu görüntünün bir antilop olup olmadığını soruyor, bu soruları sormadan sistem olumsuz cevapları öğrenmeyecek ve veri setinizde büyük bir sapma olacak.

İkincisi, bu problemin çok modlu denetimden yoksun olmasıdır. Yani böyle bir görüntü ile sadece "İçerideki tablonun rengi nedir?" Gibi basit bir sorumuz olur. Aslında resimde tablo yok ama hala Size bir cevap vermek gerekirse, denetim eksikliğinin nedeni budur.

Örneğin, bu görüntüde birden fazla insan var. Onu ayırt etmek benim için çok zor. İnsan gözü bir kasede her pirinç tanesini doğru bir şekilde bölebilir, ancak mevcut algoritma her pirinç tanesini bölmek istiyor. Kolay değil.

Tencent'in devasa bir içerik platformuna dayanarak, her gün uzun videolar, kısa videolar ve küçük videolar dahil olmak üzere on milyarlarca videoyu işliyoruz.

Çok modlu işleme yöntemine dayanarak, videonun kendisinden birçok video özelliği elde ediyoruz ve ardından şu anda iyi giden çok modlu füzyon gerçekleştiriyoruz.

Son olarak, multi-modalitenin gelecekteki gelişimi hakkında konuşun.

Çoklu modalite, koku, tat, dokunma vb. Dahil olmak üzere nicelendirilmesi zor birçok sinyali çözmelidir.

Daha da ileri gidersek, çoklu modalite, çok sayıda işbirliğine dayalı öğrenme problemini çözmeli ve Transfer dahil olmak üzere daha fazla makine öğrenimi içeriği içeren kaynak bakımından fakir başka bir modele yardımcı olmak için kaynak bakımından zengin bir modal bilgi kullanmalıdır Learning, Domain Adaptation, Few / One / Zero-Shot Learning çok temel ve çok önemli makine öğrenimi içeriğidir.

Bu, bu yıl yaptığımız bir şey.İki insan yüzü gördüğümüzde aralarındaki değişiklikleri kediye aktarmak istiyoruz Bu çok tipik bir Alan Uyarlaması. İki insan yüzünü kedi ifadelerine dönüştürdük. Bu, daha ilginç şeyler yapmak için bir modalitenin başka bir modaliteye rehberlik etmek için kullanılmasının bir örneğidir.

Nihai sonuç: Yapay zeka artık çok güçlü, özellikle CVPR, ICCV ve ACL gibi üst düzey konferanslarda, birçok harika yöntemin ortaya çıktığını, her alt maddede kayıtları sürekli yenilediğini ve bu teknolojinin benzeri görülmemiş gelişimini teşvik ettiğini gördük.

Ama bana sorarsanız, tüm kayıtlar bittiğinde, bu teknolojik gelişimin bir darboğaza ulaştığı anlamına mı geliyor? Herkese bu rekorun asla bitmediğini ve bir kişinin yapabileceklerinin bir makine tarafından elde edilmekten çok uzak olduğunu söyleyeyim.

Her dönem geçmiş bir dönem olacak, bu süreçte herkesin bu alandaki heyecanını sürdürerek daha çok başarılar elde etmesini temenni ediyorum.

hepinize teşekkür ederim.

Bu forumdaki misafirleri görmek için sola kaydırın

"AI Yatırım Araştırma Durumu" yakında CCF GAIR 2019 zirvesinin tam videosunu ve robot sınırları, akıllı ulaşım, akıllı şehirler, AI çipleri, AI finansmanı, AI medikal ve akıllı eğitim dahil olmak üzere çeşitli ana konulardaki özel beyaz raporları yayınlayacak Özel gösteri vb. "AI Investment Research State" üyeleri yıllık zirve videosunu ve araştırma raporu içeriğini ücretsiz olarak izleyebilir, daha fazla bilgi edinmek için üye sayfasına girmek için kodu tarayabilir veya öğretim asistanı Xiaomu'ya özel olarak yazabilir ( WeChat : Moocmm) Danışmanlık.

Bu duvar kağıtları iPhone ve iOS'un 12 yılına tanık oldu
önceki
Eğlenceli gerçekler: Yang Zi, Zhang Zifeng, Wu Yifan, Huo Jianhua, TOP; belirli bir oyuncu öldürmeye mi karar verir?
Sonraki
Yavaşlayın ve yolculuğun tadını çıkarın, bu benim 2019 "El Kırpma Listem"
Derinlik | Hong Kong Çin Üniversitesi'nden (Shenzhen) Profesör Zhang Dapeng: Biyometrik Tanımada Yeni İlerleme | CCF-GAIR 2019
Haftalık Kuyruk Switch Lite piyasaya sürüldü, OnePlus 7 Pro yandan kaydırma hareketi ekler
Kuru mallar | Sinir ağı yapısı aramanın (NAS) ayrıntılı açıklaması
Anker'in 100W 4 bağlantı noktalı şarj cihazı, kullanımı ne kadar iyi?
Zaobao: Messi America's Cup'taki en iyi takımı kaybetti, Huang Qian Liverpool defans oyuncusu Moreno'dan feragat etti
40 yıl sonra Sony, Walkman doğduğunda bize verdiği sürprizi hala yaratıyor
Derinlik | Zhou Ming: Doğal Dil İşlemenin Geleceği | CCF-GAIR 2019
JD City Zheng Yu: Yapay zeka ve büyük veri "şehri yeniden şekillendirecek" | CCF-GAIR 2019
Gerçek ölçüm: Apple'dan Huawei P30'a veri taşıma işlemi 1 dakikadan az sürer
İş önerisi | Tencent AI Lab, AI algoritma yeteneklerini işe alıyor ve birçok stajyer sizi bekliyor
Urbanears Pampas Bluetooth kulaklık başlar
To Top