Pekin Üniversitesi'nden Profesör Chen Baoquan: AI + 3D vizyon, robotların karar verme ve yürütme yeteneklerine sahip olmasını sağlıyor

Xin Zhiyuan Rehberi İnsan, etrafındaki şeyleri sadece kendi gözleriyle görmekle kalmaz, aynı zamanda bunları "tanıyıp" anlayabilir ve bu şeylerin "biliş ve karar verme mekanizmasını" oluşturur. Şimdi, araştırmacılar AI'nın da aynısını yapması için çok çalışıyor. Peking Üniversitesi Boya'nın Değerli Profesörü ve Frontier Computing Research Center İcra Direktörü Chen Baoquan'ın bu harika konuşması, 3D görsel zeka, teknoloji uygulama yönleri ve gelecekteki beklentiler alanındaki mevcut yerel araştırmanın harika bir analizini yaptı.

Hepimizin bildiği gibi, yapay zeka, insan zekasını simüle eden bir teknolojidir.İnsan zekasının tam olarak yeniden üretimini gerçekleştirmek, yapay zekanın nihai amacıdır. Ve insan zekası, insan duyularından ve bilişinden başlar. Bu nedenle, insan duyuları, görme gibi yapay zeka çalışmaları için genellikle başlangıç noktası olur.

İnsanlar için, çevrelerindeki şeyleri sadece gözleri ile "görmek" değil, aynı zamanda bunları "tanıyıp anlayabilir" ve bunlara ilişkin "biliş ve karar verme" oluşturabilirler. Şimdi, AI alanında giderek daha fazla araştırmacı, AI'nın da aynısını yapması için çalışıyor. İnsanın üç boyutlu vizyonundan başlayarak, üç boyutlu görsel zeka, yapay zeka araştırma ve uygulamasının popüler bir alanı haline geldi.

Peking Üniversitesi Boya Değerli Profesörü ve Frontier Computing Research Center Yönetici Direktörü Chen Baoquan, bu yıl 27 Mart'ta Xinzhiyuan tarafından düzenlenen "Intelligent Cloud · New World" AI Teknoloji Zirvesi'nde "Üç Boyutlu Görsel Zeka ve Uygulamalar" başlıklı bir konuşma yaptı. Araştırmacıların bakış açısından, Çin'deki 3B görsel zeka alanında mevcut yerel araştırma durumunun, teknik uygulama yönünün ve gelecekteki beklentilerin harika bir analizi.

Xinzhiyuan tarafından derlenen konuşma içeriği aşağıdadır:

Chen Baoquan, Peking University Boya Değerli Profesör ve Frontier Computing Research Center Genel Müdürü

Bugün burada konuşma fırsatına sahip olduğum için çok mutluyum! Bu öğleden sonra konuşmacılar ağırlıklı olarak şirketlerden ... Akademik araştırma açısından, şu anda çok popüler olan yapay zeka teknolojisinin önemli bir dalı olan görsel zekayı tanıtacağım.

Görsel zeka söz konusu olduğunda, herkes buna aşinadır.Birçok yapay zeka teknolojisi, görsel duyunun çok önemli bir parçası olduğu çeşitli insan duyularına dayanmaktadır. Görsel zeka alanındaki birçok teknoloji sektörde çok iyi uygulanmıştır. Uygulamaların derinleşmesi ile birlikte giderek daha fazla görsel zeka teknolojisi "üç boyutlu görsel zeka" aşamasına girmiştir. Diğer bir deyişle, Gözlerimiz sadece bir şeyi net görmemeli, bir şeyi tanımalı, aynı zamanda sahneye girmeli ve sahnenin üzerindeymiş gibi üç boyutlu dünyadaki sahneyi hissetmelidir.

Bu gerektirir Üç boyutlu uzaysal algı ve bilişe sahip zeka, yani üç boyutlu görsel zeka. Herhangi bir yeni araştırma yönünün ortaya çıkması hiç de kolay değil, diğer birçok disiplinle kesişiyor. 3B görsel zeka araştırması, bilgisayar grafikleri, bilgisayar görüşü ve diğer alanların teknolojilerini geleneksel yapay zeka, öğrenme, büyük veri vb. İle entegre etmektir.

3D görüntü teknolojisinin gelişimi, görüş sensörlerinin hızlı gelişiminden faydalanmıştır ve halihazırda birçok uygulamayı desteklemiştir.Temsilci örnekler arasında insansız araçlar, robotlar ve eğlence, film ve televizyondaki diğer uygulamalar bulunmaktadır.

3D vizyon araştırması nedir? Özetle, birkaç ana yön vardır:

her şeyden önce Üç boyutlu algı , Üç boyutlu uzayı algılamak, üç boyutlu derinliği elde etmek ve işlemek vb.; Sonra Konum bilinci Kameranın konumunu vb. Algılama gibi; üçüncüsü 3D modelleme , Sadece sahnenin temel derinlik algısına sahip değil, aynı zamanda sahnenin tüm geometrik modelinin açıklamasını da alın. En önemli şey Üç boyutlu anlayış , Üç boyutlu uzaydan sahneyi ve içindeki nesneleri anlamak.

Üç boyutlu vizyonun gelişimi, görsel sensörlerin geliştirilmesinden yararlanır ve sensörler kabaca iki kategoriye ayrılabilir, biri Pasif sensör Artık kullandığımız her türlü kamera pasif sensörler. Diğer kategori ise Aktif sensör , Lazer tarama ve önde gelen ölçüm olarak aktif emisyon sinyallerini alan her türlü sensör gibi. Hepimizin bildiği gibi, cep telefonlarının hızla gelişmesiyle birlikte geleceğin cep telefonları aynı anda iki tip sensörle, yani derinlik sensörleriyle ve geleneksel renk sensörleriyle donatılacak.

İşte bu alandaki bazı keşif çalışmalarımıza kısa bir giriş. 2009 yılında, DJI drone'lar hala özelleştirilmiş ürünler yapıyordu. DJI'dan özelleştirilmiş bir drone yapmasını istedik.Amaç, onu tilt açısı hava fotoğrafçılığı için kullanmaktı.Dron, havadan havadan görüntüler elde etmek için kullanıldı. Yeniden yapılandırma hesaplamasından sonra, 3D görüntü verileri elde edilir (bunun tam bir 3D model olmadığına dikkat edin) 3D açıklama ile sahneyi herhangi bir perspektiften özgürce gezebilirsiniz. Sadece iki boyutlu sensörler kullanılmasına rağmen, üç boyutlu verilerin açıklamasının yine de görsel hesaplama yoluyla elde edilebildiği görülebilir.

Örtülü 3D algısı: dinamik kamera, kesintisiz video birleştirmeyi gerçekleştirir

Doğrudan bir 3D sahne geometrik modeli elde etmek için aktif sensörlerin nasıl kullanılacağından bahsetmeden önce, onu tanıtmak istiyorum.Aslında, görüntülerin 3B algısının açık bir şekilde ifade edilmesi gerekmez.Belirli bir 3B derecesi örtük yöntemlerle elde edilebilir. Algılama ayrıca, üç boyutlu bilgiyi doğrudan kullanmaya benzer bazı işlevler gerçekleştirebilir.

Bu, insanın görsel algısı gibi ... Görme algımız üç boyutlu olsa da, her şey doğru üç boyutlu ölçüme dayanmaz. İşte birkaç örnek. Örneğin, yukarıdakiler bir filmden bir fragmandır.Karakterleri ve performansları yeni bir sahneye koyabiliriz.Kamera dinamik olduğundan, dinamik yapmak için gizli bir kamera 3B konum restorasyonu gerekir. Ön plan ve dinamik bir video arka planı sorunsuz bir şekilde birbirine uyum sağlar.

Yukarıdakiler bir performans videosudur. 3D iskelet bilgilerinin bir kısmını çıkarabilir ve dans edemeyen bir insanı dans etmeye yönlendirebiliriz. Soldaki kişi dans edemeyeceğini varsayıyor, sadece birkaç hareket yapıyor.Sağdaki büyük resmin sol üst köşesi gerçekten dans edebilen bir dansçı.Onun profesyonel hareketlerini dans edemeyen insanları yönlendirmek için kullanıyoruz. Bu, videonun "tahrik" inin üç boyutlu anlaşılması ve yeni bir videoyu sentezlemek için üç boyutlu eylemin referans videodaki karakterlere "taşınması" sayesinde sağdaki büyük resimde bu bayan da dans edecek.

Sadece bir kişinin eylemlerini benzer bir iskelete sahip başka bir kişiye aktaramaz, aynı zamanda çocukların eylemlerini yetişkinlere aktarabilir ve hatta hayvanların eylemlerini insanlara aktarabiliriz. Bu, üç boyutlu iskeleti yeniden yönlendirmek için belirli bir yetenek gerektirir.

Örneğin aşağıdaki animasyonda iki kişi dans ediyor ama her kişinin hareket yönü, yüz yönü ve yüksekliği farklı. Böyle bir hareketin yönelim farkı örtük üç boyutlu anlayış ve kodlama yoluyla gerçekleşir.

Hadi hakkında konuşalım Aktif sensörlerin kullanımı Son yıllarda, aktif algılamanın gelişimi çok çok hızlıdır. Özellikle insansız araç teknolojisinin geliştirme gereksinimleri, sensör teknolojisinin hızlı gelişimini daha da teşvik etti. İnsansız araçlar popüler hale gelmeden çok önce, 2009'da şehir düzeyinde büyük ölçekli sahneleri taramak için araca monteli mobil lazer tarayıcıları kullanarak üç boyutlu bir kentsel manzara modeli oluşturmaya başladık.

Araca monteli 3D algılama teknolojisi aracılığıyla büyük miktarda nokta bulutu verisi elde ettik ve bu verileri çok ince bir 3D model elde etmek için geometrik modelleme için kullandık. Kentsel sahnelerde ağaçların ve diğer hedeflerin üç boyutlu tanınması gibi çeşitli karmaşık nesne türlerini modeller, farklı ağaç türlerini belirler ve ardından farklı ağaçların geometrik özelliklerine dayalı olarak ağaçların yüksek hassasiyetli üç boyutlu modellemesini gerçekleştiririz.

CCTV bir keresinde bize özel bir rapor verdi: "Şehri Bilgisayara Taşıma". O zaman, Shenzhen'deki bir bölgenin tam bir 3D modellemesini gerçekleştirdik. Ondan sonra çok sayıda telefon aldık ve bize sordu: Arabanızdan sonra şehrimizin 3 boyutlu bir modelini alabilir misiniz? Aslında, bunu yapamıyoruz, nedeni veri işleme probleminden değil, ön uç veri ediniminden kaynaklanıyor.

Şehrimizin yeşillendirilmesi o kadar iyidir ki, araba sadece ağaçları tarayabilir, binaları tarayamaz. Bu sorunu gerçekten çözmek istiyorsanız, çözümü ön uca taşımalı ve verileri tamamen almanın bir yolunu bulmalısınız.

Bu nedenle, bu sorunu daha da çözmek için veri elde etmek için robotların kullanılmasını önermeye başladık. Robot, verilerin eksik olup olmadığını görmek için verileri yerinde toplarken veri analizi yapar.Eğer eksik varsa, gerekli bilgileri almak için ilgili yere gidecek, böylece kapalı bir veri toplama ve işleme döngüsü oluşturacaktır.

Robotun sadece görmesine değil, anlamasına da izin verin

Tek bir nesnenin deneyiyle başlayın, Robot, 3B baskılı oyuncak gibi bir nesneyi taramak için Kinect'i (3B model bilgilerini elde etmek için yapılandırılmış ışığı kullanan aktif bir sensör) tutar ve hedef nesnenin çok yönlü 3B verilerini elde edebilir. Robot, sonunda tam bir üç boyutlu model elde edene kadar tarama yolunu kendi kendine planlar.

Bir sonraki deney, sahne tanıma problemidir. Sadece sahnenin üç boyutlu tüm verilerini elde etmek değil, aynı zamanda her bir nesnenin ne olduğunu bilmek, sahnedeki her bir nesneyi anlamak ve nesnenin anlamsal bilgisini elde etmek gerekir. Aynı şekilde, bilişsel süreç kapalı bir döngü oluşturmalıdır ve robotun gerçek zamanlı karar verme mekanizması, nesneyi mevcut üç boyutlu verilere dayanarak tanımlayabilir. Değilse, veri elde etmek için yeni bir açıya gitmeliyiz.

Dahası, algoritmamız daha büyük bir iç mekan sahnesine genişletilebilir. Bu durumda sadece bir robot yeterli değildir, birden fazla robot kullanabiliriz. Bu robotların işbirliği yapması için gerçek zamanlı bir ortak çalışma algoritmasına ihtiyaç vardır. İç ortamda, zaten çok iyi bir robot işbirliği çözümümüz var.

Robotlar sadece üç boyutlu uzayda dolaşıp yürüyemezler, aynı zamanda gerçek dünyanın da bir üyesi olmalıdırlar. Bunu başarmak için, robotun gerçek sahne ile etkileşime girmesi, örneğin robotun bir bardağı almasına, bir kapıyı açmasına ve hatta insanlarla el sıkışmasına izin vermesi gerekir. Bu doğrudan üç boyutlu etkileşim çok önemlidir. Bu, robot uzaysal konumlandırma ve yol planlaması hakkında daha fazla araştırma gerektiriyor ve son zamanlarda bazı çalışmalar yaptık.

Robotların karar verme ve yürütme yeteneklerine sahip olmasına ve insanlar için daha fazla iş yapmasına izin verin

Bu teknik rotayı araştırdık ve düşüncemiz netleşti. 3D vizyon ve yapay zeka teknolojisinin birleşimiyle robotları daha akıllı ve işlevsel hale getiriyor ve robotların insanların gerçek hayatta yapabileceklerinden daha fazlasını yapmasına izin veriyoruz. Robotlar, endüstriyel montaj hatlarında parçaların montajına yardımcı olmak ve lojistik senaryolarda kutuları taşımak gibi özerk kararlar alma ve yerinde uygulama becerisine sahiptir. Bu tür uygulamalar, doğru ve verimli hareket planlaması, çeşitli kontroller ve akıllı yürütme gibi çok karmaşık teknolojileri içerir. Ayrıca bu alanda bazı keşif çalışmalarımız da var.

3D sensörlerin ve giderek daha fazla 3D verinin popülaritesi ile, 3D sahnelerin nasıl daha iyi anlaşılacağı çok önemli hale geldi. Sahneyi anlamanın bir yolu önemli ve etkilidir, derin öğrenmedir. En erken derin öğrenmenin tümü iki boyutlu görüntüler içindir. Evrişimli sinir ağları iki boyutlu görüntülere yöneliktir ve üç boyutlu sahneler için giriş verileri üç boyutlu bir nokta bulutudur.

Yapılandırılmamış 3B nokta bulutlarını doğal olarak işleyebilecek evrişimli bir sinir ağı olmadığından, bu sorun için PointCNN evrişimli sinir ağını tasarladık.Performansı oldukça iyi.Ayrıca birçok şirketin bizi kullandığını görmekten çok mutluyuz. ağı.

Lojistik alanındaki uygulamalar için, kutu taşıyan bir robotun testini de denedik. Geçen yıl, JD.com "Double 11" döneminde 10 günlük bir stres testi gerçekleştirdi. Robot, kutuları belirlemek, kutuları taşımak ve farklı boyutlardaki kutuları taşıma bandına taşımak için bir grup insanın (iki kişilik bir grup) yerini aldı. Bu, teknolojimizin okul laboratuvarından gerçek dünyaya ilk girişidir. Ama aynı zamanda gerçek sahneye yaklaştıkça sorunun daha karmaşık olacağını hissediyoruz. Burada iş dünyasında çok sayıda insan var ve gelip bizimle iletişime geçebilirsiniz.

3D vizyon zekasının araştırılması ve uygulanması çok önemlidir, ancak Çin'de 3D vizyona dayalı bir topluluk yoktur. Geçen yılın sonunda, akademik ve iş çevrelerindeki ilgili kişileri bir araya getirmek amacıyla Çin Görüntü ve Grafik Derneği bünyesinde 3D Vision Profesyonel Komitesini topladım ve kurdum. 3B görüntü teknolojisinin gelişimine birlikte katılmak ve teşvik etmek için daha fazla ilgili şirkete hoş geldiniz.

Hepinize teşekkür ederim!

Mingji haberi verdi: Çin Futbol Federasyonu, Süper Lig'de oynamak için bir milli takım kurmayı planlıyor ve taraftar yorumları patladı
önceki
"Chen Shiqu Sahtecilikle Mücadele Dersi" nin beşinci dersi: Yatırım grubum "çocuk bakımı" ile dolu
Sonraki
Zuckerberg "zorlandı"! Facebook hissedarları başkanlıktan ayrılmaya çağırdı
Piyasada Mercedes-Benz GLC L var, kim BMW X3 veya Audi Q5L almaya değer?
Dünya Kupası ilk 4 numaralı 10 numaralı oyuncunun büyük bir PK'si var, her üç takım da kesinlikle uyluk ama İngiltere utanıyor
Sekizinci nesil Camry spor versiyonunu test sürüşü yapın: takım siyahı tercih ediyor, ancak kalp hala genç
Evergrande'nin 8. tacı Talisca + Paulinho'nun arka arkaya imzalanması neredeyse hiç şüphesiz, SIPG'nin ilk şampiyonluk hayali yine paramparça olacak
Dünyanın ilk tam zincirli AI ses çipi: robotlar için gerçek bir "çekirdek" oluşturun
2019 Baojun 510 daha genç bir görünüme sahip, ancak sadece 4 konfigürasyona sahip olmak gerçekten yeterli mi?
Çocuk bezleri çok zehirlidir, Prima ateşe koştu ve Çin'de satılmadığını söyledi
Tardelli olmadan Luneng gol atamazken Luneng, FA Cup'ın ilk ayağında Guizhou'yu 0-0'a ping attı.
esprili! Polis "almak" için kebap kullandı ve sevimli bebeği kaybetti ~
Huawei P30 neden bu kadar pahalı? Kirin çipine ek olarak arkasında bir "volan" vardır.
İki aydan fazla bir süre sonra, sonunda arabayı almak için BYD Tang DM'ye geldim, ancak şarj sorununun çözülmesi hala zor
To Top