Düz görüntü algısı temelde çözüldü, peki ya 3B veriler?

Leifeng.com AI teknolojisi inceleme basını: Bu makalenin yazarları Mihir Garimella ve Prathik Naidu'dur. Bunlar Stanford Üniversitesi'nin ikinci sınıf bilgisayar öğrencileridir. Araştırma alanları robotik, bilgisayarla görme ve makine öğrenimini içerir. Ayrıca Facebook'un Connectivity Lab ve Amazon'un CoreAI ekibinde sektörler biriktirmişlerdir. Tecrübe, aynı zamanda Fire.Autonomy'nin (iç mekan haritalama ve endüstriyel inceleme için insansız hava araçları üretmeye odaklanmış erken bir başlangıç şirketi) kurucu ortağıdır. Bu makale The Gradient'de yayınlandı ve AI Technology Review şu şekilde derlendi:

Çevrenizi algılayabilen sürücüsüz bir araba yaptığınızı hayal edin. Arabanızın yayaların, bisikletlilerin ve diğer araçların güvenli bir şekilde sürülmesini nasıl sağlıyorsunuz? Üzerine bir kamera kurabilirsiniz, ancak etkisi pek iyi değil: tüm 3B ortamla karşı karşıyasınız, kameranın yakaladığı şey, düzleştirildikten sonra yalnızca 2B bir görüntüdür ve ardından bu 2B görüntüden gerçekten ihtiyacınız olanı kurtarmaya çalışın Kullanılan 3B bilgiler (yayalar ve arabanın önündeki araçlar arasındaki mesafe gibi). Bununla birlikte, 3B ortam 2B bir görüntüye sıkıştırıldığında, sizin için en önemli birçok bilgi kaybolacak ve bu bilgileri tekrar bir araya getirmek çok zordur - en gelişmiş algoritmalarla bile, hata yapmak kolaydır.

Aksine, 2 boyutlu bir görüntüden yayalara veya diğer araçlara olan mesafeyi tahmin etmek yerine, dünyanın 2B perspektifini görmenize yardımcı olması için 3B verileri kullanmanız daha iyi olur.Bu şekilde, doğrudan diğer sensörler aracılığıyla konumunuzu tespit edebilirsiniz. Bu hedefler. Ancak, 3D verileri kullandıktan sonra, bir sonraki adım zahmetli hale gelir. İnsanlar, bisikletliler ve arabalar gibi nesneleri 3B verilerden nasıl ayırt edebilirsiniz? 2B görüntülerde hedefleri doğrudan tanımlayabilen evrişimli sinir ağları (CNN'ler) gibi geleneksel derin öğrenme tekniklerinin, 3B verileri işe yarayacak şekilde yeniden uyarlaması gerekir. Neyse ki, son birkaç yılda, 3B algı problemi üzerine birçok çalışma yapıldı ve bu yazıda, bu problemin kısa bir özetini vereceğiz.

Özellikle, 3D nesneleri sınıflandırabilen ve anlamsal olarak bölümlere ayırabilen en son derin öğrenme teknolojilerine odaklanacağız. . Başlangıçta, arka plan bilgisi olarak 3B veri toplama ve sunumunun ortak yöntemlerini gözden geçireceğiz. Ardından, üç 3B veri gösterimi yöntemi için temel derin öğrenme yöntemlerini açıklayacağız. Son olarak, bazı umut verici araştırma yönlerini keşfedeceğiz ve bu alanın gelişim yönünü bizim bakış açımızdan özetleyeceğiz.

3D veriler nasıl toplanır ve görüntülenir?

Açıkçası, ihtiyacımız olan şey, doğrudan 3D olarak çalıştırılabilen bir bilgisayarla görme yöntemidir ve bu, üç bariz zorluğu ortaya çıkarır: 3D verilerin algılanması, gösterilmesi ve anlaşılması.

Algılamak

3D verilerin toplanması karmaşık bir süreçtir. 2D kamera ucuz ve yaygın olmasına rağmen, 3D algılama genellikle özel donanım olanakları gerektirir.

Binoküler görüş, birden fazla kamera kullanır ve derin bilgileri hesaplamak için algılanan hedef konumun transferini değerlendirir (Kaynak: Edinburgh Üniversitesi)

1. Stereo (binoküler görüş) İki veya daha fazla kamerayı birbirleri arasında göreceli olarak sabit konumlara yerleştirin ve bir sahnenin farklı görüntülerini yakalamak, karşılık gelen pikselleri eşleştirmek ve her pikselin konumunun görüntüler arasında nasıl farklı olduğunu hesaplamak için bu ayarı kullanın, Bu pikselin 3B uzaydaki konumunu hesaplamak için. Bu temelde insanların dünyayı algılama şeklidir - gözlerimiz gerçek dünyada iki ayrı "görüntü" yakalar ve sonra beynimiz hedefin sol ve sağ gözlerimizdeki konumu arasındaki farkı gözlemler ve belirler. 3D konumu. Binoküler görüş yöntemi çok çekici görünüyor çünkü sadece basit donanım gerektiriyor - iki veya daha fazla sıradan kamera. Bununla birlikte, kamera görüntüleri arasında karşılık gelen noktaları eşleştirmek için görsel ayrıntıların kullanılması yalnızca hesaplama açısından pahalı değil, aynı zamanda doku veya görsel yapı tekrarından yoksun bir ortamda hatalara da açık olduğundan, bu yöntem doğruluk veya hız gerektiren uygulamalar için uygun değildir.

RGB-D kamera, her pikselin derin renk bilgilerini içeren dört kanallı bir görüntü üretir (kaynak: Kyushu Üniversitesi)

2. RGB-D Yalnızca renkli görüntüleri ("RGB") değil, aynı zamanda derinlik bilgilerini de (derinlik, "D") yakalayabilen belirli bir kamera türü gereklidir. Spesifik olarak, sıradan bir 2D kameranın yakalayabildiği aynı tür renkli görüntüyü yakalamaya ek olarak, aynı zamanda kameranın önünde ne kadar uzakta görüntüdeki piksellerin bir parçası olduğunu da söyleyebilir. Dahili olarak, çoğu RGB-D sensörünün çalışma prensipleri "yapılandırılmış ışık" ve "uçuş zamanıdır". Birincisi, kızılötesi görüntüleri sahneye yansıtır ve modelin nasıl deforme olduğunu ve sahneye yansıtıldığını algılar. Geometrik yüzey, ikincisi yansıtılan kızılötesi ışığın kameraya dönmesinin ne kadar sürdüğüne bakar. Tanıdık RGB-D kameralarımız arasında Microrosoft Kinect ve iPhone Xin yüz kimliği sensörü bulunur. RGB-D'nin kullanımı çok kolaydır çünkü bu sensörler nispeten küçük ve düşük maliyetlidir, ancak hızlıdırlar ve görsel eşleştirme hatalarını önleyebilirler. Bununla birlikte, tıkanma (ön plandaki bloktaki hedef arkadaki hedefe yansıtılır), görüntü algılama hatası ve mesafe sorunları (kameradan çok uzakta, projeksiyon ve algılamanın zorlaştığı yerlerde) nedeniyle, RGB-D kameralar genellikle kendi derinliklerinde çıktı verir. İçinde birçok boşluk var.

Lidar, çevredeki ortamın geometrik yapısını doğrudan algılamak için birkaç lazer ışını (eşmerkezli daire indüksiyonu) kullanır (kaynak: Giphy)

3. LiDAR (Lidar) Çalışma şekli, nesnelere yüksek frekanslı lazer darbeleri göndermek ve sensöre dönmeleri için geçen süreyi ölçmektir. Bu, yukarıda bahsettiğimiz RGB-D kameranın "uçuş zamanı" teknolojisine benzer, ancak LiDAR önemli ölçüde daha uzun bir menzile sahiptir, daha fazla nokta yakalayabilir ve diğer ışık kaynaklarının paraziti altında daha kararlıdır. Günümüzde çoğu 3D LiDAR sensöründe, sensörün etrafındaki tüm yönleri gözlemlemek için hızla döndürülebilen birkaç (64 adede kadar) dikey olarak hizalanmış ışınlar bulunur. Bu sensörlerin doğruluğu, çalışma mesafesi ve dengesi nedeniyle (iyi), çoğu otonom araçta kullanılırlar. Bununla birlikte, LiDAR sensörlerinin dezavantajları da vardır: bunlar genellikle büyük, ağır ve çok pahalıdır (çoğu otonom araçta kullanılan 64 ışın sensörü 75.000 dolara mal olur). Bu nedenle, birçok şirket şu anda, rotasyon olmadan 3D algılamayı gerçekleştirebilen daha ucuz bir "katı hal LiDAR" (katı hal LiDAR) sistemi geliştirmeye çalışıyor.

3D gösterimi

3B verileri topladıktan sonra, onu kullanışlı bir biçimde sunmanız ve daha sonra oluşturacağınız işleme modeline girmeniz gerekir. Aşağıdaki dört ana 3B gösterimi anlamalısınız:

3D verinin farklı temsilleri: (a) nokta bulutu (kaynak: Caltech); (b) voksel ızgarası (kaynak: IIT Kharagpur); (c) poligon ağ (kaynak: UW); (d) çoklu Temsili görüntüleyin (Kaynak: Stanford)

a. Nokta bulutları Bu, 3B uzayda basit bir nokta koleksiyonudur.Her nokta isteğe bağlı olarak bir (xyz) koordinatıyla birlikte diğer bazı özelliklerle (rgb rengi gibi) belirlenebilir. Ham LiDAR verileri yakalanır ve daha fazla işlemden önce, binoküler görüş ve RGB-D verileri (her biri bir piksel derinlik değeri ile işaretlenmiş görüntülerden oluşur) genellikle nokta bulutlarına dönüştürülür.

b. Voksel ızgaraları Bir nokta bulutundan türetilmiştir. "Vokseller", 3B uzaydaki pikseller gibidir ve bir voksel ızgarası, sabit bir boyuta sahip nicelleştirilmiş bir nokta bulutu olarak kabul edilebilir. Bununla birlikte, bir nokta bulutu, kayan nokta piksel koordinatlarının uzayında herhangi bir yerde sonsuz sayıda noktaya sahip olabilir Bir voksel ızgarası, her birim veya "voksel" için sabit boyutlu ve ayrı koordinatlara sahip bir 3B ızgaradır.

C. Çokgen ağlar Poligonal yüzeye benzer ve köşeleri paylaşan bir dizi geometrik yüzeyden oluşur. Bir nokta bulutu, gerçek bir kesintisiz geometrik yüzeyden örneklenmiş 3B noktaların bir koleksiyonu olarak görülebilir; çokgen ağ ise, oluşturması kolay bir şekilde alttaki yüzeyleri temsil etmek için tasarlanmıştır. Çokgen ağ, orijinal olarak bilgisayar grafikleri tarafından oluşturulmuş olsa da, aynı zamanda 3B görüş için de çok kullanışlıdır. KaZhand ve diğer Poisson yüzey yeniden yapılandırma yöntemleri dahil olmak üzere nokta bulutlarından çokgen ağlar elde etmenin birçok yolu vardır.

d. Çoklu görünüm sunumları 3D geometriyi basit bir şekilde dönüştürebilen, farklı simüle edilmiş bakış açılarından ("sanal kameralar") yakalanan, oluşturulmuş bir poligonal ağın 2D görüntülerinin bir koleksiyonudur. Birden fazla kameradan (binoküler görüş gibi sunum efektleri) basitçe görüntü yakalama ile çoklu görüntü sunumu oluşturma arasındaki fark, ikincisinin gerçekten tam bir 3B model oluşturması ve modeli birden çok rastgele bakış açısından oluşturması gerektiğidir. Gerçek geometrik yapının tam dönüşümü. 3B verileri depolamak ve işlemek için kullanılan yukarıda belirtilen diğer üç temsilin aksine, çoklu görünüm gösterimleri genellikle yalnızca 3B verileri işlenebilen veya görselleştirilebilen basit bir formata dönüştürmek için kullanılır.

anlayış

3D verileri anlaşılır bir biçime dönüştürdükten sonra, bir sonraki adım, onu anlamak için bir bilgisayar vizyonu modeli oluşturmaktır. Şimdi soru şu: 2D görüntülerde iyi performans gösteren geleneksel derin öğrenme tekniklerini (CNN gibi) 3D veriler üzerinde çalıştırmak için genişletmek, veri sunumuna bağlı olarak zor olabilir Bu aynı zamanda hedef tespiti ve anlamsal bölümleme gibi geleneksel görevleri zorlaştırır.

Çoklu görünüm girdileriyle öğrenme

3B verilerin çoklu görünüm temsilini kullanmak, 2B derin öğrenme teknolojisini 3B'ye uyarlamanın en kolay yoludur. Bir 3B algı problemini 2B algılama problemine dönüştürmek akıllıca bir yaklaşımdır, ancak bir dereceye kadar bu yöntem yine de bir hedefin 3B geometrisini çıkarmanızı gerektirir. Bu yöntemde kullanılan derin öğrenmeye dayanan ilk çalışma, basit ve basit olan SU ve diğerlerinin (2015, https://arxiv.org/pdf/1505.00880.pdf) Multi-view CNN makalesidir. Etkili bir yapı, bir 3B hedefin birden çok 2B görünümünden özellik tanımlayıcıları öğrenebilir. Nesne sınıflandırması için tek bir 2D görüntünün kullanılmasıyla karşılaştırıldığında, bu yöntemi kullanan yapı daha iyi performansa sahiptir. Uygulanması, tek bir görüntüyü ImageNet üzerinde önceden eğitilmiş bir VGG ağına beslemek, oluşturulan etkinleştirme haritasını havuzlamak ve bu bilgileri daha fazla özellik öğrenimi için ek bir evrişimli katmana aktarmaktır.

Çoklu görünüm CNN yapısı (kaynak: kağıt)

Aynı zamanda, çoklu-görüntülü görüntü temsilinin de birçok kusuru vardır. onların arasında, Ana dezavantaj, 3B'de gerçekten öğrenmenin imkansız olmasıdır - sabit sayıda 2B görünüm, yine de temeldeki 3B yapının kusurlu bir yaklaşımıdır. Sonuç olarak, 2B görüntülerden elde edilen sınırlı özellik bilgisi nedeniyle, anlamsal bölümleme gibi görevler - özellikle hedefler ve sahneler arasında daha karmaşık görevler - zorlaşır. Aynı zamanda, otonom sürüş ve sanal gerçeklik gibi hesaplama kısıtlı görevler için, bu 3B veri görselleştirme biçimi büyük ölçekte uygulanamaz - çoklu görünüm temsilleri oluşturmanın tam bir 3B modelin oluşturulmasını gerektirdiği unutulmamalıdır. Herhangi bir bakış açısından simüle edin. Son olarak, çoklu görünüm öğrenimi birçok eksiklikle karşı karşıyadır ve bu eksiklikler, araştırmacıları doğrudan 3B verilerden öğrenme yöntemlerini incelemeye teşvik edecektir.

Hacimsel temsillerle öğrenme

Voxel grid öğrenme, çoklu görüntü sunumunun temel eksikliklerini çözer. Voxel ızgaraları, 2B ve 3B görüntü arasındaki boşluğu doldurur - görüntünün 3B temsiline en yakın olanlardır ve 2B derin öğrenme kavramlarının (evrişim operatörleri gibi) 3B sahnelere uyarlanmasını kolaylaştırır. Maturana ve Scherer'in kağıt VoxNet (2015, https://www.ri.cmu.edu/pub_files/2015/9/voxnet_maturana_scherer_iros15.pdf), hedef durumunda en eski giriş voksel ızgaraları grubudur Sınıflandırma görevlerinde tatmin edici sonuçlar elde etmek için derin öğrenme yöntemi. VoxNet, her bir vokselin vokselin uzayda işgal edilme olasılığını içerdiği olasılıklı doluluk ızgarasında çalışır. Bu yöntemin bir avantajı, ağın bilinen serbest vokseller (örneğin, LiDAR ışınının geçtiği vokseller) ve bilinmeyen doluluk (örneğin, LiDAR ışınının çarptığı konumun arkasındaki vokseller) arasında ayrım yapmasına izin vermesidir.

VoxNet yapısı (kaynak: kağıt)

VoxNet'in yapısı oldukça basittir, 2 evrişimli katman, 1 maksimum havuzlama katmanı ve 2 tam bağlı katmandan oluşur ve son olarak çıktı sınıfı puan vektörünü hesaplar. Bu ağ, en son teknolojiye sahip görüntü sınıflandırma ağlarından çok daha sığdır ve çok daha küçük parametrelere sahiptir, ancak yüzlerce olası CNN yapısının rastgele aranmasından seçilir. Voksel ızgaraları görüntülere çok benzediğinden, kullandıkları gerçek adım evrişimi ve havuzlama işlemleri, 2D pikseller üzerinde gerçekleştirilen bu işlemlerin 3D voksellere ince uyarlamasıdır. Evrişim işlemi, 2D CNN'lerde kullanılan d × d × c çekirdekleri yerine d × d × d × c çekirdeklerini kullanırken, havuzlama işlemi 2D piksel blokları yerine üst üste binmeyen 3D voksel bloklarını dikkate alır.

VoxNet ile ilgili bir sorun şudur: Yapısı başlangıçta değişmez dönmüyor . Makalenin yazarı, voksel ızgarasındaki geometri öğrenme evrişim çekirdeği ile çok fazla etkileşime girse bile, voksel ızgarasının z ekseninin yerçekimi yönüyle hizalanması için sensörün dik tutulduğunu makul bir şekilde varsaymasına rağmen Farklı, bu tür bir varsayım - arkadan gelen hedef hala aynı hedef ve hala mevcut değil. Bu sorunu çözmek için basit bir veri geliştirme stratejisi uyguladılar. Eğitim sırasında, her modeli birkaç kez döndürdüler ve tüm kopyalar üzerinde eğittiler; daha sonra, test sırasında, seçilen son tam bağlı katmanın çıktısını çeşitli girdiler arasında bir araya topladılar. Su ve arkadaşlarının "görünüm havuzlama" adımında ara evrişimli katmanın çıktısını bir araya getiren Multi-view CNN'lerine kıyasla bu yöntemin aynı performansı sağladığını ancak daha hızlı yakınsadığını belirttiler. Bu şekilde, VoxNet, giriş voksel ızgarasının farklı dönüşleri boyunca aynı öğrenilen evrişim çekirdek ağırlıklarını paylaşarak dönüş değişmezliğini öğrenir.

VoNET, gerçek 3B öğrenmeye doğru büyük bir adımı temsil eder, ancak voksel ızgaralarının hala birçok kusuru vardır. Birincisi, nokta bulutlarıyla karşılaştırıldığında çözünürlük kaybederler - çünkü birbirlerine yakın olduklarında, karmaşık yapıları temsil eden bazı farklı noktalar bir vokselin içine gömülür. Aynı zamanda, seyrek ortamlardaki nokta bulutlarıyla karşılaştırıldığında, voksel ızgaraları, boş ve bilinmeyen alanları temsil etmek için çok fazla bellek tükettikleri için gereksiz yüksek bellek kullanımına neden olabilirken, nokta bulutları yalnızca bilinen noktaları içerir.

Nokta bulutu öğrenimi (Nokta bulutlarıyla öğrenme)

  • Nokta Bulutu Segmentasyonu (PointNet)

Bu voksel tabanlı yöntemlere yanıt olarak, son çalışmalar doğrudan orijinal nokta bulutu üzerinde çalışan yapılara odaklanmıştır. En önemlisi, Qi ve diğerlerinin yazdığı PointNet (2016, https://arxiv.org/pdf/1612.00593.pdf), düzensiz 3B verileri işlemek için önerilen en eski yöntemlerden biridir. Bununla birlikte, yazarın da belirttiği gibi, nokta bulutu sadece 3B uzayda XYZ koordinatlarıyla temsil edilen bir nokta kümesidir. Daha spesifik olarak, nokta bulutundaki N noktanın verildiğini varsayarsak, ağa beslenen noktaların sırasının temeldeki geometri üzerinde hiçbir etkisi olmadığı için, ağın, giriş verilerinin N! Düzenlemesine değişmeyen benzersiz özelliği öğrenmesi gerekir. Ek olarak, ağın nokta bulutu dönüşümü ve çevirisini dönüştürmesi istikrarlı olmalı ve boyutunun tahmin üzerinde hiçbir etkisi olmamalıdır.

Girdiler arasında sıralama değişmezliğini sağlamak için nokta bulutu segmentasyonunun arkasındaki temel deneyim şudur: Girişlerin rastgele sıralanması için tutarlı çıktı üreten basit bir simetrik işlev kullanın (bu tür işlevlerdeki tipik algoritmalar toplama ve çarpmayı içerir) . Bu bilişin rehberliğinde nokta bulutu segmentasyon yapısının arkasındaki temel modül (PointNet Vanilla olarak adlandırılır) şu şekilde tanımlanır:

f (x1,, xn) = g (h (x1),, h (xn))

Burada f, giriş noktasını k boyutlu bir vektöre dönüştüren simetrik bir fonksiyondur (hedef sınıflandırması için kullanılır). Bu fonksiyon f, başka bir simetrik fonksiyon g'ye yaklaştırılabilir. Denklemde h, tek tek giriş noktalarını (ve xyz koordinatlarını, renkleri, yüzey normallerini ve diğer karşılık gelen özellikleri) daha yüksek boyutlu gizli alanlara işaretlemek için kullanılan çok katmanlı bir algılayıcıdır (MLP). Maksimum havuzlama işlemi, öğrenilen özellikleri nokta bulutunun global tanımlayıcıları halinde toplayan simetrik bir fonksiyon g işlevi görür. Bu tek özellik vektörü, hedef tahminlerini veren başka bir MLP olan 'ye aktarılır.

Nokta bulutlarının geometrik dönüşümlerinin değişmez temsillerini öğrenme zorluğunun üstesinden gelmek için nokta bulutu segmentasyonu, nokta bulutunun girdisine afin bir dönüşüm uygulayan T-Net adlı küçük bir ağ kullanır. Bu kavram, Jaderberg ve diğerlerinin kağıt mekansal transformatör ağları (2016, https://arxiv.org/pdf/1506.02025.pdf) tarafından önerilen konsepte benzer, ancak yeni katman türlerinin tanımlanmasını gerektirmediği için çok daha basittir. T-Net, nokta bulutu segmentasyonunun giriş noktası bulutunu sabit ve standartlaştırılmış bir alana dönüştürmesini sağlayan, böylece tüm ağın en küçük değişiklikler için bile kararlı olmasını sağlayan öğrenilebilir parametrelerden oluşur.

Nokta bulutu segmentasyon yapısı (kaynak: kağıt)

Nokta bulutu segmentasyon yapısının tamamı, orijinal yöntemi, T-Net'i ve nokta bulutları için karakteristik temsiller oluşturan çoklu MLP katmanlarını entegre eder. Bununla birlikte, nesne sınıflandırmasına ek olarak, nokta bulutu bölümleme, nesnelerin ve sahnelerin anlamsal bölümlemesini de sağlayabilir. Bunu başarmak için, Nokta bulutu bölümleme yapısı, maksimum havuz simetrik fonksiyonundaki global özellik vektörünü, giriş verileri bazı MLP'ye iletildikten sonra öğrenilen herhangi bir noktanın özelliği ile birleştirir. . Bu iki vektörü birbirine bağlayarak, her nokta kendi küresel anlamını ve yerel özelliklerini algılayabilir, böylece ağ, bölümlemeye yardımcı olan ek ve daha anlamlı özellikleri öğrenebilir.

Nokta bulutu segmentasyonuna dayalı iç mekan sahnelerinin anlamsal segmentasyon sonuçları (kaynak: kağıt)

  • Nokta Bulutu Segmentasyonu ++ (PointNet ++)

Nokta bulutu segmentasyonu harika sonuçlar elde etse de, ana eksikliklerinden biri, yapısının nokta mahallesindeki altta yatan yerel yapıyı yakalayamamasıdır - nokta komşuluk kavramı şuna benzer: görüntüden sürekli olarak CNN kullanın Özellikler, genişletilmiş alıcı alan spesifikasyonlarından çıkarılmıştır. Bu sorunu çözmek için Qi ve arkadaşları, nokta bulutu segmentasyon yapısından türetilen, ancak nokta bulutundaki yerel alandan da türetilebilen optimize edilmiş bir PointNet ++ (2017, https://arxiv.org/pdf/1706.02413.pdf) önerdi. Öğrenme özellikleri. Bu yöntemin temeli, üç temel adımı olan hiyerarşik bir özellik öğrenme katmanıdır: İlk olarak, örneklenen noktaları yerel alanın ağırlık merkezi olarak alın; ikincisi, merkezden uzaklığa göre bu yerel alanlardaki komşu noktaları gruplayın; üçüncü olarak, bu alanların özelliklerini kodlamak için mini nokta bulutu segmentasyonu kullanın. .

Bu adımlar, nokta bulutundaki farklı boyutlardaki nokta gruplarından özellikleri öğrenmek için sürekli olarak tekrarlanır. Bu şekilde ağ, tüm nokta bulutundaki yerel nokta gruplarının temelindeki ilişkileri daha iyi anlayabilir ve sonuç olarak genelleme performansını iyileştirmeye yardımcı olur. Araştırma sonuçları, Point Cloud Segmentation ++ 'nın nokta bulutu segmentasyonu dahil olmak üzere mevcut yöntemleri önemli ölçüde iyileştirebileceğini ve 3B nokta bulutu analiz karşılaştırmalarında (ModelNet40 ve ShapeNet) en iyi performansı elde edebileceğini göstermektedir.

Umut vaat eden yeni araştırma alanları

Görüntü Evrişimli Sinir Ağları (Grafik CNN'ler)

3B verileri işlemek için kullanılan derin öğrenme yapısı hakkındaki mevcut araştırma, esas olarak nokta bulutu temsiline odaklanmaktadır. Aynı zamanda, birçok yeni çalışma, nokta bulutu segmentasyonu / nokta bulutu segmentasyonu ++ kavramını genişletiyor ve performansı daha da iyileştirmek için diğer alanlardan ilham alıyor. Örneğin, Wang ve arkadaşlarının Dynamic Graph CNNs (2018, https://arxiv.org/pdf/1801.07829.pdf) makalesi, nokta bulutlarında özellik çıkarımını iyileştirmek için grafik tabanlı derin öğrenme yöntemlerini kullanır. Buradaki nokta, nokta bulutu segmentasyonu / nokta bulutu segmentasyonu ++, çeşitli noktalar arasındaki geometrik ilişkiyi yakalayamaz, çünkü bu yöntemlerin farklı girdi dizileriyle değişmezliği sürdürmesi gerekir. Bununla birlikte, Wang ve diğerleri, bir noktayı ve en yakın komşuluğunu yönlendirilmiş bir grafik olarak ele alarak, veriler boyunca noktaların benzersiz özelliklerini oluşturan bir operatör olan EdGeConV'yi oluşturdu. Grafikler hakkında daha fazla bilgi edinmek istiyorsanız, başka bir Gradient genel bakışını okuyun (https://thegradient.pub/structure-learning/).

Nokta bulutu işleme için seyrek kafes ağı (SPLATNet)

Nokta bulutu işleme için seyrek kafes ağ yapısı (kaynak: kağıt)

diğer yandan, Bazı çalışmalar, nokta bulutu segmentasyonu / nokta bulutu segmentasyonu ++ 'da önerilen klasik özellik çıkarma yöntemini atladı ve nokta bulutlarının kapsamlı işlenmesi için yeni bir yöntem tasarlamayı seçti . Su ve diğerleri tarafından önerilen SPLATNet (2018, https://arxiv.org/pdf/1802.08275.pdf) mimarisi, nokta bulutu araştırmasının yeni odağına mükemmel bir örnektir - yazar yeni bir yapı ve evrişim tasarladı Operatörler doğrudan nokta bulutu üzerinde çalıştırılabilir. Bu makalenin ana noktası, "alıcı alan" kavramını, uzaysal bilgilerin seyrek alanlarda bile korunmasına izin veren düzensiz bir nokta bulutuna çevirmektir (nokta bulutu segmentasyonu / nokta bulutu segmentasyonunun büyük bir kusuru ++). Özellikle ilginç olan şey, SPLATNet'in çok görüntülü görüntülerden çıkarılan özellikleri, uçtan uca öğrenilebilir bir yapıda 2B verileri ve orijinal nokta bulutlarını birleştirerek 3B alana yansıtabilmesidir. Bu 2D-3D ortak öğrenmeyi kullanarak, SPLATNet anlamsal bölümlemede en iyi performansı elde eder.

Frustum PointNets Segmentasyonu

2B sınırlayıcı kutu tahmini tarafından oluşturulan 3B bölümü görselleştirin (kaynak: kağıt)

Üçüncü gelecek vaat eden araştırma yönü, Bu, yukarıda anlattığımız temel yapısal yapı taşlarını, 3B hedef algılama gibi yararlı görevler için daha rafine ağlar oluşturmak üzere genişletmekle ilgilidir. . Qi et al .dan Frustum PointNets (2017, https://arxiv.org/pdf/1711.08488.pdf), 2D ve 3D verileri aynı anda kullanma fikrine dayanarak yeni bir yöntem önerdi: iyileştirmek için RGB görüntülerin ve nokta bulutlarının birleştirilmesi 3B sahnelerde hedef konumlandırmanın verimliliği. Bu görevin geleneksel yöntemi, hesaplama açısından pahalı olan ve aynı zamanda gerçek zamanlı tahmini zorlaştıran, tüm nokta bulutu üzerindeki kayan pencere üzerinde doğrudan sınıflandırma gerçekleştirerek hedefin olası 3B sınırlayıcı kutusunu belirler. Qi ve arkadaşları iki önemli katkı yaptı:

  • İlk olarak, 2B görüntüler üzerinde hedef tespiti gerçekleştirmek için standart CNN kullanmayı, tespit edilen hedefin bulunabileceği nokta bulutu alanına karşılık gelen 3B kesikleri düzleştirmeyi ve ardından arama işlemini sadece nokta bulutunun bu "diliminde" gerçekleştirmeyi önermektedirler. . Bu, sınırlayıcı kutu tahmininin arama alanını önemli ölçüde azaltır, yanlış tespit olasılığını azaltır ve işlem ilerlemesini büyük ölçüde hızlandırır - bu, otonom sürüşün uygulanması için gereklidir.

  • İkinci olarak, Qi ve arkadaşları, nokta bulutu segmentasyonuna dayalı yeni bir yapı tasarladı; bu yapı, doğrudan örnek segmentasyonu gerçekleştirebilir (nokta bulutunu tek bir hedefe bölerek) ve tüm 3B frustum için sınırlama kutusu tahminini sınır yerine tek seferde gerçekleştirebilir. Tipik kayan pencere sınıflandırması, kutu arama sürecinde gerçekleştirilir, böylece yöntemlerinin tıkanma ve seyreklik üzerindeki performansı hızlı ve kararlıdır. Sonunda, bu iyileştirmeler nedeniyle, bu çalışma yayınlandığında, KITTI ve SUN RGB-D 3D inceleme kıyaslamalarındaki performans önceki tüm yöntemlerden daha iyiydi.

Son düşünceler

Sadece son 5 yılda, 3B derin öğrenme yöntemleri, türetilmiş (çoklu görünüm) 3B veri sunumunun kullanımından orijinal (nokta bulutu) 3B veri sunumuna doğru gelişti. Bu süreçte, 3B verilere (çoklu görünüm CNN, hatta VoxNet) uyum sağlamak için sadece 2B CNN'leri kullanmaktan, özellikle 3B için oluşturulmuş bir yönteme (nokta bulutu segmentasyonu ve diğer nokta bulutu yöntemleri) geçtik ve büyük ölçüde iyileştirdik. Hedef sınıflandırma ve anlamsal bölümleme gibi görevlerde performans. Bu sonuçlar umut vericidir çünkü dünyayı 3 boyutlu bir perspektifte temsil etmenin gerçekten değerli olduğunu onaylarlar.

Ancak bu alanda ilerleme yeni başladı. Mevcut çalışma yalnızca bu algoritmaların doğruluğunu ve performansını iyileştirmeye odaklanmakla kalmaz, aynı zamanda kararlılık ve ölçeklenebilirliği de sağlamalıdır. . Güncel araştırmaların çoğu, sürüş uygulama senaryosu tarafından yönlendirilse de, doğrudan nokta bulutu üzerinde çalışmanın yeni yöntemi de 3D medikal görüntüler, sanal gerçeklik ve iç mekan haritalamasında önemli bir rol oynayacaktır.

Aracılığıyla: Piksel düzleminin ötesinde: 3D olarak algılama ve öğrenme, https://thegradient.pub/beyond-the-pixel-plane-sensing-and-learning-in-3d, Leifeng.com AI Technology Review tarafından derlenmiştir. Lei Feng

Başlık resminin kaynağı: Waymo

Panik yapmayın! KAWS x Air Jordan VIII resmen açığa mı çıktı? !
önceki
İskandinav lüks gerçek çekim Volvo S90 T5 Zhizun Edition
Sonraki
Kağıt gücü konusunda ilk dört SNG, yeni ordu ekibine neredeyse kaybediyor ve iki yabancı yardımcının büyük potu taşıması gerekiyor!
Düşük fiyat vicdanı, yüksek fiyat ve hızlı ücret inanılmaz! OPPO Find X National Bank versiyonu resmi olarak yayınlandı
2.5 saat, Chongqing halkı hafta sonunu geçirmek için Kunming'e nasıl gidiyor?
Yu Shuang son hayatında hangi günahı yaptı? LPL'nin dört büyük röportaj hayaletiyle tanıştı
Görmeyeli uzun zaman oldu! OPPO X uygulamalı tur bul
Katili tahmin ettiğinizi sanıyorsunuz, ama bu sadece başlangıç! "Memory Master" görüntüleme raporu
Audi A6 Avant resmen pazara girerek 45.98-499.800 sattı
Tek dokunuşta sanat, tek dokunuşta teknoloji: OPPO Find X gerçek makine resim turu
Shangguan Wan'er çevrimiçi oluyor, orta yol üzüntülerle dolu, oyuncu zayıflamak için diz çöküyor
2018 giriş yöntemi raporu: Sogou giriş yöntemi, Çin'deki en büyük ses girişi uygulaması haline geldi
Lütfen dikkat edin, Bayan Jincheng, bu erkek tanrı insanlar tarafından çoktan yendi!
Ön yok, tamamen tam ekran! Xiaomi Mi MIX 3 gerçek kamera pozlama: ekranın altındaki parmak izleriyle baş parmaklarınızı kaldırın
To Top