Tek bir monokrom görüntüden yüksek kaliteli 3B geometrik yapılar oluşturun

Leifeng.com Yapay Zeka Teknolojisi Yorumu: 3D dijital geometrik yapıları yeniden yapılandırmak için görüntüleri kullanmak, bilgisayar görüşü alanında çok temel bir konudur. Bu teknoloji, film prodüksiyonu, video oyunu içerik üretimi, sanal gerçeklik ve artırılmış gerçeklik, 3B baskı gibi birçok alanda geniş bir uygulama alanına sahiptir. Christian Häne ve Berkeley Yapay Zeka Araştırma Merkezi'nden diğerleri, kısa süre önce, aşağıdaki resimde gösterildiği gibi, yüksek kaliteli 3B geometrik yapıların tek bir renkli görüntüden nasıl yeniden yapılandırılacağını tartıştıkları "3B Nesne Yeniden Yapılandırması için Hiyerarşik Yüzey Tahmini" adlı bir makale yayınladılar. Görüntülendi. Leifeng.com aşağıdaki şekilde derlenmiştir.

Biz insanlar için, sadece bir görüntü görsek bile, nesnelerin ve sahnelerin şeklini kolayca anlayabiliriz. Lütfen gözlerimizin binoküler etkisinin derinliği algılamamıza izin verdiğini ve nesnenin 3B geometrisini anlamamıza gerek olmadığını unutmayın. Yani bir varlığın sadece bir fotoğrafını görsek bile, onun şeklini iyi bir şekilde algılayabiliriz. Sadece bu da değil, aynı zamanda nesneyi kavrama gibi eylemler için çok önemli olan nesnenin görünmeyen kısımlarını da (arka taraf gibi) anlayabiliriz. Öyleyse soru şu ki, biz insanlar bir nesnenin geometrik yapısını tek bir görüntüden nasıl çıkarırız? Yapay zeka açısından, makinelere bu yeteneğe hakim olmayı nasıl öğretebiliriz?

1. Şekil alanı

Herhangi bir giriş görüntüsünden 3B geometrik yapıyı yeniden oluşturmanın temel ilkesi şudur: Nesnenin şekli rastgele değildir, bu nedenle bazı şekiller mümkündür ve bazıları imkansızdır. Genel olarak konuşursak, bir nesnenin yüzeyi genellikle pürüzsüzdür, özellikle de birçok parçalı düzlemden oluşan insan yapımı nesneler. Nesneleri tahmin etmek için aynı kuralları kullanabiliriz. Örneğin, bir uçağın genellikle her iki tarafına iki ana kanat takılı bir gövdesi vardır ve arka tarafa dikey bir dengeleyici kanadı takılır. İnsanlar dünyayı kendi gözleriyle gözlemleyebilir, elleriyle dünyayla etkileşime girebilir ve sonra bu tür bilgileri edinebilir. Bilgisayar görüşünde, "şekillerin keyfi olmadığı" gerçeği, bir nesne sınıfının veya birden çok nesne sınıfının olası tüm şekillerini, çok sayıda örnek şekil toplayarak düşük boyutlu bir şekil alanı olarak tanımlamamıza olanak tanır.

Vokselleri tahmin etmek için CNN kullanın (Voxel Prediction)

Kısa süre önce Choy, Girdhar ve diğerleri 3B yeniden yapılandırma konulu makalelerini yayınladılar. Çalışmalarında, "çıktıları", her biri hacim öğelerine (voksel olarak adlandırılır) bölünmüş 3B hacim alanıdır. Voksellerin bir tahsisi vardır (dolu veya boş alan) ve nesnenin şeklinin tahmini, 3B işgal edilmiş voksel hacmi olarak ifade edilir. Modellerindeki "girdi" genellikle nesneyi tanımlayan tek renkli bir görüntüdür ve daha sonra bu işgal edilen hacmi tahmin etmek için evrişimli ağ sinir (CNN) üst kıvrımlı kod çözücü mimarisini kullanırlar. Ağ uçtan uca eğitilmiştir ve bilinen temel gerçek, denetimli öğrenme için hacmi (CAD modeli veri setini sentezleyerek elde edilen) kaplar. Bu 3B gösterim (vokseller) ve CNN aracılığıyla bu model öğrenilebilir ve çeşitli nesne sınıflarına uyarlanabilir.

2. Tabakalaşma yüzey tahmini

Yukarıdaki yöntemin (işgal edilen hacmi tahmin etmek için CNN kullanılması) büyük bir dezavantajı vardır.Çıktı alanı üç boyutlu olduğundan, görece artırılmış çözünürlük küp şeklinde artacaktır. Bu sorun, bu yöntemin yüksek kaliteli geometrik şekilleri tahmin etmesini zorlaştırır ve yukarıdaki 32 ^ 3'ün sonucu gibi nispeten kaba çözünürlüklü voksel ızgaralarla sınırlıdır. Christian Häne ve diğerlerinin çalışmalarında, yüzey aslında sadece iki boyutlu olduğu için bunu gereksiz bir kısıtlama olarak görüyorlar. Bu nedenle, tabakalaşma yoluyla ince çözünürlüklü vokselleri tahmin etmek için yüzeyin iki boyutlu özelliklerini kullanırlar ve sadece yüzeyde yüksek çözünürlüklü tahminler yapmaları gerekir. Temel fikir, oktree gösterimi fikri ile yakından ilgilidir.Octree gösterimi genellikle yüksek çözünürlüklü geometrik yapıları temsil etmek için çoklu görüntülü stereo ve derinlik haritası füzyonu gibi alanlarda kullanılır.

yöntem

Bu 3B tahmin modelinde (Hiyerarşik Yüzey Tahmini (HSP) olarak adlandırılır), ilk olarak tek renkli bir görüntü girip, onu düşük boyutlu bir temsil olarak kodlamak için bir evrişimli kodlayıcı kullanıyoruz. Daha sonra, düşük boyutlu temsilin kodu 3B işgal edilen bir hacme dönüştürülür. Ana fikir, düşük çözünürlüklü vokselleri tahmin ederek kod çözmeye başlamaktır. Kilit nokta, vokselleri dolu / boş alana ayıran standart yöntemin aksine, HSP'nin vokselleri üç kategoriye ayırmasıdır: boş alan , Yer kaplayın ile sınır . Bu yöntemi kullanarak, "sınır" ı içerdiğine dair işaretlerin bulunduğu kısımlarda daha yüksek bir çözünürlüğe sahip olduğu sürece "çıktının" çözünürlüğü çok düşük olabilir. Yineleme yoluyla, yüksek çözünürlüklü voksel ızgarasını adım adım tahmin edebiliriz. Model hakkında daha fazla ayrıntı için lütfen burada açıklanmayacak olan kağıda bakın.

Deney

Model deneyi, eğitim için temel olarak sentetik ShapeNet veri kümesini kullanır. Yazar, sonuçları iki temel modelle karşılaştırdı - düşük çözünürlüklü sert (LR sert) ve düşük çözünürlüklü yumuşak (LR yumuşak) model. İki temel modelin her ikisi de 32 ^ 3'lük kaba bir çözünürlükte tahmin eder, ancak eğitim verileri farklı şekillerde oluşturulur. LR hard, vokselleri tahsis etmek için iki parçalı bir yöntem kullanır, yani, karşılık gelen yüksek çözünürlüklü voksellerden en az biri meşgulse, tüm vokseller dolu olarak işaretlenecektir. LR soft, ayırma için kesirli bir yöntem kullanır ve her voksel, ilgili yüksek çözünürlüklü vokselin yüzdesini yansıtır. HSP yöntemi 256 ^ 3 çözünürlükle tahmin eder. Aşağıdaki sonuçlar, HSP yönteminin yüzey kalitesi ve yüksek çözünürlüklü tahmin bütünlüğü açısından temel yöntemden daha iyi performans gösterdiğini göstermektedir.

Lei Feng Net Notu

Bu makale şunlarla ilgilidir: Tek Renkli Bir Görüntüden Yüksek Kaliteli 3B Nesne Yeniden Oluşturma

İlgili kağıt bağlantıları:

1. 3B Nesne Yeniden Yapılandırması için Hiyerarşik Yüzey Tahmini (Christian Häne, vb.)

2. 3D-R2N2: Tekli ve Çoklu Görünümlü 3D Nesne Yeniden Yapılandırması için Birleşik Bir Yaklaşım (Choy, vb.)

3. Nesneler (Girdhar, vb.) İçin Tahmin Edilebilir ve Üretken Bir Vektör Temsilcisini Öğrenmek

4. ShapeNet: Zengin Bilgi 3B Model Deposu (ShapeNet veri kümesindeki kağıt)

AWE Öne Çıkanlar Önizlemesi: TCL "Üç Parçalı Peri"?
önceki
Gençlerin sevdiği ortak girişim küçük SUV
Sonraki
Yaşlıların, yoldan geçenlerin 7 yıl üst üste kaligrafi yapmasına izin vermesi için 80 yıllık parkta bir platform kurun
"Kağıtlar Koleksiyonu" Ağı ve Bilgi Güvenliği - "Elektronik Teknolojinin Uygulanması" Konusunda Mükemmel Makaleler Koleksiyonu
Bir Yixuan kaküllerini bir kıza benzeyecek şekilde değiştirdi, gülüyor ve saçını kesip uluyan kocası olduğuna dair şaka yapıyor
Kayınvalidenin favorisi olan bu orta boy SUV'ler sadece yaklaşık 200.000'e mal oluyor
"Dying Light" Battle Royale moduna Eylül ayında erken erişim Beta testi bu hafta başlıyor
Android Platformuna Dayalı İyileştirilmiş İç Mekan WiFi Konum Algoritması Üzerine "Akademik Belge" Araştırması
Su Youpeng'in en son moda gişe rekorları kıran filmleri ortaya çıkıyor veya güneş gülümsüyor ya da beyefendi melankoli ve etkileyici.
Kapsamlı yakıt tüketimi sadece 4,9L.Emgrand EC7 hibrit versiyonu sisin kuyruğunu mu yakaladı?
Bahar Şenliği tatilinin eserleri hakkında bilgi edinin, nereye giderseniz gidin temiz ve hijyeniktir!
"Super Lucky Fox", "Core Recast" ve diğer Microsoft oyunları Steam'e eklenecek
"Blog gönderisi seçimi" DIY aracı - kendi mantık probunuzu oluşturun
Chongqing ortaokul öğrencileri dünyanın hafıza ustası oluyor
To Top