CVPR2020 | İşsiz iç mimar mısınız? Dil açıklaması için otomatik 3B sahne tasarımı algoritması

Son zamanlarda, bilgisayarla görme konferansı CVPR 2020, makalelerin sonuçlarını aldı ve yaklaşık% 22'lik bir kabul oranı ile 6.656 geçerli sunumdan 1470 makale kabul edildi. Yazar, Güney Çin Teknoloji Üniversitesi, Adelaide Üniversitesi, Avustralya ve Kujiale tarafından birlikte tamamlanan bir makale olan "Akıllı Ev 3D: Yalnızca Dilsel Açıklamalardan Otomatik 3D Ev Tasarımı" nda (açık kaynaklı) bir dizi İnsan dili açıklaması otomatik olarak iç mekan 3B sahnelerinin bir algoritma modelini oluşturur.

3B sahne oluşturma örneğine P dil açıklaması

Metin | Qi Chen

Editör | Jia Wei

Makaleye bağlantı: https://arxiv.org/pdf/2003.00397.pdf

Kod bağlantısı: https://github.com/chenqi008/HPGM

1. Motivasyon

Konut sahnesi tasarımı, genellikle profesyonel mimarlar tarafından yapılan çok karmaşık, sıkıcı ve emek yoğun bir çalışmadır. Bununla birlikte, profesyonel bir mimarın tasarım, planlama ve tasarım araçları konusunda birkaç yıl eğitim alması gerekir ve gerçekten bir ev tasarlarken, müşteri ihtiyaçlarını toplamak ve ardından kat planını profesyonel bilgisi ve geçmiş deneyimine göre planlamak genellikle çok zaman alır. Tasarım, bu genellikle birkaç gün ila birkaç hafta sürer. Öte yandan, çok zaman harcansa bile tasarımcı tarafından çizilen tasarım çizimleri müşteriyi tatmin etmeyebilir. Bu nedenle, gereksinimleri karşılayan bir tasarım örneğinin hızlı bir şekilde nasıl çizileceği çok önemlidir.

Uygulanabilir bir düşünme şekli, müşterilerin istenen tasarım örneklerini kendi kendilerine tanımlamalarına izin vermektir.Ancak, mesleki bilginin sınırlamaları nedeniyle, çoğu sıradan insan tasarımla ilgili bilgi rezervine sahip değildir ve bu karmaşık profesyonel tasarım araçlarını nasıl kullanacaklarını bilmezler, ancak Herkesin düşüncelerini kelimelerle ifade etme yeteneği vardır. Bu nedenle, zamandan tasarruf etmek ve profesyonel bilgiye sahip olmayan kişilerin tasarıma katılmasına olanak tanımak için yazar, insan dili açıklamalarına dayalı iç mekan üç boyutlu sahneler oluşturabilen bir dizi algoritma modeli (HPGM modeli) tasarlamayı düşünür. Bu model, profesyonel tasarım sağduyusunu bağımsız olarak uygulayacak ve kullanıcının Ev tipi ve ev dekorasyon tasarımı için dil tanımı. Ayrıca yazar, üç boyutlu bir sahne oluşturmak için dil bilgisinin model etkisini test etmek için yeni bir veri seti de topladı.

2. Metodolojik çerçeve

HPGM model çerçevesi beş ana bölümden oluşur: 1) Metin Gösterimi (Metin Gösterimi); 2) Grafik Koşullu Düzen Tahmin Ağı (GC-LPN); 3) Kat son işleme modülü (Kat İşlem Sonrası Planlama); 4) Dile dayalı Dil Koşullu Doku GAN (LCT-GAN); 5) 3B Sahne Oluşturma ve İşleme (3B Sahne Oluşturma ve Oluşturma).

Algoritma genel çerçeve diyagramı

Öncelikle, müşteri tanımındaki anahtar özellik bilgisini net bir şekilde çıkarabilmek için yazar, yarı yapılandırılmış anlamsal veriler oluşturmak için giriş metni açıklama cümlesini sökmek için Stanford tarafından önerilen metin ayrıştırıcısını (Sandford Sahne Grafiği Ayrıştırıcısı) kullanır. Spesifik olarak, şu bölümlere ayrılabilir: 1) Her ev için bir sahne haritası: her evin belirli türünü, yönünü, konumunu, istenen boyutunu ve duvar ve zeminin malzemesi ve rengini vb. İçerir; 2) Evler arasındaki ilişkinin sahne haritası : Evler arasındaki komşu durumu belirtmek için sahne grafiğinde düğümler (evler) arasında doğrudan bir bağlantı olup olmadığını gösterir.

Her evin sahne haritası

Evler arasındaki ilişkinin sahne diyagramı

İkinci olarak, çıkarılan metin bilgilerine dayanarak, yazar bir oda yerleşim haritası oluşturmak için bir yerleşim tahmin ağı (GC-LPN) oluşturdu. Ağ girişi, sahne grafiğidir g. Grafikteki düğümler, evin tipi, konumu ve boyutu da dahil olmak üzere her evin özelliklerini temsil eder; kenarlar evler arasındaki bağlantıyı temsil eder ve bağlantı 1'dir, aksi takdirde 0'dır. Oluşturulan yerleşim haritasının uzamsal bilgisinin açıklamada yer alan anlambilim ile tutarlı olmasını ve uçtan-uca eğitimin gerçekleştirilebilmesini sağlamak için yazar grafik yapısını tanıtır ve bunu bir Graph Convolutional Network ile günceller. Grafik evrişimli ağın güncellenmiş düğümü, kendi özelliklerini ve bitişik düğümlerin bilgilerini içerir. Daha sonra, her düğümün özelliklerine göre karşılık gelen ev sınırlarını tahmin etmek için bir Sınırlayıcı Kutu Regresyon ağı kullanılır ve son olarak evin düzeninde birleştirilir.

Ardından, tahmini oda düzenini gerçek dünyada bir kat planına dönüştürmek için yazar, beş adıma bölünmüş bir kat planı son işlem modülü önerir: (a) görüntüdeki tüm çizgi bölümlerini çıkarın; (b) Benzer çizgi segmentlerini birleştirin; (c) kapalı olmayan kapalı çokgenler; (d) her çokgenin ait olduğu oda tipini değerlendirin ve işaretleyin; (e) belirli kurallara göre kapı ve pencereler ekleyin.

İşlem sonrası adımlar

Doku oluşturma modeli

Öte yandan, farklı oda stilleri oluşturmak için yazar, giriş anlamsal bilgilerine dayalı olarak zemin ve duvar dokusu desenleri oluşturabilen bir doku oluşturma ağı (LCT-GAN) önermektedir. Bir yüzleşme ağı oluşturma ilkesine dayanan doku oluşturma ağı, yüzleşme ağında temel yüzleşme kaybı işlevini oluşturmanın yanı sıra bir doku oluşturucu G ve bir ayırıcı D içerir.

ile

Ek olarak, makale doku deseninin malzemesi ve rengi için kayıp yardımcı jeneratörlerine karşı iki farklı optimizasyon, yani malzeme algılama kaybı önermektedir.

(Malzeme Bilinçli Kayıp) ve renk algılama kaybı

(Renk Farkında Kayıp), oluşturulan doku görüntüsündeki malzeme stilinin ve renginin açıklamayla tutarlı olup olmadığını değerlendirmek için kullanılır. Yazarın, girdinin boyutunu ayarlayarak herhangi bir boyutta bir çıktı doku görüntüsü elde edebilen doku oluşturucu G'yi oluşturmak için bir Tam Evrişimli Ağ (FCN) kullandığını belirtmek gerekir.

Son olarak, yazar, ilgili 3B sahne modelini yukarıdaki model tarafından oluşturulan evin 2B kat planına ve karşılık gelen doku modeline göre sentezleyebilen bir 3B sahne oluşturma ve oluşturma modülü (3B Sahne Oluşturma ve İşleme) önermektedir.

3B oluşturma görüntü sentezi

3. Deneysel sonuçlar

1. Veri seti

Önerilen modelin etkinliğini doğrulamak için makale, tam bir dil tanımını ve ilgili iki boyutlu plan ve doku modellerini içeren yeni bir veri seti (Metinden 3B Ev Modeli veri seti) topladı, veri seti toplam 2000 Kat planı bilgisi, toplam 13.478 ev ve 873 doku resmi.Her dil açıklamasının ortalama uzunluğu 173.73'tür ve tüm açıklamalar 193 farklı kelime içerir. Bazı odalar aynı doku desenine sahip olduğu için doku resimlerinin sayısının toplam oda sayısından daha az olduğunu belirtmekte fayda var.

Örnek veri seti

Veri kümesi kelime bulutu

2. Kat planı oluşturma

Yazar, GC-LPN algoritmasının iki boyutlu bir plan oluşturmadaki etkisini test etmek için, hedef tespitte yaygın olarak kullanılan Intersection-over-Union (IoU) algılama değerlendirme fonksiyonunu kullanır ve nicel bir karşılaştırma indeksi olarak görselleştirme etkisini gösterir; burada Metin1 ve Metin2 girdinin açıklamasını temsil eder. . İki boyutlu kat planlarının oluşturulması yepyeni bir görev olduğundan ve mevcut bir algoritma olmadığından, yazar karşılaştırma için önerilen algoritmanın çeşitli varyantlarını oluşturmuştur: (1) MLG: giriş metninde evin boyutu ve konumu için Bir plan oluşturmak için rastgele çıkarılan en boy oranına göre bilgi; (2) C-LPN: önerilen ağ modelinin grafik evrişim bölümünü kaldırın ve planı oluşturmak için kalan modeli kullanın; (3) RC-LPN: grafiği birleştirin Kat planı oluşturmak için kısmen LSTM modeli ile değiştirildi.

PGC-LPN ve farklı model sonuçlarının karşılaştırılması

Farklı modellerin sayısal sonuçlarının ve görselleştirme sonuçlarının karşılaştırılması, diğer ağ modellerine kıyasla GC-LPN ağının gerçek dünya verilerine yakın daha makul bir plan yapısı oluşturabildiğini ve aynı zamanda giriş metninde odanın ilgili konumuna uyduğunu göstermektedir. Ve çeşitli niteliklerin ihtiyaçları.

3. Doku görüntüsü oluşturma

İkinci olarak, yazar LCT-GAN doku örüntüsü oluşturma etkisini test ederken nicel bir karşılaştırma yapmak ve görselleştirme etkisini göstermek için yüzleşme ağlarının oluşturulmasında yaygın olarak kullanılan FID ve MS-SSIM göstergelerini kullanır. Makale, klasik üretici rakip ağ algoritmaları ACGAN ve StackGAN-v2'yi karşılaştırıyor ve ayrıca doku görüntüleri oluşturmak için PSGAN algoritmasını ele alıyor. Göstergelerden veya görsel sonuçlardan bağımsız olarak, LCT-GAN tatmin edici sonuçlar elde edebilir.

LCT-GAN ve farklı model sonuçlarının karşılaştırılması

Ayrıca yazar, LCT-GAN'ın genelleme yeteneğini tartışmak için bir fark görüntü oluşturma deneyi ve yeni bir doku görüntü üretme deneyi tasarladı. Fark deneyi, iki farklı öznitelik arasındaki girdi özelliklerinde doğrusal bir fark gerçekleştirir ve aradaki fark özelliğini LCT-GAN ağına girer. Deneysel sonuçlar, farklı özellikler arasındaki farkın oluşturduğu görüntünün pürüzsüz ve aşırı olabileceğini, bu da LCT-GAN'ın genelleme yeteneğini etkili bir şekilde kanıtladığını göstermektedir. Yazar, yeni doku görüntüleri oluşturma deneyinde, LCT-GAN'ın "granit" + "pembe" gibi gerçekte var olamayacak nitelik kombinasyonları oluşturmasına izin vermeye çalıştı.Sonuçlar, LCT-GAN'ın bu tür kombinasyon nitelikleri için hala çok etkili olabileceğini gösteriyor. Karşılık gelen dokuyu oluşturmak güzel.

Fark sonucu

Yeni bir doku oluşturun

4. 3D sahne sonuçları

Son olarak, yukarıda oluşturulan plan ve doku görüntülerine dayanarak, son üç boyutlu sahne grafiğini oluşturun ve bunu gerçek dünya sahne grafiğiyle karşılaştırın. Oluşturulan sahne grafiğinin makul derecesini doğrulamak için yazar, benzer bir "Turing testi" kullanmayı düşünür. Yöntem, insanların oluşturulan sahne grafiğini gerçek sahne grafiğinden ayırt etmesine olanak tanır. Sonuçlar, test uzmanının HPGM tarafından oluşturulan tasarım sahnesini bir insan tasarımcı tarafından çizildiğine karar verme olasılığının% 39,41 olduğunu ve açıkça ayırt edilemeyen örnek test uzmanlarının% 12,65'inin olduğunu göstermektedir. Bu sonuçlar, insanların bir dereceye kadar, oluşturulan sahne grafiğinin manuel olarak mı yoksa HPGM algoritması ile mi tasarlandığını ayırt edemediğini göstermektedir.

HPGM - insan ("Beraberlik" belirsiz anlamına gelir)

Ayrıca makalenin sonunda, girdiden ara sonuçlara ve son 3 boyutlu sahneye kadar bazı eksiksiz planlar oluşturulur. Örneklemden görülebileceği gibi, HPGM giriş metninin anlamsal bilgilerine dayalı olarak karşılık gelen iki boyutlu plan ve üç boyutlu sahne grafiklerini daha iyi oluşturabilir ve insan tasarımcılar tarafından çizilen gerçek plan ve sahne grafiklerine çok benzer.

Dilden 3B sahne oluşturmaya eksiksiz örnek ekran

4. Özet ve görünüm

Makalede yazar, gerçek dünyadaki uygulama gereksinimlerini çözmek için yapay zeka algoritma modellerini kullanmaya, insan dili açıklamalarına göre karşılık gelen ev türlerini ve iç mekan sahnelerini oluşturmaya, akademik araştırmayı gerçek ürün inişiyle birleştirmeye ve yeni ve pratik bir problem çözerek algoritmaları keşfetmeye çalışıyor. Kullanılabilirliği ve fizibilitesi, çok modalite ve görüntü oluşturma alanlarında derin öğrenme modellerinin gelişimini ve ilerlemesini teşvik etmeyi umuyor. Aynı zamanda, otomatik bir 3B sahne oluşturma modeli oluşturmak, ev bölümündeki karmaşık ve sıkıcı görev süreçlerini daha iyi hafifletebilir, işçilik maliyetlerinin tüketimini azaltabilir ve gerçek süreçte maliyetleri düşürmeye ve verimliliği artırmaya yardımcı olabilir.

Cep telefonu üreticileri neden "artık kullanıcılarla arkadaş olmuyor"?
önceki
Gelişmekte olan uç bilgi işlem pazarı fırsatından nasıl yararlanılır | Intel AI Baijia İnovasyon Teşvik Programı
Sonraki
2019 Turing Ödülü, grafiklerin bilimsel mirasına verildi
22 seçilmiş CVPR 2020, Baidu tarafından seçilen 15 makalenin ayrıntılı açıklaması
Görme dili navigasyonunda yeni bir bölüm: gerçek sahnelerde uzak nesne konumlandırma ve gezinme görevleri
ICML hakemleri kızgın, makalenizi bitmeden göndermeyin!
Alibaba Cloud Dragon'un en son ASPLOS belgesinin yorumlanması olan performans sınırını aşın
CVPR 2020 | PQ-NET: Serileştirilmiş 3B şekil oluşturma ağı
Google'ın en iyi NLP ön eğitim modeli olan BERT'e karşı zafer, açık kaynaktır, tek kartlı eğitim yalnızca 4 gün sürer
"Sadece tez" ten nasıl kurtulurum? Berkeley'in "Araştırma ve Ağır Sanayi Modeli" nin başarılı deneyimini açıklayın
GAN'ın neden bu kadar gürültüye ihtiyacı var?
AAAI 2020 | En önemli hedef tespit sonuçlarını elde etmek için aşamalı parlatma kullanın
CVPR 2020 | Resimlere bakın ve istediğiniz gibi konuşun: Otomatik olarak oluşturulan ince taneli ve kontrol edilebilir görüntü açıklaması
COVID-19 ve influenzayı ayırt etmek için derin öğrenme nasıl kullanılır? İlk taramadan kritik hastalık tahminine
To Top