Facebookun yeni araştırması: gelişmiş CNN sürümü, 2D fotoğraflar da 3D efektleri simüle edebilir

Yazar | Facebook AI

Derleme | Cong Mo, Jiang Baoshang

Facebook tarafından 2018'de başlatılan "fotogrametri" adlı bir teknolojiyi hatırlıyor musunuz?

Şimdi Facebook bu teknolojiyi mükemmelleştirdi ve uygulamaya entegre etti, yani FB yazılımında statik 2D fotoğraflar kullanarak tam bir 3D stereoskopik efekt de deneyimleyebilirsiniz.

Dönüştürülmüş 3B fotoğraf "görünüşü" belirli bir bilgi derinliği içerir ve sola ve sağa sallandığında küçük bir 6DoF kısa film gibi hissedilen sürükleyici bir deneyime sahiptir.

Sadece 1 saniyede 2D fotoğraflar da 3D efektleri simüle edebilir

2018'de kullanıma sunulan 3B özellikler

FB, 2018'de 3D fotoğraf işlevini başlattı ve fotoğrafları yeni ve sürükleyici bir formatta aile ve arkadaşlarla paylaşabilir. Ancak, bu özellik çift kameralı "portre moduna" dayanır ve yalnızca yeni ve daha yüksek kaliteli akıllı telefonlarda kullanılabilir ve yalnızca tek bir arka kameralı eski mobil cihazlarda kullanılamaz. Bu 3B fotoğraf özelliğinin daha fazla kişiye fayda sağlamasını sağlamak için Facebook, standart 2B formatında neredeyse tüm fotoğraflar için 3B fotoğraflar oluşturmak üzere en gelişmiş makine öğrenimi teknolojisini kullanıyor.

Sistem, ister bir Android veya iOS cihazında tek bir kamerayla çekilmiş yeni bir fotoğraf ister on yıllar önce bir cep telefonuna veya bilgisayara yakın zamanda yüklenmiş eski bir fotoğraf olsun, herhangi bir resim için 3D mimariyi türetebilir.

Sadece bu değil, en gelişmiş çift kamera ekipmanını kullanan kişiler de bundan yararlanabilir, çünkü artık öndeki tek kamerayı 3D özçekimler yapmak için kullanabilirler. Apple cep telefonlarının iPhone 7 ve üzeri sürümlerini ve orta seviye ve üstü Android cihazlarını kullanan kişiler artık bu özelliği Facebook uygulamasında kullanabilir.

Animasyon, bir 3D görüntü oluşturmak için bir 2D resmin farklı alanlarının derinliğinin nasıl tahmin edileceğini gösterir.

3B fotoğraf teknolojisinin bu gelişmiş sürümünü oluşturmak için, çok çeşitli konu resimlerinin 3B konumunu doğru bir şekilde çıkarabilen bir model eğitmek ve sistemi geleneksel mobil işlemcilerle anında donatılabilecek şekilde optimize etmek gibi çeşitli teknik zorlukların üstesinden gelmek gerekir. Cihazda çalıştırın.

Bu zorlukların üstesinden gelmek için Facebook, milyonlarca açık 3B görüntü ve bunlara karşılık gelen derinlik haritaları üzerinde evrişimli bir sinir ağını (CNN) eğitti ve daha önce Facebook AI Araştırma Enstitüsü tarafından geliştirilen çeşitli mobil cihaz optimizasyon teknolojilerini kullandı. FBNet, ChamNet vb.

3D fotoğraf işlevleri oluşturmanın ayrıntılarına bakalım:

Yavru köpeğin orijinal fotoğrafı, herhangi bir derinlik haritası verisi olmadan tek bir kamera ile çekildi. Facebook'un 3 boyutlu fotoğraf işlevi, orijinal fotoğrafı 3 boyutlu bir fotoğrafa dönüştürür.

Mobil cihazlarda da yüksek performans elde edilebilir

Standart bir RGB görüntüsü verildiğinde, 3B fotoğraf evrişimli sinir ağı, özellikle aşağıdaki dört adımda her pikselin kameradan uzaklığını tahmin edebilir:

  • Parametrelendirilebilir ve mobil olarak optimize edilmiş sinir ağı yapı modüllerinden oluşan bir ağ mimarisi;

  • Bu modüllerin etkili konfigürasyonunu bulmak için otomatik mimari arama, böylece sistem çeşitli cihazlarda görevleri bir saniyeden daha kısa sürede gerçekleştirebilir;

  • Yüksek performanslı INT8 nicemlemenin mobil cihazlarda kullanılabilmesi için niceleme algılama eğitimini gerçekleştirirken, niceleme sürecindeki olası kalite bozulmasını en aza indirin;

  • Halka açık 3 boyutlu fotoğraflardan büyük miktarda eğitim verisi gelir.

Sinir ağı yapı taşları

Mobil cihazlar için optimize edilmiş bir dizi ConvNet mimari sistemi olarak FBNet'ten esinlenilen sinir ağlarının yapı taşlarıyla ilgili olarak, yapı taşları arasında nokta-nokta evrişim, isteğe bağlı yukarı örnekleme, K x K derin evrişim ve ek nokta-nokta bulunur. Evrişimli kompozisyon.

Belirli bir çalışmada Facebook, U-Net tarzı bir mimari uyguladı. Bu yapının kodlayıcı ve kod çözücüsü, her biri farklı bir uzaysal çözünürlüğe karşılık gelen beş aşama içerir.

Ağ mimarisine genel bakış

Otomatik mimari arama

Etkili bir mimari konfigürasyon bulmak için Facebook, arama sürecini otomatikleştirmek için kendi gelişmiş algoritması olan ChamNet'i kullanır.

ChamNet algoritması, arama alanındaki örnekleme noktalarından yinelemeli olarak bir doğruluk tahmincisi eğitir. Tahmin edici, belirli kaynak kısıtlamalarını karşılarken tahminin doğruluğunu en üst düzeye çıkaran bir model bulmak için genetik aramayı hızlandırmak için kullanılır.

Bu ayar altında, genişleme faktörünü ve her bir modülün çıkış kanallarının sayısını değiştirebilen bir arama alanı kullandılar ve 3.4x1022 olası mimariler ürettiler. Bundan sonra, aramayı yaklaşık 3 günde tamamlamak için 800 Tesla V100 GPU kullandılar ve farklı çalışma noktalarına ulaşmak için model mimarisindeki FLOP kısıtlamalarını ayarladılar ve ayarladılar.

Nicemlemeye duyarlı eğitim (QAT) Varsayılan olarak, model eğitim için tek duyarlıklı kayan nokta ağırlıkları ve aktivasyon işlevlerini kullanır, ancak ağırlıklar ve etkinleştirmeler, önemli avantajları olan 8 bitlik tamsayılarla aynı şekilde temsil edilir. Daha spesifik olmak gerekirse, 32 bit kayan nokta işlemleri yerine 8 bitlik tamsayı işlemleri kullanmak, depolama alanından 3 / 4'lük tasarruf sağlayabilir.

3B görüntüye dönüştürmek için derinlik tahmini sinir ağımızı kullanın.

Facebook AI'nın QNNPACK'i ve diğer ayar kitaplıkları PyTorch'a entegre edildiğinden, Int8 tabanlı işlemlerin verimi de Float32 emsallerinden çok daha yüksektir. Niceleme nedeniyle kabul edilemez kalite bozulmasını önlemek için niceleme bilinci eğitimini (QAT) kullanın. QAT'in artık PyTorch'un bir parçası olduğunu belirtmekte fayda var.Eğitim sırasında nicemlemeyi simüle edebilir ve geri yayılmayı destekleyerek eğitim ve üretim performansı arasındaki boşluğu ortadan kaldırır.

Karmaşık sahnelerin 2D fotoğrafları, iyi sonuçlarla 3D'ye dönüştürülür

3B deneyimler oluşturmanın yeni yollarını bulun

Facebook, derin öğrenme algoritmalarını iyileştirmenin yanı sıra, cep telefonları gibi mobil cihazlar için daha kaliteli 3B videolar sağlamayı ve kesin derinlik tahmini yapmayı taahhüt etmektedir. Fotoğraflarla karşılaştırıldığında video daha zordur, bu nedenle bitişik iki kare arasındaki derinlik bilgilerinin tutarlı olmasını sağlamak gerekir. Bu nedenle, videonun derinlik bilgisi tahmininin daha fazla olasılık açacağı tahmin edilebilir, çünkü aynı nesnenin birden fazla gözlemi, yüksek doğrulukta derinlik tahmini için daha fazla sinyal sağlayabilir.

Facebook'a göre, sinir ağı performansının sürekli iyileştirilmesiyle, derinlik tahmini ve uzamsal muhakemenin nasıl verimli bir şekilde kullanılacağı gibi AR alanındaki pratik uygulamaları da keşfedecekler.

Hiç şüphe yok ki bu çalışma, 3B sahneleri anlamamızı geliştirmemize ve ayrıca makine navigasyon yazılımının performansını iyileştirmemize yardımcı olacaktır.

Https://ai.facebook.com/blog/-powered-by-ai-turning-any-2d-photo-into-3d-using-convolutional-neural-nets/ üzerinden

Today Paper | Yeniden yapılandırılmış yapı ve GAN denoising; döngüsel görsel gömme; stokastik optimizasyon yöntemi; Xiaobing, vb.
önceki
CIF: Nöron entegrasyonuna dayalı yeni bir konuşma tanıma mekanizması
Sonraki
Today Paper | Ortak çok görevli model; 3B insan vücudunun yeniden yapılandırılması; makine çevirisinin görsel olarak anlaşılması; doğrultucuların derinlemesine incelenmesi, vb.
Sahne sapmasını azaltmak için eylemlerin ve sahnelerin sıkı sıkıya bağlanması gerekmez ve dans eden alışveriş merkezlerini kolayca tanımlayabilir
Tsinghua ekibi başka bir atılım gerçekleştirdi! Dünyanın ilk çok dizili memristor depolama ve hesaplama entegre sistemini geliştirdi
Kulak misafiri! Mobil uygulama, yetkilendirme olmadan çağrıları izleyebilir ve başarı oranı% 90'a kadar çıkmaktadır.
Turing'in klasiklerini yeniden okurken, dokuz çürütme düşündürücüdür
Today's Paper | Hastalık durumu tahmini; ağ budama teknolojisi; haber raporları için manşet yapmak vb.
Doğrudan olay yeri Yurtiçi ve yurtdışındaki giriş ve çıkış havalimanlarında vücut sıcaklığı ölçümü, uçaktaki herkes maske takıyor
Virüsler ve hastalıklarla ilgili kitapların listesi: insan uygarlığının tarihi ve direniş değişti
20'den fazla IOU, 8 yıllığına geri ödedi
Yasadışı sokak satıcıları, şehir yönetimi yetkilisinin tepkisiyle yerde ayaklar altına alındı: bu gerçekten de aşırı
Sahte "özel kuvvetler" yaklaşık 200.000 kadını dolandırdı ve onun için çocuk doğurdu
Herkes, yaklaşan Fare Yeni Ay Yılı'nın bir ay daha vardiyası olacak ...
To Top