Yazar | Facebook AI
Derleme | Cong Mo, Jiang Baoshang
Facebook tarafından 2018'de başlatılan "fotogrametri" adlı bir teknolojiyi hatırlıyor musunuz?
Şimdi Facebook bu teknolojiyi mükemmelleştirdi ve uygulamaya entegre etti, yani FB yazılımında statik 2D fotoğraflar kullanarak tam bir 3D stereoskopik efekt de deneyimleyebilirsiniz.
Dönüştürülmüş 3B fotoğraf "görünüşü" belirli bir bilgi derinliği içerir ve sola ve sağa sallandığında küçük bir 6DoF kısa film gibi hissedilen sürükleyici bir deneyime sahiptir.
2018'de kullanıma sunulan 3B özellikler
FB, 2018'de 3D fotoğraf işlevini başlattı ve fotoğrafları yeni ve sürükleyici bir formatta aile ve arkadaşlarla paylaşabilir. Ancak, bu özellik çift kameralı "portre moduna" dayanır ve yalnızca yeni ve daha yüksek kaliteli akıllı telefonlarda kullanılabilir ve yalnızca tek bir arka kameralı eski mobil cihazlarda kullanılamaz. Bu 3B fotoğraf özelliğinin daha fazla kişiye fayda sağlamasını sağlamak için Facebook, standart 2B formatında neredeyse tüm fotoğraflar için 3B fotoğraflar oluşturmak üzere en gelişmiş makine öğrenimi teknolojisini kullanıyor.
Sistem, ister bir Android veya iOS cihazında tek bir kamerayla çekilmiş yeni bir fotoğraf ister on yıllar önce bir cep telefonuna veya bilgisayara yakın zamanda yüklenmiş eski bir fotoğraf olsun, herhangi bir resim için 3D mimariyi türetebilir.
Sadece bu değil, en gelişmiş çift kamera ekipmanını kullanan kişiler de bundan yararlanabilir, çünkü artık öndeki tek kamerayı 3D özçekimler yapmak için kullanabilirler. Apple cep telefonlarının iPhone 7 ve üzeri sürümlerini ve orta seviye ve üstü Android cihazlarını kullanan kişiler artık bu özelliği Facebook uygulamasında kullanabilir.
Animasyon, bir 3D görüntü oluşturmak için bir 2D resmin farklı alanlarının derinliğinin nasıl tahmin edileceğini gösterir.
3B fotoğraf teknolojisinin bu gelişmiş sürümünü oluşturmak için, çok çeşitli konu resimlerinin 3B konumunu doğru bir şekilde çıkarabilen bir model eğitmek ve sistemi geleneksel mobil işlemcilerle anında donatılabilecek şekilde optimize etmek gibi çeşitli teknik zorlukların üstesinden gelmek gerekir. Cihazda çalıştırın.
Bu zorlukların üstesinden gelmek için Facebook, milyonlarca açık 3B görüntü ve bunlara karşılık gelen derinlik haritaları üzerinde evrişimli bir sinir ağını (CNN) eğitti ve daha önce Facebook AI Araştırma Enstitüsü tarafından geliştirilen çeşitli mobil cihaz optimizasyon teknolojilerini kullandı. FBNet, ChamNet vb.
3D fotoğraf işlevleri oluşturmanın ayrıntılarına bakalım:
Yavru köpeğin orijinal fotoğrafı, herhangi bir derinlik haritası verisi olmadan tek bir kamera ile çekildi. Facebook'un 3 boyutlu fotoğraf işlevi, orijinal fotoğrafı 3 boyutlu bir fotoğrafa dönüştürür.
Mobil cihazlarda da yüksek performans elde edilebilir
Standart bir RGB görüntüsü verildiğinde, 3B fotoğraf evrişimli sinir ağı, özellikle aşağıdaki dört adımda her pikselin kameradan uzaklığını tahmin edebilir:
Parametrelendirilebilir ve mobil olarak optimize edilmiş sinir ağı yapı modüllerinden oluşan bir ağ mimarisi;
Bu modüllerin etkili konfigürasyonunu bulmak için otomatik mimari arama, böylece sistem çeşitli cihazlarda görevleri bir saniyeden daha kısa sürede gerçekleştirebilir;
Yüksek performanslı INT8 nicemlemenin mobil cihazlarda kullanılabilmesi için niceleme algılama eğitimini gerçekleştirirken, niceleme sürecindeki olası kalite bozulmasını en aza indirin;
Halka açık 3 boyutlu fotoğraflardan büyük miktarda eğitim verisi gelir.
Sinir ağı yapı taşları
Mobil cihazlar için optimize edilmiş bir dizi ConvNet mimari sistemi olarak FBNet'ten esinlenilen sinir ağlarının yapı taşlarıyla ilgili olarak, yapı taşları arasında nokta-nokta evrişim, isteğe bağlı yukarı örnekleme, K x K derin evrişim ve ek nokta-nokta bulunur. Evrişimli kompozisyon.
Belirli bir çalışmada Facebook, U-Net tarzı bir mimari uyguladı. Bu yapının kodlayıcı ve kod çözücüsü, her biri farklı bir uzaysal çözünürlüğe karşılık gelen beş aşama içerir.
Ağ mimarisine genel bakış
Otomatik mimari arama
Etkili bir mimari konfigürasyon bulmak için Facebook, arama sürecini otomatikleştirmek için kendi gelişmiş algoritması olan ChamNet'i kullanır.
ChamNet algoritması, arama alanındaki örnekleme noktalarından yinelemeli olarak bir doğruluk tahmincisi eğitir. Tahmin edici, belirli kaynak kısıtlamalarını karşılarken tahminin doğruluğunu en üst düzeye çıkaran bir model bulmak için genetik aramayı hızlandırmak için kullanılır.
Bu ayar altında, genişleme faktörünü ve her bir modülün çıkış kanallarının sayısını değiştirebilen bir arama alanı kullandılar ve 3.4x1022 olası mimariler ürettiler. Bundan sonra, aramayı yaklaşık 3 günde tamamlamak için 800 Tesla V100 GPU kullandılar ve farklı çalışma noktalarına ulaşmak için model mimarisindeki FLOP kısıtlamalarını ayarladılar ve ayarladılar.
Nicemlemeye duyarlı eğitim (QAT) Varsayılan olarak, model eğitim için tek duyarlıklı kayan nokta ağırlıkları ve aktivasyon işlevlerini kullanır, ancak ağırlıklar ve etkinleştirmeler, önemli avantajları olan 8 bitlik tamsayılarla aynı şekilde temsil edilir. Daha spesifik olmak gerekirse, 32 bit kayan nokta işlemleri yerine 8 bitlik tamsayı işlemleri kullanmak, depolama alanından 3 / 4'lük tasarruf sağlayabilir.
3B görüntüye dönüştürmek için derinlik tahmini sinir ağımızı kullanın.
Facebook AI'nın QNNPACK'i ve diğer ayar kitaplıkları PyTorch'a entegre edildiğinden, Int8 tabanlı işlemlerin verimi de Float32 emsallerinden çok daha yüksektir. Niceleme nedeniyle kabul edilemez kalite bozulmasını önlemek için niceleme bilinci eğitimini (QAT) kullanın. QAT'in artık PyTorch'un bir parçası olduğunu belirtmekte fayda var.Eğitim sırasında nicemlemeyi simüle edebilir ve geri yayılmayı destekleyerek eğitim ve üretim performansı arasındaki boşluğu ortadan kaldırır.
Karmaşık sahnelerin 2D fotoğrafları, iyi sonuçlarla 3D'ye dönüştürülür
Facebook, derin öğrenme algoritmalarını iyileştirmenin yanı sıra, cep telefonları gibi mobil cihazlar için daha kaliteli 3B videolar sağlamayı ve kesin derinlik tahmini yapmayı taahhüt etmektedir. Fotoğraflarla karşılaştırıldığında video daha zordur, bu nedenle bitişik iki kare arasındaki derinlik bilgilerinin tutarlı olmasını sağlamak gerekir. Bu nedenle, videonun derinlik bilgisi tahmininin daha fazla olasılık açacağı tahmin edilebilir, çünkü aynı nesnenin birden fazla gözlemi, yüksek doğrulukta derinlik tahmini için daha fazla sinyal sağlayabilir.
Facebook'a göre, sinir ağı performansının sürekli iyileştirilmesiyle, derinlik tahmini ve uzamsal muhakemenin nasıl verimli bir şekilde kullanılacağı gibi AR alanındaki pratik uygulamaları da keşfedecekler.
Hiç şüphe yok ki bu çalışma, 3B sahneleri anlamamızı geliştirmemize ve ayrıca makine navigasyon yazılımının performansını iyileştirmemize yardımcı olacaktır.
Https://ai.facebook.com/blog/-powered-by-ai-turning-any-2d-photo-into-3d-using-convolutional-neural-nets/ üzerinden