CVPR 2018: Tencent'in görüntü bulanıklaştırma ve otomatik portre manipülasyonu konusundaki son araştırması

Xinzhiyuan Raporu

Kaynak: Tencent Youtu

Editörler: Jiang Lei, Craig

Xin Zhiyuan Rehberi Haziran ayında ABD, Salt Lake City'de düzenlenen en iyi bilgisayar vizyonu konferansı olan CVPR 2018'de, Tencent Youtu'nun seçtiği iki makale, yüksek uygulama değeri nedeniyle akademi ve endüstrinin ilgisini çekti.

Bilgisayarla görme alanındaki en üst düzey konferanslardan biri olan CVPR'nin makaleleri, genellikle bilgisayarla görme alanındaki en son gelişme yönünü ve seviyesini temsil eder.

Tencent Youtu'nun birçok makalesi CVPR2018'e dahil edildi. Ölçekli yinelemeli derin sinir ağına dayalı görüntü bulanıklaştırma algoritması ("Scale-recurrentNetwork for Deep Image Deblouring"), AI teknolojisinin spesifik olmayan sahne görüntüsü çapaklarının giderilmesinde uygulanmasını tanıttı ve Facelet-Bank ile hızlı portre işleme (Facelet-Bank for Fast Portrait Manipulation), portreleri hızlı bir şekilde işlemek için yapay zeka teknolojisinin uygulanmasını tanıttı.Bu iki teknoloji, görüntü işlemeyi uzun süredir sıkıntıya sokan bazı sorunları çözdü ve büyük uygulama değerleri nedeniyle sektörün dikkatini çekti.

Çapak Bulanıklaştırma Hareket Bulanıklığı: Belirli olmayan sahneler için pratik bir görüntü bulanıklaştırma teknolojisine doğru

Yavaş pozlama veya hızlı hareketle fotoğraf çekerken, görüntü bulanıklığı genellikle fotoğraf çekiciyi rahatsız eder. Youtu Lab'daki araştırmacılar, bulanık görüntüleri geri yükleyebilen etkili yeni algoritmalar geliştirdiler.

Bundan önce, görüntü bulanıklaştırma, endüstriyi rahatsız eden görüntü işlemede her zaman bir sorun olmuştur. Görüntü bulanıklığının nedeni çok karmaşık olabilir. Örneğin, kamera titriyor, odak dışı, öznenin yüksek hızlı hareketi vb. Mevcut resim düzenleme yazılımındaki araçlar genellikle tatmin edici değildir. Örneğin, Photoshop CC'deki "kamera titremesini azaltma" aracı yalnızca basit kamera çevirme bulanıklığını kaldırabilir. Bu tür bulanıklığa bilgisayarla görme endüstrisinde "tek tip bulanıklık" denir. Bulanık resimlerin çoğu "tekdüze bulanık" değildir, bu nedenle mevcut resim düzenleme yazılımının uygulaması çok sınırlıdır.

Bulanık fotoğraf

Çapak alma sonrası fotoğraf

Tencent Youtu Lab'ın yeni algoritması, spesifik olmayan sahnelerde bulanıklığı kaldırabilir. Algoritma, " Hareket bulanıklığı "Bulanıklaştırma modeli hipotezi. Her pikselin hareketini ayrı ayrı modeller, böylece neredeyse tüm hareket bulanıklığı türlerini işleyebilir. Örneğin, yukarıdaki resimde, kamera sarsıntısının neden olduğu çevirme ve döndürme, her karakterin hareket yörüngesi şöyledir: Aynı değil.Tencent Youtu Lab'in yeni algoritması ile işlendikten sonra, resim neredeyse tamamen net bir hale getirildi ve hatta arka plandaki kitaplardaki kelimeler bile netleşti.

Tencent Youtu Lab'den bir araştırmacıya göre, Tencent Youtu tarafından benimsenen temel teknoloji derin bir sinir ağıdır. Binlerce çift bulanık / net görüntü grubunu eğittikten sonra, güçlü sinir ağı, bulanık görüntü yapısının nasıl temizleneceğini otomatik olarak öğrenir.

Görüntü bulanıklaştırma için sinir ağlarının kullanılması yeni bir fikir olmasa da, Tencent Youtu Lab, model eğitimini kolaylaştırmak için benzersiz bir şekilde fiziksel sezgiyi birleştirdi. Tencent Youtu Lab'ın yeni algoritmasıyla ilgili makalede, ağı bir tür " Kabadan inceye "Olgun görüntü geri yükleme stratejisi. Bu strateji, önce bulanık görüntüyü birden çok boyuta indirger, ardından geri yüklemesi daha kolay olan daha küçük ve daha net görüntülerden başlar ve daha büyük boyutlu görüntüleri kademeli olarak işler. Her adımda üretilen net görüntü Ağ eğitiminin zorluğunu azaltarak daha büyük görüntülerin restorasyonuna daha fazla rehberlik edebilir.

AI portre sanatçısı: portre özelliklerini hızlı ve zarif bir şekilde işleyin

Portre fotoğraflarında yüz özelliklerini (sadece güzelleştirme değil) değiştirmek çok zordur. Sanatçılar, değiştirilen görüntülerin doğal ve güzel görünmesi için genellikle portrelerde birçok düzeyde işlem yapmalıdır. AI bu karmaşık işlemleri devralabilir mi?

Profesör Jia Jiaya liderliğindeki Tencent Youtu Lab'den araştırmacılar, " Otomatik portre işleme "En son modeli". Bu modelle, kullanıcı basitçe istenen efektin üst düzey bir tanımını sağlar ve model, komuta göre fotoğrafı otomatik olarak sunar, örneğin, onu daha genç / yaşlı yapma vb.

Bu görevi tamamlamak için ana zorluk, "girdi-çıktı" örneklerinin eğitim için toplanamamasıdır. Bu nedenle, denetimsiz öğrenmedeki popüler "üretken çekişmeli" ağ genellikle bu görev için kullanılır. Bununla birlikte, Youtu ekibi tarafından önerilen yöntem, rakip ağlar oluşturmaya dayanmamaktadır. Sinir ağını gürültülü hedefler üreterek eğitir. Derin evrişimli ağın gürültü azaltma etkisi nedeniyle, ağın çıktısı öğrenilen hedeften bile daha iyidir.

"Üretken düşmanlık ağı güçlü bir araçtır, ancak optimize etmek zordur. Bu sorunu çözmek için daha basit bir yol bulmayı umuyoruz. Bu çalışmanın sadece sanatçılar üzerindeki yükü azaltmakla kalmayıp aynı zamanda mühendislerin eğitim modelleri üzerindeki yükünü de azaltacağını umuyoruz. "Tencent araştırmacıları dedi.

Raporlara göre modelin bir başka çekici özelliği de kısmi model güncellemelerini desteklemesi, yani farklı operasyon görevleri arasında geçiş yaparken modelin sadece küçük bir kısmının değiştirilmesi gerektiğidir. Bu, sistem geliştiricileri için çok dostane bir durumdur. Dahası, uygulama seviyesinden uygulamalar "aşamalı olarak güncellenebilir".

Fotoğraftaki yüz kırpılmamış ve iyi hizalanmış olsa bile, model dolaylı olarak doğru yüz alanına katılabilir. Çoğu durumda, kullanıcının orijinal fotoğrafları modele girmesi, yüksek kaliteli sonuçlar elde etmek için yeterlidir. Videonun kare kare modele girilmesi bile videonun tamamındaki yüzün niteliklerini işleyebilir.

Ek: Yukarıdaki ikisine ek olarak, Tencent Youtu Lab'ın diğer makaleleri CVPR2018 için seçildi

1. Tekrarlayan İyileştirme Ağları aracılığıyla Görüntü Segmentasyonuna Yönlendirme

Yinelenen bir sinir ağı aracılığıyla belirli bir görüntünün belirli bir alanının anlamsal bölümlemesi

Resmin belirlenen alanını doğal dilin tanımına göre bölümlere ayırmak zor bir sorundur. Önceki sinir ağı tabanlı yöntemler, bölümleme gerçekleştirmek için görüntü ve dil özelliklerinin birleştirilmesini kullanıyordu, ancak çok ölçekli bilgileri göz ardı ederek zayıf bölümleme sonuçlarına neden oluyordu. Bu bağlamda, döngüsel evrişimli sinir ağına dayalı bir model öneriyoruz, her yineleme işleminde altta yatan evrişimli sinir ağının özelliklerini ekleyerek ağın bilgiyi resmin farklı ölçeklerinde kademeli olarak yakalayabilmesi için. Modelin ara sonuçlarını görselleştirdik ve ilgili tüm kamuya açık veri setlerinde en iyi seviyeye ulaştık.

2. Poz Güdümlü Bilgi Transferi Yoluyla Zayıf Denetlenen İnsan Vücudu Parçalarının Ayrıştırılması

Duruş rehberliğinde bilgi aktarımı yoluyla zayıf denetlenen ve yarı denetlenen insan vücudu segmentasyonu

İnsan vücudu parçası analizi veya insan anlamsal bölüm bölümlemesi, birçok bilgisayarla görme görevinin temelidir. Geleneksel anlamsal bölümleme yöntemlerinde, uçtan uca eğitim için Tam Dönüşümlü Ağları (FCN) kullanmak için elle etiketlenmiş etiketler sağlamamız gerekir. Geçmiş yöntemler iyi sonuçlar elde edebilmesine rağmen, bunların performansı büyük ölçüde eğitim verilerinin miktarına ve kalitesine bağlıdır.

Bu makalede, insan vücudunun parçalarının analitik verilerini oluşturmak için insan vücudunun kilit noktalarının kolayca elde edilebilen verilerini kullanabilen yeni bir eğitim verileri elde etme yöntemi öneriyoruz. Ana fikrimiz, bir kişinin parçalarının analiz sonuçlarını benzer bir duruşla başka bir kişiye iletmek için insanlar arasındaki morfolojik benzerliği kullanmaktır. Ek eğitim verileri olarak ürettiğimiz sonuçları kullanarak, yarı denetimli modelimiz, PASCAL-Person-Part veri kümesinde 6 MIOU ile güçlü bir şekilde denetlenen yöntemden daha iyi performans gösterir ve en iyi insan parçası analizi sonuçlarını elde eder. Yöntemimiz çok yönlüdür. Morfolojik benzerlikleri anahtar noktalarla temsil edilebildiği sürece, diğer nesnelere veya hayvan parçalarının analizi görevlerine kolayca genişletilebilir. Modelimiz ve kaynak kodumuz daha sonra kamuoyuna açıklanacaktır.

3. Düşük Seviye Görme için DualConvolutional Sinir Ağlarını Öğrenmek

Çift katmanlı evrişimli sinir ağına dayalı düşük seviyeli görüşü işleme yöntemi

Bu makale, görüntü süper çözünürlüğü, kenarı koruyan görüntü filtreleme, görüntü yağmurunu giderme, görüntü bulanıklığı giderme, vb. Gibi bazı düşük seviyeli görme sorunlarının üstesinden gelmek için iki katmanlı bir evrişimli sinir ağı önermektedir. Bu düşük seviyeli görme problemleri genellikle hedef sonucun yapısının ve detaylarının tahminini içerir. Bundan esinlenerek, bu yazıda önerilen iki katmanlı evrişimli sinir ağı, hedef sonucun yapısını ve ayrıntılarını uçtan uca tahmin edebilen iki dal içerir. Tahmin edilen yapıya ve ayrıntılı bilgilere dayanarak, hedef sonuçlar, belirli problemin görüntüleme modeli aracılığıyla elde edilebilir. Bu yazıda önerilen iki katmanlı evrişimli sinir ağı genel bir çerçevedir, ilgili düşük seviyeli görme problemleriyle başa çıkmak için mevcut evrişimli sinir ağını kullanabilir. Çok sayıda deneysel sonuç, bu yazıda önerilen iki katmanlı evrişimli sinir ağının düşük seviyeli görme problemlerinin çoğuna uygulanabileceğini ve iyi sonuçlar elde ettiğini göstermektedir.

4. GeoNet: Ortak Derinlik ve Yüzey Normal Tahmini için Geometrik Sinir Ağı

GeoNet: Geometrik sinir ağı aracılığıyla ortak derinlik ve düzlem normal vektör tahmini

Bu yazıda, bir resim sahnesinin derinliğini ve düzlem normal vektörünü aynı anda tahmin etmek için geometrik bir sinir ağı öneriyoruz. Modelimiz iki farklı evrişimli sinir ağına dayanmaktadır ve geometrik ilişkilerin modellenmesi yoluyla derinlik bilgisini ve düzlem normal vektör bilgisini yinelemeli olarak günceller, bu da nihai tahmin sonuçlarının son derece yüksek tutarlılık ve doğruluğa sahip olmasını sağlar. NYU veri setinde önerdiğimiz geometrik sinir ağını doğruladık ve deneysel sonuçlar, modelimizin tutarlı geometrik ilişkilerle derinliği ve düzlem normal vektörlerini doğru bir şekilde tahmin edebileceğini gösteriyor.

5. Örnek Segmentasyonu için Yol Toplama Ağı

Yol toplama ağı aracılığıyla örnek segmentasyonu

Sinir ağlarında bilgi aktarımının kalitesi çok önemlidir. Bu makalede, bölge tabanlı örnek bölümleme çerçevesinde bilgi aktarımının kalitesini iyileştirmeyi amaçlayan bir yol toplama sinir ağı öneriyoruz. Özellikle, düşük düzeyli sinir ağı katmanında depolanan doğru konumlandırma bilgilerini iletmek, düşük düzeyli ağ ile üst düzey ağ arasındaki bilgi aktarım mesafesini kısaltmak ve tüm özellik düzeyinin kalitesini artırmak için aşağıdan yukarıya bir yol inşa ettik. Tüm yararlı bilgilerin aşağıdaki bölgesel alt ağlara doğrudan iletilebilmesi için bölgesel özellikleri ve tüm özellik seviyelerini birbirine bağlayan uyarlanabilir özellik havuzunu gösteriyoruz. Her bölgenin farklı özelliklerini yakalamak için tamamlayıcı bir dal ekledik ve sonuçta maske tahmininin kalitesini iyileştirdik.

Bu iyileştirmelerin uygulanması çok kolaydır ve daha az ek hesaplama ekler. Bu iyileştirmeler, 2017 COCO bulut sunucusu segmentasyon yarışmasında birinci, nesne algılama yarışmasında ikinci sırayı almamıza yardımcı oldu. Yöntemimiz ayrıca MVD ve Cityscapes veri kümelerinde en iyi sonuçları elde etti.

6. FSRNet: Yüz Öncülleri ile Uçtan Uca Öğrenme Yüz Süper Çözünürlük

FSRNet: Önceki bilgilere dayalı, uçtan uca eğitimli bir yüz süper çözünürlük ağı

Bu makale Tencent Youtu Lab ve Nanjing Bilim ve Teknoloji Üniversitesi tarafından yönetildi ve Gündem makalesi olarak seçildi. Yüzün süper çözünürlüğü, belirli bir alandaki süper çözünürlük sorunudur ve benzersiz yüz önceki bilgileri, daha iyi süper çözünürlüklü yüz görüntüleri için kullanılabilir. Bu makale, yeni bir uçtan uca eğitilmiş yüz süper çözünürlük ağı önermektedir.Yüz özelliği noktası ısı haritası ve segmentasyon haritası gibi geometrik bilgileri daha iyi kullanarak, yüz hizalama olmadan çok düşük çözünürlüklü insanları iyileştirebilir. Yüz görüntüsünün kalitesi. Spesifik olarak, bu makale ilk olarak kaba hassasiyette yüksek çözünürlüklü bir görüntüyü kurtarmak için kaba taneli bir süper bölme ağı oluşturur. İkinci olarak, görüntü, ince taneli süper bölümlü kodlayıcının iki dalına ve önsel bilgi tahmin ağına gönderilir. İnce taneli süper bölümlü kodlayıcı, görüntü özelliklerini çıkarır ve önceki ağ, yüzün özellik noktalarını ve bölümleme bilgilerini tahmin eder. Son iki dalın sonuçları birleştirilir ve son yüksek çözünürlüklü görüntüyü yeniden oluşturmak için ince taneli süper bölümlü bir kod çözücüye gönderilir.

Daha gerçekçi yüzler oluşturmak için, bu makale yüzleşme fikirlerini süper bölüm ağına entegre eden bir yüz süper çözünürlüklü oluşturma yüzleşme ağı önermektedir. Buna ek olarak, yüz süper puanı için yeni bir değerlendirme kriteri olarak, yüz hizalama ve yüz bölümleme olmak üzere iki ilgili görevi tanıtıyoruz. Bu iki kriter, değerlerin tutarsızlığını ve geleneksel kriterlerin (PSNR / SSIM gibi) görsel kalitesinin üstesinden gelir. Çok sayıda deney, bu makalede önerilen yöntemin, çok düşük çözünürlüklü yüz görüntülerini işlerken hem sayısal hem de görsel kalitede önceki süper çözünürlük yöntemlerinden önemli ölçüde daha iyi olduğunu göstermiştir.

7. Hızlı Zayıf Denetlenen Algılamaya Doğru Üretken Tartışmalı Öğrenme

Üretken çekişmeli öğrenmeye dayalı, hızlı ve zayıf denetimli hedef tespiti

Bu makale, hızlı ve zayıf denetimli hedef tespiti için üretken bir rakip öğrenme algoritması önermektedir. Son yıllarda, zayıf bir şekilde denetlenen hedef tespiti alanında birçok çalışma yapılmıştır. Sınırlayıcı kutuların manuel olarak etiketlenmesi olmadan, mevcut yöntemlerin çoğu, aday bölge çıkarma aşaması da dahil olmak üzere çok aşamalı süreçlerdir. Bu, çevrimiçi testi, hızlı denetlenen hedef algılamadan (SSD, YOLO, vb.) Çok daha yavaş hale getirir. Makale, yeni bir üretken karşıt öğrenme algoritması ile hızlandırılmıştır. Bu süreçte, jeneratör tek aşamalı bir hedef dedektördür.Yüksek kaliteli sınırlayıcı kutuları çıkarmak için bir ajan eklenir ve sınırlayıcı kutuların kaynağını belirlemek için ayırıcı kullanılır. Son olarak, algoritma, modeli eğitmek için yapısal benzerlik kaybını ve düşmanlık kaybını birleştirir. Deneysel sonuçlar, algoritmanın önemli bir performans artışı sağladığını göstermektedir.

8. GroupCap: Yapılandırılmış Alaka Düzeyi ve Çeşitlilik Kısıtlamaları ile Grup Tabanlı Görüntü Altyazısı

Yapılandırılmış korelasyon ve fark kısıtlamaları ile grup tabanlı otomatik görüntü tanımlama

Bu makale, görüntüler arasındaki anlamsal ilgiyi ve farklılığı modellemek için grup görüntüsü yapılandırılmış anlamsal alaka analizine dayalı bir otomatik görüntü tanımlama yöntemi (GroupCap) önermektedir. Spesifik olarak, makale ilk önce görüntünün anlamsal özelliklerini çıkarmak için derin evrişimli sinir ağını kullanır ve bir anlamsal ilişki yapısı ağacı oluşturmak için önerilen görsel analiz modelini kullanır ve ardından görüntüler arasındaki anlamsal ilişkiyi belirlemek için yapı ağacına dayalı üçlü kaybı ve sınıflandırma kaybını kullanır ( Alaka ve farklılık) modelleme için ve nihayet alaka düzeyini, derin yinelenen sinir ağını metin oluşturmak için yönlendirmek için bir kısıt olarak kullanın. Bu yöntem yeni ve etkilidir ve mevcut otomatik görüntü tanımlama yöntemlerinin hassasiyeti yüksek olmayan ve üretilen sonuçları ayırt etmeyen eksikliklerini çözer ve otomatik görüntü açıklamasının birden çok dizininde yüksek performans sağlar.

Haima ekibinin karşı saldırısına devam eden CTCC'nin yıllık kapanış oyunundaki izleyiciler
önceki
36. turun önizlemesi: Şangay Shandong ile kararlı bir şekilde dövüşüyor, Pekin Sincan'ı eziyor, Guangsha şampiyonayı önde kilitleyebilir
Sonraki
518 çeşit sos dünya rekoru kırdı, Suzhou eriştesi kuzeyden bile daha sert
Reiz'in durdurulmasından önce yazılmış: Unutulmaması gereken bir araba serisi
uyarmak! Bu kırmızı zarflar sahte, sipariş vermeyin!
Yeni Keleao çok uygun maliyetli, Peugeot 4008'i nasıl satabilirsiniz?
Bu numaralarda ustalaşın ve baharda on kat daha güzel fotoğraflar çekin! Bir saniyede küçük bir peri ol!
Jinyi Studios IMAX Markası Ortaya Çıktı
Ford Shelby GT40: Eski tarz
Çok fazla insan kiraz çiçeklerini mi izliyor? İlkbaharda Japonya'da daha rüya gibi çiçek tarlaları var
Tiggo 3x bir dünya yaratmak için teknolojiye güvenebilir mi?
Erkek arkadaşımı Yeni Yıl için eve ilk götürdüğümde sonuç hahahahahahahahaha oldu ~
Puanlamaların 35 raundundan sonra Guangsha, Liaoning'in ikinci sırayı almasına öncülük etti ve Sincan, play-off'larda yedinci üçüncü sıraya düştü.
GAC Mitsubishi Outlander: Kriz zamanlarında bir bahis
To Top