AAAI 2019: Bir makalede Microsoft Research Asia'dan 27 önemli makaleye bakın

Xin Zhiyuan Rehberi AAAI yapılmak üzere. Bu makale, makine öğrenimi, doğal dil işleme (NLP), bilgisayarla görme ve grafikler dahil olmak üzere Microsoft Research Asia tarafından seçilen 27 makalenin yorumlarını getiriyor.

Yapay zeka alanındaki en büyük uluslararası konferans olan AAAI 2019, 27 Ocak - 1 Şubat tarihleri arasında ABD'nin Hawaii kentinde yapılacak.

Yayınlanan makale kabul sonuçlarına göre, bu yılki konferansın kabul oranı rekor düzeyde yüksek Düşük kayıt , Başvuru sayısı 7.745'e kadar çıkmakta ve başvuru sayısı sadece yaklaşık% 16'dır.

Kabul edilen makaleler arasında, makine öğrenimi, doğal dil işleme (NLP), bilgisayarla görme ve grafikler ve diğer alanlar dahil olmak üzere Microsoft Research Asia'dan 27 makale bulunmaktadır. Bu makale, Microsoft Research Asia'dan bu üç alandaki sert çekirdekli makaleleri detaylandıracaktır.

Makine öğrenme

Otoregresif olmayan makine çeviri modelleri için iki yeni optimizasyon yöntemi

2018 yılında, otoregresif olmayan makine çeviri modeli birçok araştırmacının ilgisini çekmiştir. Otoregresif olmayan model, çeviri işleminin sırasını bozar ve orijinal kelime kelime sıralı üretimi, regresyon makinesi çevirisinden tüm hedef kelimeleri bir kerede oluşturmak için dönüştürür, bu da makine çevirisinin hızını büyük ölçüde artırır. Bununla birlikte, sipariş bağımlılığı ortadan kalktığından, otoregresif olmayan modelin çeviri doğruluğu, otoregresif makine çeviri modelinden çok daha düşüktür; aynı zamanda, eksik çeviriler ve tekrarlanan çeviriler de çeviri kalitesini büyük ölçüde tehlikeye atar. Microsoft Research Asia, aşağıdaki iki makale aracılığıyla yukarıdaki iki soruna çözümler önermiştir.

Temsili kağıt: Geliştirilmiş Kod Çözücü Girişli Otoregresif Olmayan Nöral Makine Çevirisi

Makaleye bağlantı: https://arxiv.org/abs/1812.09664

Bu makalede araştırmacı, kod çözücünün giriş kalitesini iyileştirmek ve çeviri doğruluğu kaybını azaltmak için iki yöntem önermiştir. Aşağıdaki şekilde gösterildiği gibi: Birinci yöntem (Cümle-Tablo Araması), kaynak dil arama tablosunu hedef dile çevirmek ve bunu kod çözücüye girmek için doğrudan kelime dağarcığını kullanır.İkinci yöntem (Gömme Haritalama), kelime düzeyinde karşı öğrenme ve cümleler kullanır Hizalama bilgisi seviyesi, kaynak dilin kelime vektörünü kod çözücünün girdisi olarak hedef dilin kelime vektörüne hizalar.

Temel model (NART) ile karşılaştırıldığında WMT14 En-De / De-En, WMT16 En-Ro, IWSLT14 De-En, toplam 4 çeviri dili deneyleri sayesinde, bu yöntem 3 ~ 5 BLEU puanı iyileştirme sağlar Önceki en iyi çalışma (IR-NAT) ile karşılaştırıldığında, 1 ~ 5 BLEU puanlık bir gelişme var.

Bu modelin çeviri doğruluğu AT modeline daha yakındır WMT16 En-Ro veri setinde, AT modelinin (Transformer) arkasında sadece 1 BLEU noktasıdır. Çeviri hızı açısından, AT modeli (Transformer) ile karşılaştırıldığında, çeviri hızı 25 kata kadar daha hızlıdır; NAT modeline (LT, NART, IR-NAT) kıyasla, ayrıca bir hız artışı da vardır.

Aynı zamanda, bu iki yöntemin kendi avantajları vardır: Cümle Tablosu Arama, daha iyi veri kalitesine sahip WMT14 De-En ve IWSLT De-En veri setlerinde bariz avantajlara sahiptir, çünkü eğitim setine dayalı yüksek kaliteli sözlükler elde edebilir ve WMT14 En- De ve WMT16 En-Ro'da, elde edilen sözlüğün kalitesi düşüktür, bu nedenle Gömme Haritalama daha fazla avantaj gösterebilir.

Temsili belge: Yardımcı Düzenlemeyle Otomatik Aşamalı Olmayan Makine Çevirisi

Makaleye bağlantı: https://taoqin.github.io/papers/nat.reg.AAAI2019.pdf

Otoregresif olmayan modellerin tekrarlanan çevirileri ve eksik çevirileri sorunuyla ilgili olarak, makale, aşağıdaki şekilde gösterildiği gibi, yardımcı kısıtlamalara (Yardımcı Düzenleme) dayalı, otoregresif olmayan bir çeviri modeli önermektedir.

Tekrarlanan çeviri ile kod çözücünün bitişik konumunu temsil eden oluşturulan Gizli Temsil, büyük benzerliğe sahiptir, böylece kod çözme aynı çevrilmiş sözcüğü üretir. Bu amaçla araştırmacı, iki bitişik gizli katman temsil vektörü arasındaki ilişkiyi sınırlamak için Benzerlik Düzenlemesini önerdi:

S_cos, iki vektör arasındaki kosinüs mesafesini temsil eder. H_t, kod çözücünün t-inci pozisyonundaki gizli katman durum vektörünü temsil eder ve y_t, hedef kelimenin t-inci pozisyonundaki kelime gömme (gömme) vektörünü temsil eder. L_sim'in anlamı, iki bitişik konumdaki (t ve t + 1) hedef kelimeler anlamsal olarak yakınsa (s_cos çok büyükse), o zaman h_t ve h_ (t + 1) de çok yakın olmalıdır ve bunun tersi de geçerlidir.

Eksik çeviri için, kısıtlamayı yeniden yapılandırabilir (Yeniden Yapılandırma Düzenlemesi), otoregresif olmayan modelin üstüne bir ters otoregresif çeviri modeli ekleyebilir ve ardından kaynak cümleyi ters yön modelinde yeniden yapılandırmak için kod çözücünün gizli katman vektörünü isteyebilirsiniz. Bu kısıtlama sayesinde, otoregresif olmayan modelin çevirisi, eksik çeviri sorununun üstesinden gelmek için tüm bilgileri içermesi zorunludur.

Çeviri kalitesinin ve çeviri hızının ölçülmesi dahil olmak üzere, birden çok veri kümesinde her bir temel algoritma ile performans karşılaştırması. NAT-REG algoritması sadece iyi bir performansa sahip olmakla kalmaz, aynı zamanda çeviri hızında da önemli bir gelişmeye sahiptir (yukarıdaki şeklin son iki sütunu). Bu iki kısıtlama sayesinde, otoregresif olmayan makine çeviri modellerinin yinelenen çevirileri ve eksik çevirileri olgusu büyük ölçüde hafifletildi.

Derin Sinir Ağı Modelinin Genelleştirilmesi ve Genelleme Hatasının Karakterizasyonu

Makine öğrenimi alanında, derin sinir ağı modellerinin genelleme özelliklerini anlamak ve bunların genelleme hatalarını karakterize etmek sıcak bir konudur. "ReLU Sinir Ağlarının Temel Yol Normuna Göre Kapasite Kontrolü" makalesi bu teorik araştırmayı tartışmaktadır.

Temsili kağıt: ReLU Sinir Ağlarının Temel Yol Normuna Göre Kapasite Kontrolü

Makaleye bağlantı: https://arxiv.org/abs/1809.07122

ReLU sinir ağının pozitif ölçeklenebilirlik değişmezliği vardır, yani gizli bir düğümün tüm gelen kenarları sabit bir c ile çarpılır ve tüm giden kenarlar sabit bir c ile bölünür ve ReLU sinir ağının çıktı değeri değişmeden kalır. Bu nedenle, sinir ağlarının genelleme özellikleriyle ilgili uygun bir metrik, pozitif ölçeklenebilirlik değişmezliğine sahip olmalıdır. ReLU sinir ağına dayalı yol ölçüsü de bu özelliği karşılar.

Sinir ağının yolu ile ilgili olarak, ReLU sinir ağı yönlendirilmiş bir döngüsel olmayan grafik olarak kabul edilir, bir yol p, giriş düğümünden çıkış düğümüne giden bir yoldur ve v (p) yolunun değeri, içinden geçtiği yol olarak tanımlanır. Parametrelerin çarpımı. ReLU sinir ağının k-inci boyut çıktısı şu şekilde ifade edilebilir:

P_ (i k), i-inci giriş düğümünü ve k-inci çıkış düğümünü bağlayan tüm yollar kümesini temsil ettiğinde; a (p; x), birden çok etkinleştirmeden sonra yolun değerini temsil eden sırasıyla 1 veya 0 değerini alır İşlev uygulandıktan sonra çıktıya akıp gitmeyeceği

P_ (i, j) yolunun değeri w_ (1, i) w_ (2, j) 'ye eşittir, daha sonra yollar birbiriyle ilişkilidir, örneğin, v (p_ (2,2)) = (v (p_ (1,2 )) v (p_ (2,1))) / v (p_ (1,1)).

Yol-norm, ReLU sinir ağının genelleme yeteneği ile yakından ilişkili olduğu kanıtlanan tüm yol değerlerinin L2-normu olarak tanımlanır. Bununla birlikte, sinir ağının tüm yol değerleri ilişkilidir (yukarıdaki şekilde gösterildiği gibi), bu da Optimizasyon algoritmasına bir kısıtlama olarak Yol-norm eklendiğinde kapalı güncelleme kuralının çözülmesini imkansız hale getirir. Bazı çalışmalar, temel yol olarak adlandırılan yol değerleri arasındaki ilişkiyi inceleyerek tüm yol değerleri arasında bir dizi ilişkisiz yol bulmuştur ve yolların geri kalanı temel yolun değeri ile hesaplanabilir.

Bu makale, temel yola dayalı bir metrik önermektedir. İlk olarak, temel yol iki kategoriye ayrılabilir: Bir türün değeri, temel olmayan bir yolu ifade ederken payda görünür ve ikinci türün değeri, temel olmayan bir yolu ifade ederken paydada görünür. Bu nedenle, paydada görünen temel yol değeri çok büyük veya çok küçük olamaz. Bu nedenle, birincisinin değerini 0'a yakın ve ikincisinin değerini 1'e yakın olacak şekilde sınırlayarak, araştırmacı bundan esinlenerek, yalnızca temel yola dayalı bir metrik önerdi: BP-norm.

Tanım 1: Herhangi bir yol değeri vektörü için (BP-norm)

BP-norm şu şekilde tanımlanır:

,onların arasında

BP normuna göre aşağıdaki genelleme hatası üst sınırı elde edilebilir.

Teorem 1: En azından 1- olasılıkla, F hipotez uzayının genelleme hatası (test hatası-eğitim hatası) aşağıdaki gibi üst sınırda olabilir:

Burada (u; d, H, L) = (e ^ 2u + du ^ 2) (1 + Hu ^ 2e ^ 2u) ^ (L-2) (4H) ^ L, d, Boyutları girin, H ağın genişliğini, L ağın derinliğini temsil eder.

BP normunu, kayıp işlevine normal bir terim olarak ekleyin ve BP düzenli kayıp işlevini optimize etmek için SGD ve G-SGD'yi kullanın. Aşağıdaki tablo eğitim hatasını, test hatasını ve görüntü sınıflandırma görevindeki algoritmanın genelleme hatasını gösterir, burada genelleme hatasının boyutunu yansıtır. Sonuçlar, BP düzenli algoritmasının, daha küçük bir genelleme hatası elde etmek için modelin karmaşıklığını etkili bir şekilde azaltabileceğini göstermektedir.

Doğal dil işleme

AI ayrıca otomatik olarak baraj gönderebilir

Baraj, insanların videoları izleme alışkanlığı haline geldi; farklı kullanıcılar arasındaki baraj, genellikle bağlamsal bir tepki ilişkisi oluşturarak barajı yeni bir sosyal mod haline getiriyor. Bu fenomeni temel alan Microsoft Research Asia, LiveBot adında otomatik bir baraj oluşturma sistemi tasarladı. Bu sistemde iki zorluğun üstesinden gelinmesi gerekir: Biri video içeriğini tam olarak anlamak ve diğer kullanıcıların yorum bültenlerine dayalı olarak uygun içerik oluşturmak, diğeri ise uygun zamanda ilgili video çerçevesinde görüntülemek.

Temsilci kağıt: LiveBot: Görsel ve Metinsel Bağlamlara Dayalı Canlı Video Yorumları Oluşturma

Kağıt bağlantısı:

Bu makale, video ve metnin bağlamsal bilgilerine dayalı olarak baraj oluşturmak için iki derin sinir ağı modelini tartışıyor ve modelin etkinliğini doğrulamak için 2.361 video ve 895.929 barajı içeren büyük ölçekli bir eğitim veri seti oluşturuyor.

Deneysel sonuçlar, LiveBot'un videoları izlerken baraj yorumları yapan gerçek kullanıcıların davranış özelliklerini doğru bir şekilde öğrenebildiğini, video içeriğini etkili bir şekilde anladığını ve kullanıcı yorumlarıyla etkileşime girdiğini ve objektif değerlendirme göstergelerinde mükemmel sonuçlar elde ettiğini gösteriyor.

Denetimsiz makine çevirisinde en son performans iyileştirmeleri

Geçtiğimiz yıl, denetimsiz makine çevirisi, makine çevirisi çevrelerinde yavaş yavaş bir araştırma noktası haline geldi. Denetimsiz bir senaryoda, nöral makine çeviri modeli, aşamalı yineleme için temel olarak ortak eğitim veya yinelemeli geri çeviri kullanır. Bununla birlikte, etkili denetim sinyallerinin eksikliğinden dolayı, geri çeviri ile elde edilen sözde eğitim verileri çok fazla gürültü içerecektir.Bu gürültüler, yinelemeli süreçte nöral makine çeviri modelinin güçlü örüntü eşleştirme yeteneği ile güçlendirilecek ve bu da modelin son çeviri performansına zarar verecektir. .

Temsilci kağıt: Posterior Regularization olarak SMT ile Denetimsiz Nöral Makine Çevirisi

Kağıt bağlantısı:

Bu makale, SMT'yi (İstatistiksel Makine Çevirisi) denetimsiz NMT'nin eğitim sürecine tanıtmak için Posterior Regularization'ı kullanır ve denetimsiz NMT'nin yinelemeli sürecindeki gürültüyü oluşturmak için EM süreci boyunca dönüşümlü olarak SMT ve NMT modellerini optimize eder. Etkili bir şekilde kaldırılabilir ve NMT modeli, SMT modelinin cümle akıcılığı eksikliğini de telafi eder.

Bu yöntemin genel yapısı, yukarıdaki şekilde gösterildiği gibi kabaca iki kısma ayrılmıştır. Solda model başlatma yer almaktadır. İki dilin kelime yerleştirmeleri (İngilizce ve Fransızca gibi) tek dilli verilerle eğitilir ve ardından denetimsiz bir eğitim yöntemi ile diller arası gömme elde edilir ve kosinüs benzerliği hesaplanarak başlangıç elde edilir. Kelimeden kelimeye çeviri olasılık tablosu (kelime tercüme tablosu). Tek dilli eğitimle elde edilen dil modeli (dil modeli) ile birlikte bu çeviri olasılık tablosu, ilk SMT modelinin özellikleri olarak kullanılır ve böylece modelin başlatılması tamamlanır.

Yukarıdaki şeklin sağ tarafı, yöntemin ana parçasıdır İlk SMT modeli, bir grup tek dilli veriyi çevirir ve oluşturulan sözde veriler, ilk NMT modelinin eğitim verisi olarak kullanılır. İlk NMT modeli eğitildikten sonra, alternatif geri çeviri yapmaya devam edecek (sağ alt, yinelemeli geri çeviri NMT) ve bir grup yeni sahte veriyi çevirmek için yakınsak NMT modelini kullanacaktır. Bu zamanda üretilen sözde veriler çok fazla gürültü içerir ve yeni bir SMT modeli bu sözde veri grubu aracılığıyla eğitilebilir (sağ üst, PR olarak SMT). SMT modeli, segmente dayalı olarak daha yüksek kaliteli bir ifade çeviri tablosu oluşturarak sözde verilerdeki gürültüyü filtreler ve daha iyi çevirilebilirliğe sahip bir dizi sözde çevrilebilirlik elde etmek için yeni bir tek dilli veri kümesini çevirir. veri. Bu sahte veri grubu daha sonra önceki NMT modeline ince ayar yapmak için kullanılabilir ve ardından NMT modeli yeniden çevrilir. NMT ve SMT eğitim sürecini bir EM eğitim çerçevesine entegre ediyoruz ve iki süreç, sonunda birleşene kadar etkileşimli olarak yineleniyor.

İngilizce-Fransızca (en-fr) ve İngilizce-Almanca (en-de) dil çiftleri üzerinde yapılan deneylerde, bu yöntem önceki yöntemlerden önemli ölçüde daha iyidir ve denetimsiz makine çevirisi performansını önemli ölçüde artırır.

Yeni TTS: Tacotron2 ve Transformer'in avantajlarını birleştirir

Gerçek insan kaydına yakın net ve doğal sesi sentezlemek için insan-bilgisayar etkileşiminde önemli bir görev vardır, yani Metin Okuma (TTS).

Geçtiğimiz birkaç on yılda, sıralı modeller ve parametrik modeller TTS alanında iki ana akım olmuştur; ancak, her ikisi de çok karmaşık iş hatlarına sahiptir ve etkili akustik özellikleri seçer. Genellikle çok zaman alır ve dil ile yakından ilgilidir. Ayrıca bu iki yöntemle sentezlenen ses düzgün değildir ve ritim ve telaffuz ile gerçek kişi kaydı arasında büyük bir boşluk vardır.

Sinir ağlarının yükselişiyle birlikte, Tacotron ve Tacotron2 gibi bazı uçtan uca TTS modelleri yavaş yavaş ortaya çıktı, bu da sentezlenmiş sesin kalitesini büyük ölçüde iyileştirdi ve hatta belirli belirli veri kümelerindeki gerçek insanlarla karşılaştırıldı. Kayıtlar karşılaştırılabilir. Bu uçtan uca TTS modelinin iki ana bölümü vardır: kodlayıcı ve kod çözücü. Kodlayıcı, gizli bir durum dizisi oluşturmak için metni anlamsal alana eşlemekten sorumludur; daha sonra kod çözücü (genellikle RNN'ye dayalı bir sinir ağı) ve dikkat mekanizması bu gizli durum dizisini şu şekilde çözer: Spektrum.

Bununla birlikte, RNN'de, her bir gizli durumun oluşturulması, önceki tüm gizli durumlara ve o andaki girdiye dayanır; bu nedenle, model yalnızca seri olarak hesaplanabilir, bu da ağın paralel hesaplama gücünü sınırlar ve hesaplama verimliliğini azaltır. Ve RNN'nin birbirinden çok uzaktaki iki girdiye doğrudan bağımlılık kurması zordur. Son zamanlarda popüler olan öz-ilgi ağı (Transformer), eğitim sırasında paralel hesaplamayı başarabilir ve giriş sırasındaki herhangi iki simge arasında doğrudan bir bağımlılık kurma yeteneğine sahiptir.

Temsilci kağıt: Trafo Ağı ile Sinirsel Konuşma Sentezi

Makaleye bağlantı: https://arxiv.org/abs/1809.08895

Makale, Tacotron2 ve Transformer'in avantajlarını birleştiriyor ve yeni bir TTS modeli öneriyor: Tacotron2'deki orijinal RNN'nin değiştirilmesi ve çok başlı dikkat mekanizmasını kullanarak kodlayıcı ile kod çözücü arasındaki dikkat. Böylelikle bir yandan öz-dikkat mekanizması ile ağ paralel olarak hesaplanarak eğitim verimi orijinalinin 4 katına ulaşmış olur; aynı zamanda herhangi iki girdi arasında doğrudan uzun mesafe bağımlılığı kurulabilir. Öte yandan, çok başlı dikkat mekanizması, girdi bilgilerini birden çok açıdan entegre edebilir.

Yukarıdaki şekilde gösterildiği gibi, Tacotron2 temelinde, Transformer'in kodlayıcısı ve kod çözücüsü, sırasıyla orijinal iki yönlü RNN kodlayıcı ve çift katmanlı RNN kod çözücünün yerini almak için kullanılır; Öte yandan, orijinal dikkat mekanizması, daha iyi hale getirmek için çok başlı bir dikkat mekanizması ile değiştirilir. Giriş bilgilerinin özellik çıkarımı; Ek olarak, konumsal kodlama gibi diğer ağ yapılarını da ayarladık. Bu modelde, bir öz-dikkat mekanizmasının varlığından dolayı, uzun mesafeli bağımlılık daha iyi kurulabilir, böylece prozodiyi içeren ses özellikleri daha iyi modellenebilir.

MOS testinde (tam puan 5), hem Tacotron2 hem de Transformer TTS modeli gerçek vokal kayıtlarına (yani yer gerçeği) çok yakın puanlar alabilir. CMOS testinde (çift karşılaştırma, puan puanları), yöntemimiz Tacotron2'ye kıyasla önemli bir performans artışı sağlayabilir.

Öte yandan, Transformer TTS modeli ve Tacotron2 ile sentezlenen mel spektrumu karşılaştırıldığında, ikisinin düşük frekans kısmında benzer olduğu ve her ikisinin de güçlü yetenekler sergilediği; yüksek frekans kısmında, Transformer TTS modeli spektrumun dokusunu daha iyi geri yükleyebilir. , Sentezlenen sesin daha yüksek kalitede olması için.

Yeniden yazma tabanlı açıklama oluşturma modeli daha verimlidir

Temsilci kağıt: Açıklama Oluşturma için Sözlük Kılavuzlu Düzenleme Ağları

Makaleye bağlantı: https://arxiv.org/pdf/1806.08077.pdf

Doğal dil işlemede, bilgi erişimi, otomatik özetleme, cümle çevirisi ve diğer görevler gibi cümle açıklaması yaygın olarak kullanılmaktadır. Paraphrase, orijinal cümleyi başka bir şekilde ifade etmeyi ifade eder ve aynı zamanda orijinal cümle ile aynı anlama sahiptir. İnsanlar cümleyi yeniden anlatmayı tamamladıklarında, cümledeki bazı kelimeleri değiştirmek için genellikle eşanlamlılar kullanırlar ve daha sonra değiştirmeden sonra cümleyi değiştirirler.

Bu bir başlangıç noktası olarak, makale ağları yeniden yazmaya dayalı bir açıklama oluşturma modeli önermektedir. Açıklama üretme modeli, ilk olarak bir dizi kelime düzeyinde açıklama çiftini almak için orijinal cümleyi kullanır; daha sonra bir dizi sabit uzunluklu vektör elde etmek için geri alınan açıklama çiftlerini kodlar; son olarak yeniden yazma ağına dayalı olarak cümle açıklamasını tamamlar.

Yukarıdaki şekilde gösterildiği gibi, açıklama oluşturma modeli, diziden diziye model (Seq2Seq) çerçevesine dayanmaktadır. Kod çözme sürecinde, dikkat mekanizması, alınan açıklama çiftlerinin ağırlıklarını ve ağırlıklı Sonuç, kod çözücüde kullanılır. Örneğin, modelin üstesinden gelmek için kodu çözüldüğünde, açıklama çiftlerini kullanmaya (üstesinden gel, kurtul) daha çok odaklanacaktır. Dikkat mekanizması aracılığıyla, modelin kendi kendine nasıl yeniden yazacağını ve nerede değiştirilmesi ve ayarlanması gerektiğini öğrenmesine izin verin.

Yukarıdaki şekilde gösterildiği gibi, MSCOCO ve Quora'nın iki halka açık veri seti üzerinde yapılan deneyler sayesinde, ağı yeniden yazmaya dayalı açıklama oluşturma modeli, MSCOCO veri kümesinde en iyi deneysel sonuçları elde etmiştir. Quora veri kümesinde, açgözlü arama koşulu altında En iyi sonuçlar elde edildi.

Ek olarak, yukarıdaki şekilde gösterildiği gibi deneysel sonuçların analizi yoluyla, üretilen yorumlarda, makine, elde edilen ifadelere göre yeniden yazacak ve değiştirecektir.Bu şekilde, açıklama sonuçları ile orijinal cümle arasındaki fark, değişmezken sağlanır. Orijinal amaç.

Bilgisayar görüşü

MonoGRNet: nesnelerin üç boyutlu konumunu tahmin etmek için tek görüntü

Bir görüntüde, geleneksel nesne konumlandırma veya algılama, nesnenin görünür kısmını görüntü düzlemi üzerinde çerçeveleyebilen iki boyutlu bir sınırlayıcı kutuyu tahmin eder. Ancak bu algılama sonucu, birçok uygulama için çok az önemi olan gerçek 3B dünyada sahne anlayışının geometrik algısını sağlayamaz.

Temsilci kağıt: MonoGRNet: Monoküler 3B Nesne Yerelleştirme için Geometrik Akıl Yürütme Ağı

Makaleye bağlantı: https://arxiv.org/abs/1811.10247

Bu makale, gözlemlenen iki boyutlu projeksiyon düzlemindeki nesneleri ve monoküler RGB görüntülerinden (Amodal Bounding Box, ABBox-) geometrik çıkarım yoluyla gözlemlenmemiş derinlik boyutunu bulmak için MonoGRNet kullanımını önermektedir. 3D), yani nesnenin üç boyutlu konumu iki boyutlu video tarafından belirlenir.

MonoGRNet'in ana fikri, 3B konumlandırma problemini, monoküler RGB verileri kullanılarak çözülebilen birkaç aşamalı alt göreve ayırmaktır. Ağ, 2B görüntü düzlemindeki semantiği algılayarak başlar ve ardından 3B alanda geometrik çıkarımlar gerçekleştirir. Burada üstesinden gelinmesi gereken zorlu bir problem, piksel düzeyinde derinlik haritasını hesaplamadan örneğin 3B merkezinin derinliğini doğru bir şekilde tahmin etmektir. Bu makale, kaba örnek derinliğini yakalamak için derin özellik haritalamanın geniş algısal alanını araştıran ve daha sonra IDE'yi optimize etmek için önceki özellikleri daha yüksek çözünürlükle birleştiren yeni bir bireysel düzeyde derinlik tahmini (Örnek Derinlik Tahmini, IDE) modülü önermektedir. .

Yatay ve dikey pozisyonları aynı anda almak için, önce 3D merkezin 2D projeksiyonunun tahmin edilmesi gerekir. IDE ile birleştirildiğinde, son 3B nesne konumunu elde etmek için projeksiyon merkezini gerçek 3B alana uzatın. Tüm bileşenler, aşağıdaki şekilde gösterildiği gibi üç 3D çıkarım dalına sahip uçtan uca ağ MonoGRNet'e entegre edilmiştir. Son olarak, genel arka planda 3B sınırın sınırlayıcı kutusundaki farkı en aza indirmek için ortak geometrik kayıp işlevi optimize edilmiştir.

MonoGRNet, 2D algılama (kahverengi), ayrı derinlik tahmini (yeşil), 3D konum tahmini (mavi) ve yerel köşe regresyonu (sarı) için dört alt ağdan oluşur. Algılanan 2B sınırlayıcı kutu tarafından yönlendirilen ağ, önce 3B kutunun merkezinin derinliğini ve 2B projeksiyonu küresel 3B konumunu elde etmek için tahmin eder ve ardından yerel ortamda köşe koordinatlarını geriler. Nihai 3B sınırlama kutusu, tahmini 3B konumu ve yerel köşelere dayalı olarak küresel ortamda uçtan uca bir şekilde optimize edilmiştir.

Zorlu KITTI veri setindeki deneylere göre, ağ, 3B nesne yerelleştirmesinde en gelişmiş monoküler yöntemlerden daha üstündür ve muhakeme süresi en kısadır.

3B algılama performansı, KITTI doğrulama setindeki 3B sınırlama kutusunun ortalama doğruluğu ve her görüntünün çıkarım süresi. Stereo tabanlı 3DOP yönteminin karşılaştırılmadığını ve referans için listelendiğini unutmayın.

MVPNet: Tek bir görüntüden nesnenin 3B modelini yeniden oluşturun

Aynı görüntüde, farklı şekiller, dokular, aydınlatma ve kamera konfigürasyonları nedeniyle, tek bir RGB görüntüsünden üç boyutlu bir nesneyi yeniden oluşturmak istiyorsanız, bu oldukça kötü bir sorundur. Ancak derin öğrenme modeli, belirli bir dağıtımdan gerçek örnekler üretmek olan bu görevi yeniden tanımlamamıza izin verir. Derin evrişimli sinir ağları, normal ifadelerden, yüksek veri örnekleme yoğunluğundan, ağırlık paylaşımından vb. Yararlanır.

Üçgen ağ, yüzeyin ana temsilidir, ancak düzensiz yapısının kodlanması ve kodunun çözülmesi kolay değildir; mevcut derin ağların çoğu 3B hacimsel ızgaralar kullanır, ancak yoğun örnekleme hesaplamaları Yüksek karmaşıklık; bazı yeni yöntemler düzensiz nokta bulutu temsilini savunur, ancak düzensiz öznitelikler noktadan noktaya bire bir eşleştirme oluşturmak için ek hesaplamalar gerektirir. Bu maliyetli haritalama algoritmaları genellikle temsil etmek için daha az nokta kullanır , Seyrek bir yüzeyle sonuçlanır.

Temsilci kağıt: MVPNet: Tek Bir Görüntüden 3B Nesne Yeniden Yapılandırması için Çoklu Görüş Noktası Regresyon Ağları

Makaleye bağlantı: https://arxiv.org/abs/1811.09410

Kağıt, yoğun yüzeyleri tasvir etmek için, bakış açıları atarken mümkün olduğunca çok yüzeyi kaplamak için birden çok bakış açısından görülebilen yoğun nokta bulutlarının birleşimini kullanarak yüzeyi temsil eden etkili bir çoklu görünüm tabanlı temsil sunar. .

(A) MVPC dedi. 1-VPC'deki her piksel, o pikselden geri yansıtılan yüzey noktasını (x, y, z) ve görünürlüğünü v depolar. Depolanan 3B noktalar, görüntü düzlemindeki 2B ızgaraya göre üçgenlenir Bu görüntü, yüzeyin yönünü belirtmek için ızgara üçgenlerinin normallerini gösterir. (B) Bir RGB görüntüsü verildiğinde, MVPNet bir dizi 1-VPC oluşturur ve bunların birleşimi tahmin edilen MVPC'yi oluşturur. Geometrik kayıp fonksiyonu, tahmin edilen ve gerçek MVPC'yi ölçmek için kullanılır.

Yukarıdaki görüntü bir çoklu bakış noktası bulutu (MVPC) gösteriyor. Her nokta bulutu, görüntülenen görüntü düzlemine gömülü iki boyutlu bir ızgarada saklanır. Tek görüntülü nokta bulutu (1-VPC) bir derinlik haritası gibi görünür, ancak her piksel, o pikselden geri yansıtılan yüzey noktasının derinliği yerine üç boyutlu koordinatları ve görünürlük bilgilerini depolar. Geri projeksiyon dönüşümü, 1-VPC'de eşit kamera parametrelerine sahip nokta kümelerinin bire bir eşlenmesini sağlar. Aynı zamanda, kağıt iki boyutlu bir ızgaradan üç boyutlu noktaların yerel bağlanabilirliğini tanıtıyor, bu da bu geri yansıtılan noktalara dayalı olarak üçgen bir ızgara yüzeyinin oluşumunu teşvik ediyor. Bu noktada yüzey rekonstrüksiyon problemi, MVPC'de depolanan üç boyutlu koordinatların ve görünürlük bilgilerinin regresyonuna dönüştürülmüştür.

MVPC, yukarıda Şekil (b) 'de gösterildiği gibi bir koşullu örnekleyici olarak kodlayıcı-kod çözücü ağı kullanılarak üretilir. Kodlayıcı, görüntü özelliklerini çıkarır ve bunları farklı bakış açısı özellikleriyle birleştirir. Kod çözücü, birden çok ağırlık paylaşım dalından oluşur ve her dal, görünümle ilgili bir nokta bulutu oluşturur. Tüm 1-VPC'lerin birleşimi, aşağıdaki şekilde gösterildiği gibi nihai MVPC'yi oluşturur.

Giriş görüntüsü I verildiğinde, kodlayıcı ve kod çözücüden oluşan MVPNet, 1-VPC'lik N bakış açısına c _i geriler. N özellik (z, c_i) kod çözücünün N dallarına beslenir, burada dallar ağırlıkları paylaşır.

Gerçek bir üç boyutlu yüzey ile iki boyutlu bir düzlem arasındaki farkı ölçmek için aşağıdaki şekilde gösterildiği gibi burada yeni bir geometrik kayıp fonksiyonu önerilmiştir. Önceki bakışa dayalı yöntemlerden farklı olarak, iki boyutlu projeksiyon uzayındaki (yani görüntü düzlemindeki) özellikleri dolaylı olarak hesaplarlar ve üç boyutludan iki boyutluya boyutsallık indirgemesinden kaynaklanan bilgi kaybını göz ardı ederler.Burada MVPC, üçgen bir ağ oluşturmamızı sağlar. Kesikli yüzey değişikliklerini ızgaraya entegre etmek, yani üç boyutlu yüzeyi doğrudan hesaplamak. Geometrik kayıp işlevi, üç boyutlu hacim değişikliklerini, tahmin güvenini ve çoklu görünüm tutarlılığını birleştirerek, üç boyutlu yeniden yapılandırmanın doğruluğunu büyük ölçüde artırır.

Kayıp fonksiyonu (a) 1-VPC noktadan noktaya mesafe (b) yarı miktar üç boyutlu hacim farkı (c) çoklu görüntü tutarlılığı

Aşağıdaki şekil, genel veri seti ShapeNet ve gerçek görüntülerin sonuçlarını göstermektedir.Bu yöntemin yoğun üç boyutlu yüzeyler oluşturabildiği görülebilmektedir. Ek olarak, öğrenilen iki özelliği doğrusal bir fark olarak kullanarak ve ardından kod çözücü tarafından oluşturulan 3B yeniden yapılandırma modelini kullanarak, MVPNet tarafından öğrenilen özellik alanı iyi bir ifade ve sürekliliğe sahiptir.

ShapeNet veri kümesi sonuçlarının karşılaştırılması

Gerçek görüntü 3D rekonstrüksiyon sonucu

Öğrenilen özelliklerin doğrusal enterpolasyonu ile oluşturulan 3B rekonstrüksiyon sonuçları

Microsoft Research Asia'nın kabul edilen tüm makalelerinin listesi aşağıdaki gibidir :

  • İtici Nokta İşlemlerini Kullanan Aktif Mini Toplu Örnekleme
  • GPU'da Verimli DNN Çıkarımı için Dengeli Seyreklik
  • ReLU Sinir Ağlarının Temel Yol Normuna Göre Kapasite Kontrolü
  • Görsel Gövde Gömme ile Derin Tek Görünümlü 3B Nesne Yeniden Yapılandırması
  • Algılama veya İzleme: Uygun Maliyetli Video Nesnesi Algılama / İzlemeye Doğru
  • Açıklama Oluşturma için Sözlük Güdümlü Düzenleme Ağları
  • DRr-Net: Cümle Anlamsal Eşleştirme için Dinamik Yeniden Okuma Ağı
  • Dikkatli Çok Görüşlü Öğrenme Yoluyla Açıklanabilir Öneriler
  • FANDA: Takip Sorgu Analizi Gerçekleştirmek İçin Yeni Bir Yaklaşım
  • 3B İnsan Duruşu Tahminlerini İyileştirmek için Öğrenme Temeli Temsili
  • Kelime Temsili Öğrenmede Web Anlamsal Bilgisinden Yararlanma
  • LiveBot: Görsel ve Metinsel Bağlamlara Dayalı Canlı Video Yorumları Oluşturma
  • MonoGRNet: Monoküler 3B Nesne Yerelleştirme için Geometrik Bir Muhakeme Ağı
  • MVPNet: Tek Bir Görüntüden 3B Nesne Yeniden Yapılandırması için Çok Görüşlü Nokta Regresyon Ağları
  • Trafo Ağı ile Sinirsel Konuşma Sentezi
  • Yardımcı Düzenlemeyle Otoregresif Olmayan Makine Çevirisi
  • Geliştirilmiş Kod Çözücü Girişli Otoregresif Olmayan Nöral Makine Çevirisi
  • Geçici Süreç ve İçerik Özelliklerinin Derin Birleşmesine Sahip Çevrimiçi Makalelerdeki Popülerlik Tahmini
  • Oku + Doğrula: Yanıtlanamayan Sorularla Makine Okumasını Anlama
  • Nöral Makine Çevirisini Hedef-Çift Yönlü Anlaşmaya Göre Düzenlemek
  • Bağlama Duyarlı Prototip Düzenleme ile Yanıt Üretimi
  • Sıradan Sıraya Öğrenme için Cümle Bilge Düzgün Düzenleme
  • Graph Neural Network ile Oturuma Dayalı Öneri
  • TableSense: Elektronik Tablo Tablo Algılama için Maske R-CNN
  • Bağlı Transformatörler: Paylaşılan Kodlayıcı ve Kod Çözücü ile Nöral Makine Çevirisi
  • Güven Bölgesi Gelişim Stratejileri
  • SMT ile Denetlenmeyen Nöral Makine Çevirisi
Meitu büyük bir kayıpla listelendi, AngelaBaby büyük bir göbeğe sahip ve pazarı desteklemek için gong'u çalıyor
önceki
"Li Yunlong tarzı" kadrolar, sizi kim destekleyecek?
Sonraki
Cordyceps "sağlık bakım ürünleri" listesinden çıkarıldı! Eski Gıda ve İlaç İdaresi: Uzun süreli kullanım daha yüksek risklere sahiptir
Dow 20.000 puana yaklaşıyor. En zengin adam Bill Gates: ABD hisse senetleri çok pahalı hale geldi
Yılın "Tek Ford" stratejisinde neler değişti?
230.000'den fazla kişi katıldı ve hiçbiri para kazanmadı! Polis on milyarlarca kumar davasını çözdü!
Zidane de başardı ve Zidane mağlup oldu! Fransa dünyayı iki ucuna getiriyor ve 2006'da harikaydı ve sonsuza kadar pişmanlık bırakacak
Asker toplamak ve "lüks marka" batıl inancından kurtulmak, Borgward'ın gelecek üzerinde bir etkisi olacak mı?
Çift 11, Çift 12 çok fazla kazanıyor! Listelenmek için sıraya giren yaklaşık 200 Taocu tüccar
"2019 Fener Festivali Galası" yarın akşam yapılacak, gösterinin önemli anları ilk izlenecek
Bugün, 70 yıl önce listeye girdim!
kaza! Meizhou Shuangxiongs aynı anda liderliği bıraktı ve sezon öncesinde çok yatırım yaptı. İlk takım şu anda ikinci sırada.
Anakara düzenleyicileri tarafından hedef alınan Baoneng, Hong Kong'un finansal platformunu sessizce konuşlandırdı
Jingdezhen'deki yağmur en azından ay sonuna kadar sürecek! Okul başladığında ve tekrar yağmur yağdığında, işe ve okula gitmek için erken çıkmak zorundayım!
To Top