CVPR18 Best Paper Speech: Araştırma görevleri arasındaki bağlantı, transfer öğrenimi için doğru duruştur

Leifeng.com AI Technology Review Press: Bu yılın CVPR 2018 En İyi Makalesi "Taskonomy: Disentangling Task Transfer Learning" (Taskonomy: Disentangling Task Transfer Learning) çok yeni bir konuyu, yani görsel görevler arasındaki ilişkiyi inceledi. Elde edilen ilişki, öğrenmenin farklı görevler arasında aktarılmasına yardımcı olabilir. Çeşitli görevler için yapmaya alışkın olduğumuz araştırmalarla karşılaştırıldığında, bu makale bilgisayarla görme alanında bir bahar esintisi olarak tanımlanabilir.

CVPR 2018 sırasında, Leifeng.com AI Technology Review, sahada raporlama yapan tek kayıtlı medyaydı ve bu makalenin canlı konuşmasına da katıldı. Konuşmacı, Stanford ve UC Berkeley'de doktora sonrası araştırmacı olan baş yazar Amir R. Zamir. Halen doktora öğrencisiyken, "Structural-RNN: Deep Learning on Spatio-Temporal Graphs" ( tezi ile CVPR 2016 En İyi Öğrenci Makalesi Ödülü'nü kazandı.

Aşağıda konuşma dinleme ve çevirinin tam metni yer almaktadır.

Amir R. Zamir: Herkese günaydın, "Taskonomy: Disentangling Task Transfer Learning" başlıklı makalemizi tanıtmama izin verin. Bu makale, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik ve Silvio Savarese ile birlikte tamamlandı.

Önce bir soru sorduk, görsel görevler arasında bir ilişki var mı? Veya hepsi bağımsızdır. Örneğin, derinlik tahmini ile yüzey normal tahmini arasında veya nesne tanıma ile iç mekan düzeni tanıma arasında herhangi bir ilişki var mı? İster sezgilerimizden ister biraz bilgimiz olsun, cevabın evet olduğunu düşünüyoruz. Örneğin, yüzey normal tahmin modellerinin, derinlik tahmin modellerinin veya iç mekan yerleşim modellerinin hepsinin nesne tanımaya çok yardımcı olabileceğini biliyoruz. Yani görevler arasında bir miktar ilişki olmalı.

Peki bu ilişkilerin etkileri nelerdir? Önemli işlevleri nelerdir? Bugün size söylemek istediğim şey bu.

Şu dört ana noktayı tanıtmak istiyorum:

  • Görevler arasındaki ilişki var

  • Bu ilişkiler, insan bilgisi olarak katılımımız olmadan hesaplamalı bir şekilde elde edilebilir.

  • Çeşitli görevler, ayrı kavramlar yerine yapılandırılmış bir alana aittir

  • Bize transfer öğrenimi için birleşik bir model sağlayabilir

Az önce gösterdiğim örnekler pek çok görsel görevden sadece birkaçı. Bazı görevleri seçerken şöyle sorular sorabiliriz: Aralarında herhangi bir ilişki var mı? Bu soruları yanıtlamak için, görevler arasındaki ilişki ve görevler arasındaki fazlalık hakkında küresel bir anlayışa sahip olmamız gerekir Görevleri tek bir görev olarak değil, kolektif olarak ele almalıyız. Daha yüksek verimlilik elde etmek için aralarındaki ilişkiyi ve fazlalığı kullanırız.

Verimliliği artırmaya değer en ilginç yönlerden biri de denetimin verimliliği, yani sorunu daha az etiketlenmiş verilerle çözmeyi umuyoruz, araştırmamızın odak noktası budur. Pek çok araştırma makalesi, modelin etiketli verilere olan ihtiyacının nasıl azaltılacağını tartışmıştır. Ayrıca ImageNet'te öğrenilen özelliklere dayalı olarak kendi kendini denetleyen öğrenme, denetimsiz öğrenme, meta öğrenme, görev uyarlaması ve ince ayarlamalar gibi yöntemler de vardır. Bu artık yaygın bir uygulama haline geldi.

Aslında, transfer öğrenimi görevler arasındaki bu ilişkilerden dolayı mümkündür. Yüksek düzeyde bir soyutlamadan, bir model tarafından öğrenilen iç durum aktarılabiliyorsa veya tercüme edilebiliyorsa, diğer görevleri çözmeyi öğrenmek için faydalı olabilir - iki görev arasında bir ilişki varsa. Bu kısımdan detaylı olarak bahsedeyim.

Örnek olarak yüzey normal tahmin görevini (yüzey normal) alarak, görüntüdeki düzlemlerin normallerini tahmin etmek için özel olarak bir sinir ağını eğitiyoruz. Ağı eğitim verilerinin sadece% 2'si ile eğitirsek, sol alt köşede böyle bir sonuç alacağız, sonuçların kötü olacağını hepimiz tahmin edebiliriz.

Sonra diğer iki görevden, görüntü yeniden gölgeleme ve görüntü bölümleme modellerinden geçtik. Taşıma sırasında, verilerin aynı% 2'si küçük bir çoğaltma ağında eğitim için kullanıldı.

Göç sonrası görüntü bölütleme modelinin performansının iyi olmadığı ancak görüntü yeniden biçimlendirme modelinin yüzey normal tahmin performansının iyi olduğu görülmektedir. Bu, görüntü reformasyonu ile yüzey normal tahmini arasındaki ilişkinin, görüntü bölütleme ve yüzey normal tahmini arasındaki ilişkiden daha güçlü ve daha yakın olduğunu göstermektedir. Sezgisel olarak, bu oldukça mantıklı ... Sahne yeniden şekillendirildiğinde, düzlemin normaliyle çok fazla bağlantısı olacağını düşünüyoruz; bunun aksine, normal tahmin ve görüntü segmentasyonu benimle ilgili. Gerçekten yapacak bir şey olmayabilir. Bu nedenle, birbiriyle ilişkili görevler için, bir görevin modelinin başka bir görevi çözmesine yardımcı olmak için yalnızca biraz daha fazla bilgiye ihtiyacımız olduğunu gözlemledik.

Verilen herhangi bir görevin çok sayıda arasındaki ilişkiyi ölçmek için bir yönteminiz varsa, tam bir grafik yapısı elde edebiliriz. Bu, farklı görevler arasındaki fazlalığı anlamayı beklediğimiz türden bir küresel penceredir. Örneğin, bir dizi denetimli öğrenim görevini çözmek için daha önce bahsettiğimiz görevler arasındaki fazlalığı kullanabilir ve eski görevleri yalnızca küçük bir kaynakla yeni görevlere aktarabilir veya yepyeni bir görevi çözebilir, neredeyse buna sahip değiliz Görevin gerektirdiği açıklama verileri. Artık yeni görevleri çözmeyi öğrenmek, sıfırdan başlamadan orijinal yapıya bazı içerikler eklemeye dönüşüyor.

Bu, çok sayıda görev arasındaki ilişkiyi ölçebilen, aralarında birleşik bir yapı önerebilen ve bunu bir transfer öğrenme modeli olarak kullanabilen, tamamen hesaplamalı bir yöntem olan "Taskonomy" mizin amacıdır. Buna, iki kelimelik görev görevi ve taksonomi taksonomisinin birleşiminden oluşan "Taskonomy" diyoruz, bu da taksonomi perspektifinden bir geçiş stratejisi öğrenmek anlamına geliyor.

Bunu özellikle yaptık. İlk olarak, anlamsal, 2D, 2.5D ve 3D görevler dahil olmak üzere toplam 26 görevlik bir dizi bulduk. Ayrıntılı ve kapsamlı bir şekilde daha çeşitli görsel görevler seçmedik.Bunlar sadece gösterim yöntemimiz için bir dizi örnektir; hesaplamaya dahil olan görev listesinin seçiminden daha sonra bahsedeceğim. İç mekan nesnelerinin yaklaşık 4 milyon fotoğrafını topladık ve ardından her bir fotoğraf 26 görev için hazırlandı. Bu görüntülerin tümü gerçektir, üretilmez; 3B görüntü görevleri için, ilgili iç mekan sahne yapısını taramak için yapılandırılmış ışık sensörleri kullanırız, böylece bu görevler için gerçek değerleri daha kolay elde edebiliriz.

Daha sonra, görev listesindeki 26 görev için göreve özel 26 sinir ağı eğittik Bu resimler, bu 26 görevin çıktılarıdır. Eğrilik tahmini gibi 3B görevler, nesne tanıma gibi anlamsal görevler; renklendirme gibi bazı görevler kendi kendine denetlenir.

Görev öğrenme modelimizin dört ana adımı vardır: İlk adım, bu 26 göreve özgü ağı eğitmek ve ardından ağırlıkları kilitlemektir; şu anda, her görevin kendisi için özel olarak eğitilmiş bir sinir ağına sahiptir.

Bir sonraki adım, farklı görevler arasındaki ilişkiyi ölçmektir. Örneğin, normal tahmin ve eğrilik tahmini arasındaki ilişkinin hesaplamasını örnek alarak, küçük bir kopya modelini eğitmek için ağırlıkları kilitlenmiş normal bir tahmin modeli kullanıyoruz.Bu küçük model, eğriliği normal tahmin modelinin gösteriminden hesaplamaya çalışır. Ardından küçük modelin performansını değerlendirmek için yeni test verilerini kullanırız. Bu performans, bu iki görev arasındaki doğrudan transfer ilişkisinin değerlendirilmesinin temelidir.

Daha sonra 26 görevin bir listesi, toplam 26 x 25 kombinasyon, hepimiz bu eğitim ve değerlendirmeyi yaptık. Bu şekilde, istediğimiz tam görev ilişkisi grafik yapısını elde ederiz. Ancak, düğümler arasındaki değerlerin yine de standartlaştırılması gerekir, çünkü bu görevler kendi farklı çıktı alanlarına aittir ve aynı zamanda farklı matematiksel özelliklere sahiptir. İlişkinin açıklaması için, tüm grafik yapısının bitişik matrisini elde ettik Hesaplama sonuçlarından bazı şeylerin matriste belirleyici bir rol oynadığı açıktır. Bunun nedeni, bu görevlerin farklı çıktı alanlarında var olması, standartlaştırmamız gerektiğidir.

Matrisi standartlaştırma şeklimiz, Analitik Hiyerarşik Süreç adı verilen sıralı bir yöntemdir. Burada ayrıntılara girmeyeceğim, ancak basit terimlerle, sıralı bir model seçtik, çünkü diğer bazı analiz yöntemleriyle karşılaştırıldığında, çıktı uzayının matematiksel özellikleri hakkındaki varsayımları bizim için çok kritiktir. Ayrıntılar için lütfen makalemize bakın.

Ardından, bu tam ilişki grafiğinin yapısı tam olarak ölçülür.Bire bir görevler için değeri, görev geçişinin bağımlılık derecesidir. Herhangi iki görev arasındaki geçişin yararlı olmadığını ve birçok görev arasındaki ilişkinin zayıf olduğunu belirtmek gerekir. Ama elbette bazı güçlü ilişkiler var ve bazı bariz modeller var.

Bu seyrek ilişkiyi tüm grafik yapısından çıkarmayı umuyoruz. Bizim için, çıkarılan yapı, orijinal görevin performansını en üst düzeye çıkarmamıza yardımcı olabilir ve bize yeni görev için en iyi kaynak görevi nasıl seçeceğimizi, hangi kaynak görevin mümkün olduğunca çok göreve taşınabileceğini ve nasıl taşınacağını söyleyebilir. Görev listesinde bulunmayan yeni bir göreve gidin.

Bu adımda yaptığımız şey, basit terimlerle bir alt grafik seçim problemi olarak resmileştirilebilir. Görev listesini tanımladık.Daha önce görülen görevler gri düğümlerle, görülmeyen yeni görevler ise kırmızı düğümlerle temsil ediliyor. Sonra bazı kısıtlamalar koyarız ve optimum alt grafiği hesaplamak için ikili çıkarımı kullanırız. Hesaplama detayları, oldukça basit olan kağıtlarımızda veya posterlerimizde görülebilir.

Alt grafik çıkarma ile elde edilen sonuçlar, yepyeni görevler, sınırlı kaynakların nasıl kullanılacağı ve her bir görevin performansını en üst düzeye çıkarmak için kullanıcı tanımlı sınırları aşmayan kaynakların nasıl kullanılacağı dahil olmak üzere her bir görevi çözmek için gereken bağlantıyı sağlar ve Kullanıcı tanımlı kaynakların sayısı aslında kaynak görevin görev listesinin ne kadar büyük olabileceğini belirler. Bu bizim amacımız.

(Lei Feng Net AI Technology Review Not: Makalede aşağıdaki gibi tüm sürecin başka bir şematik diyagramı vardır)

Bahsetmek için vaktim olmayan bir diğer nokta da üst düzey görev geçişidir, yani iki veya daha fazla görev birlikte kaynak görevler ve kaynak ek yükü olarak kullanılabilir ve çerçevemiz dahilinde hesaplanabilir. Aslında, bitişik matrisimiz 26 x 25'ten çok daha büyük çünkü hala çoka bir durum var.

Deneysel sonuçlardan bahsedeyim. 26 görevlik görev listesi için, 47829 saat GPU süresi alan toplam 3000 görev taşıma ağı vardır. Modeli eğitmek bize yaklaşık 47.000 dolara mal oldu. Eğitim geçişinden sonraki model, göreve özgü ağın eğitim verilerinin yalnızca% 1'ini kullanır.

Bu, görev sınıflandırma sonuçlarının bir örneğidir. Bu örnek, daha önce bahsettiğim 26 görevi içerir, bunlardan 4'ü hedeflenmiş görevlerdir, bu da çok az veriye sahip oldukları anlamına gelir.Bu veriler, çoğaltılmış geçiş ağını eğitmek için yeterlidir ve sıfırdan eğitilemez. Yeni bir ağ. Bu görevlerin bağlantılarına baktığınızda, durumun böyle olduğunu sezgisel olarak hissedeceksiniz.3D görevler ile diğer 3D görevler arasında daha güçlü bir bağlantı vardır ve 2D görevlerle benzerlik çok düşüktür.

Taşıma stratejimizin etkisini değerlendirmek için Kazanç ve Kalite olmak üzere iki değerlendirme göstergesi öneriyoruz. Kazanç, aynı küçük miktarda veriyle sıfırdan eğitilen performansa kıyasla taşınan ağın performansının kazanma oranını ifade eder; Şekildeki koyu mavi, kazanma oranının ne kadar yüksek olduğunu gösterir, bu da geçişin etkisinin her zaman daha iyi olduğu anlamına gelir. Kalite, tüm verilerle eğitilen göreve özgü ağa kıyasla taşınan ağın kazanma oranını ifade eder. Çoğu durumda beyaz olduğunu görebiliriz, bu da taşınan bu modellerin performansının, altın standart olarak göreve özgü ağın performansıyla karşılaştırıldığı anlamına gelir. Neredeyse bitti.

Bu yalnızca bir sınıflandırma örneğidir. Kendi uygulamanızı yazabilirsiniz, ancak en iyi yol, çevrimiçi gerçek zamanlı API'mizi, taskonomy.vision/api'yi denemektir. İstediğiniz parametreleri ayarlayabilir ve görev sınıflandırmasını görüntüleyebilirsiniz. Nitel ve nicel hesaplama sonuçları. Taksonomi sonuçlarımızın ImageNet özellikleriyle kullanım için çok uygun olduğunu belirtmekte fayda var, çünkü bu aynı zamanda en sık kullanılan özelliktir. ImageNet ile ilgili bazı deneyler de yaptık.Herkes makalemizi okumaya hoş geldiniz.

Son olarak özetlemek gerekirse:

  • Görsel görev alanını tanıma hedefine doğru olumlu bir adım attık;

  • Görevi tek bir kavram olarak değil, yapılandırılmış bir alanda bir grup olarak ele alıyoruz; burada bu resim nicel bir ilişkiye dayalı olarak çizilmiştir.

  • Bu tamamen hesaplanabilir bir çerçevedir;

  • Transfer öğrenimi yapmamıza yardımcı olabilir ve ayrıca genelleştirilmiş bir algı modeli bulmamıza da yardımcı olabilir.

Web sitemizi ziyaret ederseniz, bir YouTube tanıtım videosu da görebilirsiniz. Teşekkür ederim!

(Bitiş)

Aslında, gerçek zamanlı demolar, özelleştirilmiş görev hesaplamaları için API'ler, geçiş sürecinin görselleştirilmesi, ön eğitim modelleri ve veri seti indirmeleri dahil olmak üzere çok sayıda araştırma tanıtımına ve kaynağına sahiptir. Tamamlayınız. Yazarın dediği gibi, daha fazla bilgi edinmek isteyenler orijinal makaleyi okuyabilir ve web sitelerini ziyaret edebilir.

Kağıt adresi:

Leifeng.com AI teknolojisi inceleme raporu. Daha fazla AI akademik içeriği için lütfen bizi takip etmeye devam edin.

Nubia cep telefonlarının fiyatı tekrar düştüğünde Xiaomi, maliyet performansıyla yeni rakipleriyle buluşuyor!
önceki
Xiaomi işlemcisi Qualcomm MediaTek ile savaştı ve sonuç şaşırtıcıydı!
Sonraki
Dünya çapında 5 milyar ABD doları yatırım yapıldı! Microsoft'un IoT alanındaki hedefleri ortaya çıkıyor
Lexus'u temsil edecek bir araba seçmeme izin verin, LC500h'yi seçeceğim
Geçmişte LeTV televizyonu işgal etti ve daha sonra Xiaomi cep telefonunu işgal etti. Ücretsiz reklamcılık yeni bir numara oldu!
Jifei Technology, Bayer ve Alibaba Rural Taobao ortaklaşa "Geleceğin Çiftlik Planı" nı başlattı
Geleneği aşın ve kalitenin keyfini çıkarın. Innics Ant Cinema System, en üst düzey film izleme deneyimini yaratır
PlayerUnknown's Battlegrounds'daki en kötü olay mı doğdu? "Bir çift bacak" Destiny Kupası'ndaki tüm maçların ilgi odağı oldu!
Satış uyarısı! Tam koleksiyon değerine sahip AJ13 / 14 DMP Paketi bu hafta resmi olarak piyasaya sürülecek
Test verileri size şunu söyler: Hangi 205/55 R16 lastiğinin kullanılması en iyisidir
Bu otel markası trende ayak uyduruyor ve NetEase ile iş birliği yaptıktan sonra QQ ile işbirliğine ulaştı!
Yenilik atılımı! Huitailong, "Ulusal Fikri Mülkiyet Gösterisi Kuruluşu" unvanını kazandı.
Avustralya Davetiyesi: "3AM" Avustralya'ya geldi, ancak tek başına vizesi kalmadı! Wei Shen kız arkadaşı yerini alabilir
Mısır ilk yerel akıllı telefonunu piyasaya sürdü, ancak üretim süreci son derece dolambaçlıydı!
To Top