Huawei Vision Research Yol Haritası: Üç Zorluk, Altı Plan

Leifeng.com'un Yapay Zeka Teknolojisi Yorumu: Dün Huawei Geliştirici Konferansı'nda, Huawei'nin baş bilim adamı Chen Lei tarafından yayınlanan tam senaryo yapay zeka hesaplama çerçevesi MindSpore açık kaynak çerçevesi, sektörün yaygın ilgisini çekti. Sonuçta, sadece bir hafta içinde, Çin'de planlar ortaya çıktı ( Jittor, Tsinghua), Tianyuan (MegEngine, Megvii), MindSpore (Huawei) üç derin öğrenme açık kaynak çerçevesi, "2020, derin öğrenme çerçeveleri için patlama yılıdır" denilebilir.

Ancak dünkü konferansta, Huawei tarafından yayınlanan bir başka önemli plan göz ardı edilmiş gibiydi. Bu, Dr. Tian Qi tarafından yönetildi. " Huawei'nin bilgi işlem vizyonunda temel araştırma ilerlemesi ve Huawei'nin vizyon planının yayınlanması ".

Dr. Tian Qi, bilgisayar görüşü alanındaki kişilerin ona aşina olması gerekir.Tsinghua Üniversitesi Elektrik Mühendisliği Bölümü'nden mezun olduktan sonra Urbana-Champaign'deki Illinois Üniversitesi'ne gitti ve burada Thomas S. Profesör Huang. 2018'de Huawei'ye katılmadan önce San Antonio'daki Texas Üniversitesi'nde öğretmenlik yapıyordu. 2016'da multimedya alanında en etkili 10 bilim insanı arasında yer aldı ve o yıl IEEE Fellow olarak seçildi.

Dr. Tian Qi'nin katılmasının ardından, Huawei'nin Nuh'un Gemisi'nin bilgisayar görüşü alanındaki araştırması büyük bir hızla ilerledi. Makaleler açısından, ICCV 2019 ve CVPR 2019'un sırasıyla 19 ve 29 seçilmiş makalesi vardır ve ICLR ve ICML gibi algoritmaların en iyi konferanslarında yayınladıkları makalelere bakılmaksızın CVPR 2020'de 33 kadar makale bulunmaktadır.

Bu "Araştırma İlerleme Planı Yayınında", Dr. Tian Qi araştırma içeriğini üç ana yöne ayırmıştır:

Veri: Verilerden etkili bilgiler nasıl çıkarılır?

Model: Etkili bir görsel tanıma modeli nasıl tasarlanır?

Bilgi: Bilgi nasıl ifade edilir ve saklanır?

Bu temelde, Huawei Noah'ın altı vizyon planını önerdi: Veri Buzdağı Projesi, Veri Küpü Projesi, Model Yükseltme Projesi, Model Zayıflatma Projesi, Her Şey Önizleme Projesi ve Sanal Gerçeklik Planı.

Her plan kulağa çok ilginç geliyor Mantık nedir? Her biri neyi temsil ediyor?

1. Bilgisayarla görmenin üç zorluğu ve Huawei'nin araştırması

Dr. Qi Tian konuşmasında, bilgisayarla görmenin mevcut zorluklarını üç ana yöne ayırdı: veri, model ve bilgi ifadesi. (Neden bilgi işlem gücü yok? Sonuçta, bu vizyonu yapan kişi tarafından belirlenmez, aslında hesaplama gücünün dikkate alınması modele dahil edilmiştir)

1. Verilerden etkili bilgiler nasıl çıkarılır?

Bilgi çağında, bilgisayar görüşü aslında utanç verici bir şeyle karşı karşıyadır, yani internette insan işlemenin sınırını bile aşan çok büyük miktarda görsel veri vardır; ölçek ne kadar büyük olursa olsun, verilerin etiketlenmesi yalnızca görsel büyük verilerdir. okyanusa bırakın ". Büyük verilerden etkili bilgilerin nasıl çıkarılacağı hala büyük bir zorluktur.

Huawei bu bağlamda iki tipik senaryo önermiştir; biri modeli eğitmek için üretilen verilerin nasıl kullanılacağı, diğeri ise çok modlu verilerin nasıl hizalanacağıdır.

Birincisi veri üretmek, Huawei bu alanda çok fazla araştırma yaptı. Özellikle üç bölüme ayrılmıştır.

İlk olarak, otomatik veri genişletme. Bu, ICLR 2020'de yayınlanan "Adversarial AutoAugment" ile temsil edilmektedir. Bu makale, önceki NAS'ta (AutoAugment gibi) veri geliştirme için yüksek hesaplama ek yükü ve statik politika sorununu ele almaktadır. GAN'ın "yüzleşme" fikrini ödünç alan bu makale, çekişmeli kaybı ortaya koymaktadır. Bir yandan bu, eğitim için gereken süreyi büyük ölçüde azaltırken, diğer yandan, politika oluşturucunun sürekli olarak zor örnekler oluşturduğu ve bu da sınıflandırıcının sağlam özellikleri öğrenmesine ve daha iyi öğrenmesine yardımcı olabileceği düşünülebilir. (ICLR 2020 | Huawei Noah: Zekice düşünme, NAS ve "yüzleşme" kombinasyonu hızı 11 kat artırır)

İkinci olarak, daha fazla veriyi simüle etmek için GAN'ı kullanın. Bu, CVPR 2018'de yayınlanan PTGAN ve CSGAN ile temsil edilir. Birincisi ("GAN'dan Kişi Yeniden Tanımlama için Alan Boşluğuna Kişi Transferi"), yayaları bir veri kümesinden diğerine aktarmak için GAN'ı kullanan yaya yeniden tanımlama sorunu için üretken bir yüzleşme ağıdır. İkincisi ("Üretken modeller kullanarak sıkıştırılmış algılama"), algı için GAN sıkıştırmasıdır. Başka bir deyişle, "orijinal verileri" yeniden yapılandırmak için GAN kullanır. Diğer yeniden yapılandırma algoritmalarıyla karşılaştırıldığında, CSGAN daha fazladır. Çok iyi orijinal veriler birkaç ölçümle yeniden oluşturulabilir (örneklenmiş veriler olarak anlaşılabilir).

Üçüncü olarak, sanal veriler oluşturmak için bilgisayar grafik teknolojisini kullanın. Bu, CVPR 2019'da yayınlanan "CRAVES: Vizyon Tabanlı, Ekonomik Sistemle Robotik Kol Kontrolü" ile temsil edilmektedir. CRAVES çalışmasında, sanal veri üretimi ve etki alanı geçişine dayalı bir dizi eğitim prosedürü tasarladılar.Robotik kolun, zarları kapma ve onları belirtilen konuma yerleştirme görevini tamamlamak için yalnızca ek bir kamera kullanması gerekiyor. Buradaki verilerin CG teknolojisine dayalı olarak oluşturulduğunu ve robotik kolun eğitimi için ek denetim verisi sağlamaya gerek olmadığını unutmayın.

Tian Qi ayrıca, bilgi damıtma ve otomatik veri büyütme kombinasyonuna dayanan bir yöntem olan veri üretmedeki son çalışmalarını tanıttı. AutoAugment'ın (bundan sonra AA olarak kısaltılacaktır) veri setinin global optimizasyonundan geldiğini biliyoruz. Her resim için AA, resim anlamında karışıklığa neden olabilir.

Soldaki resimde görüldüğü gibi orijinal resim bir tilkidir; parlaklığını değiştirirseniz daha çok bir köpeğe, tersine çevirirseniz bu sefer kedi gibi görünecektir. Bu nedenle, modeli eğitirken orijinal sert etiketi ("tilki") kullanmaya devam etmek açıkça uygunsuzdur.

Bu sorunu çözmek için Huawei, bir bilgi damıtma yöntemi önerdi.Önceden eğitilmiş model aracılığıyla, AA resimleri için yumuşak etiketler oluşturuldu ve ardından grafiklerin eğitimine rehberlik etmek için yumuşak etiketler kullanıldı. Yukarıdaki resim, bilgi damıtıldıktan sonra üretilen yumuşak etikettir.

Sonuçlardan yola çıkarak, bilgi damıtma ile otomatik veri büyütmeyi birleştiren bu yöntem, ImageNet'te% 85,8 sonuç elde edebilir.

İkinci senaryo, çok modlu veriler için, Dr. Qi Tian, çok modlu öğrenmenin gelecekte bilgisayar görüşü alanında ana akım öğrenme modu olacağına inanıyor, bu nedenle çok önemli ve onlar da bu alana odaklanacak. Çok modlu öğrenmenin karşı karşıya olduğu mevcut zorluklar şunları içerir: çok modlu bilgi sunumu, modaliteler arasında ortak haritalama, modal uyum, modal füzyon ve çok modlu işbirliğine dayalı öğrenme.

Bu çalışmaya, yani multimodal verilerin nasıl hizalanacağına yanıt olarak, Tian Qi, ACM MM 2019'da en iyi makale için aday gösterilen "Multimodal Dialog System: Generating Responses via Adaptive Decoders" makalesine odaklandı. Buna "sihirli model" diyorlar Kağıdın kendisi, kullanıcıların makine ile diyaloğu aşma sürecinde metin veya resim girme ihtiyacı duydukları bir e-ticaret senaryosunu hedefliyor. Bu soruna yanıt olarak, bilgiyi farklı modalitelerde kodlamak için birleşik bir model kullandılar, böylece metin veya resimler bağlama göre geri beslenebilir.

2. Etkili bir görsel tanıma modeli nasıl tasarlanır?

Dr. Tian Qi, Huawei Noahnın görme modelleri hakkındaki ana araştırmasının, verimli sinir ağı modellerinin nasıl tasarlanacağı ve sinir ağı hesaplamalarının nasıl hızlandırılacağı / küçültüleceği konusunda yattığını belirtti. Başka bir deyişle, modelin nasıl daha hızlı, daha küçük ve daha verimli olduğu.

Sinir ağı modelinin tasarımı başlangıçta elle tasarlandı, ancak bu aşamada manuel ağ modelinin tasarımı bir darboğaz dönemine girdi. Buna karşılık olarak, 2017'den bu yana, otomatik ağ mimarisi araması (NAS) hızla gelişti, ancak sadece üç yıl olmasına rağmen tatmin edici bir ilerleme kaydetti.

Dr. Tian Qi, NAS'ın şu anda üç büyük sorunu olduğuna inanıyor: 1) Arama alanının hala insan deneyimi ile tanımlanması gerekiyor; 2) Aranacak operatörün manuel olarak tasarlanması gerekiyor; 3) Manuel olarak tasarlanmış ağ ile karşılaştırıldığında, taşınabilirlik zayıf.

Dr. Qi Tian, ICLR 2020'de "PC-DARTS: Hafıza Verimli Mimari Arama için Kısmi Kanal Bağlantıları" nda yayınlanan bu konudaki çalışmalarından yalnızca bir tanesine atıfta bulundu. PC-DARTS, mevcut DARTS modellerini eğitirken büyük bellek ve bilgi işlem sorunlarını giderir ve sırasıyla ağ yedekliliği sorununu ve yerel bağlantının neden olduğu istikrarsızlığı çözmek için yerel bağlantı ve kenar düzenleme teknolojileri önerir. Bu model, performans kaybı olmadan daha hızlı (benzerden iki kat daha hızlı) olabilir.

Dr. Tian Qi, sinir ağlarının nasıl hızlandırılacağı ve minyatürleştirmenin nasıl modelleneceği hakkında böyle düşünüyor. Şu anda, büyük ağ modellerinin geliştirilmesi tüm hızıyla devam etmektedir, ancak bu tür modeller bulut tarafında dağıtım için daha uygundur ve son tarafa uyarlanamaz. 2016'dan bu yana, endüstri model hızlandırma ve minyatürleştirme üzerine araştırmalar keşfetmeye başladı ve ayrıca çok sayıda minyatürleştirme çözümü önerdi. Bununla birlikte, bu şemalar pratikte aşağıdakiler dahil birçok sorunla karşı karşıyadır: 1) düşük bit nicemleme doğruluğu sınırlandırır; 2) hibrit bit ağları donanım için uygun değildir; 3) yeni operatörler tam olarak doğrulanmamıştır.

Dr. Tian Qi ayrıca CVPR 2020'de sözlü olan en son çalışmalarından birine atıfta bulundu: "AdderNet: Derin Öğrenmede Gerçekten Çarpmalara İhtiyacımız Var mı?". Bilgisayarlarda, kayan nokta işlemlerinin karmaşıklığı eklemeden çok daha yüksektir, ancak sinir ağlarında çok sayıda çarpma işlemi vardır ve bu da modellerin mobil cihazlarda büyük ölçekli kullanım olasılığını sınırlar. Peki toplamaya dayalı bir ağ tasarlamak mümkün müdür? Huawei tarafından hazırlanan bu makale, bu sorunun cevabıdır. Evrişimli ağdaki çarpma kuralını ek olarak değiştirdiler ve ağdaki çeşitli kuralları değiştirdiler: 1) Manhattan mesafesini (dahil edilen açı mesafesi yerine) olarak kullanın Her bir evrişim çekirdeği katmanı ile giriş özelliği arasındaki çıktının hesaplama yöntemi; 2) AdderNet için normal gradyanlı iyileştirilmiş bir geri yayılma algoritması tasarlayın; 3) Sinir ağının her katmanı için farklı bir uyarlanabilirlik derecesi önerin Öğrenme oranı ayarlama stratejisi. Deneysel sonuçlar, AdderNet'in çarpımsal ağlarla karşılaştırılabilir etkiler elde edebileceğini ve hesaplama güç tüketiminde bariz avantajlara sahip olduğunu göstermektedir.

3. Bilgi nasıl ifade edilir ve saklanır?

Tian Qi, Huawei'nin amacının yeni nesil görsel algı için genel bir vizyon modeli oluşturmak ve algoritmayı modelin yeniden kullanımı için aşağı akış görevlerine taşımak olduğunu söyledi.

Peki, "evrensel görsel model" nedir? Temel fikir aslında bilginin nasıl ifade edilip depolanacağıdır.

Dr. Tian Qi iki senaryo önerdi. Birincisi, ön eğitimle elde edilen model aracılığıyla bilgiyi ifade eden ve depolayan mevcut sıcak ön eğitim yöntemidir; ikincisi, temelde verileri etiketlemeye gerek kalmadan bilgiyi öğrenmek için sanal ortamların kullanılmasıdır.

Önceden eğitilmiş modelle ilgili olarak, Dr. Qi Tian, CVPR 2019'da yayınlanan çalışmalarından bahsetti: "Zayıf Mekansal Kısıtlamalarla Yinelemeli Yeniden Düzenleme: Denetimsiz Temsili Öğrenme için Keyfi Yapboz Bulmacalarını Çözme". Bu makale, keyfi boyutlardaki bulmaca problemleriyle başa çıkmak için uygun, kendi kendini denetleyen bir öğrenme yöntemi önermektedir.

Bulmaca problemi, etiketlenmemiş görüntüyü ızgaraya göre görüntü bloklarına böler ve bunların sırasını bozar ve etiketlenmemiş görüntü verilerinden anlamsal bilgi öğrenme amacına ulaşmak için ağ üzerinden doğru görüntü bloğu düzenini geri yükler. Bu makale, yakınsamaya kadar görüntü bloklarının sırasını yinelemeli bir şekilde kademeli olarak ayarlamayı önermektedir. ImageNet'te çok iyi performans elde edilebilir.

Derin öğrenme, büyük ölçüde etiketlenebilir verilere dayanır, ancak birçok senaryoda, veri etiketleme maliyetleri yüksektir. Aynı zamanda, açıklamalı verilerin ölümcül bir sorunu da var, yani yanlış bilgi ifadesi - örneğin, otonom sürüşte, çok sayıda açıklamalı bilgiye sahibiz, ancak bu etiketli veriler gerçekten otonom sürüş görevleri için "en uygun" mu? Ek olarak, dış dünya hakkındaki insan algısı sağduyuya dayanır ve eğitim için etiketli verilere dayanan modellerde sağduyu eksikliği sorunu vardır.

Bu soruna yanıt olarak, Dr. Tian Qi, sağduyuyu öğrenmek için sanal sahneler oluşturmak için sanal sahneleri kullanma yöntemi önerdi. Dr.Tian Qi, esasen robot kolları zar yakalamak için eğitmek için sanal sahneler kullanan CVPR 2019'da yayınlanan makalelerine (CRAVES) atıfta bulundu. Bundan daha önce bahsetmiştik, bu yüzden burada tekrar etmeyeceğim.

2. Huawei Vizyon Araştırma Programı

Yukarıda bahsedilen araştırma içeriğine devam eden Tian Qi daha sonra "Huawei Vision Projesi" ni yayınladı. Kısaca altı alt plan içerir:

Verilerle ilgili: Data Iceberg Projesi, Data Cube Projesi;

Modele bağlı olarak: model rötuş planı, model zayıflama planı;

Bilgiyle ilgili: her şey için vizyon planı ve gerçeklik ile kurgunun birleştirilmesi için plan.

1. Data Iceberg Projesi

Plan, veri etiketlemenin darboğaz sorununu çözmek ve veri üretiminin gerçekten manuel etiketlemenin yerini almasını sağlamaktır. Burada üç alt konu vardır:

Alt konu 1: Veri üretiminin kalitesi yüksektir. Yani, bir ila iki yıl içinde, kalitesiz ve yanlış üretilen veriler sorununu çözün;

Alt konu 2: Veri oluşturma, taşları altına dönüştürür. Yani otomatik veri seçimi için bir algoritma tasarlamak ve üretilen büyük miktardaki verilerden yüksek kaliteli verileri seçmek;

Alt konu 3: Genel otomatik veri üretimi. Bu, farklı alt görevler için farklı veri oluşturma yöntemleri tasarlamaktır, böylece veri üretimi kapsayıcı fayda yeteneğine sahip olur.

2. Data Cube planı

Plan, yeni nesil akıllı vizyonu oluşturmak için temel olarak çok modlu veri ölçümü, hizalama ve füzyon sorunlarını çözüyor. Performansı kapsamlı bir şekilde değerlendirmek için çok modlu veri nicel göstergelerin oluşturulmasını içerir; strateji araştırmasına karşılık gelen çok modlu veriler; çok modlu veri füzyon şeması vb.

3. Model dokunma yüksekliği planı

Plan, temel olarak çeşitli görsel görevlerin performans üst sınırını yenilemek için büyük bir bulut tarafı modeli oluşturmaktır. Ayrıca üç alt başlık içerir:

Alt konu 1: Tam alan ağ mimarisini arayın. Yani, sinir ağı mimarisinin arama uzayının kısıtlamalarını aşmak, daha fazla paradigma aramak, ağ alanı yapısında daha fazla değişiklik aramak ve sinir ağı mimarisini gerçekten otomatik arama yapmak.

Alt konu 2: Yeni tip operatör araması. Bu, operatörlerin tasarımını manuel yeniden kullanımdan yeni operatörlerin yaratılmasına değiştirmektir.

Alt konu 3: Arama modellerinin evrensel yeteneğini geliştirmek. Halihazırda aranan ağların genelleme performansı, saldırı direnci ve geçişi nispeten zayıftır Bu alt proje, ağ mimarisinin bu performanslarını iyileştirmeyi ummaktadır.

4. Model zayıflama planı

Çeşitli çiplerin karmaşık muhakemeyi tamamlamasına yardımcı olmak için uç taraf küçük modellerin geliştirilmesi önemli bir araştırma yönüdür. Huawei'nin bu alandaki amacı, verimli bir uçtan uca görsel hesaplama modeli oluşturmaktır. Plan üç alt başlık içermektedir:

Alt konu 1: Minyatürleştirilmiş ağları otomatik olarak arayın. Yani, donanım kısıtlamaları otomatik tasarıma entegre edilmiştir, böylece algoritma farklı donanıma uyarlanabilir.

Alt konu 2: Bir bitlik ağ ölçümü. Yani tek bitlik bir ağ tasarlamak, böylece bir bitlik ağın tam hassasiyetli bir ağın performansına ulaşması hedefleniyor. Amaç, en yüksek performansı elde etmektir.

Alt konu 3: Yeni bir tür ekleme ağı oluşturma. Yani, evrişimli ağda, toplama işlemleri tüm çarpma işlemlerinin yerini almak için kullanılır ve aynı zamanda verimli hesaplamalar için yeni yollar keşfetmek için çip hesaplamalarıyla birleştirilir.

5. Her şeyi önizleme planı

Her şeyin sözde önizlemesi, eğitim öncesi görevleri tanımlamak ve genel bir vizyon modeli oluşturmak anlamına gelir. Spesifik yöntem, bilginin çıkarılmasını ve sıralanmasını tamamlamak için yüz milyonlarca mertebede halka açık olarak etiketlenmemiş çok sayıda resim toplamaktır.

6. Dürüstlük planı

Planın amacı, akıllı davranışın kendisini verileri etiketlemeden sanal bir sahnede doğrudan eğitmektir. Şu anda, endüstrinin bu alandaki araştırmaları çok sınırlıdır. Bu, bilginin nasıl tanımlanacağını, sanal sahnelerin nasıl oluşturulacağını, kullanıcıların gerçek davranışlarının nasıl simüle edileceğini ve veri ve aracıların güvenliğinin nasıl sağlanacağını içerir. Bu plan son derece zor olsa da Tian Qi, bunun gerçek yapay zekaya giden yol olduğuna inanıyor.

Lei Feng.com raporları.

Lei Feng

"Evrensel" para, yaşam süresini uzatabilir! Zayıf ekonomik seviye? Sonra günde 8000 adım atın
önceki
Kuantum bilişim araştırma ilerlemesi: Çin ve Amerika Birleşik Devletleri'nde 4 ila 5 yıllık bir teknoloji açığı var
Sonraki
Today Paper | Mekansal Dikkat Ağı; Derin İnanç Ağı; GhostNet; Konum Tahmini vb.
Metrolar gibi alt bölüm senaryolarında edge computing nasıl uygulanır? | Açık sınıf incelemesi
Dünya çapında 710.000 doğrulanmış vaka, Ekim'den sonra salgının zirvesi olabilir; Luo Yonghao, borçlarını ödemek için para kazanmak için bir çapa olarak yanıt verdi; 360% 15'in üzerinde işten çıkarma
Core-js yazarı 18 aydır hapiste ve haftada 26 milyon kez indirilen açık kaynaklı projelere ne olacak?
Zhang Juning, taze ve zarif yeşil bir elbise giyiyor
"Ödülü alan ve yumuşayan" Keigo Higashino, yeni çalışması "The Silent Parade" ile katı akıl yürütmeye geri dönüyor.
Xiao Jingteng'in büyük bir kase çay içeren Çin tarzı takımlarının özel bir tadı var
One Point Keşif MüzesiShanda South Road'daki bu Çin tıbbı hastanesi, kemik hastalıklarının tedavisinde benzersiz özelliklere sahiptir
Coronavirüs salgını kelebek etkisine sahip, Los Angeles'taki Çin restoranları yakın
Salgın kötüleşmeye devam ediyor, Los Angeles Maratonu hala planlandığı gibi yapılıyor
"Wuhan Günlüğü" bir kase laba lapası yaşlıların kalbini ısıtır
Kızın çevrimiçi buluşması 300.000'den fazla kişi tarafından aldatıldı
To Top