Huawei Vision Research Yol Haritası: Üç Zorluk, Altı Plan

Yazar | Jia Wei

Dün Huawei Geliştirici Konferansı'nda, Huawei'nin baş bilim adamı Chen Lei tarafından yayınlanan tam senaryolu AI bilgi işlem çerçevesi MindSpore açık kaynak çerçevesi, sektörde büyük ilgi gördü. Sonuçta, sadece bir hafta içinde, yerel planlar (Jittor, Tsinghua) ve Tianyuan ( MegEngine, Megvii) ve MindSpore (Huawei) üç derin öğrenme açık kaynak çerçevesi, "2020, derin öğrenme çerçevesi patlama yılıdır" olarak tanımlanabilir.

Ancak, dünkü konferansta, Huawei tarafından yayınlanan bir başka önemli plan da göz ardı edilmiş görünüyordu: Bu, Dr. Tian Qi liderliğindeki "Huawei Bilgisayar Vizyonu Temel Araştırma İlerlemesi ve Huawei Vizyon Proje Yayını".

Dr. Tian Qi, bilgisayar görüşü alanındaki kişilerin ona aşina olması gerekir.Tsinghua Üniversitesi Elektrik Mühendisliği Bölümü'nden mezun olduktan sonra Urbana-Champaign'deki Illinois Üniversitesi'ne gitti ve burada Thomas S. Profesör Huang. 2018'de Huawei'ye katılmadan önce San Antonio'daki Texas Üniversitesi'nde öğretmenlik yapıyordu. 2016'da multimedya alanında en etkili 10 bilim insanı arasında yer aldı ve o yıl IEEE Fellow olarak seçildi.

Dr. Tian Qi'nin katılmasının ardından, Huawei'nin Nuh'un Gemisi'nin bilgisayar görüşü alanındaki araştırması büyük bir hızla ilerledi. Makaleler açısından, ICCV 2019 ve CVPR 2019'un sırasıyla 19 ve 29 seçilmiş makalesi vardır ve ICLR ve ICML gibi algoritmaların en iyi konferanslarında yayınladıkları makalelere bakılmaksızın CVPR 2020'de 33 kadar makale bulunmaktadır.

Bu "Araştırma İlerleme Planı Yayınında", Dr. Tian Qi araştırma içeriğini üç ana yöne ayırmıştır:

  • veri: Verilerden etkili bilgiler nasıl çıkarılır?
  • model: Etkili bir görsel tanıma modeli nasıl tasarlanır?
  • Bilgi: Bilgi nasıl ifade edilir ve saklanır?

Bu temelde, Huawei Noah'ın altı vizyon planını önerdi: Veri Buzdağı Projesi, Veri Küpü Projesi, Model Yükseltme Projesi, Model Zayıflatma Projesi, Her Şey Önizleme Projesi ve Sanal Gerçeklik Planı. Her plan kulağa çok ilginç geliyor Mantık nedir? Her biri neyi temsil ediyor?

1. Bilgisayarla görmenin üç zorluğu ve Huawei'nin vizyon araştırması

Dr. Qi Tian konuşmasında, bilgisayarla görmenin mevcut zorluklarını üç ana yöne ayırdı: veri, model ve bilgi ifadesi. (Neden bilgi işlem gücü yok? Sonuçta bu, vizyonu gerçekleştiren kişi tarafından belirlenmez. Hesaplama gücünün dikkate alınması aslında modele dahil edilmiştir)

1. Verilerden etkili bilgiler nasıl çıkarılır?

Bilgi çağında, bilgisayar görüşü aslında utanç verici bir şeyle karşı karşıyadır, yani internette insan işlemenin sınırını bile aşan çok büyük miktarda görsel veri vardır; ölçek ne kadar büyük olursa olsun, verilerin etiketlenmesi yalnızca görsel büyük verilerdir. okyanusa bırakın ". Büyük verilerden etkili bilgilerin nasıl çıkarılacağı hala büyük bir zorluktur.

Huawei bu bağlamda iki tipik senaryo önermiştir; biri modeli eğitmek için üretilen verilerin nasıl kullanılacağı, diğeri ise çok modlu verilerin nasıl hizalanacağıdır.

Birincisi veri üretmek, Huawei bu alanda çok fazla araştırma yaptı. Özellikle üç bölüme ayrılmıştır.

İlk olarak, otomatik veri genişletme. Bu, ICLR 2020'de yayınlanan "Adversarial AutoAugment" ile temsil edilmektedir. Bu makale, önceki NAS'ta (AutoAugment gibi) veri geliştirme için yüksek hesaplama ek yükü ve statik politika sorununu ele almaktadır. GAN'ın "yüzleşme" fikrini ödünç alan bu makale, çekişmeli kaybı ortaya koymaktadır. Bir yandan bu, eğitim için gereken süreyi büyük ölçüde azaltırken, diğer yandan, politika oluşturucunun sürekli olarak zor örnekler oluşturduğu ve bu da sınıflandırıcının sağlam özellikleri öğrenmesine ve daha iyi öğrenmesine yardımcı olabileceği düşünülebilir. (ICLR 2020 | Zekice düşünme, NAS ve "yüzleşme" kombinasyonu hızı 11 kat artırır)

İkinci olarak, daha fazla veriyi simüle etmek için GAN'ı kullanın. Bu, CVPR 2018'de yayınlanan PTGAN ve CSGAN ile temsil edilir. Birincisi ("GAN'dan Kişi Yeniden Tanımlama için Alan Boşluğuna Kişi Transferi"), yayaları bir veri kümesinden diğerine aktarmak için GAN'ı kullanan yaya yeniden tanımlama sorunu için üretken bir yüzleşme ağıdır. İkincisi ("Üretken modeller kullanarak sıkıştırılmış algılama"), algı için GAN sıkıştırmasıdır. Başka bir deyişle, "orijinal verileri" yeniden yapılandırmak için GAN kullanır. Diğer yeniden yapılandırma algoritmalarıyla karşılaştırıldığında, CSGAN daha fazladır. Çok iyi orijinal veriler birkaç ölçümle yeniden oluşturulabilir (örneklenmiş veriler olarak anlaşılabilir).

Üçüncü olarak, sanal veriler oluşturmak için bilgisayar grafik teknolojisini kullanın. Bu, CVPR 2019'da yayınlanan "CRAVES: Vizyon Tabanlı, Ekonomik Sistemle Robotik Kol Kontrolü" ile temsil edilmektedir. CRAVES çalışmasında, sanal veri üretimi ve etki alanı geçişine dayalı bir dizi eğitim prosedürü tasarladılar.Robotik kolun, zarları kapma ve onları belirtilen konuma yerleştirme görevini tamamlamak için yalnızca ek bir kamera kullanması gerekiyor. Buradaki verilerin CG teknolojisine dayalı olarak oluşturulduğunu ve robotik kolun eğitimi için ek denetim verisi sağlamaya gerek olmadığını unutmayın.

Tian Qi ayrıca, bilgi damıtma ve otomatik veri büyütme kombinasyonuna dayanan bir yöntem olan veri üretmedeki son çalışmalarını tanıttı. AutoAugment'ın (bundan sonra AA olarak kısaltılacaktır) veri setinin global optimizasyonundan geldiğini biliyoruz. Her resim için AA, resim anlamında karışıklığa neden olabilir.

Soldaki resimde görüldüğü gibi orijinal resim bir tilkidir; parlaklığını değiştirirseniz daha çok bir köpeğe, tersine çevirirseniz bu sefer kedi gibi görünecektir. Bu nedenle, modeli eğitirken orijinal sert etiketi ("tilki") kullanmaya devam etmek açıkça uygunsuzdur.

Bu sorunu çözmek için Huawei, bir bilgi damıtma yöntemi önerdi.Önceden eğitilmiş model aracılığıyla, AA resimleri için yumuşak etiketler oluşturuldu ve ardından grafiklerin eğitimine rehberlik etmek için yumuşak etiketler kullanıldı. Yukarıdaki resim, bilgi damıtıldıktan sonra üretilen yumuşak etikettir.

Sonuçlardan yola çıkarak, bilgi damıtma ile otomatik veri büyütmeyi birleştiren bu yöntem, ImageNet'te% 85,8 sonuç elde edebilir.

İkinci senaryo, çok modlu veriler için, Dr. Qi Tian, çok modlu öğrenmenin gelecekte bilgisayar görüşü alanında ana akım öğrenme modu olacağına inanıyor, bu nedenle çok önemli ve onlar da bu alana odaklanacak. Çok modlu öğrenmenin karşı karşıya olduğu mevcut zorluklar şunları içerir: çok modlu bilgi sunumu, modaliteler arasında ortak haritalama, modal uyum, modal füzyon ve çok modlu işbirliğine dayalı öğrenme.

Bu çalışmaya, yani multimodal verilerin nasıl hizalanacağına yanıt olarak, Tian Qi, ACM MM 2019'da en iyi makale için aday gösterilen "Multimodal Dialog System: Generating Responses via Adaptive Decoders" makalesine odaklandı. Buna "sihirli model" diyorlar Kağıdın kendisi, kullanıcıların makine ile diyaloğu aşma sürecinde metin veya resim girme ihtiyacı duydukları bir e-ticaret senaryosunu hedefliyor. Bu soruna yanıt olarak, bilgiyi farklı modalitelerde kodlamak için birleşik bir model kullandılar, böylece metin veya resimler bağlama göre geri beslenebilir.

2. Etkili bir görsel tanıma modeli nasıl tasarlanır?

Dr. Tian Qi, Huawei Noahnın görme modelleri hakkındaki ana araştırmasının, verimli sinir ağı modellerinin nasıl tasarlanacağı ve sinir ağı hesaplamalarının nasıl hızlandırılacağı / küçültüleceği konusunda yattığını belirtti. Başka bir deyişle, modelin nasıl daha hızlı, daha küçük ve daha verimli olduğu.

Sinir ağı modelinin tasarımı başlangıçta elle tasarlandı, ancak bu aşamada manuel ağ modelinin tasarımı bir darboğaz dönemine girdi. Buna karşılık olarak, 2017'den bu yana, otomatik ağ mimarisi araması (NAS) hızla gelişti, ancak sadece üç yıl olmasına rağmen tatmin edici bir ilerleme kaydetti.

Dr. Tian Qi, NAS'ın şu anda üç büyük sorunu olduğuna inanıyor: 1) Arama alanının hala insan deneyimi ile tanımlanması gerekiyor; 2) Aranacak operatörün manuel olarak tasarlanması gerekiyor; 3) Manuel olarak tasarlanmış ağ ile karşılaştırıldığında, taşınabilirlik zayıf.

Dr. Qi Tian, ICLR 2020'de "PC-DARTS: Hafıza Verimli Mimari Arama için Kısmi Kanal Bağlantıları" nda yayınlanan bu konudaki çalışmalarından yalnızca bir tanesine atıfta bulundu. PC-DARTS, mevcut DARTS modellerini eğitirken büyük bellek ve bilgi işlem sorunlarını giderir ve sırasıyla ağ yedekliliği sorununu ve yerel bağlantının neden olduğu istikrarsızlığı çözmek için yerel bağlantı ve kenar düzenleme teknolojileri önerir. Bu model, performans kaybı olmadan daha hızlı (benzerden iki kat daha hızlı) olabilir.

Dr. Tian Qi, sinir ağlarının nasıl hızlandırılacağı ve minyatürleştirmenin nasıl modelleneceği hakkında böyle düşünüyor. Şu anda, büyük ağ modellerinin geliştirilmesi tüm hızıyla devam etmektedir, ancak bu tür modeller bulut tarafında dağıtım için daha uygundur ve son tarafa uyarlanamaz. 2016'dan bu yana, endüstri model hızlandırma ve minyatürleştirme üzerine araştırmalar keşfetmeye başladı ve ayrıca çok sayıda minyatürleştirme çözümü önerdi. Bununla birlikte, bu şemalar pratikte aşağıdakiler dahil birçok sorunla karşı karşıyadır: 1) düşük bit nicemleme doğruluğu sınırlandırır; 2) hibrit bit ağları donanım için uygun değildir; 3) yeni operatörler tam olarak doğrulanmamıştır.

Dr. Tian Qi ayrıca CVPR 2020'de sözlü olan en son çalışmalarından birine atıfta bulundu: "AdderNet: Derin Öğrenmede Gerçekten Çarpmalara İhtiyacımız Var mı?". Bilgisayarlarda, kayan nokta işlemlerinin karmaşıklığı eklemeden çok daha yüksektir, ancak sinir ağlarında çok sayıda çarpma işlemi vardır ve bu da modellerin mobil cihazlarda büyük ölçekli kullanım olasılığını sınırlar. Peki toplamaya dayalı bir ağ tasarlamak mümkün müdür? Huawei tarafından hazırlanan bu makale, bu sorunun cevabıdır. Evrişimli ağdaki çarpma kuralını ek olarak değiştirdiler ve ağdaki çeşitli kuralları değiştirdiler: 1) Manhattan mesafesini (dahil edilen açı mesafesi yerine) olarak kullanın Her bir evrişim çekirdeği katmanı ile giriş özelliği arasındaki çıktının hesaplama yöntemi; 2) AdderNet için normal gradyanlı iyileştirilmiş bir geri yayılma algoritması tasarlayın; 3) Sinir ağının her katmanı için farklı bir uyarlanabilirlik derecesi önerin Öğrenme oranı ayarlama stratejisi. Deneysel sonuçlar, AdderNet'in çarpımsal ağlarla karşılaştırılabilir etkiler elde edebileceğini ve hesaplama güç tüketiminde bariz avantajlara sahip olduğunu göstermektedir.

3. Bilgi nasıl ifade edilir ve saklanır?

Tian Qi, Huawei'nin amacının yeni nesil görsel algı için genel bir vizyon modeli oluşturmak ve algoritmayı modelin yeniden kullanımı için aşağı akış görevlerine taşımak olduğunu söyledi.

Peki, "evrensel görsel model" nedir? Temel fikir aslında bilginin nasıl ifade edilip depolanacağıdır.

Dr. Tian Qi iki senaryo önerdi. Birincisi, ön eğitimle elde edilen model aracılığıyla bilgiyi ifade eden ve depolayan mevcut sıcak ön eğitim yöntemidir; ikincisi, temelde verileri etiketlemeye gerek kalmadan bilgiyi öğrenmek için sanal ortamların kullanılmasıdır.

Önceden eğitilmiş modelle ilgili olarak, Dr. Qi Tian, CVPR 2019'da yayınlanan çalışmalarından bahsetti: "Zayıf Mekansal Kısıtlamalarla Yinelemeli Yeniden Düzenleme: Denetimsiz Temsili Öğrenme için Keyfi Yapboz Bulmacalarını Çözme". Bu makale, keyfi boyutlardaki bulmaca problemleriyle başa çıkmak için uygun, kendi kendini denetleyen bir öğrenme yöntemi önermektedir.

Bulmaca problemi, etiketlenmemiş görüntüyü ızgaraya göre görüntü bloklarına böler ve bunların sırasını bozar ve etiketlenmemiş görüntü verilerinden anlamsal bilgi öğrenme amacına ulaşmak için ağ üzerinden doğru görüntü bloğu düzenini geri yükler. Bu makale, yakınsamaya kadar görüntü bloklarının sırasını yinelemeli bir şekilde kademeli olarak ayarlamayı önermektedir. ImageNet'te çok iyi performans elde edilebilir.

Derin öğrenme, büyük ölçüde etiketlenebilir verilere dayanır, ancak birçok senaryoda, veri etiketleme maliyetleri yüksektir. Aynı zamanda, açıklamalı verilerin ölümcül bir sorunu da var, yani yanlış bilgi ifadesi - örneğin, otonom sürüşte, çok sayıda açıklamalı bilgiye sahibiz, ancak bu etiketli veriler gerçekten otonom sürüş görevleri için "en uygun" mu? Ek olarak, dış dünya hakkındaki insan algısı sağduyuya dayanır ve eğitim için etiketli verilere dayanan modellerde sağduyu eksikliği sorunu vardır.

Bu soruna yanıt olarak, Dr. Tian Qi, sağduyuyu öğrenmek için sanal sahneler oluşturmak için sanal sahneleri kullanma yöntemi önerdi. Dr.Tian Qi, esasen robot kolları zar yakalamak için eğitmek için sanal sahneler kullanan CVPR 2019'da yayınlanan makalelerine (CRAVES) atıfta bulundu. Bundan daha önce bahsetmiştik, bu yüzden burada tekrar etmeyeceğim.

2. Huawei Vizyon Araştırma Programı

Yukarıda bahsedilen araştırma içeriğine devam eden Tian Qi daha sonra "Huawei Vision Projesi" ni yayınladı. Kısaca altı alt plan içerir:

Verilerle ilgili: Veri buzdağı planı, veri küpü planı;

Modelle ilgili: Model yükseltme planı, model zayıflama planı;

Bilgi ile ilgili: Her şey önizleme planı, sanal ve gerçek entegrasyon planı.

1. Data Iceberg Projesi

Plan, veri etiketlemenin darboğaz sorununu çözmek ve veri üretiminin gerçekten manuel etiketlemenin yerini almasını sağlamaktır. Burada üç alt konu vardır:

Alt konu 1: Veri üretiminin kalitesi yüksektir. Yani, bir ila iki yıl içinde, kalitesiz ve yanlış üretilen veriler sorununu çözün;

Alt konu 2: Veri üretimi, taşları altına dönüştürür. Yani otomatik veri seçimi için bir algoritma tasarlamak ve üretilen büyük miktardaki verilerden yüksek kaliteli verileri seçmek;

Subtopic Three: Genel otomatik veri üretimi. Bu, farklı alt görevler için farklı veri oluşturma yöntemleri tasarlamaktır, böylece veri üretimi kapsayıcı fayda yeteneğine sahip olur.

2. Data Cube planı

Plan, yeni nesil akıllı vizyonu oluşturmak için temel olarak çok modlu veri ölçümü, hizalama ve füzyon sorunlarını çözüyor. Performansı kapsamlı bir şekilde değerlendirmek için çok modlu veri nicel göstergelerin oluşturulmasını içerir; strateji araştırmasına karşılık gelen çok modlu veriler; çok modlu veri füzyon şeması vb.

3. Model dokunma yüksekliği planı

Plan, temel olarak çeşitli görsel görevlerin performans üst sınırını yenilemek için büyük bir bulut tarafı modeli oluşturmaktır. Ayrıca üç alt başlık içerir:

Alt konu 1: Tam alan ağ mimarisi araması. Yani, sinir ağı mimarisinin sınırlı arama alanının kısıtlamalarını aşmak, ağ alanı yapısında daha fazla paradigma ve daha fazla değişiklik aramak, böylece sinir ağı mimarisi otomatik aramayı gerçekten gerçekleştirebilir;

Alt konu 2: Yeni operatör araması. Yani, operatörün manuel yeniden kullanımdan yeni operatörler oluşturmaya kadar tasarlamasına izin verin;

Subtopic Three: Arama modellerinin evrensel yeteneğinin geliştirilmesi. Halihazırda aranan ağların genelleme performansı, saldırı direnci ve geçişi nispeten zayıftır Bu alt proje, ağ mimarisinin bu performanslarını iyileştirmeyi ummaktadır.

4. Model zayıflama planı

Çeşitli çiplerin karmaşık muhakemeyi tamamlamasına yardımcı olmak için uç taraf küçük modellerin geliştirilmesi önemli bir araştırma yönüdür. Huawei'nin bu alandaki amacı, verimli bir uçtan uca görsel hesaplama modeli oluşturmaktır. Plan üç alt başlık içermektedir:

Alt konu 1: Minyatür ağları otomatik olarak arayın. Yani, donanım kısıtlamaları otomatik tasarıma entegre edilmiştir, böylece algoritma farklı donanıma uyarlanabilir.

Alt konu 2: Bir bitlik ağ ölçümü. Yani tek bitlik bir ağ tasarlamak, böylece bir bitlik ağın tam hassasiyetli bir ağın performansına ulaşması hedefleniyor. Amaç, en yüksek performansı elde etmektir.

Subtopic Three: Yeni bir tür ekleme ağı oluşturun. Yani, evrişimli ağda, toplama işlemleri tüm çarpma işlemlerinin yerini almak için kullanılır ve aynı zamanda verimli hesaplamalar için yeni yollar keşfetmek için çip hesaplamalarıyla birleştirilir.

5. Her şeyi önizleme planı

Her şeyin sözde önizlemesi, eğitim öncesi görevleri tanımlamak ve genel bir vizyon modeli oluşturmak anlamına gelir. Spesifik yöntem, bilginin çıkarılmasını ve sıralanmasını tamamlamak için yüz milyonlarca mertebede halka açık olarak etiketlenmemiş çok sayıda resim toplamaktır.

6. Dürüstlük planı

Planın amacı, akıllı davranışın kendisini verileri etiketlemeden sanal bir sahnede doğrudan eğitmektir. Şu anda, endüstrinin bu alandaki araştırmaları çok sınırlıdır. Bu, bilginin nasıl tanımlanacağını, sanal sahnelerin nasıl oluşturulacağını, kullanıcıların gerçek davranışlarının nasıl simüle edileceğini ve veri ve aracıların güvenliğinin nasıl sağlanacağını içerir. Bu plan son derece zor olsa da Tian Qi, bunun gerçek yapay zekaya giden yol olduğuna inanıyor.

ICLR 2020 | "Eşzamanlı Ortalama Öğretim" çerçevesi, denetimsiz öğrenim için daha sağlam sözde etiketler sağlar
önceki
Kuantum bilişim araştırma ilerlemesi: Çin ve Amerika Birleşik Devletleri'nde 4 ila 5 yıllık bir teknoloji açığı var
Sonraki
2020 Ulusal Bilim ve Teknoloji Ödülleri adaylıkları açıklandı, Yang Qiang ve Chen Yunjinin ekipleri kısa listeye alındı
Öz dikkat ajanı, küçük boyut, büyük yetenek
Canlı CVPR 2020: İşbirlikçi yineleme Fine -Tuning uygulaması Tek görüntü yansıtıcı kaldırma
CVPR 2020 | IR-Net: Bilgi saklama için ikili sinir ağı (açık kaynak)
FSNet: Derin evrişimli sinir ağlarını sıkıştırmak için evrişim çekirdek özetini kullanın
ELECTRA Çin ön eğitim modeli, yalnızca 1/10 parametreli açık kaynak kodludur ve performans hala BERT ile karşılaştırılabilir.
Google ve DeepMind, Dreamer'ı serbest bırakmak için güçlerini birleştiriyor: performans "öncekiler" PlaNet'i çok aşıyor
SF batıyor
Sinochem Group ve China National Chemical Corporation'ın tarımsal işleri, 200 milyarı aşan bir gelirle yeniden düzenlendi
New Oxygen'in 2019'un dördüncü çeyreğine ilişkin mali raporu: 358 milyon yuan işletme geliri, 86.4 milyon yuan net kar
Bu sefer Fed çalışmayabilir
"Nanjing Anti-salgın Sahnesi" ni filme alan Japon yönetmen yanıyordu. Titanium Media onunla arkasındaki hikaye hakkında sohbet etti.
To Top