Megvii Teknolojisi Sun Jian: Büyük şirketlerde ve yeni başlayanlarda bilgisayarla görme araştırması nasıl yapılır (2)

Leifeng.comun Yapay Zeka Teknolojisi Yorumu: Bu makale, Megvii Teknolojisinin baş bilimcisi Sun Jian tarafından "Büyük Şirketlerde ve Başlangıçlarda Bilgisayarlı Görü Araştırması Nasıl Yapılır" başlıklı CCF-ADL üzerine bir paylaşımdır. Leifeng.com tam metni derledi. Aşağıdaki ikinci kısımdır.

Portalın ilk bölümü: Megvii Technology Sun Jian: Büyük şirketlerde ve yeni başlayanlarda bilgisayarla görme araştırması nasıl yapılır (1)

Dr. Sun Jian (Fotoğraf: Liu Fangping)

Sun Jian, PhD, baş bilim adamı ve Megvii Technology (Face ++) araştırma lideri. 2003 yılında Xi'an Jiaotong Üniversitesi Yapay Zeka ve Robotik Enstitüsü'nden mezun oldu ve mezun olduktan sonra baş araştırmacı olarak Microsoft Research Asia'ya katıldı. Başlıca araştırma yönleri hesaplamalı fotoğrafçılık, yüz tanıma ve derin öğrenmeye dayalı görüntü anlayışıdır. 2002'den bu yana, CVPR, ICCV, ECCV, ECCV, SIGGRAPH ve PAMI'nin en iyi beş akademik konferansında ve dergisinde 100'den fazla akademik makale yayınladı. Google Scholar, 20.000'den fazla kez, H-index58 ve iki kez CVPR En İyi Bildiri Ödülü'nü (2009, 2016). Dr. Sun Jian, 2010 yılında yetkili bir Amerikan teknik dergisi olan Technology Review tarafından "Global Outstanding Young Innovator Under 35" seçildi. Dr. Sun Jian liderliğindeki ekip, 2015 yılında uluslararası görüntü tanıma yarışmasında (ImageNet sınıflandırması, algılama ve konumlandırma, MS COCO algılama ve segmentasyon) ve ekibi tarafından geliştirilen "derin artık ağ" ve "bölge bazlı hızlı nesneler" yarışmasında beş şampiyonluk kazandı. "Algılama" teknolojisi, akademi ve endüstride yaygın olarak kullanılmaktadır. Aynı zamanda Sun Jian liderliğindeki ekibin araştırma sonuçları da Microsoft Windows, Office, Bing, Azure, Surface, Xbox vb. Birçok ürün grubunda yaygın olarak kullanıldı. Şu anda, Dr. Sun Jian, bilgisayarla görme teknolojisinin ilerlemesini ilerletmek ve endüstriyel ve ticari uygulamalarını keşfetmek için Megvii Teknolojisinin araştırma ekibine liderlik ediyor.

Aşağıdakiler, temel olarak bilgisayar görüşünün son gelişme durumunu, ResNet'in temel ilkelerini ve tasarımını ve Megvii Teknolojisinin bilgisayarla görmedeki araştırma ilerlemesini tanıtan konuşma içeriğidir. Sonunda, "Büyük şirketlerde ve girişimlerde nasıl araştırma yapılır?" Konusunda da deneyimler paylaştı.

Metin algılama

Nesne algılama çok önemlidir ve başka bir tür metin algılama vardır. Hepimiz metin algılamanın aslında çok zor olduğunu ve nesne algılamadan farklı olduğunu biliyoruz.

Figür 29

Metin algılamanın temel özelliği, boru hattının çok uzun olmasıdır.Modüllerin tasarlanmasından, parametrelerin ayarlanmasından eğitime kadar çok zaman ve çaba gerektirir.

Figür 30

Derin öğrenmenin özü uçtan uca eğitim yapmaktır Face ++ Araştırma Enstitüsü, bu yıl, FCN'ye dayalı basitleştirilmiş bir metin algılama algoritması olan CVPR hakkında bir makale yayınladı. Bir resmi girdikten sonra, sistem, uçtan uca tanımayı gerçekleştirmek için iki Harita, Geometri Haritası ve Puan Haritası oluşturacaktır.Bu, metin algılamanın bu kadar küçük bir modelle uygulanabileceği ilk seferdir.İşte, nicel değerlendirmelerinden bazıları. Kamu değerlendirme setinde çok iyi sonuçlar elde edildi.

Figür 31

Figür 32

Araştırmacılarımız gerçek zamanlı bir tespit demosu yapmak için farklı yöntemler kullanıyorlar. Gördüğünüz gibi, metin tanıma burada yer almıyor.

Figür 33

Anlamsal bölümleme

Önem verdiğimiz üçüncü kısım anlamsal bölümlemedir. Yani, pikselin semantik bir işarete nasıl eşleneceği.

Figür 34

Çok büyük uygulamalardan biri insansız araçlardır. Yani, algılarken insanların ve arabaların yerinin bilinmesi gerekir. Pratik derin olmayan öğrenme yöntemleri çok iyi uygulanmıştır, ancak daha karmaşık durumlar söz konusuysa, derin öğrenme daha iyisini yapabilir.

Burada FCN yöntemini (tamamen evrişimli ağ, tamamen evrişimli ağ) kullanacağız, aşağı örneklemeyi kullanarak ayıklama ve sonra yukarı örnekleme kullanacağız, uçtan uca öğrenmeyi tamamlamak için bir özellik haritası veya anlamsal harita çıkaracağız.

Figür 35

İlgili kavram, alıcı alan (alıcı alan) olarak adlandırılır, yani, evrişimin özellikleriyle ne kadar alan kapsanabilir, ancak aslında geçerli alıcı alan adı verilen bir kavram vardır, çünkü gerçek durum genellikle teorik olmaktan daha fazlasıdır. Kapsanan alan küçük olmalıdır.

Figür 36

Araştırmada, sınıflandırma ve bölümlemenin aslında farklı görevler olduğunu göreceğiz. Sınıflandırma durumunda, araştırmacı, deneyim alanı ne kadar büyükse, o kadar iyi ve segmentasyonun kontrol edilmesi gerekebileceğini umacaktır.

Bu hala standart FCN'den farklıdır. Resimdeki kuşları tanımlamak istiyorsanız, aslında geniş bir alıcı alana ihtiyacımız var.

Figür 37

Face ++ stajyerimiz kısa süre önce bir iş çıkardı ve geniş alıcı alanlarda veya büyük çekirdeklerde iyi sonuçlar elde edebilecek bir yöntem tasarladı. Bu aynı zamanda bu yılki CVPR makalemiz olan "Büyük Çekirdekli FCN'ler". O zaman (sonuç) VOC 2012 Benchmark Segmentasyonunda birinci oldu.

Figür 38

3B algılama sorunu

Aşağıdakiler, üç kategorinin temel sorularıdır. Bilgisayarlarla ilgili bir diğer sorun da 3 boyutlu algılama sorunudur ve iki göze gerek yoktur, aslında bir de a priori algılama gerçekleştirilebilir.

Figür 39

Öyleyse 3B yeniden yapılandırma derin öğrenme ile gerçekleştirilebilir mi? Doğal olarak mümkündür.

Araştırmacılar şu anda 3B rekonstrüksiyonu gerçekleştirmek için tek bir görüntünün nasıl kullanılacağını araştırıyorlar. Solda bir resim, sağda ise onun oluşturduğu 3B nokta bulutu var. Görünmez yerin neye benzeyeceğini tahmin etmek için a priori kullanmalıyız.

Şekil kırk

Peki 3B şekil nasıl oluşturulur? En zor kısım, 3D'nin nasıl temsil edileceğidir. Geleneksel yöntemler, bir boşluktaki ızgarada bir nesne olup olmadığını belirlemek için derinlik haritalarını veya kafes yöntemlerini kullanmayı içerir. Araştırmacımız, sürekli özellikler gösterebilen nesneleri temsil etmek için 3B noktaları kullanır.

Figür 41

3B veritabanı bir algılama hattını eğitir.Kırmızı sütun girdidir ve ikinci ve üçüncü sütunlar çıktıdır.Önceki bilgilere göre, bazı sentetik örnekler oluşturulmuştur.

Figür 42

Makaleyi göndermeden önce, ofisteki bazı nesneleri rastgele fotoğrafladık ve oldukça iyi sonuçlar aldık. Bu makale ayrıca CVPR hakkında sözlü bildiri aldı.

Figür 43

Figür 44

Zaman kısıtlamaları nedeniyle, bazı teknik ayrıntılar burada ayrıntılı olarak tartışılmayacaktır.

Brain ++ Derin Öğrenme Platformu

Burada Brain ++ adında bir derin öğrenme platformumuz olduğunu belirtmek isterim.Her araştırmacı veya ziyaret eden öğrencinin, algoritma eğitimi alabilmek için yalnızca sanal bir makine ile uzaktan oturum açması gerekir. Hatta veri yönetimi, veri etiketleme ve Tam model yayın sistemi. Kullanıcı tarafından işaretlenen veriler doğrudan sisteme yüklenebilir ve model eğitimden sonra doğrudan yayınlanabilir.

Figür 45

Çekirdek bölüm, derin öğrenme eğitim motoru olan megvii beyin olarak adlandırılır.Herkes caffe, TensorFlow veya MXNet'i duymuş olabilir. O zaman megvii beynini Face ++ "TensorFlow" olarak anlayabilirsiniz. TensorFlow bir yıldır açık kaynak ve megvii beynimiz iki yıldır.

Face ++ 'nın derin öğrenmeyi uygulayan erken bir şirket olduğu neden söyleniyor? Sadece uygulama yapmakla kalmıyoruz, aynı zamanda temel teknolojileri yapıyoruz ve uygulamaları açıyoruz.

Figür 46

Bunun avantajı, birçok özelleştirilmiş şeyi kendimiz yapabilmemizdir. TF gibi büyük hacimli bir sistemle karşılaştırıldığında, kullanıcılar üzerinde bazı değişiklikler yapabilirler, birçok soruna yol açacaktır. Ek olarak, motor küçük bir hafıza kaplıyor, eğitim hızı hızlı ve kontrol edebileceğimiz birçok şey var.

Daha önce bazı teknolojilerden bahsetmiştik ve ardından ürünün neler yapabileceğinden bahsedeceğiz.

Face ++ ürünleri ve uygulamaları

Face ++, biri yüz tanıma için FaceID, diğeri akıllı kameralar olmak üzere iki tür ürüne sahiptir.

FaceID

FaceID aslında bir sorunu çözmektir: "" Sizsiniz "nasıl doğrulanır?"

Figür 47

Örneğin, çevrimiçi banka hesabı açma veya Uber sürücü kimlik doğrulaması, şu anda birçok yöntem var, ancak şimdi en çok kullanılan çözüm yüz tanıma.

FaceID'nin Uygulama kimlik doğrulama şemasının süreci şu şekildedir: Kullanıcı bir fotoğraf çeker, kimlik kartı bilgilerini canlı algılama bölümü aracılığıyla karşılaştırır ve müşterinin SDK ve bulut bilgi işlem aracılığıyla karşılaştırma görevini uygular. SmartID bir SaaS hizmetidir ve tümü hizmetlerimizi kullanan Zhima Credit tarafından temsil edilen kredi raporlama ve risk kontrol işlerinin yanı sıra çevrimiçi ve çevrimdışı bankalar dahil olmak üzere birçok alanda kullanılmaktadır.

Figür 48

Bir süre önce 3.15, yüz tanıma teknolojisinin nasıl kırılacağını gösterdi, bu "canlı saldırı problemi" denen bir problemi içeriyor. Aslında, bir yeraltı kara sanayi zinciri oluşturduysa, çok değerli bir iş haline geldi. .

Akıllı kamera

İkinci yön akıllı kameradır.

Algoritmayı kameraya veya bilgisayar kutusuna yerleştiririz, ana yön ev veya kamu güvenliği analizi yapmaktır. Bildiğiniz gibi, Çin dünyadaki kameraların yarısından fazlasına sahip ve sabit disklerin yarısından fazlası video izleme içeriğini depolamak için kullanılıyor.

Figür 49

Şekil elli

Trafik planlamasına ve Face ++ ürünleri ile neler yapılabileceğine bir göz atalım. Videodaki trafik akışının kimliğini analiz edebiliyorsanız, bu da değerlidir.

Örneğin, bir geçiş kontrol sistemi oluşturduk.Çalışanların işe gittiklerinde check-in yapmalarına gerek yok, cam kapıdan geçtikleri sürece yüzleri otomatik olarak tanıyabilirler. Şu anda bu sistem yüzlerce şirket tarafından da kullanılmaktadır.

Ayrıca bu sisteme bağlı olarak da bazı değişiklikler yapabiliriz. Örneğin, Çin'de her yıl çok sayıda sergi düzenleniyor ve kayıt hizmetleri, takip etmek için çok fazla insan gücü gerektirebilir.O zaman ürünümüz, yüz tanımaya dayalı otomatik bir kayıt sistemine yerleştirilebilir.

Figür 51

Bu ürünlerle kaçınılmaz olarak çok büyük miktarlarda veri üretilecek.Şu anda Face ++ açık platform API'sine yapılan çağrı sayısı 2016'da 6 milyar kata ulaştı ve yakında 10 milyara yakın olacak. Ve Akıllı Kimliğimiz yüz milyonlarca insana (yüz milyonlarca insana değil) hizmet etti.

Algısal zekadan bilişsel zekaya

Ayrıca, farklı sektörlere hizmet vererek AI + elde etmenin bir yolu olan kapalı bir "teknoloji-ürün-verileri" döngüsü elde etmeyi umuyoruz. Yapay zekaya geri dönelim.

Figür 52

Şekil elli üç

Soldaki yeşil, eşleme uydurma görevini temsil eder. Bir F (x) işlevi birçok içeriği çözebilir ve büyük ölçekli açıklama verileri sağlanarak elde edilebilir. Ancak sağdaki görev tek adımda yapılamaz ve çok fazla yargı içerir ve sağdaki içerik geniş bir eğitim ortamı sağlamayabilir. Pek çok yeni teknoloji ve çok fazla yatırım olmasına rağmen, çok fazla ilerleme yok.

Şekil elli dört

Bilgisayar görüşü solda olmasına rağmen, aslında sağdaki bilişsel süreci içerir.Örneğin, sistem bir videodaki içeriği değerlendirebilir ve bu çok fazla dil ve sağduyu desteği içerir.

Peki algısal zekadan bilişsel zekaya nasıl geçilir?

2004 tarihli bir kitaptan çok ilham aldım, adı "On Intelligence". Yazar Jeff Hawkins, insan beyni zekasına benzer içeriğin nasıl yapılacağını incelemek için bir araştırma enstitüsü kurdu.Araştırma enstitüsü büyük olmasa ve sonuçlar hiçbir şeyi kanıtlamak için yeterli olmasa da, kitaptaki fikirler, depolama makinelerinin nasıl kullanılacağı da dahil olmak üzere çok erken. yapay zeka.

Şekil 55

Artık sinir ağlarını eğitmek için bir bellek yok ve insanlar hafızaya sahipler ve kitaplara ve bilgilere dayanarak içeriği aktarıyorlar. Yani Facebook ve Google gibi şirketlerin hepsi bellek mekanizması öğrenme sistemleri yapıyorlar Çözülmesi gereken temel içerik hangi içeriğin saklanacağı, hangi içeriğin okunacağı ve ne tür ilişkilendirmelerin yapılması gerektiğidir. Örneğin insanlar bir şarkıyı ve bir cümleyi belli bir sırayla hatırlar, tersi ise hatırlayamayabiliriz.

Figür 56

Ek olarak, birçok bilgi katmanlarda yapılandırılmıştır. Bu nedenle, bu içeriklerin makul bir mekanizma içinde nasıl var olduğu, benim çok endişelendiğim bir araştırma yönüdür.

Çok ilginç bulduğum bir başka içerik de denetimsiz tahmin. Temel fikri, insanların öğrenme sürecinde fiziksel dünya ile etkileşime girmesi gerektiğidir ve insanlar ek işaretler olmadan gerçek dünyayı gözlemleyerek çok şey öğrenebilirler. Ebeveynlerin önemini inkar etmemekle birlikte, çocukların öğrendiği birçok şey ebeveynleri tarafından öğretilmiyor. Dünyayı gözlemleme ve etkileşim sürecinde çocuklar, bazı genetik miras içeriği de dahil olmak üzere kendiliğinden öğreneceklerdir.

Örneğin, IQ testini geçmek için IQ'yu ölçüyoruz, örneğin bir sonraki sayının ne olduğunu tahmin etmenize izin veren bir sayı listesi veya bir sonraki kelimeyi yargılamanıza izin verecek bir kelime dizisi vermek gibi. Ne olacağına dair tahmin, öğrenme süreci boyunca kullanılabilecek çok önemli bir denetim sinyalidir. Bir videodan sonraki karenin içeriğinin ne olduğunu belirlemek veya bir resim aracılığıyla başka bir görünümün görünümünü tahmin etmek için şu anda birçok araştırma var. Bu süreçlerde sistem tahmin edilen özellikleri öğrenebilir.

Derin öğrenme yaparken, yüz tanımada farklı pozlar sorununu çözen "Yüz tanıma için bir ilişkilendirme-tahmin modeli" adlı bir makale yazdım. O zaman harici bir depolama oluşturmaya çalıştım ve tahmin yapmak için depolama belleği kullandım, etkisi çok iyiydi. Ancak sistemin kendisi çok ilkel ve derin öğrenme çağından önceki bir araştırma içeriğidir.

Figür 57

Sonra denetimsiz tahminde, örneğin, gerçek dünyada bir balkabağı vardır. İnsanlar, balkabağının neye benzediğini tahmin edebilir. Bu, "görüntü tamamlama" problemidir. Aynı zamanda, on yıldan uzun bir süre önce, yani grafikler aracılığıyla yaptığımız bir araştırma Arkasındaki içeriği tahmin etme yöntemi. Yani bugün algısal dünyada, tıkanmış olan pek çok şeyi algılayabiliriz, biri bizim yeteneğimiz, diğeri bize gerçek dünyayı nasıl akıl yürüteceğimizi ve tahmin edeceğimizi öğretmek ve birçok gözlem süreciyle öğrenmektir.

Figür 58

Sonuç olarak, yapay zeka zordur, ancak bunda umut da görüyoruz. Bu arkadaşımın paylaştığı bir resim, umarım yüksek bir noktaya gelebiliriz. Bu süreçte, teknik ve ticari verilerimizin dağıtılabileceğini umuyoruz ve her uygulayıcı için bunu yapmak için yeterli heves, anlayış ve sabra ihtiyacımız var.

Figür 59

Neden buna inanıyorum? Bugün dünyadaki en zeki insanların tümü yapay zekaya yatırım yapıyor. Bu fotoğraf, CTC konferansına katıldığımda çekilmiş, eskiden oyun yapmayı çalıştığım bir grafik konferansıydı. Ama son yıllarda bu konferansa katıldım 5.000 kişilik grafik konferansı, bırakın makine öğrenimi yapanlar bir yana, derin öğrenmenin nasıl yapılacağını inceliyor.

Şekil altmış

Megvii (Face ++) ayrıca beş CVPR bildirisini paylaşmak için kampüs içi bir etkinlik gerçekleştirdi. Megvii (Face ++) ayrıca "iyi matematik, iyi programlama ve iyi tavır" sahibi üç iyi öğrenci bulmayı umuyor, hepsi de bizimle birlikte.

Yukarıda Leifeng.com tarafından derlenen ikinci bölümdür. Üçüncü bölümde, Dr. Sun Jian büyük şirketlerde ve yeni kurulan şirketlerde CV'nin nasıl yapılacağını tanıtacak, bu yüzden bizi izlemeye devam edin.

Noon Star News Eski TVB eski Huadan Chen Songling ile özel röportaj, sesini korumanın sırrı baharatlı çıktı; bu akşam Filistin'e karşı ulusal futbol ısınma maçı, Lippi "son ev" i başlattı
önceki
Film Bağlantısı Nihayet! "Alien: Contract" yerel olarak 6.16 olarak ayarlandı
Sonraki
Güzel bacak yarışmasının geçmişi 90 yıl oldu ...
Tersine çevrilmiş videoyu nasıl döndüreceğinizi öğretmek yalnızca beş saniye sürer
TalkingData mobil pazar raporu: Xiaomi kullanıcıları telefon değiştirirken Huawei'yi tercih ediyor; üçüncü kademe şehirler OPPO ve vivo'yu tercih ediyor
20 yıl sonra, insanlar 2018'de Çin hakkında ne düşünecek?
Apple Bahar Şenliği Özel! Özel oyunlarda çok sayıda oyun ve video üyesi% 50 indirimle size tek seferde 1.000 yuan kazandırır
Meyveli kız on milyarlarca asil kadına dönüşür ve kimse onun hayatını kopyalayamaz.
Google Cloud'dan ayrılıp bir iş kurmak için Çin'e dönerek, geleneksel endüstrilerde yenilik yapmak için AI ve Kubernetes'i birleştirmek istiyorlar
Kişisel onay mı? Lei Jun, arkadaki paralel çift kameralarla Xiaomi Mi 8 Youth Edition Twilight Gold ve Dream Blue Real Phone'u ortaya çıkarıyor
iPad Pro pek çok şey yapabilir, ancak siz onu yalnızca TV şovlarını izlemek için kullanırsınız
"Güreş!" "Baba" fenomen düzeyinde bir film olmayı hak ediyor, ilk hafta karşı saldırı ve sıfır fark incelemesi çift rekor kırdı
"Demir Adam" prototipi, milyarder, o dünyanın en büyük "erotik" kişisidir
Çocukluk öldürmek! Bu yeni Meitu IP özelleştirilmiş cihazlar JD.com'da satılıyor, Kitty ağlıyor
To Top