Sun Jian, Megvii Teknolojisinin Baş Bilimcisi: Bulut, Cihaz ve Çekirdek Üzerinde Görsel Hesaplama Nasıl Geliştirilir CCF-GAIR 2018

AI Technology Review Press : 2018 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR) Shenzhen'de yapıldı.Zirve, Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) ev sahipliğinde Çin Bilgisayar Federasyonu (CCF) ev sahipliğinde gerçekleştirildi ve Shenzhen Baoan Bölge Hükümeti'nden güçlü bir rehberlik aldı. Yerli yapay zeka ve robotik, endüstri ve yatırımın üç ana alanındaki en büyük değişim etkinliği, yerli yapay zeka alanında en güçlü sınır ötesi değişim ve işbirliği platformunu oluşturmayı hedefliyor.

Dr. Sun Jian, CCF-GAIR'de canlı bir konuşma yaptı

30 Haziran'da bilgisayarla görme özel oturumu gerçekleştirildi, mekan doluydu ve çok sayıda dinleyici ayağa kalktı ve saatlerce süren konuşmayı dinledi. Sabah oturumunun konusu, Hong Kong Bilim ve Teknoloji Üniversitesi RAM-LAB Direktörü Liu Ming'in ev sahipliği yaptığı "Bilgisayar Görme ve Akıllı Video'da Sınırlar" idi. Buna bağlı olarak, ICCV 2011 ve CVPR 2022 Konferans Başkanı Quan Long, Megvii Teknoloji Baş Bilimcisi Sun Jian, Yuncong Teknoloji Kurucu Ortağı Yao Zhiqiang, Zhenzhi Teknoloji CEO'su Ren Peng, Yunfei Baş Bilim Adamı Wang Xiaoyu ve Shangtang United Kurucu Lin Dahua ve diğer akademisyenler ve endüstri liderleri, bilgisayarla görme teknolojisindeki en son araştırma eğilimleri ve ilgili teknolojilerin uygulanması için özel yönergeler dahil olmak üzere 6 derinlemesine paylaşım oturumu gerçekleştirdi.

Megvii Teknolojisi Baş Bilimcisi ve Araştırma Enstitüsü Dekanı Dr. Sun Jian, "Bulut, Cihaz ve Çekirdek Üzerinde Görsel Hesaplama" başlıklı harika bir konuşma yaptı. Sun Jian, bilgisayarla görmenin sadece makinelerin görmesini sağlamak olduğuna inanıyor. Megvii Technology "yüz milyonlarca kamerayı güçlendirmeyi" umuyor, böylece ister bulutta, ister cihazda veya çekirdekte olsun, tüm alanlarda kullanılan kameralar akıllı olsun. .

Bilgisayarla görmenin tarihi, görüntülerin tarihinin nasıl temsil edileceğinin incelenmesidir. Derin öğrenme popüler hale gelmeden önce, en iyi yol özniteliklere dayanıyordu, görüntülerden öznitelikler çıkarmak ve sonra analiz yapmaktı; ancak bu yöntemin iki büyük eksikliği vardır: birincisi, bu yöntemle gerçekleştirilen doğrusal olmayan dönüşümlerin sayısı çok sınırlıdır; ikincisi, büyük Özellik dahil çoğu parametre manuel olarak tasarlanmıştır. Derin sinir ağı yöntemi, elle tasarlanmış özelliklerin eksikliklerini giderir.Doğrusal olmayan dönüşümün tamamı birçok kez yapılabilir, yani çok derin olabilir, bu nedenle özellik gösterme yeteneği çok güçlüdür ve tüm parametreler otomatik olarak ortaklaşa eğitilebilir. Dr. Sun Jian, Microsoft'tayken, ImageNet'in geniş ölçekli görüntü sınıflandırma görevlerinde ilk kez insan yeteneklerini aşan 152 katmanlı ResNet'i önerdi.

Ardından, Dr. Sun Jian, bilgisayar platformları açısından ortaya çıkan çeşitli sinir ağı yapılarını sınıflandırdı: GoogleNet ve ResNet "bulut" üzerindedir; Megvii tarafından önerilen MobileNet ve ShuffleNet "son" kategorisine aittir; BNN, XNOR Net Ve Megvii'nin DorefaNet'i "çekirdek" üzerindedir. Alt platform tasarımıyla ilgili ağların mevcut durumu göz önüne alındığında, Sun Jian, gelecekte "sinir ağı tasarımını ve her platformdaki optimizasyon sorunlarını aynı şekilde çözebilen bir MetaNet" olacağına inanıyor.

Son olarak, Sun Jian, Megvii'nin yüz tanıma, araç tanıma, yüz ödeme, akıllı güvenlik, akıllı finans, kentsel beyin, depolama ve lojistik ve yeni perakende dahil olmak üzere bulut, terminal ve çekirdek platformlardaki bilgisayarla görme uygulamalarını kısaca tanıttı. Bekle.

Aşağıda Sun Jian'ın konuşmasının tam metni yer almaktadır: Leifeng.com orijinal amacını değiştirmeden bunu düzenledi.

Şu anda, yapay zeka genellikle algı ve biliş olarak ikiye ayrılıyor.Bu resim, bilgisayar vizyonunun yapay zeka alanındaki konumunu gösteriyor. Yeşil, teknolojide büyük bir atılım veya nispeten olgun bir uygulama olduğunu gösteriyor. Turuncu ve sarı, hala ihtiyaç olduğunu gösteriyor Büyük atılım.

Megvii Teknolojisi 7 yıldır kurulmuş ve bilgisayarla görme alanına odaklanmıştır. Geçen yıl, Megvii iki çok iyi ödül aldı. MIT tarafından seçilen 2017'nin çığır açan ilk on teknolojisi arasında, Megvii Technology'nin "yüz ödeme teknolojisi" listesi listelendi. Bu, bir Çinli şirketin teknolojisinin bu onuru ilk kez kazandığı oldu. MIT ayrıca 2017 yılında Megvii'yi dünyanın en akıllı 50 şirketi arasında 11. sırada yer aldı. Megvii ayrıca, daha iyi ve daha derinlemesine araştırma ve ticari iniş için geçen yıl 460 milyon ABD doları tutarında yeni bir finansman turunu tamamladı.

Basitçe söylemek gerekirse, bilgisayar görüşü, makinelerin görmesini sağlamaktır. Megvii Technology, kurulduğu günden bu yana "Bir makine bir görüntüyü veya videoyu otomatik olarak anlayabiliyorsa, ne yapabiliriz?" Sorusuna yanıt veriyor. Tabii ki, bu daha soyut. Aslında, özellikle yapmak istediğimiz şey "yüz milyonlarca kamerayı güçlendirmek". Cep telefonları, güvenlik, endüstriyel, perakende, insansız araçlar, robotlar, evler, dronlar, medikal, uzaktan algılama gibi günlük hayatta ve çeşitli sektörlerde birçok kamera bulunmaktadır. Bu yerlerde, çoğu kamera henüz akıllı değil. Misyonumuz, bu kameraları ister bulutta, ister cihazda, ister çip üzerinde akıllı hale getirmek; akıllı kameranın büyük miktarda bilgi girişini anlamak için akıllı bir beyin oluşturmamız gerekiyor.

Konuşma tanıma ile karşılaştırıldığında, bilgisayarla görmenin çok çeşitli uygulamaları vardır. Konuşma tanımanın girdisi ve çıktısı nispeten tektir ve temel amaç, bir konuşma paragrafını bir cümleye dönüştürmektir. Ancak bir bilgisayarla görme sisteminin çıktısı çok daha zengindir.Görüntüdeki / videodaki nesneleri, hareketleri ve sahneleri, kimlerin orada olduğunu, konumlarını, davranışlarını, ifadelerini, dikkatlerini vb. Bilmeniz gerekir. Farklı endüstrilerde veya senaryolarda çeşitli görevlerle karşılaşacaksınız, bu da bilgisayarla görmeyi büyük ve hızla büyüyen bir akademik alan haline getiriyor (bu yılki yıllık bilgisayarla görme konferansı CVPR'de yaklaşık 7.000 katılımcı var). Çok sayıda mükemmel başlangıç şirketi doğdu.

Bilgisayarla görmenin temel sorunları, bir resmi, bir resmin farklı bölgelerini ve bir resmin her pikselini tanımlamak için sınıflandırma, algılama ve bölümlemeyi içerir. Ek olarak, girdi bir video ise, tanıma için zaman ilişkisini de kullanmamız gerekir; özü sınıflandırma problemidir, çünkü sonraki üç görevin özü ve temeli budur.

Aslında yapay zeka ortaya çıktığında bilgisayar görüşü de doğdu. Bilgisayar vizyonunda David Marr adında bir öncü vardı. 1980'lerin başında Primal Sketch yöntemini ve bilgisayarla görmeyi incelemek için geniş bir çerçeve önerdi. Görüntünün önce Edge'i algılaması ve ardından 2 boyutlu eskiz ve 3B modeller üretmesi gerektiğine inanıyordu. Ancak MIT profesörü Marvin Minsky, teorinizin çok iyi olduğunu eleştirdi, ancak temel sorun olan bir görüntünün nasıl temsil edileceği konusundaki araştırmayı görmezden geliyor.

Bilgisayarla görmenin erken görüntü temsil modeli Parça temellidir.Örneğin, insan vücudu baş, kollar ve bacaklara ayrılabilir; yüz kaşlara, gözlere ve buruna ayrıştırılabilir, böylece nesneler Parçanın birleşik yöntemiyle temsil edilebilir. Bir nesne bir yapıya sahipse bu kombine yöntem çok uygundur ancak doğal sahnelerdeki birçok nesne bu kadar güçlü bir yapıya sahip değildir.

1980'lerde, erken sinir ağları yüz ve el yazısı rakam tanımada da başarılı bir şekilde kullanıldı, ancak yalnızca bu iki alanda. 2001'de Viola ve Jones adında bir yüz algılama yöntemi vardı. İlk önce bir dizi Haar dalgacık tabanı tanımladı ve ardından makine öğrenimi yoluyla görüntüleri temsil etmek için Harr dalgacık tabanlarının bir kombinasyonunu öğrendi. Bu yöntemin avantajı, görüntü temsilini oluşturmayı öğrenmenin getirilmesidir.Dezavantajı, bu dalgacık temeliyle sınırlı olmasıdır.Yapılı nesneler için iyi bir iş çıkarır, ancak yapısı olmayan nesneler için mutlaka uygun değildir.

2000-2012 civarında, derin öğrenmeden önceki en popüler temsil Yerel Özellik temelliydi. Bu yöntem, SIFT / HOG gibi bazı Açıklayıcıları yapay olarak oluşturmak için bir resimden yüzlerce Özellik çıkarır.Yüksek boyutlu vektörü kodladıktan sonra, SVM sınıflandırıcısına gönderilir.Bu, derin öğrenmeden önce en iyi yöntemdir.

Aynı şey insan yüzleri için de geçerlidir. Önceki araştırma grubum da yüksek boyutlu özellikler elde etmek için yüzlerin kilit noktalarını çıkarmak için aynı yöntemi kullandı. Bu aynı zamanda o zamanlar en iyi yüz tanıma yöntemiydi, ancak iki önemli dezavantajı var: Birincisi, bu yönteme Girdi vektörünün başka bir yüksek boyutlu vektöre doğrusal olmayan dönüşümü. Bu vektörün dönüşüm sayısı sınırlıdır.Doğrusal olmayan dönüşüm gerçekten hesaplanırsa, yalnızca üç veya dört katı olacaktır. Daha fazla olursa, işe yaramayacak ve performans artmayacaktır; ikinci Özellik de dahil olmak üzere parametrelerin çoğu manuel olarak tasarlanmıştır, ancak insanların karmaşık sistemler tasarlama yetenekleri sınırlıdır.

Günümüzün ana yöntemi derin sinir ağıdır, bu iki özellik değiştirilmiştir, doğrusal olmayan dönüşümün tamamı çok uzun ve birçok kez yapılabilir, bu nedenle sistemin ifade yeteneği çok güçlü; ikincisi tüm parametrelerin ortak eğitimidir. Bu iki nokta, derin sinir ağlarının çok iyi sonuçlar elde etmesine olanak tanıyor; o zamanlar Microsoft'ta önerdiğimiz ve ImageNet'teki insan performansını ilk kez aşan 152 katmanlı artık ağ ResNet'i de içeriyor.

ResNet neden çalışıyor? Bu güne net bir cevap yok, elbette birçok açıklama var. En sezgisel açıklama, çok sayıda doğrusal olmayan dönüşüm katmanınız olduğunda, iki bitişik dönüşüm katmanı arasındaki farkın çok küçük olmasıdır. Haritalamayı doğrudan öğrenmek yerine, haritalamanın değişikliklerini öğrenmek daha iyidir. Bu yol, tüm öğrenme sürecinin özellikle Eğitim optimizasyon süreci daha kolay hale geldi.

Makalenin ikinci yazarı Zhang Xiangyu'dan da bir açıklama var (Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning For Image Recognition. CVPR 2016.) ResNet'in tüm öğrenme sürecinin sığdan derinlemesine bir öğrenme süreci olduğuna inanıyor. Dinamik süreçte, sığ bir ağ, eğitimin başlangıcında eşdeğer şekilde eğitilir ve eğitimin sonraki aşamasında, derin bir ağ eşit şekilde eğitilir.

Makalenin ilk yazarı He Yuming'in daha "bilimsel" bir açıklaması daha var.Tüm eğitim sürecinin derin öğrenmenin gradyan iniş sürecine eşdeğer olduğuna inanıyor.En zor gradyan kaybolma problemi ResNet tarafından çözüldü.Bu açıklama ECCV 2016'da da yayınlandı. Bu yazıda (Kaiming He, Xiangyu Zhang, Shaoqing Ren ve Jian Sun. Derin Artık Ağlarda Kimlik Haritalama. ECCV 2016.), bu makalede ilk kez 1001 katmanlı bir sinir ağı eğitildi.

Meslektaşların öne sürdüğü bazı açıklamalar var. Bunlardan biri, Ağırlık Paylaşımı varsa ResNet'in bir tür RNN olarak görülebileceğini düşünerek ResNet'i RNN ile ilişkilendirmektir. Başka bir açıklama, ResNet'i birden fazla farklı derin ağın üstel bir entegrasyonu olarak görür. Aslında "entegrasyon" kelimesiyle ilgili bazı problemler var, çünkü genellikle ortak eğitim olmadan topluluk algoritmaları yapıyoruz, ancak ResNet'in tamamında birden fazla ağ ortaklaşa eğitiliyor, bu yüzden entegre olup olmadığını tanımlamak zor.

Kişisel olarak hemfikir olduğum bir açıklama, ağın erken aşamasında katman öğrenimi temsiline ve daha sonraki birçok katmanda gösterimi yineleyerek ve Hassaslaştırmaya atıfta bulunan Yinelemeli İyileştirmedir. Bu, insanların resim okuma ve okuryazarlık anlayışına çok benzer. Anlaşılması kolay olmayan bir şeye bakmanız gerekir. Okuduğunuz içeriğe ilişkin mevcut anlayışınıza dayanır ve anlamak için tekrar tekrar okuyabilirsiniz.

Optimizasyon açısından bir açıklama da var ResNet'in yapısı kullanılmazsa, sistemin kayıp fonksiyonu çok inişli çıkışlı ve düzensiz olacaktır, bu nedenle optimize etmek zordur. Tüm ağ eğitiminin dışbükey olmayan bir optimizasyon sorunu olduğunu biliyoruz.Eğer bu kadar düzgün olmayan bir kayıp işlevi ise, eğitimi yerel minimumdan atlamak zordur; ResNet yukarıdaki şeklin sağ tarafında kullanılması durumunda, iyi bir yerel konuma ulaşmak nispeten kolay olabilir. Çok küçük. Son çalışmalar, yerel minimumların alanı ve düzlüğünün, bir yöntemin genelleme yeteneği ile çok güçlü bir şekilde ilişkili olduğunu göstermiştir.

Çok katmanlı ResNet, oldukça doğrusal olmayan haritalamayı öğrenme konusunda çok güçlü bir yeteneğe sahiptir. Geçen yıl, ResNet, DeepMind'in AlphaGo Zero sistemine başarıyla uygulandı. 40 veya 80 katmanlı bir ağ ile, satranç tahtası görüntüsünden yerleştirme konumuna kadar oldukça karmaşık bir eşleştirme öğrenebilirsiniz ki bu çok şaşırtıcıdır.

2012'den beri çeşitli sinir ağı yapıları ortaya çıktı. Bu görevlere bilgi işlem platformları açısından bakarsanız, kabaca üç kategoriye ayrılabilir: İlk kategori, GoogleNet ve ResNet gibi "bulut" üzerindedir. Amaç, en yüksek doğruluk yönünde hareket etmektir. GPU ve TPU çok büyük modelleri eğitebilir. , Bilişsel sınırlarımızı keşfetmek için; ikinci tip platform "uçta", özellikle bazı gömülü cihazlarda.Bu cihazlarda bilgi işlem gücü ve bellek erişimi sınırlıdır, ancak birçok gerçek senaryoda durum budur. Yukarıdaki araştırma nasıl yapılır? Google geçen yıl MobileNet'in mobil cihazlarda çalışmasını önerdi ve Megvii Technology geçen yıl ShuffleNet'i önerdi. Amacı, belirli bir bilgi işlem cihazında en iyi sonuçları nasıl elde edeceğini söylemektir.

Bir ağın en temel yapısı çoklu 3x3 evrişimdir. ResNet bir atlama bağlantısı ekler. Ayrıca ResNet'te bir Darboğaz yapısı da sunarız. Önce 1 × 1, sonra 3 × 3 ve sonra 1'e geri dönün. × 1, evrişimin verimliliğini artırabilir.

He Yuming, geçtiğimiz yıl ResNeXt adlı bir çalışmasına sahipti; bu, evrişimin etkinliğini büyük ölçüde artırabilen 3x3 temelinde gruplandırılmış evrişim yöntemini tanıttı; Googleın MobileNet 3x3 katmanlı bir evrişim yöntemidir, her katmanın bir hacmi vardır Her biri, bu yöntem özellikle düşük kaliteli cihazlarda çok etkilidir. ShuffleNet, gruplama evrişimi ve katmanlı evrişimi 1 × 1 Dönüşümü gruplandırmak için birleştirir; ancak yalnızca gruplama yaparsanız, gruplar arasındaki bilgi değiş tokuş edilmeyecek ve bu özellik öğrenmeyi etkileyecektir, bu nedenle farklı gruplar oluşturmak için Karıştırma işlemini sunuyoruz. Daha iyi bilgi alışverişi ve ardından 3x3 katmanlı evrişim yapın ve ardından 1x1 gruplanmış evrişime geri dönün Bu, ShuffleNet'in temel fikridir. Aynı doğrulukta diğer yöntemlerle karşılaştırıldığında ShuffleNet, gerçek cihazlarda AlexNet'ten yaklaşık 20 kat daha hızlıdır.

Bu bizim geçen yıl cep telefonları için tasarladığımız ShuffleNet'imiz CPU / ARM üzerinde çok iyi çalışıyor; GPU üzerindeyse performansı iyi değil çünkü CPU ve GPU'nun özellikleri farklı. Bunun birçok nedeni var, örneğin Evrişim tasarımı, grup evrişimi vb. Ayrıntılara girmeyeceğim.

Bu yıl, gruplanmış evrişim fikrinden vazgeçmek ve Kanal Bölme ile Kanal Karıştırmayı birleştiren yeni bir yöntem sunmak için ikinci sürüm olan ShuffleNet v2'yi tasarladık. Bu yöntem önce Kanalı ikiye böler ve her şubeyi çok basit bir yapıyla yapar ve ardından Kanalı Shuffle işlemiyle birleştirir.Bunun kökü, ağ tasarımında bulduğumuz bazı temel kılavuz ilkelerdir. Seyrek evrişim yerine dengeli evrişime ve rastgele evrişim yerine daha düzenli evrişime ihtiyacımız var.

Bu çalışma şu anda hem CPU hem de GPU'da en iyi doğruluk ve hıza sahip; sadece küçük modellerde değil, aynı zamanda büyük modellerde de.Çok iyi sonuçlar elde edildi.Yukarıdaki rakamın son satırı ShuffleNet v2'nin şu anda sadece 12.7 hesaplamaya sahip olduğunu söylüyor. G Flops durumunda, ImageNet'te çok yüksek doğruluk elde edildi.

Ayrıca, yalnızca ağ yapısı tasarımını gerektirmeyen, aynı zamanda ağın dahili doğruluğunun temsilini de sınırlayan yonga üzerinde sinir ağını çalıştırmamız gerekiyor.Şimdi en popüler yöntem, BNN ve XNOR Net gibi doğruluğu azaltmaktır ve DorefaNet, Megvii Technology tarafından önerildi. Düşük hassasiyetli yöntem, 1 bit, 2 bit ve 4 bit gibi sinir ağının ağırlık veya aktivasyon değerinin düşük hassasiyetli temsilini ifade eder. İki vektör düşük hassasiyetle gösterilebiliyorsa, o zaman evrişim hesaplaması çip üzerinde çok basit bit işlemleriyle tamamlanabilir.

Önerdiğimiz DorefaNet, gradyanları da ölçen ilk araştırma çalışmasıdır, bu da FPGA'lar ve hatta ASIC'ler üzerinde eğitim almamızı sağlar. Bu cihazlardaki hesaplama miktarı bir yönüdür, ancak bellek erişim kısıtlamaları daha fazladır ve DorefaNet yöntemi daha iyisini yapabilir. Yukarıdaki şekil, 1 bit, 2 bit, 4 bit ve 6 bit nicemleme hassasiyetiyle ImageNet'te aldığımız en iyi sınıflandırma sonuçlarıdır.

Yukarıdaki sınıflandırma problemi ağ tasarımının farklı platformları dikkate alması gerekir.Diğer sorunlar çoğunlukla algılama gibi sınıflandırmaya dayanır. Yukarıdaki şekil, R-CNN'den önerdiğimiz SPP-Net'e ve Fast R'ye kadar son yıllarda tespitin gelişim yoludur. -CNN, ardından Daha Hızlı R-CNN'mize, hepsi önce temel sınıflandırma ağını uygular ve ardından farklı nesne algılama çerçeveleri oluşturur.

Algılamada en yetkili rekabet COCO'dur. Algılama doğruluğu mAP ile ifade edilir, ne kadar yüksek olursa o kadar iyidir. 2015 yılında, Microsoft Research Asia'da ResNet'i kullanarak 37.3'e ulaştık. Megvii Research, geçen yıl bu yarışmaya katıldı ve 52.5 (100 puan üzerinden) birincilik puanı alarak ileriye doğru bir başka büyük adım oldu. COCO 2017 şampiyonunu kazanan makalemiz MegDet. COCO insanları tespit edebilir ve özellikleri çıkarabilir. Ayrıca ikincisinin (Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, Jian Sun.Çoklu Kişi Poz Tahmini için Basamaklı Piramit Ağı) çalışmalarını da inceliyoruz. CVPR İnsan iskeletini çıkarmak, iskelet aracılığıyla insan hareketini ifade etmek ve davranış eğitimi için resimleri doğrudan analiz etmekten daha etkili olan davranış analizi yapmak.

Son olarak, bulut, terminal ve çekirdek tabanlı ticari uygulamalarımızdan bazılarını tanıtacağız.

Bulutta, Megvii Technology ilk olarak geliştiriciler için www.faceplusplus.com'un AI bulut hizmetini başlattı. İkinci bulut hizmeti ürünü, şu anda İnternet finansmanı, bankacılık, seyahat ve diğer endüstriler için çevrimiçi kimlik doğrulama hizmetleri sağlayan en büyük çevrimiçi kimlik doğrulama platformu olan www.FaceID.com'dur. Üçüncü çok büyük bulut hizmeti ürünü şehir beynidir ve özü, birçok sensör aracılığıyla birçok bilgiyi elde etmek ve sonunda kararlar vermektir. Görme şu anda en büyük algılama şeklidir, çünkü Çin'de çok sayıda kamera var Bu görüntü sensörlerini güçlendirerek, insanların ve arabaların özelliklerini bilebilir, trafik ve coğrafi koşulları anlayabiliriz. En önemli uygulamalardan biri kamu güvenliği, yani şehirlerin güvenli ve verimli çalışmasına yardımcı olmak için yüz milyonlarca kameranın nasıl kullanılacağıdır.

Sonunda daha fazla uygulama var, ilki cep telefonu. Vivo V7, yüz kilidi açma teknolojimiz ve Xiaomi Note 3 yüz kilidi açma ile donatılmış ilk denizaşırı amiral gemisi telefonudur. Vivo ve Xiaomi'nin iPhoneX piyasaya sürülmeden önce yüz tanıma kilidi telefonlarını piyasaya sürmesine yardımcı olduk. Huawei Honor V10 ve 7C telefonlar da teknolojimizi kullanıyor. Huawei neden sözcüsü olarak Sun Yang'a sordu? Uzun süredir yüzdüğü için parmak izleri cilalanmış ve telefonunu iyi kullanmak için telefonunun kilidini açmak için yüzünü kullanması gerekiyor.

Sadece yüz kilidi açma değil, aynı zamanda yüz yapay zeka kamerasının sahne tanıma özelliği, ne çektiğinizi gerçek zamanlı olarak bilir, kamera parametrelerini daha iyi ayarlayabilir ve ayrıca 3D yüz yeniden yapılandırması yapabilir ve 3D ışık efektlerini otomatik olarak gerçekleştirebilir. Bir başka ilginç uygulama da Shenzhen ve Hangzhou'daki KFC amiral gemisi mağazalarıdır.Tüketiciler yemek sipariş etmek için doğrudan yüzlerini kullanabilirler.Bu resimler, yerinde bir bardak meyve suyu için ödeme sürecini gösterir. İkincisi ise yeni perakende, imaj algılama sistemleri yardımıyla çevrimdışı kişilerin, malların ve alanların süreci dijitalleştirilebilir. Çevrimiçi perakende dijitaldir ve yeni perakendenin verimliliğini artırmaya yardımcı olmak için dijital kullanıcı istatistiklerine veya kişisel bilgilere dayalı olarak kullanıcı portreleri ve büyük veri analizi yapılabilir. Çevrimdışı perakendede dijitalleşme için imaj algısını kullanmamız gerekiyor.

Son olarak, çip. Geçen yıl Güvenlik Fuarı'nda akıllı bir portre yakalama makinesi olan MegEye-C3S'yi piyasaya sürdük. DorefaNet'i FPGA üzerinde çalıştırdık ve bunu kameraya koyduk.Bu, endüstrinin ilk tam kare (1080p), tam kare hızı (30 fps) Gerçek zamanlı yüz tanıma ve yakalama makinesi.

Sonra ne yapmalıyım? Bugün alt platformlar, platformun özelliklerine göre farklı ağlar tasarlıyoruz. Yeni neslin, çeşitli platformlarda sinir ağı tasarımı ve optimizasyonu sorunlarını tek tip bir şekilde çözmek için bir "MetaNet" e sahip olacağına inanıyoruz.

hepinize teşekkür ederim.

Daha Fazla CCF-GAIR Konferansı Kayıtlı Makalesi:

AI teknolojisi inceleme raporu. Makalenin sonundaki tıklayın Orijinali okuyun AI etki faktörünü görüntüleyin.

( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!

Samsung Galaxy S10 serisi yapılandırma parametreleri tamamen açığa çıkarıldı, arka üç kamera + Snapdragon 855 işlemci
önceki
Aynı minyon, zayıf ve aynı tuhaf elf, Zhou Dongyu, Zhou Xun ile aynı kraliçe olabilir mi?
Sonraki
Carhartt WIP, LOOKBOOK'u bizzat yarattı! Alet veya Yokosuka o kadar yakışıklı ki buraya gelemezsin!
Honor resmi olarak Honor Tablet 5'i piyasaya sürdü: Harman Kardon çift hoparlör ayarlıyor
Dong Ping'in ünlü rehberinin başka bir pul koleksiyonu var: Jia Zhangke, Başkent Bürosuna 6 yıl sonra girdi.
Turing Ödülü jürileri, gelecek yıl bu iki yapay zeka öncüsünü değerlendirebilirsiniz.
On yedi yıl önce, "Yeni Chu Liuxiang" da Ren Xianqi'nin ortağı Ruby Lin, kimin daha iyi kostümü var?
Supreme, çok sayıda Logo Hoodie'yi piyasaya sürdü! Klasiği reddedebilir misin?
Bin dolara satın alın, kesinlikle kayıpsız! Honor Play 8C uygulamalı deneyim
Huang Zhang, Meizu'nun Snapdragon 855 + 4000mAh bataryaya sahip bir oyun telefonu olacağı haberini verdi
Andy Lau'nun "Nehirlerdeki ve Göllerdeki Ejderha" en yakışıklı genç ve Tehlikeli çocuğu yorumlar, ancak onu gören insanlar dünyayı bir daha karıştırmaya cesaret edemeyeceklerini söyledi.
Oynadığınız şey Zhilian Life Test sürüşü deneyimi Dongfeng Kaichen D60
Beckham x NIKE SF-AF1 ayakkabılar gerçekten ortaya çıktı! Çıkışı dört gözle mi bekliyorsunuz?
1099 yuan! Honor Play 8C piyasaya sürüldü: ilk Snapdragon 632, pil iki gün oynamaya yetiyor
To Top