Megvii Baş Bilim İnsanı Sun Jian: Derin Öğrenme Görsel Hesaplamayı DönüştürüyorCCF-GAIR 2019

12-14 Temmuz tarihleri arasında 4. Küresel Yapay Zeka ve Robotik Zirvesi 2019 (CCF-GAIR 2019) resmi olarak Shenzhen'de yapıldı.

Zirve, Lei Feng.com, Hong Kong Çin Üniversitesi (Shenzhen) tarafından organize edilen ve Shenzhen Yapay Zeka ve Robotik Enstitüsü tarafından ortaklaşa düzenlenen Çin Bilgisayar Federasyonu (CCF) tarafından düzenleniyor. Yerli yapay zeka alanında güçlü bir sınır ötesi değişim ve işbirliği platformu oluşturmayı amaçlayan üç ana sanayi ve yatırım alanında değişim ve fuar etkinliği.

14 Temmuz'da "Akıllı Şehir Görsel Zekası" oturumu resmen başladı ve oturum tamamen "Gelecekte Şehir Düzeyinde Görsel Yapay Zekanın Gelişim Yönü" temasına odaklandı.

Toplantıda Megvii Baş Bilim İnsanı, Araştırma Enstitüsü Dekanı ve Xi'an Jiaotong Üniversitesi Yapay Zeka Okulu Dekanı Sun Jian, "Derin Öğrenme Görsel Hesaplamayı Dönüştürüyor" başlıklı harika bir paylaşım getirdi.

Sun Jian, bilgisayarla görü araştırması alanındaki değişiklikleri üç açıdan tanıttı: görsel zeka, bilgisayar fotoğrafçılığı ve AI hesaplama.

Önce derin öğrenme geliştirme tarihini gözden geçirdi.Bu güne kadar derin öğrenmeyi geliştirmek kolay değil.Süreçte iki ana engelle karşılaşıldı:

Birincisi, derin sinir ağları iyi eğitilebilir mi? Derin öğrenmenin başarısından önce birçok kişi tarafından şüpheleniliyordu.Geleneksel makine öğrenimi teorisi ile karşılaştırıldığında, derin öğrenme sinir ağının parametreleri verilerden 10 kat, hatta yüzlerce kat daha büyüktür;

İkincisi, o zaman eğitim süreci çok kararsızdı.Kağıtta sinir ağı eğitim yöntemi verilmiş olsa bile, diğer araştırmacıların sonuçları yeniden üretmesi zordu.

Bu engeller ancak 2012'de yavaş yavaş kaldırılmaya başlandı.

Sun Jian, derin öğrenme ile geleneksel makine öğrenimi arasındaki en büyük farkın, veri miktarı arttıkça insan performansını aşmak için daha büyük sinir ağlarının kullanılmasının mümkün olduğuna inanıyor.

Bilgi işlem platformuna gelince, zeka, bulut, terminal ve çekirdek dahil olmak üzere birçok donanım üzerinde konuşlandırılabilir.Teknoloji geliştirme eğilimi, bilgi işlem platformuna göre otomatik modellerin uyarlanabilir şekilde nasıl tasarlanacağıdır. Bu bağlamda Megvii, Single Path One-Shot NAS için iki adıma ayrılan yeni bir model arama yöntemi önerdi:

İlk adım, aramak istediğimiz alt ağı içeren ve önce SuperNet'in tüm ağırlıklarını eğiten bir süper ağ olan bir SuperNet'i eğitmektir;

İkinci adım, Alt Ağlar alt ağını aramaktır.Avantajı, ikinci adımın eğitim gerektirmemesi ve çok verimli olmasıdır. Tüm model arama süresi normal eğitim süresinin sadece 1.5-2 katıdır ancak çok iyi sonuçlar alınabilir. Şu anda birden fazla test setinde önde gelen sonuçlar.

Ek olarak, çekirdek teknolojileri oluşturmak için Megvii, çok merkezli ve güçlü bilgi işlem gücüne sahip Brain++ Altyapısı, şirketin tüm çalışanları tarafından kullanılan bir derin öğrenme motoru olan Brain++ Engine, dahil olmak üzere kendi geliştirdiği bir yapay zeka çerçevesi Brain++ da oluşturdu. ve en son model aramayı entegre eden AutoML.Aynı zamanda Megvii, algoritmaların yardımıyla veri temizleme ve etiketlemeye yardımcı olan bir yapay zeka veri etiketleme ve yönetim platformu Data++'a da sahiptir.

Sun Jian, Megvii Baş Bilim Adamı, Araştırma Enstitüsü Dekanı, Xi'an Jiaotong Üniversitesi Yapay Zeka Okulu Dekanı

Sun Jian'ın konferanstaki canlı konuşmasının içeriği aşağıdadır: Lei Feng.com orijinal niyeti değiştirmeden düzenledi ve düzenledi:

Sun Jian: Herkese teşekkürler.Bugün bu etkinliğe geldiğim için çok mutluyum.Toplantının popülaritesi geçen yıla göre çok daha yüksek. Bu konuşmanın teması, derin öğrenmenin bilgisayarla görü araştırmasına getirdiği değişiklikleri gözden geçirmektir.

Bilgisayarla görmenin yapay zekada çok önemli bir rol oynadığını biliyoruz. Yapay zeka iki kısma ayrılabilir: algı ve biliş.Konuşma, doğal dil ve görme, yapay zekanın üç direğidir. Teknolojik atılımları ve farklı yönlere iniş derecelerini temsil etmek için farklı renkler kullanıyorum.

Kuruluşunun başlangıcında, Megvii kendini bilgisayarla görü araştırmalarına adamıştır ve gelişiminin bu kadar başarılı olmasının nedeni, etrafımızdaki çok sayıda kamerayla ilgilidir.

Önemli bir taşıyıcı olarak kameraların birçok uygulama senaryosuna sahip olduğunu biliyoruz, bu da günümüzde bilgisayarlı görü alanında bu kadar çok şirketin bulunmasının nedenlerinden biridir.

Bugünkü paylaşım, temel olarak, bilgisayarla vizyonun araştırmamıza dahil edilmesinden sonra derin öğrenmenin getirdiği üç büyük değişiklik olan üç yöne bölünmüştür:

  • İlk olarak, görsel zeka, bir makinenin bir fotoğrafı veya videoyu nasıl anladığını cevaplar.Bu alandaki araştırmalarda ne gibi değişiklikler oldu?

  • İkincisi, bilgisayar fotoğrafçılığı, bir girdi görüntüsünden beklediğimiz başka bir görüntünün nasıl üretileceğini araştırıyor ve bu alanda neler değişti?

  • Üçüncüsü, bugün AI hesaplamada ne değişti?

görsel zeka

Marvin Minsky, yapay zeka alanının kurucusudur. Yapay zeka konusundaki araştırmasının başlangıcında, bir bilgisayar görme problemi üzerinde çalıştı: Bir kamerayı bir kütük yığınına doğrultun ve onu almak için robotik bir kol kullanın ve makinenin insanla aynı şekilde istiflenmesine izin verin.

Projeyi birkaç ay içinde bitirmeyi umarak birkaç stajyer tuttu, ancak birkaç yıl sonra fazla ilerleme olmadı. Bu da bilgisayarla görmenin çok zor bir konu olduğunu göstermektedir.

Bilgisayarla görü araştırmasında birçok senaryo olmasına rağmen, şimdiye kadar birkaç problemde sınıflandırılabilir: sınıflandırma, algılama, segmentasyon ve video dizilerinin tanınması için ilk üçünün kullanımı.

Bilgisayarlı görmenin, özellikle de semantik anlayışın özü, manipüle edilebilmesi, anlaşılabilmesi ve çeşitli uygulamalar için kullanılabilmesi için bir fotoğrafın bilgisayarda nasıl temsil edileceğidir. En eski araştırma, David Marr tarafından önerilen 2.5D Sketch'i ve Part-base'in temsilini içerir.

1990'larda sinir ağları çoğunlukla karakter tanıma ve yüz algılama için kullanılıyordu. 2000 civarında, Boosting gibi makine öğrenimi yöntemleri, öğrenilen özellikleri ilk kez tanıttı.

2000'den sonraki en iyi yöntem, bir resimden birçok yerel özelliği çıkaran ve bunları çok uzun bir vektöre kodlayan Özellik tabanıdır. 2010'daki derin öğrenmeden sonra, sinir ağları bize daha güçlü görsel temsiller getirdi.

Derin sinir ağlarının iki özelliği vardır:

İlk olarak, bir görüntüyü yüksek boyutlu bir uzayda bir vektöre eşler; çok uzun doğrusal olmayan dönüşümlerden oluşur ve gelen sinyal, istenen görüntü temsilini elde edene kadar birden fazla doğrusal olmayan dönüşümden geçer.

İkinci olarak, bu doğrusal olmayan dönüşümdeki tüm parametreler, denetim sinyaline dayalı olarak otomatik olarak öğrenilir ve manuel tasarım gerekmez.

Bu, sinir ağının ilk katmanlarda kenarlar, köşeler veya dokular gibi birincil kalıpları ve sonraki katmanlarda nesneler veya nesne parçaları gibi giderek daha fazla anlamsal kalıpları öğrendiğini gösteren bir görselleştirmedir. Hiyerarşik yapının temsili bir bütün olarak öğrenilir.

Derin öğrenme günümüzde pek çok iniş çıkışlardan geçmiş ve 2010 yılına kadar hakim konumunu geri kazanamamıştır. Geliştirme sürecinde iki engelle karşılaşılmıştır:

  • Birincisi, derin sinir ağları iyi eğitilebilir mi? Pek çok insan, bugün derin öğrenmenin başarısından önce buna inanmıyordu. Geleneksel makine öğrenimi teorisine göre, derin öğrenme sinir ağının parametreleri, eğitim verilerinden 10 kat hatta yüzlerce kat daha büyüktür.Birçok kişi nasıl iyi öğrenileceğine inanmaz.

  • İkincisi, o zamanki eğitim süreci çok istikrarsızdı.Kağıt, derin öğrenme veya sinir ağı eğitimi yöntemini bildirdi ve diğerlerinin sonuçları yeniden üretmesi zordu. Bir akıl hocası olarak, öğrencilerini bu araştırmayı sürdürmeye teşvik etmek zordur.

Bu iki engel 2012 yılına kadar yavaş yavaş kaldırıldı.

2012'den 8 Katmanlı bir sinir ağı olan AlexNet'ten ve daha sonra 19 Katmanlı bir sinir ağı olan VGG'den 2015'e kadar 152 Katmanlı bir sinir ağı önerdik. Ağdaki katman sayısı arttıkça ve veri miktarı arttıkça, ilk kez makinelerin ImageNet veri kümesinde insanlardan daha iyi performans göstermesine izin verdik.

ImageNet veri setinin kurulmasından insan performansının kırılmasına kadar yaklaşık 5-6 yıl geçti. Profesör Li Feifei'nin ekibinin, makinenin yeteneğinin insanların yeteneğini bu kadar çabuk geçebileceğini hayal etmediğini düşünüyorum.

152 Katmanlı ağ yaparken bize sık sık bir soru soruldu: Bu ağ neden 152 Katmanlı? Varsayılan yanıtımız, belleğin aynı anda çok sayıda katman tutabilmesidir.

Geçen yıl bir arkadaşım daha iyi bir cevap verdi: 8 çarpı 19 eşittir 152. AlexNet 8 katmandır, VGG ağı 19 katmandır, yani ResNet 152 katmandır.

ResNet'in temel fikri, doğrudan haritalamayı öğrenmek yerine, eğitim veya optimizasyon için çok faydalı olan artık haritalamayı öğrenmek yerine atlama katmanı bağlantıları eklemektir.

ResNet çıktıktan sonra meslektaşları çeşitli açıklamalarda bulundu. İnandığım açıklama şudur: ResNet yerine 0 eşlemeyi temsil etmek kolaydır, yani giriş sinyali ve çıkışı 0'a çok yakındır; ResNet'in Kimlik eşlemesini, yani giriş sinyalini ve çıkışı temsil etmesi kolaydır çok yakındır, sezgisel anlayış, bir ağın 0'a çok yakın olduğu zamandır. Derin olduğunda, bitişik değişiklikler daha küçük ve daha küçüktür. Bu parametreleştirme biçimi öğrenmeye daha elverişlidir, böylece sinir ağımızın optimizasyonu daha kolay olur.

Derin öğrenmeden önce karşılaşılan birçok zorluğun bir listesi:

  • Yetersiz veri ve bilgi işlem gücü;

  • Ağ nasıl başlatılır;

  • Doğrusal olmayan öğeler vb. nasıl kullanılır?

ResNet bir nokta daha ekliyor: ağ yapısı optimizasyona daha uygun olmalıdır. Derin öğrenmedeki bu çeşitli ilerlemeleri bir araya getirerek, herkes sonuçları yeniden üretebilir ve yüksek oranda tekrarlanabilir deneyler yapabilir.

Derin öğrenmenin haritalama yeteneği çok güçlüdür.Geçen yıl AlphaGo Zero'da ResNet kullanıldı.Parçaların nereye yerleştirileceğini tahmin etmek için 40 veya 80 Katmanlı ResNet kullandılar. Satrancın böyle karmaşık bir haritalaması, güçlü haritalama yeteneğini gösteren basit bir ResNet tarafından iyi öğrenilebilir.

Gerçek süreçte, denetimli öğrenme problemlerinde derin öğrenme ile geleneksel makine öğrenimi arasındaki en büyük fark, veri miktarı arttıkça, daha büyük bir ağ kullanılırsa, insan performansının geçmesinin muhtemel olmasıdır.

Megvii'nin ilk bulut hizmeti ürünü olan Faceplusplus.com, çeşitli bilgisayarla görme API'leri sağlar ve dünyanın her yerindeki geliştiricilere hizmet verir.

Diğer bir ürünümüz ise şu anda en büyük üçüncü şahıs kimlik doğrulama platformu olan FaceID.com'dur.İnsanoğlunun çok ötesindeki yeteneği nedeniyle şu anda internet finansmanı, banka müşteri hizmetleri, ulaşım gibi alanlarda hizmet vermektedir.

Yukarıda tartışılan ürünler, bilgi işlem hızı ve sinir ağının boyutu çok fazla dikkate alınmadan çoğunlukla bulutta kullanılır. Bulut modelinin amacı, bilişsel sınırları zorlamak ve bunu ne kadar iyi yapabileceğimizi görmektir.

Ancak çevrimdışı senaryolarda, birçok uygulamanın mobil terminallerde veya cep telefonlarında çalışması gerekir. Mobil bilgi işlem platformunda, referans için iki temsili sinir ağı tasarımı vardır:

  • Biri Google'ın MobileNet serisi;

  • Biri Megvii ShuffleNet serisi.

ShuffleNet'in V1 ve V2 sürümleri vardır.Temel, bir dizi tasarım ilkesi önermek: örneğin, evrişimi daha dengeli hale getirmek; dallar oluşturmamaya çalışmak; genel yapının parçalanmasını azaltmak ve eleman-eleman işlemlerinden kaçınmak.

ShuffleNet V2 tasarımımız çok iyi performans gösteriyor. Bu, Google AI ekibi tarafından verilen değerlendirme raporudur.ShuffleNet V2'nin gerçek çalışma hızında MobileNet V2'den genellikle %30-50 daha hızlı olduğunu değerlendirirler.

Sonuç olarak, Megvii, Çin'deki tüm birinci kademe cep telefonu üreticilerinin ilk 2D yüz kilidi açma cep telefonunu, ilk 3D yapılandırılmış hafif yüz tanıma cep telefonunu açma ve ilk kızılötesi yüz kilidi açma cep telefonunu vb. yapmalarına yardımcı oldu.

Daha düşük güç tüketimi gereksinimleri ve sonunda daha küçük alan ve hacim ile, sinir ağının çip üzerinde nasıl verimli bir şekilde çalıştırılacağı konusunda daha fazla araştırmaya ihtiyaç vardır.

Bu nedenle, DorefaNet (ilk olarak Megvii tarafından önerilmiştir) dahil olmak üzere düşük bit temsilleriyle temsil edilen bir dizi çalışma ortaya çıkmıştır.Düşük bit işlemleri açısından, bu, ağırlıkların, aktivasyon vektörlerinin ve gradyanların düşük bitleştirilmesini öneren ilk çalışmadır. . . .

Çipte, bilgi işlemle ilgili en büyük sorun, bellek erişim bant genişliğinin sınırlı olması ve verimli çalışabilmesi için bellek erişim hacminin büyük ölçüde bastırılması gerekmesidir.

Bu, 2017'de piyasaya sürülen ilk FPGA tabanlı akıllı kameramız ve akıllı kameraya DorefaNet'i yerleştirdik.

2018 yılında DorefaNet'i, FPGA'dan çok daha yüksek performans sağlayan, bizim ve ortaklarımızın ortaklaşa geliştirdiği bir ASIC çipi üzerine yerleştirdik.

Sadece cep telefonlarında değil, aynı zamanda rafları veya eşyaları taşımak için gerçek zamanlı otomatik senaryolarda da kullanılabilir.Araç navigasyonu ve engellerden kaçınma için sırasıyla aşağı ve ileriye bakan iki kamerası vardır.

Kamera robotik kolun gözüdür.Kutunun gerçek zamanlı olarak nerede olduğunu belirlemesi ve nesneleri tutarken kutuyu tutması gerekir. Otomasyon sürecinde, akıllı hesaplamanın verimli ve yüksek hızda yapılması gerekiyor.

Bu yongaları kullanan hesaplama yöntemi, birçok akıllı donanıma uygulanabilir. Bu resim, Megvii tarafından geliştirilen tüm donanımdır.

Sinir ağı tasarımındaki en son araştırmalara göre, AutoML veya NAS sıcak bir trend olarak adlandırılıyor. Bu, en son makaleleri okuyabileceğiniz harika bir web sitesidir (automl.org).

NAS probleminin özü, iç içe ağırlık antrenmanı problemini ve ağ yapısı arama problemini çözmektir.

Bu problem çok zordur ve çok büyük miktarda hesaplama gerektirir. En eski Google, hesaplama miktarını azaltmak için pekiştirmeli öğrenme veya evrimsel hesaplama kullandı, ancak hesaplama miktarı hala çok büyüktü.

En son popüler yol, Dart veya ProxyLess ile çalışmak gibi ağırlık paylaşımını kullanmaktır. Megvii, bu yılın başlarında iki adıma bölünmüş yeni bir Tek Yol Tek Çekim yöntemini başlattık:

İlk adım, çok büyük bir ağ olan bir SuperNet'i eğitmektir ve herhangi bir alt ağ, aramak istediğimiz ağdır. Önce SuperNet'in tüm ağırlıklarını çalıştırıyoruz;

İkinci adım SuperNet'te alt ağları örneklemektir.Avantajı bu adımın eğitim gerektirmemesi ve çok verimli olmasıdır.Eğitim süresi normal eğitim süresinin 1.5-2 katıdır ve çok iyi sonuçlar alınabilir. En iyi sonuçlar şu anda birden fazla test setinde elde edilmektedir.

Metodumuz sadece görüntü sınıflandırması değil aynı zamanda nesne tespiti de yapabilmektedir.

Bizim yöntemimiz aynı zamanda model sadeleştirme (Budama) için de kullanılabilir.SuperNet yöntemi ayrıca bir SuperNet'e eşdeğer olan bir PruningNet'i önce eğitmek için de kullanılabilir.PruningNet birçok alt ağ oluşturur ve birçok iyi Budama efekti elde eder.

Yukarıdaki görsel zeka ile ilgili bugünün ilk bölümüdür.Feature'ın işlevsel tanımından modelin tasarımına ve ardından mevcut model aramasına geçiyoruz.

hesaplamalı fotoğrafçılık

İkinci bölümde, uzun yıllardır yaptığım araştırma yönünü - hesaplamalı fotoğrafçılık - paylaşmak istiyorum. Hesaplamalı zekaya ek olarak, bilgisayarla görmedeki bir diğer sorun da, girdi olarak bir görüntü verildiğinde çıktının başka bir görüntü olmasıdır. Düşük girdi kalitesine sahip (bulanık, gürültülü ve zayıf aydınlatma gibi) görüntülerden daha iyi görüntüler elde etmek, hesaplamalı fotoğrafçılıktır ve aynı zamanda aktif bir araştırma yönüdür.

Hesaplamalı fotoğrafçılık daha önce nasıl yapıldı? Bu (yukarıda), siyah kanalı önceden tanıtan ve sisin fiziksel oluşturma sürecini sis olmadan görüntüyü geri yüklemek için birleştiren 2009 Dehaze dehaze'imizdir.Etki çok iyi ve CVPR 2009'da en iyi makaleyi kazandı.

Bu, meslektaşlarımızla (yukarıda) yaptığımız şeydi, burada birçok geleneksel dekonvolüsyon yöntemini kullanarak, bulanık bir görüntüden ve gürültülü bir görüntüden net bir görüntüye nasıl kurtarılırdı.

Bu, görüntü matlaştırma olarak bilinen başka bir sorundur: ön planı ince bir şekilde ayırmak için soldaki girdi ve sağdaki çıktı.

Bu, benim ve bugün ilk konuşmacı olan Profesör Jia Jiaya (yukarıda) tarafından ortaklaşa hazırlanan bir makaledir.

Bu Jay Jaya ile ikinci yazım (sol üstte). Bir resmin eksik bir parçası varsa veya bir kişiyi çıkarmak istiyorsak, üzerine bazı çizgiler çizmek için etkileşimli yöntemi kullanırız; daha sonra, daha iyisini yapabilen Patch'in doğal istatistik yöntemini kullanırız.

Geleneksel hesaplamalı fotoğrafçılık yöntemini özetlemek gerekirse: "Denizi Aşan Sekiz Ölümsüz", her problemin farklı varsayımlar bulması ve her problemin ayrı ayrı modellenmesi ve çözülmesi gerekiyor.

Farklı araştırmacıların farklı yöntemleri vardır.Avantajı, yeteneğiniz varsa çok ilginç yöntemler yapabilirsiniz.Dezavantajı ise her yöntemin bağımsız olarak tasarlanmasıdır.

Günümüzün derin öğrenme yöntemi, herhangi bir açık varsayımda bulunmadan önceki uygulamayı terk etmek ve tam evrişimli Encoder-Decoder aracılığıyla istenen görüntüyü çıktı almaktır.

Örneğin, Image Matting ile ilgili olarak, bugünün yöntemi şudur: çok görevli bir ağ aracılığıyla, Matting'in sonucu doğrudan çıktı alınabilir ve çok ince tüyler alınabilir. Çalışmamız, görüntü matlaştırmanın en büyük olduğu her iki kriterde de ilk sırada yer alıyor.

Matlaştırma sadece görüntü sentezi yapmakla kalmaz, aynı zamanda bir SLR ile aynı efekti çekmek için tek bir kamera kullanabilir.

Diğer bir değişiklik ise kamera çiftindeki görüntü sinyali işlemcisi ISP'dir (Görüntü Sinyal İşlemcisi).

Sol önce, sağda sonra, AI-ISP çok iyi gürültü azaltma ve yüksek kaliteli görüntüler elde edebilir.

Bu yöntem bu yıl CVPR görüntü paraziti azaltma şampiyonunu kazandı.Aynı zamanda bu yöntemi OPPO'nun bu yılki en son amiral gemisi telefonu olan gece çekimi süper kaliteli çekim teknolojisinin OPPO Reno 10x zoom versiyonuna uyguladık.

yapay zeka hesaplama

Son olarak bilgisayardaki devrimimizi paylaşmak istiyorum.

Soldaki geleneksel von Neumann bilgi işlem mimarisi bize uzun yıllar hizmet etti. Ancak veriler büyüdükçe, bellek ve bilgi işlem birimleri arasında verilerin taşınmasındaki darboğaz anlamına gelen bir "von Neumann darboğazı" ortaya çıkar.

Sağda ise günümüz sinir ağının bu darboğazı kıran eğitim ve çıkarım yöntemi yer almaktadır. Sinir ağı hesaplaması çok basit olduğu için, temelde yalnızca vektörler ve matrisler arasındaki işlemleri içerir, bu da birçok yargı ve dallanmadan kaçınabilir ve büyük ölçekli paralel hesaplama ile darboğazları ortadan kaldırabilir.

Moore Yasası yavaş yavaş ortadan kalkıyor olsa da, 2016'daki 10 TFLOPS bilgi işlem gücünden şimdi yüzlerce TFLOPS'a kadar AI bilgi işlem gücü katlanarak artıyor.

Erken aşamada getirilen değişiklik, önceki büyük ölçekli bilgi işlem CPU Bulutundan (büyük kutu) GPU Kutusuna (küçük kutu) geçiştir. Ancak yaklaşık 2015'ten sonra herkes bu küçük kutuların iyi olmadığını anladı çünkü artık daha büyük modeller kullanıyoruz ve bugün ImageNet'teki modellerimiz 2015'te kullandığımızdan 10 kat daha büyük. Ayrıca, birçok kişi birlikte çalıştığında kişi başına küçük bir kutunun verimi çok verimsizdir.

Model boyutu açısından şu anda nesne tanıma konusunda en yetkili yarışma COCO'dur.2017'de 3 şampiyonluk kazandık ve daha büyük modellerimizle etki giderek daha iyi hale geliyor. 2018'de daha büyük modellerimiz vardı ve 4 COCO şampiyonluğu kazandık.

Bu kadar büyük bir model, küçük bir kutuda yeterli değil. 2018'de MegDet adında bir yöntem önerdik.Sonuç olarak, eğitim hızını çok verimli bir şekilde artırabilen, neredeyse doğrusal hız ivmesi ve daha iyi performans sağlayan birden fazla hesaplama birimini kullanabilirsiniz.Bu modelde bir değişiklik ve bu ilk yönü.

Veriler de giderek büyüyecek.Bu, Megvii ve Beijing Zhiyuan Yapay Zeka Araştırma Enstitüsü tarafından ortaklaşa başlatılan Objects365. İlk aşamada, 10 milyondan fazla açıklama kutusu açık kaynaklıdır. Bu, şu anda dünyanın en büyük algılama verisi setidir. Büyük veri ile gerçekten daha iyi özellikleri öğrenebilirsiniz.Bu ikinci yöndür.

Üçüncüsü, verileriniz küçük bir kutuya sığmayacak kadar büyükse, ortada olması gerekir. Sorun şu ki, aynı anda antrenman yaparsak, aktarım büyük bir sorun olur.

Yani 2015'ten sonra küçük bir kutudan büyük bir kutuya döndük ama bu büyük kutu bir GPU veya TPU Bulutu.

Bunu yapmak için Megvii, AI platformumuz Brain++'ı geliştirdi. Alt katman, Motor, Bilgi İşlem, Veri ve AutoML'yi içeren fiziksel bilgi işlem gücüdür.

Bu Brain++ Engine bizim kendi geliştirdiğimiz derin öğrenme motorumuzdur.Önceden en çok Caffe, TessorFlow ve Pytorch kullanıldı.Megvii Brain++ Engine'i 2014'te geliştirdi ve şimdi tüm Megvii personeli 7.0 sürümünü kullanıyor.

Bildiğim kadarıyla Megvii, tüm startuplar arasında kendi derin öğrenme motorunu geliştiren ve tüm çalışanları için kullanan tek şirket. Motorun altında, bilgi işlem depolama yönetimi, model eğitim desteği vb. dahil olmak üzere donanım yönetimi de dahil olmak üzere bilgi işlem ortamı bulunur.

Son olarak, motorumuzda da otomatik model arama var. En iyi modeli aramak için çok fazla bilgi işlem gücüne ihtiyaç duyar.

Yukarıdakiler bugün paylaştığım şey, hepinize teşekkür ederim! Lei Feng Ağı

Spitz CTO'su Zhou Weida: Ses teknolojisi AIoT'ye öncelik veriyor | CCF-GAIR 2019
önceki
Shenzhen'deki bir konuttaki yangından sonra, 200 kişinin tamamı Ocak ayında taşınmak zorunda mı? Departman: Erken düzeltin ve erken dönün
Sonraki
Infinite Touch, Horizon, Cloud Sky, Tianshu Zhixin 2019 AI + Chip En İyi Büyüme Ödülü'nü kazandı | CCF-GAIR 2019
Shenzhen Huangmugang kapsamlı ulaşım merkezi projesinin ana inşaatı, trafik 28'inde 0: 00'da ayarlanacak
HiPU Tasarımına Giriş-DAC19 Hedef Tespit Tasarım Yarışması FPGA Pist İkincisi Programı Giriş | AI Araştırma Enstitüsü 157 Ders Salonu Özeti
Wanzi uzun makale, 14 endüstri-üniversite-araştırma lideri, yeni "akıllı şehir" trendini anlamanız için size rehberlik ediyor | CCF-GAIR 2019
Dynamic News Weekly | BP Didi Ortak Girişimi, Yeni Enerjili Araç Şarj İstasyonu İnşa Etmek İçin; Wanhua Chemical, İsveç Uluslararası Kimya'yı satın aldı
Çin'deki çok uluslu şirketler | Sanofi, Çin'deki yatırımlarını artırmaya devam edeceğine söz verdi; Magna, Çin'deki ilk araç üretimi ortak girişimi için bir sözleşme imzaladı
Haftanın ilaç endüstrisi haberleri | GlaxoSmithKline yeni başkan adaylarını doğruladı; Hintli ilaç devi Cipla Çin'de büyüyor
Topluluğa aniden kokan su düştü, 6 kişi ıslandı ve sahiplerden hiçbiri itiraf etmedi
Kamu Güvenliği Bakanlığı'nın A Sınıfı tutuklama emri çıkmasının ardından 13 kişi tutuklandı! Guangdong polisi Nanjing'deki cinayet davasından kaçağı tutukladı
Kötü GitHub: Programcılar yıldız sayımı konusunda ne kadar çılgın olabilir?
2019'daki en iyi JavaScript grafik kitaplığı
Paylaşılan bisikletler yine sokağa hakim mi? ! Belediye Ulaşım Departmanı: Düzeltmeyi tamamlamadan önce yeni sürümleri askıya alın
To Top