2018, AI geliştirme hakkındaki gerçeği görmek için bir makale (bölüm 1)

Xin Zhiyuan Rehberi 2018'e 20 gün kala yapay zekanın popülaritesi hiç azalmadı. Go oynamanın ve insan yüzlerini tanımanın dışında, yapay zeka ne kadar gelişti? Çeşitli alanlardaki akademik makalelerin en gelişmiş sonuçlarını özetleyerek, bugün, bilgisayar görüşü ve doğal dil işleme alanlarındaki iki alanda AI ilerlemesinin gerçek durumuna bakalım.

2018 yılında yapay zekanın popülaritesi azalmadı ve sonuçlar devam etti.

Geçen yıl her fırsatta "insanı aşma" ruhu kaybolsa da, bugün "insanlara yardım eden" yapay zeka ne ölçüde geliştirildi? 2018'in sonunda kısa bir inceleme yapalım.

Dozun yanı sıra toksisite hakkında konuşmak bir hayduttur ve veri kümeleri ve belirli görevler dışında yapay zeka ilerlemesi hakkında konuşurken de aynıdır. "State of the art.ai", MIT ve UNAM öğrencileri tarafından yapılan bir web sitesidir. Bilgisayarla görme, oyunlar, doğal dil işleme, ağ diyagramları ve bilgi tabanları, program indüksiyonu ve program sentezini kapsayan mevcut en iyi algoritmaları içerir. , Ses işleme, yedi alan işleme zaman serisi.

Aşağıda, yayınlanmış araştırma makalelerine dayalı olarak bilgisayar görüşü ve doğal dil işlemenin iki yapay zeka alanına bir göz atalım.

Bilgisayar görüşü

3B / 3B Yeniden Yapılandırma

Şu anda CV alanında "3D" nin en sıcak kelime olduğu söylenebilir. Bu yıl çeşitli akıllı telefonların tanıtımlarında "3D yapısal ışık" tan bahsedildi. Peki, 3 boyutlu görme ne ölçüde gelişti?

2017'de CVPR, MIT, Massachusetts Amherst Üniversitesi ve Google DeepMind araştırmacıları bir sonuç gösterdiler. Bir otomatik kodlayıcı (VAE) kullanarak, birden çok perspektiften görüntülenebilen SingleVPNet adlı bir çerçeve oluşturdular. Grafik veya ona karşılık gelen silueti, model oluşturmayı öğrenir ve bu görüntülerden ayrıntılı 3B şekiller oluşturmak için oluşturma işlevlerini kullanır.

Sadece bu değil, önerdikleri çerçeve, farklı perspektiflerden 2B derinlik haritalarını sentezleyerek (tıkanma durumunda bile) yeni 3B şekiller de oluşturabilir.

SingleVPNet, SharpNetCore 3B şekil veri setinde ortalama 0,35 hata elde etti. Başka bir deyişle, gerçekçi 3B şekiller oluşturmak için hala uzun bir yol var.

Ek olarak, SharpNetCore ShapeNet'in bir alt kümesidir ve şu anda 55 ortak nesne kategorisi içerir (bilgisayarla görme alanında yaygın olarak kullanılan 3B kıyaslama veri kümesi PASCAL 3D + 'nın 12 nesne kategorisini kapsar) ve her modelde yaklaşık 5.100 benzersiz 3B model vardır. Hepsinde Princeton, Stanford ve Toyota Institute of Technology (TTIC) 'den araştırmacılar tarafından oluşturulan manuel olarak doğrulanmış kategoriler ve hizalama notları vardır.

Eylem tanıma

İşlem tanıma, videodan farklı işlemlerin tanımlanmasını ifade eder. Bu işlem, videonun tamamında çalışabilir veya çalışmayabilir. Eylem tanıma, birden çok video karesinden görüntü tanıma gerçekleştirmeyi ve ardından her kareden tahmin sonuçlarını toplamayı içeren bir görüntü tanıma uzantısıdır.

2017 NeurIPS'de CMU Robotik Enstitüsü araştırmacıları Rohit Girdhar ve Deva Ramanan dikkat mekanizmasını (Dikkat Havuzlama) kullandılar ve ağ karmaşıklığını ve hesaplama miktarını temelde değişmeden, üç statik görüntüde ve video standart hareket tanımada korudular. Veri setinde eylem tanıma kıyaslaması geliştirildi. Bunlar arasında, MPII insan vücudu duruş veri setinde% 12,5'lik bir görece iyileşme elde edildi.

Bununla birlikte, mutlak değere bakıldığında, ortalama doğruluk hala yüzde 52,2 puanın üzerindedir.

Yüz tanıma

Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından bu yıl 16 Kasım'da açıklanan sonuçlara göre Yitu Technology, sektörde "altın standart" olarak bilinen küresel yüz tanıma algoritma testinde (FRVT) 10 milyon puan aldı. Yanlış alarm durumunda tanıma doğruluk oranı% 99'u aşıyor ve küresel yüz tanıma yarışmasının şampiyonu olmaya devam ediyor.

On milyonlarca yanlış pozitifin altındaki tanıma doğruluğu oranı% 99'u aşıyor, bu da daha fazla temel ve kritik güvenlik senaryosunun kilidinin açıldığı anlamına geliyor. Geçen yılın aynı dönemine kıyasla, küresel yüz tanıma performansı% 80 arttı.

Bu resmi raporda, Çinli yapay zeka şirketlerinin gücünün gösterildiğini belirtmekte fayda var.Yitu, Sensetime ve Megvii, ilk ondan beşine artı Çin Bilimler Akademisi'nin beşinci sıradaki Shenzhen İleri Teknoloji Enstitüsü'nde (siat), Çin ekibi yarıdan fazlasına sahip ve küresel yüz tanıma algoritmasına liderlik eden "baskın ekranda" ilk beşi sağlam bir şekilde kurdu.

İnsan vücudu poz tahmini

Bu yılın Şubat ayında, Şanghay Jiaotong Üniversitesi Lu Cewu ekibinin MVIG laboratuvarının AlphaPose sistemi başlatıldı ve COCO veri setinde 70+ haritaya ulaşabilen ilk açık kaynak tutum tahmin sistemidir.

Bu yılın Eylül ayında, AlphaPose sistemi yükseltildi ve PyTorch çerçevesini benimsedi. Tutum tahmini standart test setinin COCO doğrulama setinde 71mAP doğruluğuna ulaştı (OpenPose'a kıyasla göreceli% 17 artış ve Mask-RCNN için% 8 nispi artış) Aynı zamanda hız 20FPS'ye ulaştı. (OpenPose ile karşılaştırıldığında,% 66 daha yüksek ve Mask-RCNN% 300 daha yüksek).

AlphaPose sistemi, Şangay Jiaotong Üniversitesi MVIG grubu tarafından önerilen RMPE iki aşamalı çerçeveye (ICCV 2017 belgesi) dayanmaktadır.Diğer açık kaynaklı sistemlerle karşılaştırıldığında, doğruluk oranı büyük ölçüde iyileştirilmiştir. OpenPose'dan% 17 daha yüksektir ve Mask-RCNN 8.2'dir. %.

Yükseltmeden sonra, her bir açık kaynak çerçevesinin COCO-Doğrulama üzerindeki performansı ve tek kartlı 1080ti GPU'da ölçülen göstergeler aşağıdaki gibidir:

Açık kaynak sistemi

Doğruluk

Ortalama sürat

Openpose (CMU)

60 HARİTA

12 FPS

Maske-RCNN (Facebook)

67 HARİTA

5 FPS

Alfapose (SJTU)

71 HARİTA

20 FPS

Görüntü sınıflandırması

Görüntü sınıflandırma görevlerinde bilgisayarların doğruluğu uzun süredir insanlarınkini aşmıştır, bu nedenle görüntü sınıflandırma doğruluğundaki mevcut en iyi sonuçlar genellikle diğer araştırmaların yan ürünleridir. ICLR 2017'de Google Brain Barret Zoph ve Quoc V. Le, "Takviye Öğrenmeli Sinir Mimarisi Araması" nı yayınladılar. Sinir ağı yapılarını otomatik olarak aramak için takviye öğrenmeyi kullandılar. Son olarak, AI modeli kendi başına tasarladı ve CIFAR-10 veri kümesinde görüntüler yaptı. Sınıflandırma% 96.35 doğruluğa ulaştı.

Belki de şaşırtıcı bir şekilde, görüntü sınıflandırmasının en iyi sonucu şu anda Facebook AI Araştırmasından Benjamin Graham tarafından 2015 Arxiv makalesi "Kesirli Maks-Havuzlama" ile elde edilmiştir. 100 testten sonra, CIFAR-10'daki hata yalnızca % 3.47 . Bu makale, çeşitli veri kümelerinde aşırı uyumu azaltmak için yeni bir kesirli maksimum havuzlama yöntemi önermektedir.

Görüntü oluşturma

Görüntü oluşturma söz konusu olduğunda, bir yüzleşme ağı (GAN) oluşturmak doğaldır.

GAN bu yıl da gelişmeye devam ediyor. Bu yıl ICLR DeepMind tarafından önerilen BigGAN şu anda en güçlü görüntü üretme modelidir. 128x128 çözünürlükle ImageNet üzerinde eğitim alan BigGAN'ın Başlangıç Puanı (IS) 166.3'e ve Frechet Başlangıç Mesafesi (FID) 9.6'ya ulaşabilir.

BigGAN'a daha ayrıntılı bir giriş için buraya bakın.

Gelecekte GAN'ın ne ölçüde geliştirilebileceği dört gözle beklemeye değer!

Resim parçalama

Evet, görüntü segmentasyonunun kralı, He Yuming ve arkadaşları tarafından 2017'de 26.2 mAP değeriyle önerilen Mask-RCNN'dir.

Ağustos 2018'de Michigan Üniversitesi ve Google Brain'den araştırmacılar, piksel düzeyinde görüntü anlamsal anlayışını ve manipülasyonunu gerçekleştirebilen, görüntüdeki nesneleri istediği zaman ekleyebilen, değiştirebilen ve hareket ettirebilen ve onunla etkileşimde bulunabilen katmanlı bir görüntü semantik işleme çerçevesi önermek için işbirliği yaptı. Orijinal resim entegre edilmiştir ve gerçek "PS izi yok" olduğunu fark eder.

İlgili makaleler hakem incelemesine tabi tutulmamış olsa da, yukarıdaki araştırmacıların Arxiv makalesinde bildirdiği sonuçlara göre, görüntü segmentasyonunda üstündürler.

Doğal dil işleme

Sınıflandırma / anlamsal benzerlik / gramer / film incelemesi / anlamsal eşdeğerlik / soru ve cevap / varlık tanıma

BERT Bu isim son zamanlarda NLP alanında patlama yaşıyor.

13 Ekim'de, Google AI ekibinin yeni yayınlanan BERT modeli, makine okuduğunu anlama SQuAD1.1'in üst düzey testinde harika sonuçlar gösterdi: Her iki önlem de insanları aşıyor! Ayrıca 11 farklı NLP testinde en iyi sonuçları elde etti , GLUE kıyaslamasını% 80,4'e (mutlak iyileşme% 7,6), MultiNLI doğruluğunu% 86,7'ye (mutlak iyileşme oranı% 5,6) vb.

Google ekibinden Thang Luong doğrudan şunları tanımladı: BERT modeli yeni bir NLP çağını başlatıyor!

BERT'in Transformer'in iki yönlü kodlayıcı gösterimini temsil eden yeni dil temsil modeli. Diğer yeni dil temsil modellerinden farklı olarak, BERT geçmeyi hedefliyor Derin çift yönlü gösterimi önceden eğitmek için tüm katmanlarda bağlamı birlikte ayarlayın . Bu nedenle, önceden eğitilmiş BERT temsili, çok çeşitli görevler için son teknoloji modellerin inşası için uygun olan ek bir çıktı katmanı aracılığıyla ince ayar yapılabilir.

Daha önce de belirtildiği gibi, BERT 11 NLP görevindeki performans kayıtlarını yeniledi! İşte sonuçlardan biri.

GLUE test sonucu, GLUE değerlendirme sunucusu tarafından verilir. Her görevin altındaki sayı, eğitim örneklerinin sayısını gösterir. "Ortalama" sütunundaki veriler, söz konusu WNLI kümesini hariç tuttuğumuz için resmi GLUE puanından biraz farklıdır. BERT ve OpenAI GPT'nin sonucu, tek model ve tek görev verileridir. Tüm sonuçlar https://gluebenchmark.com/leaderboard ve https://blog.openai.com/language-unsupervised/ adreslerinden alınmıştır.

SQuAD sonuçları. BERT entegrasyonu, farklı eğitim öncesi kontrol noktaları ve ince ayarlı tohumlar kullanan 7x sistemdir.

, CoNLL-2003 adlı varlık tanıma sonuçları. Hiperparametreler, geliştirme seti tarafından seçilir ve sonuçta ortaya çıkan geliştirme ve test puanları, bu hiperparametreleri kullanan beş rastgele yeniden başlatmanın ortalamasıdır.

Genel olarak, BERT modeli şu anda NLP alanındaki birden fazla görevde en iyi sonuçları elde etmiştir.

Sınıflandırma, anlamsal benzerlik, gramer, film incelemeleri, anlamsal denklik, soru cevaplama, varlık tanıma vb.

Sağduyu muhakemesi

Commensense Çıkarımı açısından en ileri düzey, Antonio Lieto ve diğerleri tarafından 2017 yılında yayınlanan makaledir: İkili PECCS: kavramsal temsil ve sınıflandırma için bilişsel bir sistem .

Tabii ki, bu makalenin sonuçları şu anda Konsept Kategorizasyon Doğruluğu konusunda en iyisidir 89; ancak Geliştirme ve Test doğruluğu açısından, BERT modeli hala en iyi sonuçları veriyor: 86.6 ve 86.3.

makine çevirisi

Makine çevirisi görevinde (Makine Çevirisi) şimdiye kadarki en iyi sonuçlar, Zhen Yang ve diğerleri tarafından bu yıl Nisan ayında Arxiv'de yayınlanan makaleden geliyor:

Bu makalenin algoritması esas olarak Transformer + BR-CSGAN'ı birleştirir ve BLEU'da elde edilen puan 43.01'dir, bu şu anki en iyi sonuçtur.

Doğal dil çıkarımı

Doğal dil çıkarımı (Doğal Dil Çıkarımı) görevinde şu anki en iyi sonuç, Yichen Gong ve diğerleri tarafından bu yılın Mayıs ayında Arxiv'de yayınlanan bir makaleden geliyor:

Bu yazıda kullanılan algoritma, şu anda 89.84 doğrulukta olan ve şu anda en iyi seviyede olan DIIN'dir.

Yukarıdakiler, bilgisayarla görme ve doğal dil işleme alanlarındaki en son gelişmedir. Yapay zekanın diğer alanlarındaki çeşitli görevlerde şu anda elde edilen en iyi sonuçları öğrenmek için lütfen aşağıdaki bağlantılara bakın:

https://www.stateoftheart.ai/

TCL kavisli TV, Samsung'dan daha yüksek pazar payına sahip ve 147 milyon kar elde etti
önceki
Gribi önlemek için gerekli bilgiler
Sonraki
600 yaşındaki Yasak Şehir en büyük sınavla karşı karşıya, lütfen bırak gitsin!
Li Ka-shing'in Avrupa haritası daha da genişletildi CKH Holdings'in hisse fiyatı neden hareket etmiyor?
CES 2018'i izleyin: Geleceğin arabası gerçekten burada mı?
2019 Qingbo Töreni ve Yeni Medya Büyük Veri Yapay Zeka Zirvesi, yeni medyanın yeni potansiyelini tartışıyor
Badminton Federasyonu'nun en son sıralaması: Guoyu çiftler kadınlarda sadece birinci, Chen Long dördüncü, Lin Dan sekizinci ve Chen Yufei tek kadınlarda beşinci oldu.
"Double Eleven" Alibaba, Jingdong ve Suning'de e-ticaretin belirleyici savaşı bir yakın dövüş başlattı
İkinci el otomobil pazarı patlamadan önce, 58.com'un ikinci el arabası endüstri ekolojisini nasıl değiştirecek?
Yabancı kadınlar uzun mesafelerde uyuşturucu taşıyor, Pekin polisi çılgınca İngilizce gösteriyor
Haidilao'nun Yihai International'ın ardından, restoran stoku Zhou Heiya halka arz için Hong Kong'a gelebilir
Chelsea ilk dört sıradaki zayıf oyuncularla çok az umutla berabere kaldı, Tottenham Şampiyonlar Ligi elemelerinde kilitlendi, Arsenal altıncı sırada
Dikkate değer! Bu yerler Jingdezhen'in kartvizitinin yeni öne çıkan noktaları! Çevrenizdeki arkadaşlara söyle ...
Ma Huateng ipuçları: AR veya WeChat dünyadaki yeniliği etkileyecek
To Top