Xin Zhiyuan bugün
Xinzhiyuan Raporu
Kaynak: medium.mybridge.co
Editör: Xiao Qin
Xin Zhiyuan Rehberi Haziran ayında 1.400'den fazla makine öğrenimi ile ilgili makale / proje arasından Mybridge, en popüler 10 makaleyi seçti (% 0,7 kabul oranı). Konular şunlardır: Google Duplex, grid unit, sinir ağı, TensorFlow, Keras, first place solution, CVPR 2018, vb.
Mayıs ayında 1.400'den fazla makine öğrenimi ile ilgili makale / proje arasından Mybridge en popüler 10 makaleyi seçti (% 0,7 kabul oranı).
Bu listedeki konular: Google Duplex, grid unit, sinir ağı, TensorFlow, Keras, first place solution, CVPR 2018, vb.
En iyi 10 makale, paylaşılan makale sayısı, okuma süresi vb. Dikkate alınarak ve makaleleri sıralamak için makine öğrenimi algoritmaları kullanılarak Mybridge AI tarafından seçildi. Bu makalelerde paylaşılan makine öğrenimi deneyimi ve becerilerinin faydalı olduğuna inanıyorum.
1. Google Duplex: Telefonla gerçek dünyadaki görevleri tamamlayan bir AI sistemi
Mayıs ayında en çok fark edilen, Google tarafından I / O Konferansında gösterilen yeni Google Asistan özelliğidir Dubleks teknolojisi .
Duplex teknolojisini kullanan Google'ın akıllı asistanı, gerçek dünyadaki görevleri insan seslerine çok benzeyen rollerle tamamlayabilir. Demoda, Google CEO'su Pichai izleyicilere, "Duymak üzere olduğunuz şey, Google'ın asistanının gerçek bir güzellik salonunu aradığı ve sizin için bir randevu ayarladığı" dedi. Elbette, akıllı asistan bunu neredeyse hatasız yaptı. görev. Daha sonra bu gösterinin doğru olup olmadığı sorgulanmasına rağmen, bu teknoloji sektörde hararetli tartışmalara neden oldu.
Bu makalede, Google'ın baş mühendisi Yaniv Leviathan ve mühendislik başkan yardımcısı Yossi Matias, Google Duplex tarafından kullanılan teknolojileri ayrıntılı olarak açıkladı:
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
2. "Yüz Değiştiren" Derin Video Portreler
Derin Video Portreler Stanford Üniversitesi, Münih Teknik Üniversitesi vb. Araştırmacılar tarafından bu yılın Ağustos ayında SIGGRAPH konferansına gönderilen bir makaledir. Bir kişinin yüzünü bir videoda başka birinin yüzünü yeniden oluşturmak için kullanabilen gelişmiş bir "yüz değiştiren" teknolojiyi açıklar. Hareketler, yüz ifadeleri ve ağız şekilleri.
Örneğin sıradan insanların yüzünü Obama'nın yüzüyle değiştirin. Derin Video Portreleri, yüzü, kaşları, ağzın köşelerini ve arka planı oluşturan unsurları ve bunların hareket biçimlerini öğrenmek için hedef kişinin (bu durumda Obama) bir videosunu kullanabilir.
Kağıt adresi: https://arxiv.org/abs/1805.11714
3. Yapay zekada gezinmek için ızgara gösterimini kullanın
AI, Go gibi birçok görevde insanları geride bırakmış olsa da, uzay navigasyon yetenekleri hala yapay zeka için büyük bir zorluk. DeepMind in Nature tarafından yayınlanan bir makale, AI ve sinirbilim alanında büyük şoka neden oldu: AI, insan beyninin "ızgara hücreleri" ile oldukça tutarlı bir uzaysal gezinme yeteneği sergiliyor.
Araştırmacılar, bir dizi deneysel işlem aracılığıyla, vektör tabanlı gezinme için ızgara hücrelerinin gerekli olduğunu buldular. Örneğin, ağdaki ızgara birimi sıkıştırıldığında, aracının gezinme yeteneği bozulacak ve hedefin uzaklığı ve yönü ile ilgili yargı gibi temel göstergelerin temsili daha az doğru hale gelecektir. Bu bulgu, AI yorumlanabilirliği çalışmasına yardımcı olur.
Adres: https://deepmind.com/blog/grid-cells
4. Python'da sıfırdan bir sinir ağı nasıl oluşturulur?
Bu giriş niteliğinde bir öğreticidir ve yeni başlayanlar, derin öğrenmenin iç işleyişini anlamak için bu öğreticiden başlayabilir.
Sinir ağı nedir? Giriş niteliğindeki birçok makale onu beyinle karşılaştıracaktır, ancak sinir ağları ve insan beyni analojisini bir kenara bırakırsanız, bunu belirli bir girdi ile istenen çıktı arasındaki eşlemenin matematiksel bir işlevi olarak tanımlarsanız daha iyi anlaşılacaktır. .
Sinir ağı aşağıdaki unsurları içerir:
Şekil: 2 katmanlı bir sinir ağının mimarisi
Adres: https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6
5. Airbnb'deki fotoğrafları kategorize edin
Airbnb, milyonlarca aile yanı konaklama için bir platform sağlar ve sonuç olarak, çok sayıda ayrıntılı oda fotoğrafı ve aile yanında kalanların kullanıcı verilerini elde etmiştir. Bu görevde Airbnb'nin veri ekibi, aile yanında konaklama evlerinin fotoğraflarını sınıflandırmak için bilgisayarla görü ve derin öğrenmeyi kullandı.
Bir yandan amacı, kullanıcıların göz atmasını kolaylaştırmak için benzer stillere sahip listeleri toplamaktır. Öte yandan, sınıflandırma, oda sayısının ve ev bilgilerinin doğruluğunun doğrulanmasına da yardımcı olabilir. Ekip, bu görüntü verilerini kullanarak daha fazla potansiyel bilginin keşfedileceğini söyledi.
Adres: https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3
6. Loc2Vec: Konum yerleştirmeyi öğrenmek için üçlü kayıp ağını kullanın
Bu, bir akıllı telefonun sensör verilerini, ivmeölçer, jiroskop ve konum bilgileri gibi girdi olarak alan ve ondan davranışsal içgörüler çıkaran bir platformdur.Kullanıcı modellerini anlamak ve olayların neden olduğunu tahmin etmek ve açıklamak için kullanılır.
Bu platformun önemli bir parçası, mekan haritalama algoritmasıdır. Mekan haritacısının amacı, ziyaret etmek istediğiniz yeri bulmaktır.
Adres:
7. Gerçek zamanlı insan pozu tahmini için tarayıcıda TensorFlow.js kullanın
Bu, TensorFlow blogundan bir eğiticidir. Google Creative Lab ile işbirliği içinde, PoseNet'in TensorFlow.js sürümü yayınlandı. PoseNet, tarayıcıda gerçek zamanlı olarak insan pozunu tahmin edebilen bir makine öğrenimi modelidir.
PoseNet, tümü tarayıcıda uygulanabilen tekli veya çoklu poz algoritmalarını kullanarak resimlerdeki ve videolardaki kişileri algılayabilir.
PoseNet'in poz tahmini iki aşamada gerçekleştirilir:
PoseNet, tespit edilen her kişinin güven değerini ve tespit edilen her hareketin temel noktalarını döndürür.
https://medium.com/tensorflow/real-time-human-pose
8. Keras ile çok etiketli sınıflandırma
Bu, aşağıdaki 4 bölümü içeren çoklu etiketli sınıflandırmayla ilgili bir Keras öğreticisidir:
https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras
9. Google'ın önemli noktayı geri getirme sorunu: ilk etapta çözümün yorumlanması
Dört ay önce Google, Kaggle'da bir dönüm noktası geri alma görevi (Google Landmark Retrieval Challenge) yayınladı. Katılımcıların, tüm görüntü veri kümelerinden belirli bir görüntüdeki yer işaretlerini içeren görüntüleri almaları istendi.
Bu makale, iki ana bölümden oluşan ilk ekibin çözümünün bir özetidir:
Aşağıda bir akış şeması verilmiştir, her adım LB skoru ile işaretlenmiştir.
https://www.kaggle.com/c/landmark-retrieval-challe
10. "Gece görüşünü" öğrenin
Bu, Illinois Üniversitesi, Urbana-Champaign (UIUC) ve Intel Labs tarafından ortak yazılan bir makaledir. Tam evrişimli bir ağ kullanarak düşük ışıkta görüntü işleme için uçtan uca eğitime dayalı bir model önerir. Bu ağ, ham sensör verilerini doğrudan işler ve temelde geleneksel görüntü işleme prosedürlerini kullanmaz.
Video tanıtımı:
Kağıt adresi: https://arxiv.org/abs/1805.01934
İki büyük yeni veri seti
Berkeley Üniversitesi, büyük ölçekli sürüş video veri seti BDD100K'yı yayınladı
Berkeley Üniversitesi, açık ara en büyük ve en çeşitli sürüş videosu veri seti olan BDD100K'yı piyasaya sürdü. Bu verilerin dört ana özelliği vardır: büyük ölçekli, çeşitlendirilmiş, gerçek caddelerde toplanmış ve zaman bilgisi taşıma. Bu veri setini kullanarak, Berkeley tarafından CVPR 2018'de düzenlenen otonom sürüş yarışmasına da katılabilirsiniz.
Adres:
İskelet X-ışını veri seti
Andrew Ng liderliğindeki Stanford Üniversitesi'ndeki ML ekibi, şimdiye kadarki en büyük tıbbi görüntüleme veri seti olan MURA'yı (kas-iskelet radyografileri) yayınladı.Bu veri seti, 12.173 hasta üzerinde 14.863 çalışmadan 40.000'den fazla çok açılı radyografik görüntü içeriyor. Röntgen görüntüsü insan üst uzuvlarının 7 parçasını içerir: dirsek, parmak, önkol, el, kol kemiği, omuz ve bilek. Son zamanlarda ekip, bu veri setine dayalı bir tanıma testi başlattı: MURA kemik X-ışını derin öğrenme yarışması.
https://stanfordmlgroup.github.io/competitions/mura