g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Mayıs ayındaki en iyi 10 makine öğrenimi makalesi: Google Duplex, "face change", grid unit

Xin Zhiyuan bugün

Xinzhiyuan Raporu

Kaynak: medium.mybridge.co

Editör: Xiao Qin

Xin Zhiyuan Rehberi Haziran ayında 1.400'den fazla makine öğrenimi ile ilgili makale / proje arasından Mybridge, en popüler 10 makaleyi seçti (% 0,7 kabul oranı). Konular şunlardır: Google Duplex, grid unit, sinir ağı, TensorFlow, Keras, first place solution, CVPR 2018, vb.

Mayıs ayında 1.400'den fazla makine öğrenimi ile ilgili makale / proje arasından Mybridge en popüler 10 makaleyi seçti (% 0,7 kabul oranı).

Bu listedeki konular: Google Duplex, grid unit, sinir ağı, TensorFlow, Keras, first place solution, CVPR 2018, vb.

En iyi 10 makale, paylaşılan makale sayısı, okuma süresi vb. Dikkate alınarak ve makaleleri sıralamak için makine öğrenimi algoritmaları kullanılarak Mybridge AI tarafından seçildi. Bu makalelerde paylaşılan makine öğrenimi deneyimi ve becerilerinin faydalı olduğuna inanıyorum.

1. Google Duplex: Telefonla gerçek dünyadaki görevleri tamamlayan bir AI sistemi

Mayıs ayında en çok fark edilen, Google tarafından I / O Konferansında gösterilen yeni Google Asistan özelliğidir Dubleks teknolojisi .

Duplex teknolojisini kullanan Google'ın akıllı asistanı, gerçek dünyadaki görevleri insan seslerine çok benzeyen rollerle tamamlayabilir. Demoda, Google CEO'su Pichai izleyicilere, "Duymak üzere olduğunuz şey, Google'ın asistanının gerçek bir güzellik salonunu aradığı ve sizin için bir randevu ayarladığı" dedi. Elbette, akıllı asistan bunu neredeyse hatasız yaptı. görev. Daha sonra bu gösterinin doğru olup olmadığı sorgulanmasına rağmen, bu teknoloji sektörde hararetli tartışmalara neden oldu.

Bu makalede, Google'ın baş mühendisi Yaniv Leviathan ve mühendislik başkan yardımcısı Yossi Matias, Google Duplex tarafından kullanılan teknolojileri ayrıntılı olarak açıkladı:

Duplex'in çekirdeği, TensorFlow Extended (TFX) kullanılarak oluşturulan bir Tekrarlayan Sinir Ağı'dır (RNN).
Konuşmayı işlemek ve konuşmayı metne dönüştürmek için Google'ın kendi otomatik konuşma tanıma (ASR) teknolojisini kullanın.
Duruma göre tonlamayı kontrol etmek için sürekli bir metinden konuşmaya (TTS) motoru ve kapsamlı bir TTS motorunun (Tacotron ve WaveNet kullanarak) bir kombinasyonunu kullanın.

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

2. "Yüz Değiştiren" Derin Video Portreler

Derin Video Portreler Stanford Üniversitesi, Münih Teknik Üniversitesi vb. Araştırmacılar tarafından bu yılın Ağustos ayında SIGGRAPH konferansına gönderilen bir makaledir. Bir kişinin yüzünü bir videoda başka birinin yüzünü yeniden oluşturmak için kullanabilen gelişmiş bir "yüz değiştiren" teknolojiyi açıklar. Hareketler, yüz ifadeleri ve ağız şekilleri.

Örneğin sıradan insanların yüzünü Obama'nın yüzüyle değiştirin. Derin Video Portreleri, yüzü, kaşları, ağzın köşelerini ve arka planı oluşturan unsurları ve bunların hareket biçimlerini öğrenmek için hedef kişinin (bu durumda Obama) bir videosunu kullanabilir.

Kağıt adresi: https://arxiv.org/abs/1805.11714

3. Yapay zekada gezinmek için ızgara gösterimini kullanın

AI, Go gibi birçok görevde insanları geride bırakmış olsa da, uzay navigasyon yetenekleri hala yapay zeka için büyük bir zorluk. DeepMind in Nature tarafından yayınlanan bir makale, AI ve sinirbilim alanında büyük şoka neden oldu: AI, insan beyninin "ızgara hücreleri" ile oldukça tutarlı bir uzaysal gezinme yeteneği sergiliyor.

Araştırmacılar, bir dizi deneysel işlem aracılığıyla, vektör tabanlı gezinme için ızgara hücrelerinin gerekli olduğunu buldular. Örneğin, ağdaki ızgara birimi sıkıştırıldığında, aracının gezinme yeteneği bozulacak ve hedefin uzaklığı ve yönü ile ilgili yargı gibi temel göstergelerin temsili daha az doğru hale gelecektir. Bu bulgu, AI yorumlanabilirliği çalışmasına yardımcı olur.

Adres: https://deepmind.com/blog/grid-cells

4. Python'da sıfırdan bir sinir ağı nasıl oluşturulur?

Bu giriş niteliğinde bir öğreticidir ve yeni başlayanlar, derin öğrenmenin iç işleyişini anlamak için bu öğreticiden başlayabilir.

Sinir ağı nedir? Giriş niteliğindeki birçok makale onu beyinle karşılaştıracaktır, ancak sinir ağları ve insan beyni analojisini bir kenara bırakırsanız, bunu belirli bir girdi ile istenen çıktı arasındaki eşlemenin matematiksel bir işlevi olarak tanımlarsanız daha iyi anlaşılacaktır. .

Sinir ağı aşağıdaki unsurları içerir:

Bir girdi katmanı x
Herhangi bir sayıda gizli katman
Bir çıktı katmanı
Her katman arasında bir dizi ağırlık W ve sapma b
Her gizli katmanın aktivasyon fonksiyonu . Bu eğitimde Sigmoid aktivasyon fonksiyonu kullanılmıştır.

Şekil: 2 katmanlı bir sinir ağının mimarisi

Adres: https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6

5. Airbnb'deki fotoğrafları kategorize edin

Airbnb, milyonlarca aile yanı konaklama için bir platform sağlar ve sonuç olarak, çok sayıda ayrıntılı oda fotoğrafı ve aile yanında kalanların kullanıcı verilerini elde etmiştir. Bu görevde Airbnb'nin veri ekibi, aile yanında konaklama evlerinin fotoğraflarını sınıflandırmak için bilgisayarla görü ve derin öğrenmeyi kullandı.

Bir yandan amacı, kullanıcıların göz atmasını kolaylaştırmak için benzer stillere sahip listeleri toplamaktır. Öte yandan, sınıflandırma, oda sayısının ve ev bilgilerinin doğruluğunun doğrulanmasına da yardımcı olabilir. Ekip, bu görüntü verilerini kullanarak daha fazla potansiyel bilginin keşfedileceğini söyledi.

Adres: https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3

6. Loc2Vec: Konum yerleştirmeyi öğrenmek için üçlü kayıp ağını kullanın

Bu, bir akıllı telefonun sensör verilerini, ivmeölçer, jiroskop ve konum bilgileri gibi girdi olarak alan ve ondan davranışsal içgörüler çıkaran bir platformdur.Kullanıcı modellerini anlamak ve olayların neden olduğunu tahmin etmek ve açıklamak için kullanılır.

Bu platformun önemli bir parçası, mekan haritalama algoritmasıdır. Mekan haritacısının amacı, ziyaret etmek istediğiniz yeri bulmaktır.

Adres:

7. Gerçek zamanlı insan pozu tahmini için tarayıcıda TensorFlow.js kullanın

Bu, TensorFlow blogundan bir eğiticidir. Google Creative Lab ile işbirliği içinde, PoseNet'in TensorFlow.js sürümü yayınlandı. PoseNet, tarayıcıda gerçek zamanlı olarak insan pozunu tahmin edebilen bir makine öğrenimi modelidir.

PoseNet, tümü tarayıcıda uygulanabilen tekli veya çoklu poz algoritmalarını kullanarak resimlerdeki ve videolardaki kişileri algılayabilir.

PoseNet'in poz tahmini iki aşamada gerçekleştirilir:

Giriş olarak bir RGB görüntüsü alın ve onu evrişimli sinir ağına besleyin.

Model çıktısındaki duruşu, duruş güven puanını, anahtar nokta konumunu ve anahtar nokta güven puanını çözmek için tek duruşlu veya çok duruşlu kod çözme algoritmasını kullanın.

PoseNet, tespit edilen her kişinin güven değerini ve tespit edilen her hareketin temel noktalarını döndürür.

https://medium.com/tensorflow/real-time-human-pose

8. Keras ile çok etiketli sınıflandırma

Bu, aşağıdaki 4 bölümü içeren çoklu etiketli sınıflandırmayla ilgili bir Keras öğreticisidir:

Çok etiketli sınıflandırma veri setlerini tartışın (ve kendi sınıflandırma veri setlerinizi nasıl hızlı bir şekilde oluşturacağınızı).
Çok etiketli sınıflandırmayı uygulamak için kullanılacak Keras sinir ağı mimarisi olan SmallerVGGNet'i kısaca tartışın.
SmallerVGGNet'i uygulayın ve çok etiketli bir sınıflandırma veri setiyle eğitin.
Son olarak, ağı örnek bir görüntü üzerinde test edin ve bazı hususları tartışın

https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras

9. Google'ın önemli noktayı geri getirme sorunu: ilk etapta çözümün yorumlanması

Dört ay önce Google, Kaggle'da bir dönüm noktası geri alma görevi (Google Landmark Retrieval Challenge) yayınladı. Katılımcıların, tüm görüntü veri kümelerinden belirli bir görüntüdeki yer işaretlerini içeren görüntüleri almaları istendi.

Bu makale, iki ana bölümden oluşan ilk ekibin çözümünün bir özetidir:

İlk olarak, veri kümesindeki görüntüyü tekil bir vektör olarak temsil edebilen yüksek performanslı bir genel tanımlayıcı (global tanımlayıcı) oluşturun;
Ardından, bu vektörleri en olası görüntülerle eşleştirmek için verimli bir çerçeve oluşturun ve son olarak bunları puan tablosuna gönderin.

Aşağıda bir akış şeması verilmiştir, her adım LB skoru ile işaretlenmiştir.

https://www.kaggle.com/c/landmark-retrieval-challe

10. "Gece görüşünü" öğrenin

Bu, Illinois Üniversitesi, Urbana-Champaign (UIUC) ve Intel Labs tarafından ortak yazılan bir makaledir. Tam evrişimli bir ağ kullanarak düşük ışıkta görüntü işleme için uçtan uca eğitime dayalı bir model önerir. Bu ağ, ham sensör verilerini doğrudan işler ve temelde geleneksel görüntü işleme prosedürlerini kullanmaz.

Video tanıtımı:

Kağıt adresi: https://arxiv.org/abs/1805.01934

İki büyük yeni veri seti

Berkeley Üniversitesi, büyük ölçekli sürüş video veri seti BDD100K'yı yayınladı

Berkeley Üniversitesi, açık ara en büyük ve en çeşitli sürüş videosu veri seti olan BDD100K'yı piyasaya sürdü. Bu verilerin dört ana özelliği vardır: büyük ölçekli, çeşitlendirilmiş, gerçek caddelerde toplanmış ve zaman bilgisi taşıma. Bu veri setini kullanarak, Berkeley tarafından CVPR 2018'de düzenlenen otonom sürüş yarışmasına da katılabilirsiniz.

Adres:

İskelet X-ışını veri seti

Andrew Ng liderliğindeki Stanford Üniversitesi'ndeki ML ekibi, şimdiye kadarki en büyük tıbbi görüntüleme veri seti olan MURA'yı (kas-iskelet radyografileri) yayınladı.Bu veri seti, 12.173 hasta üzerinde 14.863 çalışmadan 40.000'den fazla çok açılı radyografik görüntü içeriyor. Röntgen görüntüsü insan üst uzuvlarının 7 parçasını içerir: dirsek, parmak, önkol, el, kol kemiği, omuz ve bilek. Son zamanlarda ekip, bu veri setine dayalı bir tanıma testi başlattı: MURA kemik X-ışını derin öğrenme yarışması.

https://stanfordmlgroup.github.io/competitions/mura

Güneybatı Çin'deki en seçkin turist rotalarından biri yayınlandı! Zunyi hafızanı arıyorum ...

Bir aydan kısa bir süre içinde, burası "ıslak" bir ülke olmak üzere!