Sanayi sınırı: Bir dağa tırmanırken susadığınızda, su kaynağına nasıl hızlı bir şekilde ulaşılır?

Google, uzun süredir akademisyenlerle birlikte bilimsel araştırmaları teşvik ediyor, ortak araştırma projeleri yürütmek için dünyanın dört bir yanındaki üniversitelerle işbirliği yapıyor ve bilgisayar bilimi, mühendislik ve ilgili alanlarda yeni ilerleme kaydetti. Bu yılın başlarında, Google ve Princeton Üniversitesi, yeni bir laboratuvar biçiminde en son akademik araştırma işbirliği programını başlattı.

Google'ın Princeton Üniversitesi'ndeki yeni AI laboratuvarı

Laboratuvar, gelişmiş öğrenme için büyük ölçekli makine öğrenimi, kontrol teorisi ve optimizasyon çözümlerinde en son teknoloji araştırma güçlerine odaklanarak, makine öğrenimi ile ilgili araştırmayı birçok yönden genişletmeyi amaçlamaktadır. Mevcut araştırma bir miktar ilerleme kaydetmiştir.

Büyük ölçekli optimizasyon

Diyelim ki yürüyüş ve tırmanma sırasında içme suyunu bitirdiğinizi varsayalım, bir göle en hızlı ve verimli şekilde nasıl ulaşabilirsiniz? Bu, matematiksel olarak gradyan iniş yöntemi olan yol optimizasyonu ile ilgilidir. Yani yolun altında en yakın gölü bulana kadar en dik rotayı seçeceksiniz. Optimize edilmiş dilde, gölün konumu minimum değer ile temsil edilir. Aşağıdaki şekilde gösterildiği gibi, eğimli iniş pisti patikaya benzer ve ağzı kurumuş yürüyüşçüler en hızlı şekilde göle inecektir.

Gradyan İniş (GD) ve onun stokastik versiyonu Stokastik Gradyan İniş (SGD), sinir ağlarını optimize etmek için ilk tercihtir. Vektörler halinde düzenlenmiş bir dizi ızgara oluşturmak için tüm parametreleri bir araya getirin. Basitçe söylemek gerekirse, sinir ağında sadece 5 farklı parametrenin olduğu varsayılır. Adım inişi, gradyan vektörünü (kırmızı) mevcut parametre setinden (mavi) çıkarmaya ve ardından sonucu parametre vektörüne döndürmeye eşdeğerdir.

Ağzı kurumuş yürüyüşçüye geri döndüğünde, yukarıdan aşağıya sınırlı görüş alanına sahip, işaretsiz, uzun ve dar bir yol bulduğunu varsayalım. Aşağıdaki resimde gösterildiği gibi (solda), eğer iniş yöntemini izlerse, dağdan aşağı inmesi zikzak olacaktır. Ancak artık daha hızlı bir yol bulmak için geometrik olarak sapmış araziyi kullanabilir. Başka bir deyişle, yanlara seyahat etmekten daha iyidir. Gradyan inişte hızlanmaya hızlanma denir. Yaygın bir hızlandırma yöntemi türü, başlangıçta AdaGrad ( tarafından geliştirilen uyarlamalı düzenleme (uyarlamalı düzenleme) veya uyarlamalı ön koşullandırma (uyarlamalı ön koşullandırma) olarak adlandırılır. ) Google'daki görev süresi boyunca Stanford Üniversitesi profesörü John Duchi tarafından tasarlanan algoritma tanıtıldı.

Bu yöntemin amacı, optimize edilmiş nesnenin arazi geometrisini değiştirmek ve gradyan iniş sürecini basitleştirmektir. Bu amaca ulaşmak için, ön işlem yöntemlerinin alanı genişletmesi veya döndürmesi gerekir. Önceden işlenmiş arazi, yukarıdaki resimde (sağda) neredeyse mükemmel dairesel sakin göl gibidir ve bu zamanda alçalan yörünge düz bir çizgidir! Süreç açısından, aşağıdaki şekilde gösterildiği gibi, gradyan vektörünü çıkaran parametre vektörünün aksine, uyarlamalı ön koşullandırma ilk önce gradyanı matris ön koşullandırma adı verilen 5 × 5 çok birimli bir yapı ile çarpacaktır.

Bu ön işleme işlemi uzatılmış ve döndürülmüş bir gradyan oluşturacak ve ardından minimum değeri daha hızlı elde etmek için çıkarma işlemini önceki gibi gerçekleştirecektir. Ancak ön işlemenin bir dezavantajı, yani bilgi işlem gücü vardır. Ön işleme dönüşümünün kendisi 5 boyutlu bir gradyan vektörünü 5 boyutlu bir parametre vektöründen çıkarmak yerine 5 × 5 = 25 işlem gerektirir. Bir grup degradeyi önceden işlememiz ve 10 milyon parametreli derin bir ağ öğrenmemiz gerektiğini varsayalım. Tek başına ön işleme adımı 100 trilyon işlem gerektirir. Hesaplama gücünden tasarruf etmek için, orijinal AdaGrad kağıdına yalnızca gerdirme ön işlemeli ve dönüşsüz çapraz bir sürüm tanıtılacaktır. Daha sonra bu çapraz sürüm benimsenecek ve değiştirilecektir.Bu, Adam adında çok başarılı bir başka algoritmadır (https://arxiv.org/abs/1412.6980).

Bu basitleştirilmiş çapraz ön koşullandırma, gradyan iniş işlemleri için yalnızca küçük bir miktar ek bilgi işlem gücü gerektirir. Bununla birlikte, aşırı basitleştirmenin dezavantajları da vardır, yani, uzamsal rotasyon gerçekleştiremez. Yürüyüşçüye dönersek, eğer derin ve dar kanyon güneydoğudan kuzeybatıya uzanırsa, yolcunun batıya büyük bir sıçrama yapması imkansızdır. Ona "açık" bir pusula verirsek (Kuzey Kutbu pusulanın kuzeybatısındadır), o zaman önceki alçalma yöntemini izlemeye devam edebilir. Yüksek boyutlarda, bu pusulayı simüle etme yöntemine tam matris ön işleme adı verilir. Bu nedenle kendimize sorduk: Hesaplama verimliliğini artırırken karşılık gelen koordinatların dönüşünü gerçekleştirebilen bir ön işleme yöntemi tasarlayabilir miyiz?

Google AI Princeton, yaygın olarak kullanılan çapraz kısıtlamayla neredeyse aynı hesaplama başarısını kullanan yeni bir tam matris uyarlamalı ön işleme yöntemi geliştirdi. Yöntem, makalede ayrıntılı olarak açıklanmıştır, ancak aşağıda yöntemin arkasındaki ana fikirleri açıklayacağız. Ön işleme matrisini uzun ve ince bir matris, küçük bir kare matris ve kısa ve yağlı bir matris içeren üç matrisle değiştirdik. Daha küçük matrisler kullanılarak birçok hesaplama yapılır. D parametresi tek bir büyük d × d matrisinin yerini almak için kullanılıyorsa, önerilen yöntem sırasıyla d × k, k × k ve k × d matrisin boyutunu korumak için GGT'yi (Gradyan GradyanT işleminin kısaltması) kullanır.

Makul bir k değeri seçimi durumunda (algoritmanın "pencere boyutu" ile de karşılaştırılabilir), hesaplama zorluğu tek bir büyük matristen daha küçük bir kk matrisine (kkmatrix) indirilecektir. Uygulama sürecinde, k değeri genellikle 50'ye ayarlanır ve daha küçük bir kare matrisi korumanın maliyeti önemli ölçüde azalır ve iyi bir performans elde edilebilir. Standart derin öğrenme görevlerindeki diğer uyarlanabilir yöntemlerle karşılaştırıldığında, GGT AdaGrad ve Adam ile aynı seviyededir.

Kontrol ve pekiştirmeli öğrenme için spektral filtreleme

Google Princeton araştırma ekibi tarafından üstlenilen bir diğer büyük ölçekli proje, karar verme sistemleri için standartlaştırılmış modüllerin geliştirilmesidir. Ekip özellikle, belirsizlik altında karar verme algoritmalarının minimum garantisini incelemek için çevrimiçi öğrenme alanında doğrulanabilir garantiler kullanmak için çok çalışıyor. Çevrimiçi bir algoritma karar vermeyi öğrenirse ve olaydan sonra en iyi "çevrimdışı" kararları verebilirse, pişmanlık duymama garantisine ulaşamayacağı söylenir. Bu alandaki fikirler, teorik hesaplama bilimi alanında birçok yeniliğe ulaşmış ve yaygın olarak kullanılan artırma teknolojisini incelemek için basit bir matematiksel çerçeve sağlamıştır. Belki gelecekte, modern gelişmiş öğrenme araçlarını genişletmek için çevrimiçi öğrenme fikirlerini kullanabiliriz.

Google, bu amacı göz önünde bulundurarak, doğrusal dinamik sistemleri tahmin etmek ve kontrol etmek için bir spektral filtreleme algoritması geliştirmek için Princeton'daki araştırmacılar ve öğrencilerle birlikte çalıştı. Bu ortamda, gürültü sinyalleri (konum sensörü ölçümleri gibi) bilinmeyen kaynaklardan taşacaktır. Sinyal kaynağı, durumu bir dizi doğrusal denklemi (örneğin Newton yasası) izleyen ve zamanla gelişen bir sistemden gelir. Gelecekteki sinyalleri tahmin etmek (tahmin) veya sistemi ideal bir duruma (kontrol) yerleştirmek için işlemler gerçekleştirmek için yaygın yöntem, genellikle yavaş ve yanlış olan modeli (sistem tanımı) açıkça öğrenmektir.

Spektral filtreleme, simülasyon dinamikleri için açık gereksinimleri içerir ve öngörü ve kontrolü dışbükey programlara yeniden programlayarak doğrulanabilir pişmanlık içermeyen garantiler elde edilir. Bu teknolojinin ana bileşeni, yeni sinyal işleme dönüşümüdür. Buradaki fikir, geçmişte uzun bir süre boyunca tarihsel giriş sinyallerini özetlemek için evrişimi ve bir dizi özelleştirilmiş filtre kullanmak ve ardından sonuçları gelecekteki dinamik sistemin çıktısını tahmin etmek için kullanmaktır. Her filtre, giriş sinyalini tek bir gerçek değere sıkıştırmak için geçmiş girdinin ağırlık kombinasyonunu kullanacaktır.

Filtre genliği ile zaman arasındaki ilişkinin bir dizi grafiği. Spektral filtreleme teknolojisini kullanarak, herhangi bir zamanda doğrusal bir dinamik sistemin durumunu tahmin etmek için birden çok filtre kullanılabilir. Her filtre, geçmiş gözlem verilerini özetlemek için kullanılan bir dizi ağırlıktır, böylece bunlar, zaman içinde sistem durumunu doğru bir şekilde tahmin etmek için ağırlıklı bir formda birleştirilebilir.

Bu ağırlıkların matematiksel kökeni, Hankel matrislerinin spektrum teorisi ile ilginç bir ilişkiye sahiptir.

belirlemek! Yeni iPhone gerçekten çift kart! Cato, üst ve alt kartlar şeklinde ortaya çıktı
önceki
Haftalık ihtiyaçlarla birlikte "6 · 18 al, al, satın al" önerileri burada ~
Sonraki
Face ID artık iPhone'a özel değil ve gelecekte binlerce yuan telefonda kullanılabilir.
Ctrip, uçak bileti ürünlerini acilen giderdi.Peki tren biletleri ve otobüs biletleri?
Beijing Evening News okuyucuları, Badachu Tapınak Fuarı'nı önceden araştırdı
Zhiqiang titriyor! EPYC sunucu işlemci parametresi fiyat açıklaması
Altın kaşığı içeren Xiaopeng Motors, halka açılmaya istekli değil, yeni arabalara karşı mücadelede başarılı bir şekilde geçebilir mi?
Carter: 25.000 puan için smaç atmaktan daha iyi bir yol yok
Bugünün Temel Sesi | Baidu, Bahar Şenliği Galasına 900 milyon yuan atacak, lütfen kırmızı zarfları kapmak için bu kılavuzu kabul edin
Cuiyuan Kupası'nda genç: Ronaldo'yu idol olarak gören Shenzhen Kaisa savunucusu
Bir aylık deneyimin ardından Xiaomi Mix2 yerel Android 9.0 deneyimi
Bahar Şenliği Kitap Teslimatı | Başlangıç seviyesinden veri biliminde uzmanlığa kadar bu 27 kitaba ihtiyacınız var
Li Ning tasarımcısı, Xiaomi'nin kitlesel fonlama fiyatı 599'dan gençler için ilk 3D baskılı spor ayakkabı çifti
Tüm ilkokul öğrencileri kralın ihtişamını mı oynuyor? Veriler, yanılıyor olabileceğinizi gösteriyor!
To Top