g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Gelecekteki çoklu olasılıklar nasıl etkili bir şekilde tahmin edilebilir? LeCun'un hata kodlama ağı size cevabı getiriyor

Lei Feng.com Yapay Zeka Teknolojisi Yorumu: Pek çok doğal sorunun belirli bir belirsizliği vardır: Örneğin, bir fincan masadan düşebilir, masanın köşesine uzanabilir, bir taburenin altında durabilir ve hatta doğrudan kırılabilir. Birden fazla olası sonucu olan bu tür bir gelecek tahmini her zaman bir sorun olmuştur. Derin öğrenme troikalarından biri olan Yann LeCun, geçtiğimiz günlerde bu tür problemlerle ilgili en son araştırma sonuçlarını tanıtan bir makale yayınladı: hata kodlama ağı ENN. Leifeng.com AI Technology Review, bu makalenin ana içeriğini aşağıdaki gibi tanıtmaktadır.

Çok modlu zaman serisi tahmini

Zaman serilerinin ileri besleme tahmin modelini öğrenmek, denetimsiz öğrenme, planlama ve sıkıştırmaya uygulanabilen yapay zeka için önemli bir sorundur. Bu tür bir görevdeki ana zorluklardan biri, birçok zaman serisinin çok modlu doğasıyla nasıl başa çıkılacağıdır. Bir zaman serisinde birden fazla olası evrim yolu varsa, klasik l1 veya l2 norm kaybı ile eğitilen model tarafından yapılan tahmin, her bir gelişim yönündeki farklı sonuçların ortalaması veya medyanı olacaktır, o zaman sonucun kendisi Olmayacak bir sonuç geçersiz bir tahmindir.

Son yıllarda, Ian Goodfellow ve diğerleri, tahmin problemini tahmin fonksiyonu ve eğitilebilir ayırt edici ağ (kaybı temsil eden) arasında bir maksimuma dönüştüren genel bir çerçeve olan üretici hasım ağı GAN'larını icat ettiler ve desteklediler. Küçük değerli oyun. Bu eğitilebilir kayıp işlevi sayesinde teoride birden fazla çıktı modunu idare edebilir, çünkü jeneratör her modun örneklerini üretebilirse, kesinlikle ayırıcıyı kandırabilir ve yakınsamaya doğru ilerleyebilir. Bununla birlikte, yalnızca belirli bir modelin örneklerini üretebilen bir jeneratör, jeneratörü aslında yakınsama için kandırabilir.Uygulamada, araştırmacılar da bu fenomeni geniş çapta gözlemlemiştir. Bu problem etrafında, mod çöküş problemini çözmek veya hafifletmek için mini parti tanımlama, parametreleştirilmiş gürültü ekleme, katlanmamış ayırıcı aracılığıyla geri yayılma ve birden fazla GAN ile farklı modları kapsayan, vb. Gibi bazı yöntemler geliştirdik. Bununla birlikte, bu yöntemlerin çoğu, artan uygulama karmaşıklığı ve artan hesaplama tüketimi gibi ek sorunlar da beraberinde getirmektedir. Video tahmini gibi çıktının büyük ölçüde girdiye bağlı olduğu koşullu oluşturma görevinde mod çökmesi sorunu daha ciddidir.

ENN ağını kodlama hatası

Bu yazıda yazarlar, zaman serisi verilerinin koşullu tahmininin çok modlu ve sağlam olmasına izin veren yeni bir mimari tanıttılar. Yapısı, gelecekteki durumu belirli bir bölüm ve rastgele bir bölümün bir kombinasyonuna bölmek olan basit bir sezgiye dayanır; belirli bölüm doğrudan mevcut duruma göre tahminlerde bulunabilir ve rastgele (veya öngörülemeyen) bölüm gelecekle ilgili belirsizliği temsil eder. Kesinlik. Bu deterministik ağı eğiterek, determinizm faktörü ağ tahmini şeklinde elde edilebilir ve gerçek duruma kıyasla tahmin hatası da elde edilebilir. Bu hata, düşük boyutlu gizli değişkenler şeklinde kodlanabilir ve ardından ikinci ağa gönderilebilir; Bu ikinci ağ eğitildikten sonra, bu ek bilgi, önceki deterministik ağın tahmin sonuçlarını doğru bir şekilde düzeltmek için kullanılabilir. Bu, makalede önerilen Hata Kodlama Ağıdır (ENN).

Basitçe söylemek gerekirse, bu çerçeve üç zaman adımında üç işlev eşlemesi içerir:

İlk işlev eşlemesi, mevcut durumu gelecekteki durumla eşler ve gelecekteki durumu iki bölüme ayırır: kesinlik ve belirsizlik

İkinci fonksiyon eşlemesi belirsiz kısımdan düşük boyutlu örtük vektöre doğrudur.

Üçüncü fonksiyon haritalaması, mevcut durumu, örtük vektörün durumuna göre gelecek duruma eşlemektir Bu işlemde, gelecek durumun mod bilgisi de kodlanır.

Üç eşlemenin tamamı modelin eğitim sürecinde kullanılır ve çıkarım kısmı için yalnızca son haritalama gereklidir.

Model mimarisi

Yukarıda belirtilen iki ağ, denetimli öğrenmenin amaç işlevine göre uçtan uca eğitilir ve gizli değişkenler, öğrenilen parametreli işlev tarafından hesaplanır, böylece eğitim süreci basit ve hızlı olabilir.

İlgili araştırma

Geçmiş video tahmin modellerinde, bazı uygulamalar zaman serisi tahmininin çok modlu doğasını göz ardı ederek yalnızca kesinliğe odaklandı; bazı uygulamalar, farklı eylemlere dayalı farklı koşullar oluşturmak için eğitim verilerinde ek etiketler gerektiriyordu. Tahmin. Bu yöntemlerle karşılaştırıldığında, makalede önerilen yöntem, gizli değişkenler üzerinde koşullu olarak üretilir ve bu gizli değişkenler, videodan denetimsiz bir şekilde öğrenilir.

Tahmin için çok ölçekli bir mimari ve çeşitli farklı kayıp kombinasyonları kullanmak gibi video tahmininde karşıt kayıp kullanan bazı çalışmalar vardır. Artan yüzleşme kaybı ve gradyan farkı kaybı, özellikle l2 kaybı kullanılırken sıklıkla ortaya çıkan bulanıklık olgusu olmak üzere görüntü kalitesini iyileştirebilir. Bununla birlikte, o zamanki araştırmacılar, jeneratörün gürültüyü görmezden gelmeyi öğrendiğini ve ortaya çıkan sonucun, gürültü eğitimi olmayan deterministik bir modelin sonucuna benzer olduğunu belirtti.

Gizli değişkenleri çıkarmak için alternatif küçültmeyi kullanan başka video tahmin modelleri de vardır. Bir yaklaşım, işlevi gelecekteki videoların gizli durumunu tahmin etmek için kullanılan birkaç farklı model arasında geçiş yapmak olan ayrı bir gizli değişken içerir. Bu, tamamen deterministik bir modelden çok daha esnektir, ancak ayrık bir gizli değişken yine de ayrı bir kümede gelecekteki olası kalıpları gösterecektir. Bu makaledeki model, sürekli gizli değişkenleri çıkarmak için öğrenilmiş parametreli bir işlev kullanır.

Yakın zamanda yapılan araştırmalar, örtük uzayda temsil ve kod çözücünün parametrelerini birlikte öğrenerek iyi bir üretken modelin elde edilebileceğini de göstermiştir. Bu, rakip ağları eğitmekten daha kolaydır. Üretken model, tabii ki, gizli değişkenleri ve kod çözücü parametrelerini dönüşümlü olarak en aza indirerek de elde edilebilir, ancak her bir örneğin gizli değişkenleri her güncellemeden sonra saklanabilir ve ilgili örnek eğitim setinden tekrar alındığında optimize edilebilir. Süreç de devam edebilir. Bu yaklaşım, makaledeki yöntemle ilgilidir, ancak aradaki fark, bu sefer, her örnek için gizli değişkenleri saklamak yerine, deterministik ağın tahmin hatasıyla bir fonksiyon öğrenilmesidir.

Deneysel sonuçlar-nitel kısım

Oyunların video veri setleri (Atari Breakout, Atari Seaquest, Flappy Bird), robot manipülasyonu ve sürüş simülasyonları üzerindeki test sonuçlarının tümü, bu yöntemin gelecekteki çerçeve içeriği için sürekli olarak çok modlu tahminler oluşturabileceğini göstermektedir. Hepsi, ortamın ajanın eylemlerine göre değiştirilebildiği veya rastgele değiştirilebildiği ve aynı zamanda yeterince çeşitli bir görsel ortamın olduğu, iyi tanımlanmış çok modlu bir yapıya sahiptir. Yazarlar, modeli bilinen 4 çerçeveye dayanarak sonraki 1 ila 4 çerçeveyi tahmin edecek şekilde eğitti.

Örneğin, aşağıdaki tuğla ve harç oyununun tahmin sonuçlarında, temelin deterministik modelinin tahmin ettiği geri tepme tahtası bulanıklaşıyor, bu da modelin gelecekteki konumu hakkında giderek daha belirsiz hale geldiğini gösteriyor, ancak aynı zamanda statik arka plan her zaman çok netti. Kalıntı, yani yer gerçeği ile referans model arasındaki fark, deterministik modelin tahmin edemediği topun ve geri tepme tahtasının hareketini tahmin eder. Kalıntıyı girdi olarak alarak, ağ tarafından öğrenilen işlev onu gizli bir değişken z olarak kodlayabilir. Eğitim setinde farklı z değerleri örneklenerek, aynı çerçeve setine dayalı üç farklı üretim sonucu elde edilir.

BrickBreaker oyununun sonucu. Soldaki 4 çerçeve verilmiştir ve sağdaki 4 çerçeve model tarafından oluşturulmuştur.

Başka bir oyunda, Flappy Bird'de oyuncunun hareketleri ve yeni ortaya çıkan tüpün yüksekliği dışında her şey belirlenir. İlk örnekte, gizli değişkenleri değiştirerek iki farklı sonuç elde edilebileceğini görebilirsiniz.Yeni borular ekrana farklı zamanlarda giriyor, farklı yüksekliklere sahip veya hiç yeni borular görünmüyor.

Flappy Bird, örnek 1, son çerçevenin tüpleri farklı yüksekliklere sahiptir.

İkinci örnekte, gizli değişkeni değiştirmek, kuşun uçuş yüksekliğini değiştirebilir. Bu, ortamdaki her iki değişkenin EEN tarafından modellenebileceği anlamına gelir.

Flappy Bird, örnek 2, son karedeki kuş farklı yüksekliklere sahiptir.

Deneysel sonuçlar-nicel kısım

Makalede, bir belirleyici değerlendirme modeli ve bir GAN, bir gösterge olarak sinyal-gürültü oranı ile karşılaştırılmıştır. Üretilen örnek sayısı arttıkça, makalede önerilen modelin performansının da arttığı görülebilir; bu, üretilen sonuçların yeterince çeşitli olduğunu ve test setindeki en azından bazı modellerin kapsanmış olduğunu göstermektedir. Üretilen örneklerin sayısı arttıkça, GAN'ın performansının iyileşmediği de görülebilir, bu da gizli değişkenlerinin üretilen örnekler üzerinde çok az etkiye sahip olduğunu gösterir. Bu, diğer çalışmalarda elde edilen sonuçlarla da tutarlıdır.

Ek olarak, sinyal-gürültü oranı farklı modelleri karşılaştırmak için bir gösterge olarak kullanılırsa, karşılaştırılabilirliğin çok güçlü olmadığı, çünkü kıyaslama modeli doğrudan l2 kaybını optimize ettiği, ENN'nin belirli bir test örneğinin durumuna göre optimize edildiği ve GAN'ın Başka bir kaybın genel optimizasyonudur. Burada yazarlar esas olarak, daha fazla örnek üretildikçe, ENN üretiminin kalitesinin artacağını göstermek istiyorlar; GAN'da durum böyle değil.

sonuç olarak

Bu makale, gelecekteki durumun öngörülebilir ve öngörülemeyen kısımlarını ayırarak belirsiz koşullar altında zaman tahmini için yeni bir çerçeve önermektedir. Bu yöntem hızlıdır, uygulaması kolaydır ve eğitilmesi kolaydır ve rakip ağlar veya alternatif en aza indirme gerektirmez. Makale, bir video veri seti üzerinde bir testtir, ancak bu aynı zamanda, herhangi bir sürekli zaman serisi tahmin probleminde teorik olarak kullanılabilen genelleştirilmiş bir yöntemdir.

Gelecekteki araştırmalarla ilgili olarak, bu makalede, gizli değişkenleri örneklerken mevcut duruma güvenip güvenmemeyi dikkate almayan basit bir teknik benimsenmiştir; Yazarlar daha iyi bir yol bulunabileceğini düşünüyorlar. Buna ek olarak, bu modelin bir avantajı, daha önce görülmemiş verilerden gizli değişkenleri hızlı bir şekilde çıkarabilmesidir, çünkü sonuçta, ileri besleme ağında yalnızca bir kez çalışması gerekir. Eylemlerle ilgili gizli değişkenler kolayca ayrıştırılırsa, bu, büyük ölçekli etiketlenmemiş veri kümelerinden eylemleri çıkarmak ve taklit öğrenmeyi gerçekleştirmek için iyi bir yol olabilir. Diğer ilginç uygulamalar arasında tahminler yapmak için modelleri kullanmak ve gelecekteki farklı olasılıkları genişletmek için kullanmak yer alıyor.

Daha fazla ayrıntı için lütfen orijinal belgeye bakın: https://arxiv.org/abs/1711.04994

Lei Feng Network AI Teknolojisi İnceleme Derlemesi

"Heluo Heroes", bu benim yıllık dövüş sanatları oyunum olmalı

Sevgi gösterin, hızlıca paylaşın? Dünyanın en zengin adamı boşandı ve eski karısının servetinin Ma Huateng'i geçmesi bekleniyor