g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Yann LeCun: Derin öğrenme öldü, çok yaşa diferansiyel programlama!

Xin Zhiyuan Rehberi LeCun, başka bir şaşırtıcı yorum yaptı: Dün derin öğrenme tartışmasına katıldıktan ve robot Sophia'yı püskürttükten sonra, bugün Facebook sayfasında "Derin öğrenme öldü, uzun ömürlü diferansiyel programlama!" Dedi. Derin öğrenme gerçekten öldü mü? Ve türevlenebilir programlama nedir?

LeCun yine harika, bu sefer derin öğrenmeyi ifade ediyor

Bir moda sözcük olarak, derin öğrenme artık geçti.

Derin öğrenme öldü, uzun ömürlü diferansiyel programlama!

İşlerin dünden önceki güne dönmesi gerekiyor.

4 Ocak'ta, AAAI'nin eski başkanı Thomas Dietterich, New York Üniversitesi psikoloğu Gary Marcus'un derin öğrenme eleştirisini çürütmek için arka arkaya 10 tweet attı. Dietterich bunlardan bahsetti,

" Derin öğrenme, esasen programlama ile farklılaştırılabilir programlamanın yeni bir yoludur -Ve bu alan bu şekilde yeniden kullanılabilir yapılar geliştirmeye çalışıyor. Şu anda elimizde: evrişim, havuzlama, LSTM, GAN, VAE, bellek birimi, yönlendirme birimi vb. "

Bu ifade, NVIDIA'nın yapay zeka mimarisinin başkan yardımcısı Clement Farabet ile derinden hemfikir Farabet ayrıca bunun günümüzün derin öğreniminin en iyi özeti olduğu yorumunu yaptı. LeCun ayrıca bu makaleyi retweetledi ve kabul etti.

Ancak, tweet'leri tekrar göndermek LeCun için elbette yeterli değil.

Bugün, Facebook'un kişisel ana sayfasında sadece farklılaştırılabilir programlamayı desteklemekle kalmayan, aynı zamanda "derin öğrenme öldü" ifadesini kullanan kısa bir makale yazdı. Sadece bu değil, aynı zamanda "vatandaşlığa alınmış bir öğrenim" de başlattı.

Önce LeCun'un makalesine bakalım.

Yann LeCun: Derin öğrenme öldü, çok yaşa diferansiyel programlama!

Bir moda sözcük olarak, derin öğrenme artık geçti.

Derin öğrenme öldü, uzun ömürlü diferansiyel programlama!

Evet, "Farklılaştırılabilir programlama", ikiden fazla katmana sahip modern bir sinir ağı varyantının yeni adı olan "derin öğrenme" ile aynı olan modern derin öğrenme teknolojisi için sadece yeni bir isimdir. .

Ancak önemli olan nokta şu ki, insanlar artık çeşitli parametreleştirilmiş işlev modüllerinden oluşan bir ağ oluşturuyor, yeni bir yazılım türü oluşturuyor ve bu yazılımları eğitmek için bir tür gradyan tabanlı optimizasyon kullanıyor.

Giderek daha fazla insan, ağları programlı olarak veriye bağlı bir şekilde (döngüler ve koşullar) tanımlayarak, giriş verilerinin dinamik değişiklikleriyle değişmelerine izin veriyor. Bu, sıradan bir programa çok benzer, ancak ilki parametreleştirilebilir, otomatik olarak farklılaştırılabilir ve eğitilebilir ve optimize edilebilir. PyTorch ve Chainer gibi derin öğrenme çerçeveleri sayesinde dinamik ağlar giderek daha popüler hale geldi (özellikle NLP için) (Not: 1994 gibi erken bir tarihte, önceki derin öğrenme çerçevesi Lush, bir tür Metin tanıma için Grafik Transformatör Ağlarının özel dinamik ağı).

İnsanlar artık zorunlu farklılaştırılabilir programlama dili derleyicilerinin çalışmasına aktif olarak katılıyor. Bu, öğrenmeye dayalı AI geliştirmenin çok heyecan verici bir yoludur.

önemli ipucu: "Gerçek" yapay zekaya ulaşmak için bu yeterli değil. Söylediğim öngörülü öğrenme gibi başka kavramlara ihtiyaç var, şimdi buna "İmtiyazlı Öğrenme" (evcilleştirilmiş öğrenme) adını vermeye karar verdim. Daha sonra detaylı olarak tanıtacağım ...

Farklılaştırılabilir programlama: derin öğrenmenin uzantısı, yapay zekanın başarısının anahtarı

Bu nedenle, LeCun'un vatandaşlığa geçiş çalışmalarını daha ayrıntılı olarak tanıtmasını beklemeden önce, Farklılaştırılabilir programlama, bu derin öğrenme için başka bir yeni isim mi yoksa farklı ve yeni çağrışımları var mı?

MIT Media Lab'den David Dalrymple daha önce diferansiyel programlama hakkında yazdı Dalrymple 9 yaşında TED platformuna girdi ve 14 yaşında MIT'de yüksek lisansa başladı. 16 yaşında 5.0 not ortalaması ile mezun oldu. Kendisi de bir sihirbaz neslidir. MIT Media Lab'a girdikten sonra Dalrymple, "Yeniden yapılandırılabilir eşzamansız mantıksal otomatik veri (RALA)" gibi yeni programlama paradigmaları geliştirdi.

Dalrymple, derin öğrenmenin başarısının iki anahtarı olduğuna inanır: Biri geri yayılım, ancak ağırlık bağlama Bu iki özellik, işlevsel programlamada yeniden kullanılabilir işlevler çağırmaya çok benzer. Farklılaştırılabilir programlama "zamansız" olma potansiyeline sahiptir.

Son birkaç yılda, yapay zeka alanında onlarca yıldır çözülemeyen bir dizi klasik zorluk, yapay zeka uzmanlarının uzun süredir hor gördüğü "istatistiksel yöntem" tarafından aniden fethedildi. Bu yöntem, insan problem çözme becerilerini kontrol etmek ve bu becerileri çalıştırılabilir bir şekilde kodlamaya çalışmak yerine, büyük miktarda veriden olasılık dağılımlarını öğrenir.

Bu yönteme başlangıçta "sinir ağı" deniyordu, şimdi ise "derin öğrenme" olarak adlandırılıyor ve geçmişte sinir ağlarının niteliksel gelişimini vurguluyor. Derin öğrenmenin başarısı, büyük ölçüde büyük veri kümeleri ve daha güçlü bilgi işlem sistemlerinden kaynaklanmaktadır ve büyük teknoloji şirketlerinin bu alana ilgisinin aniden artması da bununla ilgilidir. Derin öğrenme inanılmaz ilerleme kaydetti. Diğer birçok yöntem de gelişti, ancak daha az ölçüde.

Sonra, Derin öğrenmeyi diğer öğrenmeden ayırmanın anahtarı nedir? Birincisi, geri yayılımdır. Bu aslında çok zarif bir şekilde uygulanan bir zincir kuralı, basit bir analiz tekniğidir. Sürekli ve ayrık matematiğin derin bir entegrasyonudur, böylece karmaşık potansiyel çözüm aileleri vektör hesabı aracılığıyla özerk olarak geliştirilebilir.

Anahtar, potansiyel çözümün şablonunu yönlendirilmiş bir grafik halinde organize etmektir (örneğin, fotoğraftan oluşturulan grafiğe kadar, aralarında birçok düğüm vardır). Bu grafiği geriye doğru hareket ettirin, algoritma "gradyan vektörünü" otomatik olarak hesaplayabilir, bu vektör algoritmayı daha iyi ve daha iyi çözümler bulması için yönlendirebilir.

Bu anlamda, modern derin öğrenme teknolojisinin geleneksel sinir ağları ile çok az yapısal benzerliği vardır, ancak perde arkasında, geri yayılım algoritmaları hem eski hem de yeni mimariler için gereklidir.

Bununla birlikte, geri yayılımın kullanılmasıyla bile, önceki sinir ağı, günümüzün donanım ve veri seti koşullarında bile, mevcut derin öğrenme teknolojisinden çok daha düşüktür. bu nedenle Derin öğrenmenin ikinci anahtarı, bir ağın bileşenlerinin aynı anda birden fazla yerde kullanılabilmesidir.

Ağ optimize edildikçe, her bileşenin her kopyası tutarlı olmaya zorlanır (bu fikir "ağırlık bağlama" olarak adlandırılır). Bu, ağırlıkla ilgili bileşenlere ek gereksinimler getirir: belirli bir konuma özgü olmak yerine, aynı anda birçok yerde yararlı olmayı öğrenmeleri gerekir. Ağırlık bağlama, ağ öğrenimini daha genel hale getirecektir, çünkü sözcükler ve nesneler metin bloklarında veya görüntülerde birden çok yerde görünebilir.

Ağ üzerinde birçok yere ortak bir bileşen yerleştirmek, bir programda bir fonksiyon yazmaya ve onu birden çok yerde çağırmaya benzer.Bu, fonksiyonel programlamanın temel kavramıdır. Fonksiyonel programlama, bilgisayar işlemlerini matematiksel fonksiyon hesaplamaları olarak ele alır ve program durumlarının ve değişken nesnelerin kullanılmasını önler. Programlama ile karşılaştırıldığında, ağırlık bağlantılı bileşenler aslında programlamada yeniden kullanılabilir fonksiyonlar kavramı ile aynıdır. Sadece bu da değil, Geçtiğimiz birkaç yıl içinde, en başarılı mimarilerin çoğu, bileşenleri, işlevsel programlamadaki genel "üst düzey işlevler" ile tamamen aynı şekilde yeniden kullandı. Bu, işlevsel programlamadaki bazı ünlü operatörlerin derin öğrenme mimarisi için iyi bir ilham kaynağı olabileceğini göstermektedir.

Geri yayılımı doğrudan işlev programında çalıştırabilen yeni dil, derin öğrenme ağı olarak eğitilmiş işlev yapısını keşfetmek için en kolay dil olacaktır. Uygulamanın / konuşlandırmanın ayrıntılarında gizli olan işlevsel programın aslında geri yayılım için gerekli olana benzer bir hesaplama grafiğinde derlendiği ortaya çıktı. Grafiğin çeşitli bileşenleri de farklılaştırılabilir olmalıdır, ancak Grefenstette ve arkadaşları yakın zamanda birkaç basit veri yapısı (yığınlar, sıralar ve iki yönlü) farklılaştırılabilir yapılar yayınladılar, bu da daha fazla farklılaştırılabilir uygulamaların yalnızca matematiksel olarak tasarlanabileceğini gösteriyor. Sorun. Bu alanda yapılacak daha fazla çalışma, yeni bir programlama paradigması ile türevlendirilebilir programlamayı açabilir.

Böyle bir dilde bir program yazmak, işlev yapısını oluştururken ayrıntıları optimize ediciye bırakmak gibidir - dil, derin öğrenmedeki ağırlıkları optimize etmek gibi, tüm programın amacına göre ayrıntıları otomatik olarak öğrenmek için geri yayımı kullanır.

Farklılaştırılabilir programlama nispeten yeni bir kavramdır, geri yayılım ve ağırlık bağlama fikirlerinin bir uzantısıdır. Gelip giden ve gelen çeşitli mimariler ve teknolojilerle, bu temel kavramlar hala yapay zekanın başarısının anahtarıdır.

Sinir ağı "yazılım 2.0" dır: genel yapay zekanın geliştirilmesinin temeli

Bunların hepsi insanlara daha önce derin öğrenme ve bilgisayarla görme konusunda uzman ve Tesla'nın yapay zeka departmanının başkanı olan Andrej Karpathy tarafından önerilen "yazılım 2.0" konseptini hatırlatıyor.

Karpathy, Yazılım 1.0'ın (Yazılım 1.0) Python ve C ++ gibi dillerde yazıldığını ve programcılar tarafından bilgisayara yazılan net talimatlardan oluştuğunu söyledi. Programcı, her bir kod satırını yazarak, program alanında belirli bir noktayı belirleyebilir.

Tersine, Yazılım 2.0, sinir ağı ağırlıkları ile yazılmıştır. Bu kodun yazım sürecine kimse katılmadı. Yazılım 2.0 durumunda, insanlar ideal bir programın davranışı üzerinde bazı kısıtlamalar belirler (örneğin, örnek bir girdi ve çıktı çifti veri kümesi) ve program alanındaki kısıtlamaları karşılayan programları aramak için mevcut hesaplama kaynaklarını kullanır. Sinir ağı örneğinde, aramayı, arama sürecinin geri yayılma ve stokastik gradyan inişi kullanılarak etkili olabileceği sürekli bir program alanı alt kümesiyle sınırlandırıyoruz.

Karpathy, gerçek dünyada sorunların çoğunun, verileri toplamanın açık bir şekilde program yazmaktan daha kolay olduğuna inanmaktadır. Gelecekte, çoğu programcının artık karmaşık yazılım kitaplıkları tutması, karmaşık programlar yazması veya programların çalışma süresini analiz etmesi gerekmeyecek. Yapmaları gereken şey, sinir ağına sağlanan verileri toplamak, düzenlemek, manipüle etmek, etiketlemek, analiz etmek ve görselleştirmek.

Uzun vadede, Yazılım 2.0'ın geleceği parlak çünkü giderek daha fazla insan, yapay genel zeka (AGI) geliştirdiğimizde bunun kesinlikle Yazılım 2.0 olarak yazılacağını biliyor.

Yazılım 3.0? O zaman AGI çağına ulaşmamız gerekiyor.

Derleme kaynağı