Bilgisayarların ortaya çıkışından bu yana, akıllı makinelerin üretimine olan insan ilgisi azalmadan devam etti. Özellikle son yıllarda dördüncü teknolojik devrim büyük bir fırtına çıkardı.Makine öğrenimi ve derin öğrenme alanındaki teknoloji hızla gelişti ve hızla insanların hayatına girecek ürünlere dönüştü.Yapay zeka tüm insanlar için bir konu haline geldi. İnsan yüzlerini tanıyabilir, otonom olarak sürebilir, hastalıkları teşhis edebilir ve geleceği tahmin edebilir ... İnsanlar uzun zamandır gerçek yapay zekanın yaratıldığı sahneyi hayal etmeye ve insanlarla bu "süpermen" arasındaki ilişkiyi tartışmaya başladılar.
Resim 1: "Extreme Challenge" yapay zeka tema programı
Bununla birlikte, insanlar böylesine gerçekten zeki bir makine yaratmaktan hâlâ çok uzaktadır. Yapay zeka alanında hak edilmiş yıldız sinir ağı "saymayı" yeni öğrendi.
Sinir ağları sayıları temsil etmeyi ve manipüle etmeyi öğrenebilir, ancak eğitim aralığı dışındaki değerlerle karşılaştıklarında genellikle bir kayıp yaşarlar. Şekil 1, bir skalerin özdeşlik işlevini (f (x) = x) öğrenen farklı çok katmanlı algılayıcıların davranışını göstermektedir. Özdeşlik işlevi, en basit sayısal ilişkilerden biridir.Çoğu yapı, bu sayısal ilişkiyi teoride temsil edebilmesine rağmen, uygulamadaki performansları tatmin edici değildir.
Şekil 2: Kimlik işlevlerini öğrenmek için MLP'yi (Çok Katmanlı Algılayıcı) kullanma. MLP yalnızca eğitim verilerinin sayısal aralığı içindeki içeriği "öğrendi". Eğitim değeri dışındaki ortalama hata çapraz olarak artar. Hatanın büyüklüğü, model etkinleştirme fonksiyonunun doğrusal olmama derecesi ile ilgilidir.
Bunun nedeni, sistem yapısının genelleme yeteneğinin eksikliğine yol açması, bu da bu modellerin değerler hakkında akıl yürütme yeteneğinden yoksun olmasıdır. Ancak insanlar gibi gelişmiş memelilerden arılar gibi böcekler gibi basit yaratıklara kadar bu yetenek biyolojik dünyada çok yaygındır. Bu aynı zamanda temel sayısal muhakemenin zekanın temel bir bileşeni olduğunu da gösterir.
Bu amaçla, DeepMind, Oxford Üniversitesi ve Londra Üniversitesi'nden araştırmacılar, geleneksel işlemcilerdeki aritmetik mantık birimine benzeyen yeni bir model NALU (nöral aritmetik mantık birimi) önerdiler ve bu yapıya sinir aritmetik mantık birimi adını verdiler.
NALU, bir kapı yapısı tarafından kontrol edilen ve ilkel aritmetik işlemlerle manipüle edilen doğrusal bir aktivasyon fonksiyonu aracılığıyla sayısal bir değeri ifade eder. Deneysel sonuçlar, bu yapı ile güçlendirilen sinir ağının zamanı takip etmeyi, dijital görüntüler üzerinde işlem yapmayı, sayısal dili gerçek değerli skalalara dönüştürmeyi, bilgisayar kodlarını çalıştırmayı, görüntüdeki nesne sayısını saymayı öğrenebildiğini göstermektedir ... Geleneksel yapı ile karşılaştırıldığında, bu Yapı, eğitim sırasında öğrenilen sayısal aralık içinde ve dışında daha iyi genelleme yeteneği gösterir ve temeldeki verilerin sayısal doğasını kavrayabilir ve muhakeme yeteneği, eğitim sırasında gözlenen verileri genellikle birkaç büyüklük sırasına göre aşabilir.
Araştırmacılar iki model önerdi. İlk model, NAC (sinirsel akümülatör) olarak adlandırılır. Bu, dönüşüm matrisi W yalnızca 0, -1, 1'den oluşan özel bir doğrusal katmandır. Başka bir deyişle, çıktısı yalnızca giriş vektörünün her satırının toplanması ve çıkarılmasının bir sonucu olacaktır ve önceki işlemdeki gibi ölçeklendirmeyi içermeyecektir. Bu nedenle, kaç işlem yapılırsa yapılsın, sayısal gösterimin ölçeği model boyunca sabittir. Model, sapma vektörleri içermez ve çıktı sonuçlarına herhangi bir doğrusal olmayan işlem uygulamaz.
Şekil 3: NAC, girişinde doğrusal dönüşüm gerçekleştirir. NALU, toplama ve çıkarma (b'de küçük mor bölüm) ve çarpma ve bölme (b'de büyük mor bölüm) uygulamak için iki NAC yapısının ve karşılık gelen ağırlıkların kapı yapısı (b'de turuncu bölüm) kombinasyonunu kontrol eder.
Toplama ve çıkarma işlemlerini yapmak ve genelleme yapmak yeterli değildir ve çarpma gibi daha karmaşık işlemler de gereklidir. Bu nedenle, araştırmacılar ayrıca NALU (nöral aritmetik mantık birimi, sinir aritmetik mantık birimi) önerdiler. Biri toplama ve çıkarma işlemleriyle, diğeri ise çarpma, bölme ve güç işlemleriyle ilgilenen öğrenme yoluyla iki alt hücrenin (NAC) farklı ağırlıklarının toplamını elde eder. NALU ayrıca, NAC'nin yeni sayısal fonksiyonların uçtan uca öğrenilmesi için geçit kontrollü alt işlemler yoluyla genişletilebileceğini de göstermektedir. NAC gibi, NALU da sayısal değerlerin ölçeğini değiştirmek için herhangi bir işlem içermez.
Şekil 4: NAC ve NALU'nun çalışma kuralları
Bu çalışma, derin sinir ağlarında doğrusal aktivasyon fonksiyonlarının uygulanmasının bir savunucusu olarak görülebilir. Otoyol Ağları, ResNets ve DenseNet gibi diğer son yapısal yenilikler gibi, hepsi de gradyan patlamalarını ve gradyan kaybını azaltmak için doğrusal bağlantıların kullanılmasını savunuyor. Model sisteminin artan derinliği ek hesaplama yükü getirecek olsa da, bu yaklaşım gerçekten performansı artıracaktır. Bu çalışma aynı zamanda, uzayın görünmez kısımlarını yönetim denklemleri biçiminde keşfedebilen sistemlerin temel yapısını belirlemeye çalışan daha geniş makine öğrenimi temasıyla uyumludur.