g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Yapay zekanın 60 yıllık teknoloji tarihi

Yazar | Li Li, Huanxin Yapay Zeka Ar-Ge Merkezi Başkan Yardımcısı

Mühür resmi | CSDN, Visual China'dan ücretli indirme

Üretildi | CSDN AI Teknolojisi Ana Kampı (ID: rgznai100)

İnsanlığın evrimsel gelişim tarihi, insanın alet üretiminin ve kullanımının tarihidir. Farklı araçlar, insan evriminin düzeyini temsil eder. Taş Devri, Demir Çağı, Buhar Çağı, Elektrik Çağı ve mevcut bilgi çağından, üretimi ve yaşamı değiştirmek için daha gelişmiş ve kullanışlı araçlar kullanıyoruz.

Aracın amacı, insanoğlunun yeteneklerini genişletmek ve genişletmektir. Hızlı koşamayız, ancak binicilik ve araba ile günde binlerce mil gidebiliriz. Yüksekten zıplayamayız, uçamayız, ancak uçak roketlerinin yardımıyla gökyüzüne çıkabiliriz. Genel olarak, araçlar iki kategoriye ayrılabilir: insan fiziksel gücünü genişletmek için araçlar ve insan beyni gücünü genişletmek için araçlar.

Bilgisayarların icadından önce, insanlar tarafından yapılan araçların çoğu eskiydi ve bu da fiziksel emeği azaltmamıza yardımcı olabilir. Örneğin, araziyi işlemek için sığır veya traktör kullanmak daha verimlidir. Elbette, sözlerin yanı sıra abaküs gibi zihinsel çalışmayı azaltmak için az sayıda araç da var - bu, insanların hafıza kapasitesini büyük ölçüde artırabilir.Şimdi birçok mekanik zihinsel çalışma bilgisayarlar tarafından yapılabilir. Ancak geleneksel bilgisayar programları yalnızca hafızamızı genişletmemize ve basit mekanik hesaplamaları tamamlamamıza yardımcı olabilir. Daha büyük kapasiteli ve daha hızlı bir belleğe sahibiz ve finansal muhasebeye yardımcı olmak için finansal yazılımlar derleyebiliriz.

Başarmak için "zeka" gerektiren şeyleri başaramayız. Örneğin, bilgisayarlar araba sürmek için kullanılamaz ve bilgisayarlar şu anda insanlar gibi doğal dilde insanlarla iletişim kuramıyor. Yapay zekanın amacı, bilgisayarların insanlar gibi davranmasını sağlamaktır. Bu karmaşık sorunları akıllıca çözün. Mevcut yapay zeka sistemi, Go'da insan dünya şampiyonunu yenmeyi başardı ve mevcut konuşma tanıma sistemi, belirli belirli senaryolarda insan tanıma doğruluğunu elde etmeyi başardı ve insansız arabalar da deneysel olarak belirli yerlerde yollara çıktı. Yukarı. Yapay zekanın gelecekte daha fazla uygulama senaryosu olacak. Nihai hedefimiz, insan zekası kadar akıllı ve hatta ötesinde makineler yapmak.

Yapay zekanın kısa tarihi

Yapay zekanın ilk keşfi, otomatik sembolik hesaplamalar yapabilen makineler yapmaya çalışan Leibniz'e kadar uzanabilir, ancak modern anlamda yapay zeka terimi 1956'da Dartmouth Konferansı'nda doğdu.

Kendisi de birçok disiplinin ve farklı kişilerin kesişim noktası olan yapay zekanın birçok tanımı vardır. Dikkat Farklı yönleri vardır, bu nedenle herkesin kabul ettiği bir tanım vermek zordur. Yine de AI sürecini anlamak için zaman bağlamını kullanalım.

Altın dönem (1956-1974)

Bu, yapay zekanın altın çağı ve bu disiplinin araştırma ve geliştirmesini desteklemek için çok fazla fon kullanılıyor. Bu dönemdeki etkili araştırmalar, Genel Problem Çözücü ve en eski sohbet robotu ELIZA'yı içerir.

Pek çok kişi sohbet ettikleri ELIZA'nın bir Gerçek kişi , Ancak eşleşen şablonlara dayalı yanıtlar oluşturmanın basit bir yoludur (piyasadaki sohbet robotlarımızın çoğu aslında benzer teknolojileri kullanır).

O zamanlar insanlar çok iyimserdi: Örneğin, H. A. Simon 1958'de bilgisayarların satrançta (uluslararası) 10 yıl içinde insanları yeneceğini iddia etti. Hatta 1965'te "bilgisayarların yirmi yılda insanların yapabileceği her şeyi yapabileceğini" söyledi.

İlk soğuk kış (1974- 198 0)

Bu döneme kadar, önceki iddialar yerine getirilmedi, bu nedenle çeşitli eleştiriler ortaya çıktı, ülke (ABD) artık daha fazla fon yatırmadı ve yapay zeka ilk soğuk kışa girdi. Bu dönem aynı zamanda bağlantacılığın karanlık dönemidir. 1958'de Frank Rosenblatt, sinir ağları üzerine yapılan en eski araştırma olarak kabul edilebilecek Perception'ı önerdi. Ancak, önümüzdeki 10 yıl içinde bağlantısallık konusunda çok fazla araştırma ve ilerleme olmadı.

Refah ( 198 0- 198 9)

Bu dönemin refahı, uzman sistemlerin popülerliğinden yararlandı. Bağlantılı sinir ağları da dahil olmak üzere geliştirildi 198 2 yıl içinde John Hopfield, Hopfield ağını ve aynı anda keşfedilen geri yayılma algoritmasını önerdi, ancak ana akım yöntem hala sembolik uzman sistemlere dayanıyor.

İkinci soğuk kış ( 198 9- 199 3)

Daha önce başarılı olan uzman sistem, yüksek maliyet ve diğer nedenlerden dolayı ticari olarak başarılı olmakta zorlandı ve yapay zeka yine soğuk kışa girdi.

Geliştirme dönemi ( 199 3-2006)

Bu dönemde yapay zekanın ana akımı makine öğrenmesiydi. İstatistiksel öğrenme teorisinin gelişimi ve SVM araçlarının popülaritesi, makine öğrenimini istikrarlı bir gelişim dönemine getirdi.

Salgın dönemi (2006-şimdi)

Bu sefer yapay zekanın gelişimi esas olarak derin öğrenme, yani derin sinir ağları tarafından yönlendiriliyor. geçen yüzyıl Sekiz veya dokuz On yıllık sinir ağı teorik XOR problemini doğrusal olmayan bir aktivasyon fonksiyonu ile çözse de, geri yayılma algoritması sığ bir sinir ağını eğitmeyi de mümkün kılar. Ancak, bilgi işlem kaynaklarının ve becerilerinin sınırlamaları nedeniyle, o zamanlar daha derin ağları eğitmek imkansızdı. Asıl etki, geleneksel "sığ" makine öğrenimi yöntemlerinden daha iyi değildi, bu nedenle çok fazla insan yoktu. Dikkat Bu yönde.

2006 yılına kadar Hinton, ön eğitim yoluyla daha derin sinir ağlarını eğitmeyi mümkün kılan Derin İnanç Ağlarını (DBN) önerdi. 2009 yılında Hinton ve DengLi, bir akustik modeli eğitmek için bir konuşma tanıma sisteminde ilk kez derin bir sinir ağı (DNN) kullandılar ve nihai sistemin kelime hata oranı (WER) büyük ölçüde azaldı.

Derin öğrenmeyi akademik çevrelerde ünlü yapan şey 2012 ILSVRC değerlendirmesiydi. Bundan önce, en iyi ilk 5 sınıflandırma hata oranı% 25'in üzerindeydi. 2012'de AlexNet, rekabette ilk kez derin bir evrişimli ağ kullandı ve% 16 hata oranına ulaştı. Bundan sonra, her yıl yeni iyi sonuçlar ortaya çıktı. 2014'te GoogLeNet ve VGG oldu ve 2015'te ResNet artık ağı oldu. Mevcut en iyi sistem TOP5 sınıflandırma hatası oranı% 5'in altındadır.

Daha fazla insanı (özellikle Çinlileri) derin öğrenmenin ilerlemesinden gerçekten haberdar eden şey, Google DeepMind tarafından 2016 yılında geliştirilen AlphaGo'nun insan dünya şampiyonu Li Shishi'yi 4'e 1'lik bir skorla mağlup etmesidir. Bu nedenle yapay zeka başka bir müreffeh döneme girdi ve çeşitli başkentler yatırım yapmak için yarışıyor ve hatta ulusal düzeyde yapay zeka geliştirme planları arka arkaya tanıtıldı.

2006'dan günümüze kadar alt alanlarda büyük ilerleme

2006'dan bu yana bilgisayarla görme, işitme, doğal dil işleme ve pekiştirmeli öğrenme alanlarında derin öğrenmenin ana ilerlemesini gözden geçirelim ve gelişim sürecine göre gelecekteki olası gelişim yönlerini analiz edelim. Yazarın seviyesinin ve ilgi alanlarının sınırlamaları nedeniyle, işte sadece yazarın bildiği makalelerin bir listesi, bu nedenle bazı önemli çalışmalar kesinlikle gözden kaçacaktır.

Bir, bilgisayar görüşü

Denetimsiz ön eğitim

DNN, CNN ve RNN (LSTM) gibi birçok "modern" derin öğrenme modeli çok erken önerilmiş olsa da, 2006'dan önce birçok sinir ağı katmanını eğitmenin bir yolu yoktu. Bu nedenle, derin öğrenme ve geleneksel Makine öğreniminde önemli bir fark yoktur.

2006 yılında Hinton ve diğerleri, "Derin inanç ağları için hızlı bir öğrenme algoritması" makalesinde açgözlü, denetimsiz Derin İnanç Ağları (DBN) katman katman ön eğitim yöntemini ve denetimli ince ayar yöntemini ilk kez önerdiler. Çok katmanlı (beş katmanlı) bir sinir ağını eğitmek için. O zamandan beri, araştırma etkin noktası, derin sinir ağlarını eğitmek için çeşitli tekniklerin nasıl kullanılacağıdır. Bu süreç kabaca 2010 yılına kadar devam edecek. Ana fikir, çeşitli denetimsiz ön eğitim yöntemlerini kullanmaktır.Bu dönemde DBN'ye ek olarak, Sınırlı Boltzmann Makineleri (RBM), Deep Boltzmann Makineleri (DBM) ve Denoising Autoencoder modelleri de önerilmiştir.

Temsili makaleler arasında Hinton ve arkadaşlarının Nature dergisinde yayınlanan "Sinir ağları ile verilerin boyutluluğunun azaltılması", Bengio ve arkadaşlarının NIPS 2007'de yayınlanan "Greedy layer-wise training of deep networks", Lee ve diğerleri ICML 2009'da yayınlanmıştır. Vincent ve diğerleri tarafından 2010 yılında yayınlanan "Hiyerarşik temsillerin ölçeklenebilir denetimsiz öğrenimi için evrişimli derin inanç ağları", "Yığınlı gürültü azaltıcı otomatik kodlayıcılar: Derin bir ağda yararlı temsilleri yerel bir gürültü azaltma kriteri ile öğrenme", Vincent ve diğerleri tarafından 2010 yılında yayınlanmıştır.

O zamanlar, daha derin bir sinir ağını eğitmek çok zordu. Bu nedenle, Glorot ve diğerleri tarafından "İleri beslemeli derin sinir ağlarını eğitmenin zorluğunu anlamak" da var. Derin öğrenme araçlarını kullanırken Xavier başlatma yöntemiyle karşılaşabilirsiniz. Yöntemin yazarı Xavier Glorot'dur. O zamanlar, iyi bir modelin eğitilebilmesi için hiperparametreleri seçebilmek bir tür "siyah teknoloji" idi.Ayrıca, çeşitli hileleri tanıtan kalın bir "Sinir Ağları: Ticaretin Püf Noktaları" kitabının da olduğunu hatırlıyorum.

Derin Evrişimli Sinir Ağı

Derin öğrenme herkes tarafından sevilir Dikkat Alex ve arkadaşları tarafından uygulanan AlexNet'in LSVRC-2012 ImageNet yarışmasında çok iyi sonuçlar almasının büyük bir nedeni. O zamandan beri, evrişimli sinir ağları ve bunların varyantları görüntüyle ilgili çeşitli görevlerde yaygın olarak kullanılmaktadır. 2012'den 2016'ya kadar, yıllık LSVRC yarışması daha derin modeller ve daha iyi sonuçlar üretecek.

Alex Krizhevsky'nin 2012 tarihli makalesi "Derin evrişimli sinir ağları ile ImageNet sınıflandırması" bu "derin" rekabetçi yolculuğu başlattı.

2014 şampiyonu, 22 katmanlı derin sinir ağının eğitilebileceği Inception'ın yapısını öneren "Evrişimlerle daha derine inmek" başlıklı makaleden GoogleNet'tir. Aynı yıl ikincisi VGGNet idi, model yapısında çok fazla dönüşüme sahip değildi, sadece evrişimli ağı daha derin hale getirmek için bazı teknikler kullandı (18 katman).

2015 şampiyonu, He Yuming ve diğerleri tarafından hazırlanan "Görüntü tanıma için derin kalıntı öğrenme" başlıklı makaleden ResNet'tir. Kalan yapıyı tanıtarak, eğitim yapabilirler. 152 Katman ağı, 2016 tarihli "Derin Artık Ağlarda Kimlik Eşlemeleri" makalesi, bazı teorik analizler ve kalan ağ üzerinde daha fazla iyileştirme yaptı.

2016 yılında, Google'ın Szegedy ve arkadaşları, "Inception-v4, başlangıç-resnet ve kalan bağlantıların öğrenme üzerindeki etkisi" başlıklı makalede, artık bağlantıları ve Incpetion yapılarını entegre eden bir ağ yapısı önerdi ve bu, tanıma etkisini daha da iyileştirdi.

Aşağıdaki şekil bu modellerin LSVRC rekabeti üzerindeki etkisini göstermektedir.Ağ derinleştikçe ilk 5 sınıflandırma hata oranının giderek azaldığını görebiliyoruz.

Resim: LSVRC rekabeti

Nesne algılama ve örnek bölümleme

Önceki model esas olarak görüntü sınıflandırma görevini ele alır.Nesne algılama ve örnek bölümleme de bilgisayarla görmede çok yaygın görevlerdir. Bu iki görev için derin evrişimli sinir ağları kullanmak çok doğaldır, ancak bu görev sadece resimde hangi nesnelerin olduğunu bilmeyi değil, aynı zamanda bu nesneleri doğru bir şekilde konumlandırmayı da gerektirir. Bu tür görevler için evrişimli sinir ağlarını kullanmak için birçok iyileştirme çalışması yapılması gerekir.

Tabii ki, hedef tespiti için CNN kullanmak çok doğaldır En kolay yol, önce hedefi bulmak için geleneksel yöntemleri kullanmaktır, ancak konumlandırma etkisi iyi değildir. Girshick ve diğerleri, 2014 yılında "Doğru nesne tespiti ve anlamsal bölümleme için zengin özellik hiyerarşileri" başlıklı makalede R-CNN modelini önermiş, çok sayıda aday bölge oluşturmak için Bölge Teklifi'ni kullanmış ve son olarak hedef olup olmadığını belirlemek için CNN'yi kullanmıştır, ancak ihtiyaç nedeniyle Tüm adaylar sınıflandırılır ve değerlendirilir, bu nedenle hızı çok yavaştır.

Resim: R-CNN

2015 yılında Girshick ve arkadaşları, hızlı hesaplamalar yapabilen tek bir hesaplamayla tüm aday bölgelerin özelliklerini aynı anda hesaplamak için ROI Havuzlama katmanını kullanan Fast R-CNN'yi önerdi. Bununla birlikte, Bölgesel Teklifin kendisi çok yavaştır Aynı yıl yayınlanan "Daha Hızlı R-CNN: Bölge Teklif Ağları ile Gerçek Zamanlı Nesne Algılamaya Doğru" başlıklı makalede Ren ve diğerleri, Bölge Teklif Ağları (RPN) ağını kullanarak Daha Hızlı R-CNN'yi önerdiler. Gerçek zamanlı hedef algılama algoritmasına ulaşmak için orijinal Bölge Teklifi algoritmasını değiştirin. Lin ve arkadaşları, farklı görüntülerde hedef nesnelerin farklı ölçeklerindeki problemi çözmek için "Nesne Algılama için Özellik Piramit Ağları" adlı makalede Özellik Piramit Ağlarını (FPN) önerdiler.

Resim: Hızlı R-CNN

Resim: Daha hızlı R-CNN

R-CNN, hedef tespit görevleri üzerinde iyi bir etkiye sahip olduğundan, örneğin segmentasyon için Daha Hızlı R-CNN kullanmak doğaldır. Ancak, ROI Havuzlama, örnek bölümleme olarak kullanıldığında nispeten büyük bir sapmaya sahiptir, çünkü hem Bölge Teklifi hem de Yatırım Getirisi Havuzlamasında nicel yuvarlama hataları vardır. Bu nedenle, He Yuming ve diğerleri, 2017'de Mask R-CNN modelini önerdiler.

Resim: Maske R-CNN

Bu makale dizisinden, derin öğrenmeyi daha karmaşık bir sahneye uygulama sürecini görebiliriz: derin sinir ağının ilk kısmı karmaşık bir süreçte kullanılır ve son olarak tüm süreçler uçtan uca sinir ağları ile uygulanır. .

Ek olarak, Redmon ve diğerleri "Yalnızca bir kez bakarsınız: Birleşik, gerçek zamanlı nesne algılama" YOLO modelini (sonraki YOLOv2 ve YOLOv3 vb. Dahil) ve Liu ve diğerleri tarafından önerilen SSD: Single Shot MultiBox Detector modelini önerdi. Amaç, doğruluk oranını korurken algılama hızını artırmaktır.

Üretken model

Son zamanlarda bilgisayarla görmede hangi yönün en popüler olduğunu söylemek isterseniz, üretici modeller kesinlikle bunlardan biridir. Bir nesneyi tanımak kolay değildir, ancak bir nesne üretmek daha zordur (üç yaşındaki bir çocuk bir kediyi tanıyabilir, ancak üç yaşındaki çocukların çoğu bir kediyi iyi çizemez). Üretken modeli ateşli kılan şey, 2014 yılında Goodfellow tarafından önerilen Generative Adversarial Nets (GAN olarak anılır).

Bu alan nispeten yeni olduğu ve araştırmanın "kapsamı" çok geniş olduğu için, görüntü sınıflandırma ve ImageNet gibi standart veri setleri gibi standart görevler yoktur ve genellikle değerlendirme yöntemleri çok özneldir. Pek çok makale belirli bir uygulama noktası buldu ve ardından bazı harika resimler veya videolar oluşturdu (veya dikkatlice seçti). "Resimler ve gerçek var". Herkes resimlere bakıyor ve içeriği anlamıyor, bu yüzden bu net değil. Jue Li. Hangi pratik sorunların çözüldüğünü söylemek zor. Ama yine de, bu yön çok dikkat çekicidir, örneğin, DeepFake gibi uygulamalar herkesin ilgisini ve tartışmasını uyandırabilir. Bu yön hakkında fazla bir bilgim yok ve aşağıda sadece birkaç uygulama listelenmiştir.

stil transferi

En eski "Sanatsal Tarzın Sinirsel Algoritması", GAN önerilmeden önce 2015 yılında yayınlandı, ancak yine de üretken modele koydum. Bir süredir popülerdi ve sonuç olarak Prisma adında popüler bir Uygulama üretti. Aşağıdaki şekilde gösterildiği gibi, bir manzara fotoğrafı ve bir resim verildiğinde (örneğin, c Van Gogh'un resmidir), bu teknik Van Gogh'un stilini manzara fotoğrafına eklemek için kullanılabilir.

Resim: Sinir Stili Aktarımı

Zhu Junyan ve diğerleri tarafından "Döngü-Tutarlı Karşıt Ağlar Kullanılarak Eşleştirilmemiş Görüntüden Görüntüye Çeviri" adlı çalışmada önerilen CycleGAN, Eşleştirilmiş veri gerektirmeyen daha ilginç bir modeldir. Sözde Eşleştirilmiş veriler, sıradan bir atın resmini ve bir zebra resmini gerektirir ve içeriklerinin tam olarak eşleşmesi gerekir. Eşleştirilmiş veri elde etmek çok zordur.Aynı arka plan dahil olmak üzere çekim yaparken aynı görünüm ve duruşa sahip zebraları ve sıradan atları bulmak imkansızdır. Ayrıca, Van Gogh'un çalışmalarından bir parça verildiğinde, ona uyan bir fotoğrafı nasıl buluruz? Ya da tam tersine, bir manzara fotoğrafı verildiğinde, aynı içeriğe sahip bir sanat eserini nerede bulabilirim?

Bu makalede tanıtılan Cycle GAN, eşleştirilmiş eğitim verisi gerektirmez, ancak yalnızca farklı Etki Alanlarının iki etiketlenmemiş veri kümesini gerektirir. Örneğin, sıradan bir atı bir zebraya dönüştürmek için, yalnızca sıradan atların çok sayıda fotoğrafını ve çok sayıda zebra fotoğrafını hazırlamamız ve ardından zebraların tüm fotoğraflarını bir araya getirip sıradan atların tüm fotoğraflarını bir araya getirmemiz yeterli. Bu açıkça kolay. . Manzara resimlerini Van Gogh stiline dönüştürmek de kolaydır - manzara resimlerinin birçok fotoğrafını buluruz ve ardından mümkün olduğunca çok resim buluruz. Etkisi aşağıdaki şekilde gösterilmiştir.

Resim: CycleGAN

metinden resme

metinden resme, metin açıklamalarına dayalı olarak karşılık gelen resimleri üretir; bu, Resim Yazısının tersidir. Zhang ve diğerleri tarafından 2016 yılında "StackGAN: Metinden Foto-gerçekçi Görüntü Sentezine Yığınlanmış Üretken Karşıt Ağlar" bu yöndeki daha önceki bir makaledir ve etkisi aşağıdaki şeklin son satırında gösterilmektedir.

Şekil: StackGAN ve diğer modellerin karşılaştırması

süper çözünürlük

Süper çözünürlük, karşılık gelen yüksek çözünürlüklü bir resim oluşturmak için düşük çözünürlüklü bir resme dayanır.Geleneksel enterpolasyon yöntemiyle karşılaştırıldığında, üretken model dağıtımını çok sayıda resimden öğrenir, bu nedenle içeriği daha "tahmin eder". Enterpolasyon etkisi çok daha iyidir. "Enhanced Super-Resolution Generative Adversarial Networks" 2018 tarihli bir makaledir ve etkisi aşağıdaki şeklin ortasında gösterilmiştir.

Şekil: ESRGAN etkisi

resim boyama

Resim iç boyama, resmin mozaik gibi bir bölümünü tıkamak ve ardından oluşturulan modeli içeriğin bu kısmını "yamamak" için kullanmaktır. Aşağıdaki şekil Bağlamsal Dikkatle Üretken Görüntü Boyamanın etkisini göstermektedir.

Şekil: DeepFill sisteminin etkisi

"EdgeConnect: Tartışmalı Kenar Öğrenme ile Üretken Görüntü Boyama" makalesi, anahatlar (çizgiler) çizme ve ardından insanlar boyarken renklendirme sürecinden yararlanır. Inpainting'i iki adıma, kenar oluşturucuya ve görüntü tamamlama ağına bölerek, bunun etkisi aşağıdadır. .

Şekil: EdgeConnect'in etkisi

En yeni etkin nokta: ağ yapısının otomatik optimizasyonu ve yarı denetimli öğrenme

Son zamanlarda iki yönden de faydalı olduğunu düşünüyorum Dikkat : Biri ağ yapısını otomatik olarak optimize etmek, diğeri ise yarı denetimli öğrenmedir.

Otomatik ağ optimizasyonuyla ilgili en son makale, Google Araştırma Enstitüsü tarafından hazırlanan "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" başlıklı makaledir. Ağın doğruluğunu ve verimliliğini aynı anda artırabilen (parametreleri azaltabilen) bir sinir ağı genişletme yöntemi bulmayı ummaktadır. Bunu başarmak için çok kritik bir adım, genişlik, derinlik ve çözünürlük gibi üç boyutun nasıl dengeleneceğidir.

Yazar, üçünü kolayca dengelemek için sabit ölçekli bir yakınlaştırma işleminin kullanılabileceğini buldu. Sonunda, yazar basit ama etkili bir bileşik ölçekleme yöntemi önerdi. Hesaplama kaynaklarını 2 kat kullanmak istiyorsanız, yalnızca ağ genişliğini artırmanız, derinliği artırmanız ve görüntü boyutunu iki kat artırmanız gerekir. Bunlar arasında ,, sabit bir katsayıdır ve optimum değer genellikle küçük ölçekli bir ızgara araması kullanılarak elde edilir. Bu şekilde, aşağıdaki şekilde gösterildiği gibi iyi sonuçlar elde etmek için çok az parametre kullanan EfficientNet modelini gerçekleştirdiler.

Şekil: Model parametreleri ve doğruluk haritası

EfficientNet'in önceki en iyi GPipe modelinden 8,4 kat daha küçük olduğunu görebiliriz, ancak etkisi ondan daha iyidir.

Buradaki yarı denetimli öğrenme, etiketlenmemiş resimler aracılığıyla eğitim öncesi öğrenme özelliklerini ve ardından az miktarda denetimli veri ile öğrenmeyi ifade eder. En son makale, Google DeepMind tarafından hazırlanan "Kontrastlı Öngörülü Kodlama ile Veri Verimli Görüntü Tanıma" dır. Bu makale, büyük miktarda etiketlenmemiş veriden özellikleri çıkarmak için Karşıt Öngörülü Kodlama yöntemini kullanır. Bu özelliklere doğrusal bir softmax katmanı eklemek, ImageNet üzerinde AlexNet denetimli öğrenmeyi kullanarak modeli aşabilir.

Her sınıf için yalnızca 13 eğitim verisi varsa, bu yöntemin ilk 5 doğruluğu, yalnızca 13 veri ile eğitilen modelden% 20 daha yüksek ve daha önce en iyi yarı denetimli modelden% 10 daha yüksektir. Pek çok geleneksel denetimsiz özellik az miktarda veride daha iyi olacaktır, ancak veri miktarı yeterince büyük olduğunda, tam denetimli öğrenmeden daha kötü olacaktır.Ancak, bu makaledeki yöntemle elde edilen özellikler tüm ImageNet verileri kullanılarak eğitilmiştir ve bunlar da elde edebilir ve tamamlayabilir. Denetimli öğrenmenin benzer bir etkisi vardır ve bu da öğrendiği özelliklerin yeterince iyi olduğunu gösterir.

İkincisi, konuşma tanıma

Konuşma tanıma sistemi çok karmaşık bir sistemdir.Derin öğrenme teknolojisinden önceki genel sistemlerin tümü HMM modeline dayanmaktadır. Genellikle HMM-GMM, alt kelime biriminin HMM'sini kelimenin HMM'sine eklemek için telaffuz sözlüğü aracılığıyla alt kelime birimini (triphone gibi) modellemek ve son olarak kod çözücünün akustik modeli ve dil modelini büyük bir şekilde birleştirmek için dil modelini eklemesi gerekir. Arama alanında en uygun yolu bulun.

Hinton, konuşma tanıma sistemini iyileştirmek için derin sinir ağlarını kullanmaya çalışıyordu. En eski (2006'dan sonra) çalışma 2009'da yayınlanan "Telefon tanıma için derin inanç ağları" idi. Bu tam olarak Ön Eğitimin popüler olduğu ve DBN'nin bilgisayar görüşünden kullanıldığı dönemdir. Konuşma tanıma çok doğal bir fikirdir. Benzer çalışma, 2010 yılında "Sınırlandırılmış Boltzmann Makinelerini Kullanarak Telefon Tanıma" yı içermektedir. Ancak bu görevler yalnızca en basit telefon sınıflandırmasıdır, yani sürekli konuşma tanımadan uzak olan her çerçeveye karşılık gelen telefonu belirlemek içindir.

Konuşma tanıma için gerçekten derin sinir ağlarını kullanan önemli makale Hinton ve arkadaşlarının 2012'de "Konuşma Tanıma için Akustik Modelleme için Derin Sinir Ağları" başlıklı makalesidir. Bu makale, geleneksel HMM-GMM akustik modelinde GMM modelinin yerini almak için DNN'yi kullanır. O zamandan beri, ana akım konuşma tanıma çerçevesi HMM-DNN'nin modeli haline geldi. Daha sonra 2013'te Sainath ve arkadaşları, "LVCSR için derin evrişimli sinir ağları" nda sıradan tam bağlantılı ağın yerini almak için CNN'yi kullandı. George ve diğerlerinin yazdığı "LVCSR için derin sinir ağlarının düzeltilmiş doğrusal birimler ve bırakma kullanılarak iyileştirilmesi" makalesinden, bilgisayarla görmede yaygın olarak kullanılan bazı tekniklerin de konuşma tanımada kullanıldığı da bulunabilir.

Önceki HMM-DNN, GMM'yi değiştirmek için derin bir sinir ağı kullansa da, HMM ve aşağıdaki N-gram dil modeli hala mevcuttur ve DNN'nin eğitiminin de çerçeve düzeyinde eğitim verileri sağlamak için HMM-GMM'nin zorunlu hizalamasını kullanması gerekir.

Uçtan uca bir konuşma tanıma sistemi nasıl kurulur her zaman akademi olmuştur Dikkat anahtarı. RNN artık zaman serisi verilerini işlemek için güçlü bir silahtır. 2013'te Graves ve diğerleri, "Derin Tekrarlayan Sinir Ağları ile Konuşma Tanıma" adlı makalede konuşma tanıma için RNN'yi kullandılar. Bu makale RNN artı CTC kaybı işlevini kullanır, CTC daha sonraki Derin Konuşmanın özüdür. Konuşma tanıma için CTC'nin "gerçek" kullanımı 2013 yılında olmasına rağmen, Graves "Bağlantısal geçici sınıflandırma: bölünmemiş sekans verilerini tekrarlayan sinir ağlarıyla etiketleme" adlı makalesinde CTC'yi 2006'nın başlarında önerdi.

Hannun ve diğerleri tarafından 2014 yılında önerilen "Derin Konuşma: Uçtan uca konuşma tanımayı ölçeklendirme", HMM-DNN ile karşılaştırılabilir bir etkiye sahip ilk uçtan uca sistemdir, takip "Derin Konuşma 2: Bitiş İngilizce ve Mandarin'de Uçtan Uca Konuşma Tanıma ". Derin Konuşma sistemi çok basittir.Giriş bir özellik dizisidir ve çıktı bir karakter dizisidir.HMM, GMM, telaffuz sözlüğü ve hatta telefon konsepti gibi modüller yoktur.

CTC kaybı işlevine dayalı Uçtan-uca sisteme ek olarak, başka bir Uçtan-uca sistem türü, makine çevirisi gibi sistemlerde yaygın olarak kullanılan seq2seq modelini kullanır. Bu, en eski "Dinle, katıl ve hecele: Büyük kelime dağarcığı konuşmalı konuşma tanıma için bir sinir ağı" içerir, Google'ın "Sıradan Sıraya Modellerle Son Teknoloji Konuşma Tanıma", konuşma tanıma için SOTA'yı özetler Seq2Seq modellerinden bazıları, gerçek sistemde bu modeli kullandıklarını söylediler, kelime hata oranı% 6,7'den% 5,6'ya düştü. Bu, endüstride gerçekten uygulanan ilk uçtan-uca konuşma tanıma sistemidir (Andrew Ng liderliğindeki Baidu IDL Derin Konuşma ve Derin Konuşma2 önermesine rağmen, Baidu'nun gerçek sisteminde kullanılmamaktadır).

Aşağıdaki şekil, ortak bir veri kümesi üzerindeki etkiyi göstermektedir. Örnek olarak SwitchBoard'u alın. 2006'dan önceki ilerleme görece yavaştı, ancak derin öğrenmenin kullanılmasından sonra kelime hata oranı düşmeye devam etti. Şekilde 2017 verileri gösteriliyor, Microsoft'un Sistem kelime hata oranını% 6,3'e düşürdü.

Şekil: Kelime hata oranındaki değişim

Üç, doğal dil işleme

Konuşma tanımadan farklı olarak, doğal dil işleme çok "karmaşık" bir alandır.Konuşma tanıma, sesi metne dönüştüren yalnızca bir görevdir. Konuşma sentezi ve konuşmacı tanıma gibi ilgili görevleri ekleseniz bile, bu doğal olmaktan uzaktır. Dil işleme görevlerinin sayısı ile karşılaştırılmıştır. Doğal dil işlemenin nihai amacı, makinelerin insan dilini anlamasına izin vermektir ve anlamak çok belirsiz bir kavramdır. Görelilik teorisindeki her kelimenin anlamını biliyor olabilirim ama bu, görelilik teorisini anladığım anlamına gelmez.

Bu nedenle burada ben Dikkat Bunlar, belirli bir görevle sınırlı olmaktan ziyade birçok alt alanda kullanılabilen daha genel yöntemlerdir.

Doğal dil ve sürekli konuşma imgelerden farklıdır, insanlar tarafından yaratılmış ayrık ve soyut bir sembol sistemidir. Geleneksel özellik temsilleri, ayrık ve seyrek temsil yöntemleridir ve genelleme yetenekleri çok zayıftır. Örneğin, eğitim verilerinde çok fazla "Pekin hava durumu" var, ancak çok fazla "Şangay hava durumu" yok, bu durumda onun tarafından tahmin edilen puanlar sınıflandırma sırasında çok farklı olacaktır. Ancak "Pekin" ve "Şangay" genellikle benzer bağlamlarda görünebilir ve bu tür bir temsil bu tür bilgileri kullanamaz.

2003 yılında, Bengio "Sinirsel Olasılıksal Dil Modeli" makalesinde bir sinir ağı dil modeli önerdi. gg Matris, bir kelimeyi düşük boyutlu yoğun bir vektöre kodlar, bu da benzer bağlamların paylaşımını gerçekleştirir - örneğin, "Pekin" ve "Şangay" genellikle benzer bağlamlarda görünür, nispeten benzer vektörlere kodlanırlar, böylece "Şangay Hava Durumu" eğitim verilerinde çok fazla görünmüyor ve "Pekin Hava Durumu" ile daha yüksek bir olasılık verilebilir.

Ama 2003'te herkes öyle değildi Dikkat Sinir ağı, yani bu makale o zamanlar fazla takip çalışmasına sahip değildi. 2012'den sonra, derin sinir ağları bilgisayarla görme ve konuşma tanıma alanlarında önemli ilerlemeler kaydetti ve bunu doğal dil işleme alanına uygulamak çok doğal. Ancak şu anda bir sorun var - çok fazla denetlenen ek açıklama verisi yok. Bu aslında daha önce bahsedilen doğal dil işlemenin çok "karmaşık" olmasıyla ilgilidir.

Çok fazla doğal dil işleme görevi vardır.Doğrudan uygulamalara yönelik olan ve daha fazla veriye sahip makine çevirisi gibi güçlü pratik gereksinimleri olan birkaç görev dışında, çoğu görev için açıklama verileri çok sınırlıdır. Milyonlarca etiketli veri setine veya binlerce saatlik ses tanıma etiketli veri setlerine sahip ImageNet ile karşılaştırıldığında, birçok doğal dil işleme etiketli veri en fazla onbinlerdedir. Yüz bin Bu büyüklük sırası. Bu, belirli işletmelerle ilgili olduğu için doğal dil işlemenin özelliklerine göre belirlenir. Bu nedenle, doğal dil işleme alanında acilen ihtiyaç duyulan şey, gramer, anlamsal ve dünya bilgisini içeren etiketlenmemiş verilerden yararlı bilgilerin nasıl öğrenileceğidir.

Mikolov ve diğerleri bu yolculuğa 2013 yılında "Vektör uzayında kelime temsillerinin verimli tahmini" ve "kelimelerin ve kelime öbeklerinin dağıtılmış temsilleri ve bunların kompozisyonları" ile başladı. Word2Vec'leri, aşağıdaki şekilde gösterildiği gibi çok iyi kelime vektörlerini basit ve verimli bir şekilde öğrenebilir.

Şekil: Word2Vec'in kelime vektörü

Yukarıdaki şekilden, onun gerçekten de bazı anlamsal bilgiler öğrendiğini görebiliriz ve vektör hesaplaması yoluyla "erkek-kadın = kral-kraliçe" ye benzer olabilir.

Bu kelime vektörlerini diğer görevler için başlangıç değerleri olarak kullanabiliriz. Aşağı akış görevindeki veri miktarı azsa, bu önceden eğitilmiş kelime vektörlerini bile düzeltebilir ve sonra yalnızca üst düzey parametreleri ayarlayabiliriz. Pennington ve diğerleri, GloVe modelini 2014 tarihli "Eldiven: Kelime temsili için küresel vektörler" başlıklı makalesinde önerdiler.

Ancak Word2Vec bağlamsal bilgileri dikkate alamaz. Örneğin, "banka" banka ve su kenarı anlamına gelir. Ancak bir cümlede hangi anlamı yargılayamaz, bu nedenle bu iki semantiği aynı anda bu vektöre kodlayabilir. Ancak aşağı akış uygulamalarında belirli bir cümlede, yalnızca bir anlambilim gereklidir. Elbette, çok anlamlı kelimeler sorununu çözmeye yönelik girişimler de var. Örneğin, Neelakantan ve ark. 2014 "Çoklu Embe'nin Verimli Parametrik Olmayan Tahmini gg ings per Word in Vector Space ", ancak ikisi de çok başarılı olmadı.

Bağlamı çözmek için başka bir araç RNN'dir. Ancak sıradan RNN'de gradyan kaybolma sorunu vardır, bu nedenle LSTM daha yaygın olarak kullanılır. LSTM kadar erken 199 Sepp Hochreiter ve Jürgen Schmidhuber tarafından 7 yıl içinde önerildi. Yalnızca 2016 civarında doğal dil işleme görevlerinde yaygın olarak kullanıldı ve o sırada metin işleme için "fiili" standart haline geldi - herkes herhangi bir görevin önce LSTM'yi kullanması gerektiğine inanıyordu. Elbette, LSTM'nin ve yeni önerilen GRU'nun diğer varyantları da yaygın olarak kullanılmaktadır. Bağlamın anlamsal ilişkilerini öğrenmenin yanı sıra, RNN teorik olarak uzun mesafeli anlamsal bağımlılıkları çözebilir (tabii ki kapı mekanizması getirilse bile, aslında çok uzun anlamsal ilişkilerin öğrenilmesi hala zordur).

Resim: LSTM

Birçok NLP'nin girdisi bir dizidir ve çıktı da bir dizidir ve aralarında kesin bir düzen ve yazışma yoktur. Bu sorunu çözmek için seq2seq modeli önerildi. Seq2seq'in son kullanımı makine çevirisidir. Sutskever ve diğerleri, makine çevirisi için seq2seq modelini ilk kez 2014 tarihli "Sinir Ağları ile Sıralı Öğrenmeye Sıralı Öğrenme" makalesinde kullandı ve Bahdanau ve diğerleri, Dikkat mekanizmasını ilk kez "Hizalamayı ve Çevirmeyi Ortak Öğrenerek Nöral Makine Çevirisi" başlıklı makalede tanıttı. Uzun cümlelerin çeviri etkisini artırabilen makine çevirisi. "Google'ın Nöral Makine Çeviri Sistemi: İnsan ve Makine Çevirisi Arasındaki Boşluğu Kapatma" başlıklı makalede, Google, gerçek sistemlerinde sinir ağı makine çevirisini kullanma konusundaki deneyimlerinin bir kısmını tanıttı. Bu, sektörde uygulanan ilk sinir ağı çeviri sistemidir.

Resim: LSTM

seq2seq plus Attention, özet, soru-cevap ve hatta diyalog sistemleri dahil olmak üzere birçok problemi çözmek için standart bir yöntem haline geldi Bu Uçtan Uca seq2seq modeli popüler hale geldi.

Google, 2017 yılında "Tek İhtiyacınız Olan Dikkat" konusunda Dikkat mekanizmasını en uç noktaya taşıdı ve Transformer modelini önerdi. Dikkat, RNN'ye daha iyi paralel olabileceğinden ve Öz Dikkat mekanizması aynı zamanda bağlamsal bilgileri kodlayabildiğinden, makine tarafından çevrilmiş WMT14 verilerinde ilk sonucu elde etti.

Resim: Nöral Makine Çevirisi

Ama aslında, "Bellek", Dikkat ile aynı zamanda popülerdir. Bu, "Akıl, Dikkat ve Bellek" (kısaca RAM) popüler olduğu 2015 yılı civarındaydı, NIPS'in de bir RAM atölyesi olduğunu hatırlıyorum. Bellek, LSTM Hücresini daha da soyutlamak ve onu bilgisayarın hafızası gibi bir depolama mekanizmasına dönüştürmek ve ardından sinir ağlarının otomatik olarak sıralama algoritmalarını öğrenmesine izin vermek de dahil olmak üzere Nöral Turing Makinesi (NTM) dahil olmak üzere birçok karmaşık modeli ortaya koymaktır. O zamanlar da bir süre popülerdi, ancak sonunda herhangi bir pratik sorunu çözmedi.

RNN / Transformer, makine çevirisi gibi birkaç görev dışında bağlamsal anlamsal ilişkileri öğrenebilmesine rağmen, çoğu görevin çok az eğitim verisi vardır. Bu nedenle, iyi bağlamsal anlamsal ilişkileri öğrenmek için denetimsiz külliyatın nasıl kullanılacağı çok önemli bir konu haline geldi. Bu yön, Elmo, OpenAI GPT, BERT ve XLNet vb. Dahil olmak üzere 2018'den günümüze kadar devam etti. Bu modeller listeyi defalarca kaydırarak harika Dikkat .

ELMo Embe'dir gg Dil modellerinden ings kısaltması, yani (cümle) Dil modelinden Embe gg ing. Ayrıca Elmo, Amerikan çocuklarının eğitici televizyon programı Susam Sokağı'ndaki küçük canavarın adıdır. Orijinal makale "Derin bağlamsallaştırılmış kelime temsilleri" dir, bu başlık çok uygundur, bağlamsal kelime temsillerini öğrenmek için derin Transformer modelini kullanmaktır.

Bu makalenin fikri aslında çok, çok basit, ancak çok iyi sonuçlar elde etti. Fikri, aşağıdaki şekilde gösterildiği gibi, büyük miktarda etiketlenmemiş veri üzerinde bir dil modeli eğitmek için derin çift yönlü bir RNN (LSTM) kullanmaktır. Sonra asıl görevde, girdi cümlesi için, onu işlemek ve çıktı vektörünü elde etmek için bu dil modelini kullanırız, böylece bu bir özellik çıkarma olarak kabul edilebilir. Ancak sıradan Word2Vec veya GloVe ön eğitiminden farklı olarak, ELMo tarafından elde edilen Embe gg ing bağlamsaldır.

Örneğin, "banka" kelimesinin Embe'sini almak için Word2Vec kullanabiliriz. gg ing, bu Embe'nin gg ing, bankanın anlamını içerir. Ancak bankanın pek çok anlamı vardır, banka veya su kenarı olabilir, Ön Eğitim Embe'si olarak sıradan Word2Vec'i kullanır. gg ing, her iki semantiği aynı anda vektöre kodlayabilir ve ardından bağlama göre uygun anlambilimini seçmek için RNN gibi ikinci modele güvenebilir - örneğin, bağlamda para varsa, o zaman bir banka olma olasılığı daha yüksektir; ve bağlam nehir ise, O zaman suyun kenarı anlamına gelme olasılığı daha yüksektir. Ancak RNN'nin bu tür bir bağlamsal ilişkiyi öğrenmesi için, bu görev için birçok durumda mevcut olmayan birçok ilgili ek açıklama verisine ihtiyacı vardır. ELMo'nun öznitelik çıkarımı bağlama duyarlı olarak değerlendirilebilir.Eğer girdi cümlesinin parası varsa, o zaman (veya umuyoruz) daha uygun bir kodlama seçmemize yardımcı olmak için bankanın daha olası anlambilimini bilebilir olmalıdır.

Şekil: RNN dil modeli

ELMo tarafından öğrenilen dil modeli parametreleri sabittir ve aşağı akış görevleri gizli durumunu bir özellik olarak alır. "Üretken Ön Eğitimle Dil Anlayışını İyileştirme" başlıklı makaledeki OpenAI GPT modeli, belirli görevlere göre ayarlanacaktır (genellikle ince ayarlanmış), böylece sonuçta ortaya çıkan cümle temsili belirli görevlere daha iyi uyum sağlayabilir. Fikir aslında çok basit: Transformer'ı kullanarak bir dil modeli öğrenin ve cümleler üzerinde denetimsiz Embe gerçekleştirin. gg Özel göreve göre Transformer'in parametrelerinde ince ayar yapın. Eğitilmiş görev dili modelinin girdisi bir cümle olduğundan, ancak birçok aşağı akış görevinin iki girdisi olduğundan, OpenAI GPT, aşağıdaki şekilde gösterildiği gibi, iki cümleden önce özel bir ayırıcı ekleyerek iki girişi işler.

Şekil: OpenAI GPT'nin aşağı akış görevlerini işleme yöntemi

OpenAI GPT, birçok görevde önceki bir numarayı çok geride bırakarak çok iyi sonuçlar elde etti.

ELMo ve GPT ile ilgili en büyük sorun, geleneksel dil modelinin tek yönlü olmasıdır - mevcut kelimeyi önceki tarihe dayanarak tahmin ediyoruz. Ancak son bilgileri kullanamayız. Örneğin, "Hayvan çok yorgun olduğu için karşıdan karşıya geçmedi" cümlesi. Onun anlamını kodladığımızda, bilgiyi ondan önce ve sonra kullanmamız gerekir çünkü bu cümlede hayvan veya sokağa atıfta bulunabilir. Yorgun'a göre, hayvana atıfta bulunduğunu anlıyoruz çünkü sokak yorgun olamaz. Ama yorgunluğu geniş olarak değiştirirseniz, o zaman sokağa atıfta bulunur.

İster RNN ister Transformer olsun, geleneksel dil modelleri yalnızca tek yönlü bilgileri kullanabilir. Örneğin, ileri RNN kodlarken, hayvanı ve sokağı görür, ancak henüz yorgun görmemiştir, bu nedenle neyi ifade ettiğinden emin olamaz. Geriye dönük bir RNN ise, kodlarken yorgun görür, ancak hayvanı hiç görmemiştir, bu yüzden hayvana atıfta bulunduğunu bilmiyor. Transformer'in Öz Dikkatine teorik olarak bu iki kelimeye aynı anda katılabilir, ancak önceki girişe göre, dil modelini öğrenmek için Transformer'ı kullanmamız gerektiğinden, onu gelecekteki bilgiler için görünmez hale getirmek için Mask kullanmalıyız, bu yüzden Bu sorunu çözemez.

Dil modelinin bilgiyi sadece tek bir yönde kullanabileceği problemini nasıl çözer? Cevap, ön eğitiminin sıradan bir dil modeli değil, bir Mask dil modeli olmasıdır. Bu fikir, şu anda aşina olduğumuz BERT modeli olan Google'ın "Dil Anlamak için Derin Çift Yönlü Transformatörlerin Ön Eğitimi" başlıklı makalesinde ortaya konmuştur.

BERT ortaya çıkar çıkmaz, çeşitli NLP değerlendirme listelerini tarayarak harika Dikkat . Medyanın "en güçlü NLP modeli" gibi kelimelerle BERT'i övmesi gibi, XLNet de kısa süre önce ortaya çıktı ve ana listeleri bir kez daha sildi. BERT'in iki büyük sorunu olduğuna inanmaktadır: Maskelenen kelimelerin, Mask olmayan diğer kelimeler verildiğinde bağımsız olduğunu varsayar ve bu koşul geçerli değildir; ön eğitim özel olanları getirir, ancak ince öğretme yoktur. Bu bir uyumsuzluğa neden olur. XLNet, ortak dil modelinde tek yönlü bilgi akışı sorununu çözmek için Permütasyon dil modelini kullanır ve Transformer-XL'in avantajlarından yararlanır. Hedefin farkında olmadan sorununu çözmek için İki Akışlı Öz Dikkat sayesinde, nihayet eğitilen model BERT'i aştı ve birçok görevde yeni kayıtlar yarattı.

Dört, pekiştirmeli öğrenme

Pekiştirmeli öğrenme ile görme, işitme ve dil aslında aynı seviyedeki şeyler değildir. Daha çok denetimli öğrenmeye ve denetimsiz öğrenmeye paralel bir tür öğrenme mekanizması (algoritma), ancak pekiştirmeli öğrenmenin çok önemli bir öğrenme türü olduğunu düşünüyorum. mekanizma.

Denetimli öğrenmenin özelliği, bizi "denetleyecek" ve bize doğru sonucun ne olduğunu söyleyecek bir "öğretmen" olmasıdır. Biz gençken, öğretmenler bize öğretmeye gelirdi, özünde, denetimli öğrenme bir tür bilgi aktarımıdır, ancak yeni bilgi keşfedilemez. Bir bütün olarak insanlık için, gerçek (hatta tek) bilgi kaynağı pratiktir - yani pekiştirmeli öğrenmedir. Örneğin, Shennong Baicao'yu tattığında, insanlar ilk başta hangi otların hastalıkları iyileştirebileceğini bilmiyorlardı, ancak deneyerek yeni bilgiler öğrenebiliyorlardı. Öğrenilen bilgi dil tarafından kaydedilir ve nesilden nesile aktarılır, böylece insan toplumu bir bütün olarak ilerlemeye devam edebilir.

Denetimli öğrenmenin aksine, hiçbir "öğretmen" bizi "denetlemez". Örneğin, Go oynarken, kimse bize mevcut durumda en iyi hamlenin ne olduğunu söylemeyecek.Sadece oyun bittiğinde nihai sonucu bileceğiz. Hangi hareketin iyi ve hangi hareketin kötü olduğunu tekrar etmemiz (öğrenmemiz) gerekiyor. . Doğal dünya aynıdır Bize başkalarıyla işbirliği yapıp yapmamamız gerektiğini söylemeyecek, ancak en güçlü olanın hayatta kalması yoluyla, sonunda birbirimize yardım ettiğimiz bir toplumun daha rekabetçi olacağını "söyleyecektir". Önceki denetimli ve denetimsiz öğrenmeyle karşılaştırıldığında, büyük bir fark vardır: pekiştirmeli öğrenmedeki aracı Eylem yoluyla çevreyi etkileyebilir - yaptığımız her hareket durumu değiştirecek ve bu da daha iyi veya daha kötü olabilir. .

Çözmek istediği temel sorun, bir durum verildiğinde onun değerini (Değerini) yargılamamız gerektiğidir. Değer ve ödül (Ödül), pekiştirmeli öğrenmenin en temel iki kavramıdır. Bir Temsilci için (pekiştirmeli öğrenmenin ana yapısı), Ödül anında, dahili olarak veya hatta doğal olarak alınır. Örneğin, aç bir durumda yemek için bir ödül olacaktır. Değer gecikir ve hesaplanması ve dikkatlice değerlendirilmesi gerekir. Örneğin, aç bir durumda yiyecek çalmanın bir ödülü vardır, ancak bu (belki) Değer açısından iyi bir eylem değildir. neden olmasın? Örneğin, insan denetimli öğrenme olmasına rağmen, bilgeler bize bunun etik olmadığını ve iyi bir davranış olmadığını söylediler. Ama daha önce de söylediğimiz gibi, insan bilgisinin nihai kaynağı pekiştirmeli öğrenmedir Bilgeler nereden biliyorlardı? Bazı insanlar bunun Tanrı'dan veya insan doğasından geldiğini düşünür, örneğin "insan doğası ilk başta iyidir". Evrim açısından açıklanacak olursa, insan aslında bir "hayatta kalma" oyunu oynamaktadır, ahlaki değerleri takip eden ve takip etmeyen insanlar vardır.Doğa bize en uygun olanın hayatta kalmasıyla nihai sonucu söyleyecek ve nihayetinde bilgelerimiz öğrenecektir. Bu etik kodlara ulaştım (aslında ben seçildim) ve bu kodlar nesilden nesile eğitim (denetimli öğrenme) yoluyla aktarıldı.

Pekiştirmeli öğrenme sadece bir yöntem olduğu için birçok alanda uygulamaları vardır Robotlar, kontroller ve oyunlar en yaygın uygulama alanlarıdır, ancak doğal dil işleme için diyalog sistemleri dahil olmak üzere diğer alanlar genellikle pekiştirmeli öğrenme tekniklerini kullanır. Takviye öğrenme ve makine öğreniminin birçok yöntemi vardır: ortamın modellenip modellenmediğine göre, Model tabanlı ve Mod içermeyen yöntemlere ayrılabilir; Bir Değer işlevi olup olmadığına göre, Değer tabanlı yöntem ve Politika Gradyanı olarak ikiye ayrılır, ancak ikisini birleştirerek elde edebilirsiniz. Aktör-Eleştirmen yöntemi ...

Buradaki odak noktamız Dikkat Derin öğrenme ile pekiştirmeli öğrenmeyi birleştirmenin bazı yöntemleri.

Google DeepMind in Nature tarafından yayınlanan "Derin Güçlendirmeli Öğrenme Yoluyla İnsan Seviyesinde Kontrol" makalesi, Uçtan Uca derin pekiştirmeli öğrenme modeli Deep Q-Networks'ü ilk kez uygulamaktadır. Girdisi oyun ekranının piksel değeridir ve çıktısı oyundur Kontrol komutu, prensibi aşağıdaki şekilde gösterilmiştir.

Resim: Derin Q Ağları

Aynı yörünge verilerinin korelasyonundan kaçınmak için Deneyim Tekrarı ile ve aynı zamanda hedef istikrarsızlık sorununu çözmek için bir Hedef Ağ tanıtıldı.Atari 2600'deki 49 oyun arasında, 29 oyun insan kadar yüksek puan aldı. Aşağıdaki şekilde gösterildiği gibi, oyunun% 75'inden fazlası ve bunların 23'ü insan oyunculardan daha fazla puan aldı.

Şekil: Deep Q-Networks'ün Atari2600 platformundaki puanı

Deep Q-Networks'ün takip iyileştirmeleri arasında "Öncelikli Deneyim Tekrarı", "Double Q-öğrenme ile Derin Güçlendirmeli Öğrenme" ve "Rainbow: Derin Güçlendirmeli Öğrenmede İyileştirmeleri Birleştirme" yer alıyor.

Politika Gradyan çalışması, "Güven Bölgesi Politika Optimizasyonu" (TRPO), Belirleyici Politika Gradyan Algoritmaları (DPG), "Güçlendirmeli Öğrenme için Beklenen Politika Gradyanları", "Pro xi Kötü Politika Optimizasyon Algoritmaları "(PPO) vb.

Oyunlar açısından, Google DeepMind tanıdık AlphaGo, AlphaGoZero ve AlphaZero serisi makaleleri yayınladı.

Go çözüldükten sonra herkes şunu da koydu: Dikkat Puanlar, DeepMind'ın "AlphaStar: Bir Evrimsel Hesaplama Perspektifi" de dahil olmak üzere gerçek zamanlı strateji oyunlarına yerleştirilir ve OpenAI Five, StarCraft 2 ve Dota2'de büyük ilerleme kaydetmiştir.

Ek olarak, Meta Öğrenme, Taklit Öğrenme ve Ters Pekiştirmeli Öğrenmede bazı yeni gelişmeler olmuştur. Tek tek listelenmiş.

Geleceğe bakış

En belirgin son trendlerden biri, denetimsiz (yarı denetimli) öğrenmenin ilerlemesidir.İlk olarak, doğal dil işleme alanında.Önceki analize göre, daha fazla görev ve daha az denetlenen veriye sahip bu alanın özelliklerinin bu yönde bir atılım olması bekleniyordu. . Bilgisayarla görmede, Google DeepMind'ın son ilerlemesini de gördük ve daha fazla atılım olacağını düşünüyorum.

Nispeten konuşursak, konuşma tanıma alanındaki ilerleme daha yavaş olmuştur Denetlenmeden bahsetmeye gerek yok, bir veri setinden (uygulama senaryosu) başka bir veri setine (senaryo) transfer bile zordur. Örneğin, büyük miktarda Mandarin verisine sahibiz, diğer Mandarin lehçelerinde iyi bir tanıma yapabilmek için az miktarda veriyi nasıl kullanabiliriz? Birçok adaptasyon teknolojisi olmasına rağmen genel olarak beklentileri karşılamak hala zor görünüyor.

Diğeri ise End-to-End sisteminin endüstride yaygın olarak kullanılmamış olmasıdır (Google tarafından iddia edilmedikçe) Tabii ki bu ses alanında görece az sayıda oyuncuyla ilgili. Üstelik mevcut sistem iyi çalışıyor ve tamamen devrildi. Gerekli (bilgisayarla görme alanındaki derin öğrenme yöntemi geleneksel yöntemin çok ötesinde olmadığı sürece). Orijinal HMM-GMM, HMM-DNN'ye dönüştürüldükten ve çeşitli uyarlamalar ve sekans ayırt edici eğitim eklendikten sonra, SOTA'nın etkisi hala elde edilebilir, bu nedenle nispeten konuşursak, Uçtan Uca kullanma gücü daha da yetersizdir. Akademik topluluk bu yönde şiddetle gelişiyor olsa da, eski ses oyuncuları (Google dışındaki) çok fazla satın almıyor.

Uzun vadede, yapay zekayı "doğru" gerçekleştirmek için, "makine" nin kendine ait olması için denetimsiz, denetimli ve pekiştirmeli öğrenme yöntemlerini kullanarak görme, işitme (hatta tat ve dokunma vb.) Ve dili birleştirmenin gerekli olduğunu düşünüyorum. Kontrol edilen vücut, üç yaşındaki bir çocuk gibi, "gerçek" fiziksel dünya ve insan toplumuna entegre olur, elde etmek mümkündür. Teknolojik ilerlemeye ek olarak, bunun mümkün olması için insan düşüncemizde büyük bir atılım gerektiriyor.

Yazar hakkında: Huanxin Yapay Zeka Ar-Ge Merkezi Başkan Yardımcısı Li Li, doğal dil işleme ve yapay zeka araştırma ve geliştirme alanlarında on yıldan fazla deneyime sahiptir. Birçok akıllı donanım soru cevap ve diyalog sisteminin araştırma ve geliştirmesine başkanlık etti ve Huanxin'in Çince semantik analiz açık platformunun ve Huanxin akıllı robotlarının tasarımından ve geliştirilmesinden sorumluydu.