g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

"Tarih" 60 yıllık yapay zeka teknolojisinin kısa tarihi

AI Technology Base Camp'ten yeniden basıldı

Yazar: Li Li, Shun yapay zeka araştırma merkezi vp, on yıllık doğal dil işleme ve yapay zeka araştırma ve geliştirme deneyimi. Birçok akıllı donanım soru cevap ve diyalog sisteminin araştırma ve geliştirmesine başkanlık etti ve Huanxin'in Çince semantik analiz açık platformunun ve Huanxin akıllı robotlarının tasarımından ve geliştirilmesinden sorumluydu.

İnsanlığın evrimsel gelişim tarihi, insanın alet üretiminin ve kullanımının tarihidir. Farklı araçlar, insan evriminin düzeyini temsil eder. Taş Devri, Demir Çağı, Buhar Çağı, Elektrik Çağı ve mevcut bilgi çağından, üretimi ve yaşamı değiştirmek için daha gelişmiş ve kullanışlı araçlar kullanıyoruz.

Aracın amacı, insanoğlunun yeteneklerini genişletmek ve genişletmektir. Hızlı koşamayız, ancak binicilik ve araba ile günde binlerce mil gidebiliriz. Yüksekten zıplayamayız, uçamayız, ancak uçak roketlerinin yardımıyla gökyüzüne çıkabiliriz. Genel olarak, araçlar iki kategoriye ayrılabilir: insan fiziksel gücünü genişletmek için araçlar ve insan beyni gücünü genişletmek için araçlar.

Bilgisayarların icadından önce, insanlar tarafından yapılan araçların çoğu eskiydi ve bu da fiziksel emeği azaltmamıza yardımcı olabilir. Örneğin, araziyi işlemek için sığır veya traktör kullanmak daha verimlidir. Elbette, sözlerin yanı sıra abaküs gibi zihinsel çalışmayı azaltmak için az sayıda araç da var - bu, insanların hafıza kapasitesini büyük ölçüde artırabilir.Şimdi birçok mekanik zihinsel çalışma bilgisayarlar tarafından yapılabilir. Ancak geleneksel bilgisayar programları yalnızca hafızamızı genişletmemize ve basit mekanik hesaplamaları tamamlamamıza yardımcı olabilir. Daha büyük kapasiteli ve daha hızlı bir belleğe sahibiz ve finansal muhasebeye yardımcı olmak için finansal yazılımlar derleyebiliriz.

Başarmak için "zeka" gerektiren şeyleri başaramayız. Örneğin, bilgisayarlar araba sürmek için kullanılamaz ve bilgisayarlar şu anda insanlar gibi doğal dilde insanlarla iletişim kuramıyor. Yapay zekanın amacı, bilgisayarların insanlar gibi davranmasını sağlamaktır. Bu karmaşık sorunları akıllıca çözün. Mevcut yapay zeka sistemi, Go'da insan dünya şampiyonunu yenmeyi başardı ve mevcut konuşma tanıma sistemi, belirli belirli senaryolarda insan tanıma doğruluğunu elde etmeyi başardı ve insansız arabalar da deneysel olarak belirli yerlerde yollara çıktı. Yukarı. Yapay zekanın gelecekte daha fazla uygulama senaryosu olacak. Nihai hedefimiz, insan zekası kadar akıllı ve hatta ötesinde makineler yapmak.

Yapay zekanın kısa tarihi

Yapay zekanın ilk keşfi, otomatik sembolik hesaplama yapabilen bir makine yaratmaya çalışan Leibniz'e kadar uzanabilir, ancak modern anlamda yapay zeka terimi 1956'da Dartmouth'da doğdu. toplantı .

Kendisi de birçok disiplinin ve farklı kişilerin kesişim noktası olan yapay zekanın birçok tanımı vardır. Dikkat Farklı yönleri vardır, bu nedenle herkesin kabul ettiği bir tanım vermek zordur. Yine de yapay zeka sürecini zaman bağlamında anlayalım.

Altın dönem (1956-1974)

Bu, yapay zekanın altın çağı ve bu disiplinin araştırma ve geliştirmesini desteklemek için çok fazla fon kullanılıyor. Bu dönemdeki etkili araştırmalar, Genel Problem Çözücü ve en eski sohbet robotu ELIZA'yı içerir. Birçok kişi, sohbet ettikleri ELIZA'nın gerçek bir kişi olduğunu düşünür, ancak sadece eşleşen şablonlara göre yanıtlar üretir (piyasadaki sohbet robotlarımızın çoğu aslında benzer teknolojileri kullanır). O zamanlar insanlar çok iyimserdi: Örneğin, H. A. Simon 1958'de bilgisayarların satrançta (uluslararası) 10 yıl içinde insanları yeneceğini iddia etti. Hatta 1965'te "bilgisayarların yirmi yılda insanların yapabileceği her şeyi yapabileceğini" söyledi.

İlk soğuk kış (1974-1980)

Bu döneme kadar, önceki iddialar yerine getirilmedi, bu nedenle çeşitli eleştiriler ortaya çıktı, ülke (ABD) artık daha fazla fon yatırmadı ve yapay zeka ilk soğuk kışa girdi. Bu dönem aynı zamanda bağlantacılığın karanlık dönemidir. 1958'de Frank Rosenblatt, sinir ağları üzerine yapılan en eski araştırma olarak kabul edilebilecek Perception'ı önerdi. Ancak, sonraki 10 yıl içinde bağlantısallık konusunda çok fazla araştırma ve ilerleme olmadı.

Müreffeh dönem (1980-1989)

Bu dönemin refahı, uzman sistemlerin popülerliğinden yararlandı. John Hopfield tarafından 1982'de önerilen Hopfield ağı ve aynı zamanda keşfedilen geri yayılma algoritması da dahil olmak üzere bağlantıcı sinir ağları da geliştirildi, ancak ana yöntem hala sembolik uzman sistemlere dayanıyor.

İkinci soğuk kış (1989-1993)

Daha önce başarılı olan uzman sistem, yüksek maliyet ve diğer nedenlerden dolayı ticari olarak başarılı olmakta zorlandı ve yapay zeka yine soğuk kışa girdi.

Geliştirme dönemi (1993-2006)

Bu dönemde yapay zekanın ana akımı makine öğrenmesiydi. İstatistiksel öğrenme teorisinin gelişimi ve SVM araçlarının popülaritesi, makine öğrenimini istikrarlı bir gelişim dönemine getirdi.

Salgın dönemi (2006-şimdi)

Bu sefer yapay zekanın gelişimi esas olarak derin öğrenme, yani derin sinir ağları tarafından yönlendiriliyor. 1980'lerde ve 1990'larda, sinir ağları teorik XOR problemini doğrusal olmayan aktivasyon fonksiyonları ile çözse de, geri yayılım algoritması sığ sinir ağlarını eğitmeyi de mümkün kıldı. Ancak, bilgi işlem kaynaklarının ve becerilerinin sınırlamaları nedeniyle, o zamanlar daha derin ağları eğitmek imkansızdı. Asıl etki, geleneksel "sığ" makine öğrenimi yöntemlerinden daha iyi değildi, bu nedenle çok fazla insan yoktu. Dikkat Bu yönde.

2006 yılına kadar Hinton, ön eğitim yoluyla daha derin sinir ağlarını eğitmeyi mümkün kılan Derin İnanç Ağlarını (DBN) önerdi. 2009 yılında Hinton ve DengLi, bir akustik modeli eğitmek için bir konuşma tanıma sisteminde ilk kez derin bir sinir ağı (DNN) kullandılar ve nihai sistemin kelime hata oranı (WER) büyük ölçüde azaldı.

Derin öğrenmeyi akademik dünyada ünlü yapan 2012 ILSVRC değerlendirmesidir. Bundan önce, en iyi ilk 5 sınıflandırma hata oranı% 25'in üzerindeydi. 2012'de AlexNet, rekabette ilk kez derin bir evrişimli ağ kullandı ve% 16 hata oranına ulaştı. Bundan sonra, her yıl yeni iyi sonuçlar ortaya çıktı. 2014'te GoogLeNet ve VGG oldu ve 2015'te ResNet artık ağıydı. Mevcut en iyi sistemin ilk 5 sınıflandırma hatası oranı% 5'in altındadır. Daha fazla insanın (özellikle Çinlilerin) derin öğrenmenin ilerlemesini anlamasını gerçekten sağlayan şey, Google DeepMind tarafından 2016 yılında geliştirilen AlphaGo'nun insan dünya şampiyonu Li Shishi'yi 4-1 puanla yendiğidir. Bu nedenle yapay zeka başka bir müreffeh döneme girdi ve çeşitli başkentler yatırım yapmak için yarışıyor ve hatta ulusal düzeyde yapay zeka geliştirme planları arka arkaya tanıtıldı.

2006'dan günümüze kadar alt alanlarda büyük ilerleme

2006'dan bu yana bilgisayarla görme, işitme, doğal dil işleme ve pekiştirmeli öğrenme alanlarında derin öğrenmenin ana ilerlemesini gözden geçirelim ve gelişim sürecine göre gelecekteki olası gelişim yönlerini analiz edelim. Yazarın seviyesinin ve ilgi alanlarının sınırlamaları nedeniyle, işte sadece yazarın bildiği makalelerin bir listesi, bu nedenle bazı önemli çalışmalar kesinlikle gözden kaçacaktır.

Bilgisayar görüşü

Denetimsiz ön eğitim

DNN, CNN ve RNN (LSTM) gibi birçok "modern" derin öğrenme modeli çok erken önerilmiş olsa da, 2006'dan önce birçok sinir ağı katmanını eğitmenin bir yolu yoktu. Bu nedenle, derin öğrenme ve geleneksel Makine öğreniminde önemli bir fark yoktur.

2006 yılında Hinton ve arkadaşları, "Derin inanç ağları için hızlı bir öğrenme algoritması" makalesinde açgözlü, denetimsiz Derin İnanç Ağları (DBN) katman katman ön eğitim yöntemini ve denetimli ince ayar yöntemini ilk kez önerdiler. Çok katmanlı (beş katmanlı) bir sinir ağını eğitmek için. O zamandan beri araştırmanın odak noktası, derin sinir ağlarını eğitmek için çeşitli tekniklerin nasıl kullanılacağıdır.Bu süreç 2010 yılına kadar devam edecek. Ana fikir, çeşitli denetimsiz ön eğitim yöntemlerini kullanmaktır.Bu dönemde DBN'ye ek olarak, Sınırlı Boltzmann Makineleri (RBM), Deep Boltzmann Makineleri (DBM) ve Denoising Autoencoder modelleri de önerilmiştir.

Temsili makaleler arasında Hinton ve diğerleri tarafından Nature'da yayınlanan "Sinir ağları ile verilerin boyutluluğunun azaltılması", Bengio ve diğerleri tarafından NIPS 2007'de yayınlanan ve ICML 2009'da Lee ve diğerleri tarafından yayınlanan "Derin ağların açgözlü katman bazlı eğitimi" bulunmaktadır. "Hiyerarşik temsillerin ölçeklenebilir denetimsiz öğrenimi için evrişimli derin inanç ağları", yukarıda, "Yığınlı gürültü azaltıcı otomatik kodlayıcılar: Yerel bir gürültü azaltma ölçütü ile derin bir ağda faydalı temsilleri öğrenme" Vincent ve diğerleri tarafından 2010 yılında yayınlandı.

O zamanlar, daha derin bir sinir ağını eğitmek çok zordu. Bu nedenle, Glorot ve diğerleri tarafından "İleri beslemeli derin sinir ağlarını eğitmenin zorluğunu anlamak" da var. Derin öğrenme araçlarını kullanırken Xavier başlatma yöntemiyle karşılaşabilirsiniz. Yöntemin yazarı Xavier Glorot'dur. O zamanlar, modelin eğitilebilmesi için hiperparametreleri seçebilmek bir tür "siyah teknoloji" idi.Ayrıca, özellikle çeşitli hileleri tanıtan kalın bir "Sinir Ağları: Ticaretin Püf Noktaları" kitabının da olduğunu hatırlıyorum.

Derin Evrişimli Sinir Ağı

Derin öğrenme herkes tarafından sevilir Dikkat Alex ve arkadaşları tarafından uygulanan AlexNet'in LSVRC-2012 ImageNet yarışmasında çok iyi sonuçlar almasının büyük bir nedeni. O zamandan beri, evrişimli sinir ağları ve bunların varyantları görüntüyle ilgili çeşitli görevlerde yaygın olarak kullanılmaktadır. 2012'den 2016'ya kadar, yıllık LSVRC yarışması daha derin modeller ve daha iyi sonuçlar üretecek.

Alex Krizhevsky'nin 2012 tarihli makalesi "Derin evrişimli sinir ağları ile ImageNet sınıflandırması" bu "derin" rekabetçi yolculuğu başlattı.

2014 şampiyonu, 22 katman derin sinir ağının eğitilebileceği Inception'ın yapısını öneren "Evrişimlerle daha derine inmek" adlı makaleden GoogleNet'tir. Aynı yıl ikincisi VGGNet idi, model yapısında çok fazla dönüşüme sahip değildi, sadece evrişimli ağı daha derin hale getirmek için bazı teknikler kullandı (18 katman).

2015 şampiyonu, He Yuming ve diğerleri tarafından hazırlanan "Görüntü tanıma için derin artık öğrenme" adlı makaleden ResNet'tir. Kalan yapıyı tanıtarak, 152 katmanlı bir ağı eğitebilirler. 2016 tarihli "Identity M uygulama "Derin Artık Ağlardaki ings" bazı teorik analizler ve kalan ağ üzerinde daha fazla iyileştirme yapar.

2016 yılında, Google'ın Szegedy ve arkadaşları, "Inception-v4, başlangıç-resnet ve kalan bağlantıların öğrenme üzerindeki etkisi" başlıklı makalede, kalan bağlantıları ve Incpetion yapısını entegre eden bir ağ yapısı önerdi ve bu da tanıma etkisini daha da iyileştirdi.

Aşağıdaki şekil bu modellerin LSVRC rekabeti üzerindeki etkisini göstermektedir.Ağ derinleştikçe ilk 5 sınıflandırma hata oranının giderek azaldığını görebiliyoruz.

Resim: LSVRC rekabeti

Nesne algılama ve örnek bölümleme

Önceki model esas olarak görüntü sınıflandırma görevini ele alır.Nesne algılama ve örnek bölümleme de bilgisayarla görmede çok yaygın görevlerdir. Bu iki görev için derin evrişimli sinir ağları kullanmak çok doğaldır, ancak bu görev sadece resimde hangi nesnelerin olduğunu bilmeyi değil, aynı zamanda bu nesneleri doğru bir şekilde konumlandırmayı da gerektirir. Bu tür görevler için evrişimli sinir ağlarını kullanmak için birçok iyileştirme çalışması yapılması gerekir.

Tabii ki, hedef tespiti için CNN kullanmak çok doğaldır En kolay yol, önce hedefi bulmak için geleneksel yöntemleri kullanmaktır, ancak konumlandırma etkisi iyi değildir. Girshick ve diğerleri, 2014 yılında "Doğru nesne tespiti ve anlamsal bölümleme için zengin özellik hiyerarşileri" başlıklı makalede R-CNN modelini, çok sayıda aday bölge oluşturmak için Bölge Teklifi'ni kullanarak ve son olarak hedef olup olmadığını belirlemek için CNN'yi, ancak düzeltme ihtiyacı nedeniyle önerdiler. Tüm adaylar sınıflandırılır ve değerlendirilir, bu nedenle hızı çok yavaştır.

Resim: R-CNN

2015 yılında Girshick ve arkadaşları, hızlı hesaplamalar yapabilen tek bir hesaplamayla tüm aday bölgelerin özelliklerini aynı anda hesaplamak için ROI Havuzlama katmanını kullanan Fast R-CNN'yi önerdi. Bununla birlikte, Bölgesel Teklifin kendisi çok yavaştır Aynı yıl yayınlanan "Daha Hızlı R-CNN: Bölge Teklif Ağlarıyla Gerçek Zamanlı Nesne Algılamaya Doğru" başlıklı makalede Ren ve diğerleri, Bölge Teklif Ağları (RPN) ağını kullanan Daha Hızlı R-CNN'yi önerdi. Gerçek zamanlı hedef algılama algoritmasına ulaşmak için orijinal Bölge Teklifi algoritmasını değiştirin. Lin ve arkadaşları, farklı görüntülerde hedef nesnelerin farklı ölçeklerindeki problemi çözmek için "Nesne Algılama için Özellik Piramit Ağları" adlı makalede Özellik Piramit Ağlarını (FPN) önerdiler.

Resim: Hızlı R-CNN

Resim: Daha hızlı R-CNN

R-CNN, hedef tespit görevleri üzerinde iyi bir etkiye sahip olduğu için, örneğin segmentasyon için Daha Hızlı R-CNN kullanmak doğal bir fikirdir. Bununla birlikte, ROI Havuzlama, örneğin bölümleme kullanıldığında nispeten büyük bir sapmaya sahip olacaktır çünkü hem Bölge Teklifi hem de Yatırım Getirisi Havuzlamasında nicel yuvarlama hataları vardır. Bu nedenle, He Yuming ve diğerleri, 2017'de Mask R-CNN modelini önerdiler.

Resim: Maske R-CNN

Bu makale dizisinden, derin öğrenmeyi daha karmaşık bir sahneye uygulama sürecini görebiliriz: ilk olarak, karmaşık bir süreçte derin sinir ağlarının kullanımının bir parçası ve son olarak tüm süreçler Uçtan Uca sinir ağları ile uygulanır. .

Ek olarak, Redmon ve diğerleri "Yalnızca bir kez bakarsınız: Birleşik, gerçek zamanlı nesne algılama" YOLO modelini (sonraki YOLOv2 ve YOLOv3 vb. Dahil) ve Liu ve diğerleri tarafından önerilen SSD: Single Shot MultiBox Detector modelini önerdi. Amaç, doğruluk oranını korurken algılama hızını artırmaktır.

Üretken model

Son zamanlarda bilgisayarla görmede hangi yönün en popüler olduğunu söylemek isterseniz, üretici modeller kesinlikle bunlardan biridir. Bir nesneyi tanımak kolay değildir, ancak bir nesne üretmek daha zordur (üç yaşındaki bir çocuk bir kediyi tanıyabilir, ancak üç yaşındaki çocukların çoğu bir kediyi iyi çizemez). Üretken modeli ateşli kılan şey, 2014'te Goodfellow tarafından önerilen Generative Adversarial Nets (kısaca GAN).

Bu alan nispeten yeni olduğu ve araştırmanın "kapsamı" çok geniş olduğu için, görüntü sınıflandırma ve ImageNet gibi standart veri setleri gibi standart görevler yoktur ve genellikle değerlendirme yöntemleri çok özneldir. Pek çok makale belirli bir uygulama noktası buldu ve ardından bazı harika resimler veya videolar oluşturdu (veya dikkatlice seçti). "Resimler ve gerçek var". Herkes resimlere bakıyor ve içeriği anlamıyor, bu yüzden bu net değil. Jue Li. Hangi pratik sorunların çözüldüğünü söylemek zor. Ancak her durumda, bu yön çok dikkat çekicidir, örneğin DeepFake gibi uygulamalar herkesin ilgisini ve tartışmasını uyandırabilir. Bu yön hakkında fazla bir bilgim yok ve aşağıda sadece birkaç uygulama listelenmiştir.

stil transferi

En eski "Sanatsal Tarzın Sinirsel Algoritması", GAN önerilmeden önce 2015 yılında yayınlandı, ancak yine de üretken modele koydum. Bir süredir popülerdi ve aynı zamanda sıcak bir üslup üretti. Uygulama Adı Prisma. Aşağıdaki şekilde gösterildiği gibi, bir manzara fotoğrafı ve bir resim (örneğin, c Van Gogh'un bir tablosudur) verildiğinde, bu teknik Van Gogh'un stilini manzara fotoğrafına eklemek için kullanılabilir.

Resim: Sinir Stili Aktarımı

Zhu Junyan ve diğerleri tarafından "Döngü-Tutarlı Karşıt Ağlar Kullanılarak Eşleştirilmemiş Görüntüden Görüntüye Çeviri" adlı çalışmada önerilen CycleGAN, Eşleştirilmiş veri gerektirmeyen daha ilginç bir modeldir. Sözde Eşleştirilmiş veriler, sıradan bir atın resmini ve bir zebra resmini gerektirir ve içeriklerinin tam olarak eşleşmesi gerekir. Eşleştirilmiş veri elde etmek çok zordur.Aynı arka plan dahil olmak üzere çekim yaparken aynı görünüm ve duruşa sahip zebraları ve sıradan atları bulmak imkansızdır. Ayrıca, Van Gogh'un çalışmalarından bir parça verildiğinde, ona uyan bir fotoğrafı nasıl buluruz? Ya da tam tersine, bir manzara fotoğrafı verildiğinde, aynı içeriğe sahip bir sanat eserini nerede bulabilirim?

Bu makalede tanıtılan Cycle GAN, eşleştirilmiş eğitim verisi gerektirmez, ancak yalnızca farklı alanlardan iki etiketlenmemiş veri kümesi gerektirir. Örneğin, sıradan bir atı bir zebraya dönüştürmek için, yalnızca sıradan atların çok sayıda fotoğrafını ve çok sayıda zebra fotoğrafını hazırlamamız ve ardından zebraların tüm fotoğraflarını bir araya getirip sıradan atların tüm fotoğraflarını bir araya getirmemiz yeterli. Bu açıkça kolay. . Manzara resimlerini Van Gogh stiline dönüştürmek de kolaydır - manzara resimlerinin birçok fotoğrafını buluruz ve ardından mümkün olduğunca çok resim buluruz. Etkisi aşağıdaki şekilde gösterilmiştir.

Resim: CycleGAN

metinden resme

Metinden resme, Metin açıklamalarına dayalı olarak karşılık gelen resimler üretir; bu, Resim Yazısının tersidir. Zhang ve diğerleri tarafından yazılan 2016 "StackGAN: Metinden Foto-gerçekçi Görüntü Sentezine Yığınlanmış Üretken Karşıt Ağlar" bu yöndeki daha önceki bir makaledir ve etkisi aşağıdaki şeklin son satırında gösterilmektedir.

Şekil: StackGAN ve diğer modellerin karşılaştırması

süper çözünürlük

Süper çözünürlük, karşılık gelen yüksek çözünürlüklü bir resim oluşturmak için düşük çözünürlüklü bir resme dayanır.Geleneksel enterpolasyon yöntemiyle karşılaştırıldığında, üretken model dağıtımını çok sayıda resimden öğrenir, bu nedenle içeriği daha "tahmin eder". Enterpolasyon etkisi çok daha iyidir. "Enhanced Super-Resolution Generative Adversarial Networks" 2018 tarihli bir makaledir ve etkisi aşağıdaki şeklin ortasında gösterilmiştir.

Şekil: ESRGAN etkisi

resim boyama

Resim iç boyama, resmin mozaik gibi bir bölümünü bloke etmek ve ardından içeriğin bu bölümünü "onarmak" için üretici modeli kullanmaktır. Aşağıdaki şekil Bağlamsal Dikkatle Üretken Görüntü Boyamanın etkisini göstermektedir.

Şekil: DeepFill sisteminin etkisi

"EdgeConnect: Tartışmalı Kenar Öğrenme ile Üretken Görüntü Boyama" makalesi, ana hatların (çizgiler) çizilmesi ve ardından insanlar boyadığında renklendirme sürecinden yararlanır. Inpainting'i iki adıma, kenar oluşturucuya ve görüntü tamamlama ağına bölerek, bunun etkisi aşağıdaki gibidir .

Şekil: EdgeConnect'in etkisi

En yeni etkin nokta: ağ yapısının otomatik optimizasyonu ve yarı denetimli öğrenme

Son zamanlarda iki yönden de faydalı olduğunu düşünüyorum Dikkat : Biri ağ yapısını otomatik olarak optimize etmek, diğeri ise yarı denetimli öğrenmedir.

Otomatik ağ optimizasyonu ile ilgili en son makale, Google Research tarafından hazırlanan "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" başlıklı makaledir. Ağın doğruluğunu ve verimliliğini aynı anda artırabilen (parametreleri azaltabilen) bir sinir ağı genişletme yöntemi bulmayı ummaktadır. Bunu başarmak için çok kritik bir adım, genişlik, derinlik ve çözünürlük gibi üç boyutun nasıl dengeleneceğidir.

Yazar, üçünü kolayca dengelemek için sabit ölçekli bir yakınlaştırma işleminin kullanılabileceğini buldu. Sonunda, yazar basit ama etkili bir bileşik ölçekleme yöntemi önerdi. Hesaplama kaynaklarını 2 kat kullanmak istiyorsanız, yalnızca ağ genişliğini artırmanız, derinliği artırmanız ve görüntü boyutunu iki kat artırmanız gerekir. Bunlar arasında sabit bir katsayı vardır ve en uygun değer genellikle küçük ölçekli bir ızgara araması kullanılarak elde edilir. Bu şekilde, aşağıdaki şekilde gösterildiği gibi iyi sonuçlar elde etmek için çok az parametre kullanan EfficientNet modelini gerçekleştirdiler.

Şekil: Model parametreleri ve doğruluk haritası

EfficientNet'in önceki en iyi GPipe modelinden 8,4 kat daha küçük olduğunu görebiliriz, ancak etkisi ondan daha iyidir.

Buradaki yarı denetimli öğrenme, etiketlenmemiş resimler aracılığıyla eğitim öncesi öğrenme özelliklerini ve ardından az miktarda denetimli veri ile öğrenmeyi ifade eder. En son makale, Google DeepMind tarafından hazırlanan "Kontrastlı Öngörülü Kodlama ile Veri Verimli Görüntü Tanıma" dır. Bu makale, büyük miktarda etiketlenmemiş veriden özellikleri çıkarmak için Karşıt Öngörülü Kodlama yöntemini kullanır. Bu özelliklerde basit Artı Doğrusal bir softmax katmanı, AlexNet denetimli öğrenmeyi ImageNet üzerinde kullanan modeli aşabilir.

Her sınıf için yalnızca 13 eğitim verisi varsa, bu makaledeki yöntem, yalnızca 13 veriyle eğitilen modelin İlk 5 doğruluğundan% 20 daha yüksek ve daha önce en iyi yarı denetimli modelden% 10 daha yüksektir. Pek çok geleneksel denetimsiz özellik, az miktarda veriyle daha iyidir, ancak veri miktarı yeterince büyük olduğunda, bunlar tam denetimli öğrenmeden daha kötü olacaktır.Ancak, bu yazıda yöntemle elde edilen özellikler tüm ImageNet verileri kullanılarak eğitilmiştir ve bunlar elde edilebilir ve tamamlanabilir. Denetimli öğrenmenin benzer bir etkisi vardır ve bu da öğrendiği özelliklerin yeterince iyi olduğunu gösterir.

Konuşma tanıma

Konuşma tanıma sistemi çok karmaşık bir sistemdir.Derin öğrenme teknolojisinden önceki genel sistemlerin tümü HMM modeline dayanmaktadır. Genellikle HMM-GMM, alt kelime biriminin HMM'sini kelimenin HMM'sine eklemek için telaffuz sözlüğü aracılığıyla alt kelime birimini (triphone gibi) modellemek ve son olarak kod çözücü, akustik modeli ve dil modelini büyük bir şekilde birleştirmek için dil modelini de ekler. aramak Uzaydaki en iyi yolu bulun.

Hinton, konuşma tanıma sistemini iyileştirmek için derin sinir ağlarını kullanmaya çalışıyordu. En eski (2006'dan sonra) çalışma 2009'da yayınlanan "Telefon tanıma için derin inanç ağları" idi. Bu tam olarak Ön Eğitimin popüler olduğu ve DBN'nin bilgisayar görüşünden kullanıldığı dönemdir. Konuşma tanıma çok doğal bir fikirdir. Benzer çalışma, 2010 yılında "Sınırlandırılmış Boltzmann Makinelerini Kullanarak Telefon Tanıma" yı içermektedir. Ancak bu görevler yalnızca en basit telefon sınıflandırması içindir, yani sürekli konuşma tanımadan uzak olan her çerçeveye karşılık gelen telefonu belirlemek içindir.

Konuşma tanıma için gerçekten derin sinir ağlarını kullanan önemli makale Hinton ve arkadaşlarının 2012'de "Konuşma Tanıma için Akustik Modelleme için Derin Sinir Ağları" başlıklı makalesidir. Bu makale, geleneksel HMM-GMM akustik modelinde GMM modelinin yerini almak için DNN'yi kullanır. O zamandan beri, ana akım konuşma tanıma çerçevesi HMM-DNN'nin modeli haline geldi. Bunu takiben 2013 "LVCSR için derin evrişimli sinir ağları" nda Sainath ve diğerleri, sıradan, tamamen bağlı ağların yerini almak için CNN kullandı. George ve diğerlerinin yazdığı "LVCSR için derin sinir ağlarının düzeltilmiş doğrusal birimler ve bırakma kullanılarak iyileştirilmesi" makalesinden, bilgisayarla görmede yaygın olarak kullanılan bazı tekniklerin de konuşma tanımada kullanıldığı da bulunabilir.

Önceki HMM-DNN, GMM'yi değiştirmek için derin bir sinir ağı kullansa da, HMM ve aşağıdaki N-gram dil modeli hala mevcuttur ve DNN'nin eğitiminin de çerçeve düzeyinde eğitim verileri sağlamak için HMM-GMM zorunlu hizalamayı kullanması gerekir.

Uçtan uca bir konuşma tanıma sistemi nasıl kurulur her zaman akademi olmuştur Dikkat anahtarı. RNN artık zaman serisi verilerini işlemek için güçlü bir silahız, 2013 1998'de Graves ve diğerleri, "Derin Tekrarlayan Sinir Ağları ile Konuşma Tanıma" adlı makalede konuşma tanıma için RNN'yi kullandılar. Bu makale RNN kullanır Artı CTC kaybı işlevi, CTC, daha sonraki Derin Konuşmanın özüdür. Konuşma tanıma için CTC'nin "gerçek" kullanımı, 2013 Bununla birlikte Graves, "Bağlantısal zamansal sınıflandırma: bölünmemiş sekans verilerini tekrarlayan sinir ağlarıyla etiketleme" makalesinde 2006 gibi erken bir tarihte CTC'yi önerdi.

Hannun ve diğerleri tarafından 2014 yılında önerilen "Derin Konuşma: Uçtan uca konuşma tanımayı ölçeklendirme", HMM-DNN ile karşılaştırılabilir bir etkiye sahip olan ilk uçtan uca sistemdir, "Derin Konuşma 2: Bitiş" İngilizce ve Mandarin'de Uçtan Uca Konuşma Tanıma ". Derin Konuşma sistemi çok basittir.Giriş bir özellik dizisidir ve çıktı bir karakter dizisidir.HMM, GMM, telaffuz sözlüğü ve hatta telefon konsepti gibi modüller yoktur.

CTC kaybı işlevine dayalı Uçtan-uca sisteme ek olarak, başka bir Uçtan-uca sistem türü, makine çevirisi gibi sistemlerde yaygın olarak kullanılan seq2seq modelini kullanır. Bu, en eski "Dinle, katıl ve hecele: Büyük kelime dağarcığı konuşmalı konuşma tanıma için bir sinir ağı" içerir, Google'ın "Sıradan Sıraya Modellerle Son Teknoloji Konuşma Tanıma", konuşma tanıma için SOTA'yı özetler Seq2Seq modellerinden bazıları, bu modeli gerçek sistemde kullandıktan sonra kelime hata oranının% 6,7'den% 5,6'ya düştüğünü söyledi. Bu, endüstride gerçekten kullanılan ilk uçtan uca konuşma tanıma sistemidir (Andrew Ng liderliğindeki Baidu IDL, Derin Konuşma ve Derin Konuşma2'yi önermesine rağmen, Baidu'nun gerçek sisteminde kullanılmamaktadır).

Aşağıdaki şekil, ortak bir veri kümesi üzerindeki etkiyi göstermektedir. Örnek olarak SwitchBoard'u alın. 2006'dan önceki ilerleme görece yavaştı, ancak derin öğrenmeyi kullandıktan sonra kelime hata oranı düşmeye devam etti. Şekilde 2017 verileri, Microsoft'un Sistem kelime hata oranını% 6,3'e düşürdü.

Şekil: Kelime hata oranındaki değişim

Doğal dil işleme

Konuşma tanımadan farklı olarak, doğal dil işleme çok "karmaşık" bir alandır. Konuşma tanıma, sesleri metne dönüştüren tek bir görevdir. Artı Konuşma sentezi ve konuşmacı tanıma gibi ilgili görevler, doğal dil işleme görevlerinin sayısıyla karşılaştırılamaz. Doğal dil işlemenin nihai amacı, makinelerin insan dilini anlamasına izin vermektir ve anlamak çok belirsiz bir kavramdır. Görelilik teorisindeki her kelimenin anlamını biliyor olabilirim ama bu, görelilik teorisini anladığım anlamına gelmez.

Bu nedenle burada ben Dikkat Bunlar, belirli bir görevle sınırlı olmaktan ziyade birçok alt alanda kullanılabilen daha genel yöntemlerdir.

Doğal dil ve sürekli konuşma imgelerden farklıdır, insanlar tarafından yaratılmış ayrık ve soyut bir sembol sistemidir. Geleneksel özellik temsilleri, ayrık ve seyrek temsil yöntemleridir ve genelleme yetenekleri çok zayıftır. Örneğin, eğitim verilerinde çok fazla "Pekin hava durumu" var, ancak çok fazla "Şangay hava durumu" yok, bu durumda onun tarafından tahmin edilen puanlar sınıflandırma sırasında çok farklı olacaktır. Ancak "Pekin" ve "Şangay" genellikle benzer bağlamlarda görünebilir ve bu tür bir temsil bu tür bilgileri kullanamaz.

2003 yılında, Bengio "Sinirsel Olasılıksal Dil Modeli" makalesinde bir sinir ağı dil modeli önerdi. Bir kelime Gömme matrisi aracılığıyla düşük boyutlu yoğun bir vektöre kodlanır, böylece benzer bağlam paylaşımı gerçekleştirilebilir - örneğin " "Pekin" ve "Şangay" genellikle benzer bağlamlarda görünürler, nispeten benzer vektörler halinde kodlanırlar, böylece eğitim verilerinde "Şangay Hava Durumu" çok fazla görünmese bile, "Pekin Hava Durumu" tarafından daha büyük bir değer verilebilir. Olasılık.

Ama 2003'te herkes o kadar da değildi Dikkat Sinir ağı, yani bu makale o zamanlar fazla takip çalışmasına sahip değildi. 2012'den sonra, derin sinir ağları bilgisayarla görme ve konuşma tanıma alanlarında önemli ilerlemeler kaydetti ve bunu doğal dil işleme alanına uygulamak çok doğal. Ancak şu anda bir sorun var - çok fazla denetlenen ek açıklama verisi yok. Bu aslında daha önce bahsedilen doğal dil işlemenin çok "karmaşık" olmasıyla ilgilidir.

Çok fazla doğal dil işleme görevi vardır.Doğrudan uygulamalara yönelik olan ve daha fazla veriye sahip makine çevirisi gibi güçlü pratik gereksinimleri olan birkaç görev dışında, çoğu görev için açıklama verileri çok sınırlıdır. Milyonlarca etiketli veri kümesine veya ses tanıma etiketli veri kümelerine sahip olan ImageNet ile karşılaştırıldığında, birçok doğal dil işleme etiketli veri, en çok yüzbinler düzeyinde onbinlerce mertebesindedir. Bu, belirli işletmelerle ilgili olduğu için doğal dil işlemenin özelliklerine göre belirlenir. Bu nedenle, doğal dil işleme alanında acilen ihtiyaç duyulan şey, gramer, anlamsal ve dünya bilgisini içeren etiketlenmemiş verilerden yararlı bilgilerin nasıl öğrenileceğidir.

Mikolov ve diğerleri 2013 Bu yolculuğa "Vektör uzayında kelime temsillerinin verimli tahmini" ve "kelimelerin ve kelime öbeklerinin dağıtılmış temsilleri ve bunların kompozisyonları" alanlarında başladım. Word2Vec'leri, aşağıdaki şekilde gösterildiği gibi çok iyi kelime vektörlerini basit ve verimli bir şekilde öğrenebilir.

Şekil: Word2Vec'in kelime vektörü

Yukarıdaki şekilden, onun gerçekten de bazı anlamsal bilgiler öğrendiğini görebiliriz ve vektör hesaplaması yoluyla "erkek-kadın = kral-kraliçe" ye benzer olabilir.

Bu kelime vektörlerini diğer görevler için başlangıç değerleri olarak kullanabiliriz. Aşağı akış görevindeki veri miktarı azsa, bu önceden eğitilmiş kelime vektörlerini bile düzeltebilir ve sonra yalnızca üst düzey parametreleri ayarlayabiliriz. Pennington ve diğerleri, GloVe modelini 2014 tarihli "Eldiven: Kelime temsili için küresel vektörler" başlıklı makalesinde önerdiler.

Ancak Word2Vec bağlamsal bilgileri dikkate alamaz. Örneğin, "banka" banka ve su kenarı anlamına gelir. Ancak bir cümlede hangi anlamı yargılayamaz, bu nedenle bu iki semantiği aynı anda bu vektöre kodlayabilir. Ancak aşağı akış uygulamalarında belirli bir cümlede, yalnızca bir anlambilim gereklidir. Tabii ki, 2014 yılında Neelakantan ve diğerleri tarafından "Vektör Uzayında Sözcük Başına Birden Çok Gömmenin Verimli Parametrik Olmayan Tahmini" gibi çok anlamlı sözcük sorununu çözmeye yönelik girişimler de var, ancak bunlar çok başarılı olamadı.

Bağlamı çözmek için başka bir araç RNN'dir. Ancak sıradan RNN'de gradyan kaybolma sorunu vardır, bu nedenle LSTM daha yaygın olarak kullanılır. LSTM, 1997 gibi erken bir tarihte Sepp Hochreiter ve Jürgen Schmidhuber tarafından önerildi. Yalnızca 2016 civarında doğal dil işleme görevlerinde yaygın olarak kullanıldı ve o sırada metin işleme için "fiili" standart haline geldi - herkes herhangi bir görevin önce LSTM'yi kullanması gerektiğine inanıyordu. Elbette, LSTM'nin ve yeni önerilen GRU'nun diğer varyantları da yaygın olarak kullanılmaktadır. Bağlamın anlamsal ilişkilerini öğrenmenin yanı sıra, RNN teorik olarak uzun mesafeli anlamsal bağımlılıkları çözebilir (tabii ki kapı mekanizması getirilse bile, aslında çok uzun anlamsal ilişkilerin öğrenilmesi hala zordur).

Resim: LSTM

Birçok NLP'nin girdisi bir dizidir ve çıktı da bir dizidir ve aralarında kesin bir düzen ve yazışma yoktur. Bu sorunu çözmek için seq2seq modeli önerildi. Seq2seq'in son kullanımı makine çevirisidir. Sutskever ve diğerleri, makine çevirisi için seq2seq modelini ilk kez 2014 tarihli "Sinir Ağları ile Sıralı Öğrenmeye Sıralı Öğrenme" makalesinde kullandı ve Bahdanau ve diğerleri, Dikkat mekanizmasını ilk kez "Hizalamayı ve Çevirmeyi Ortak Öğrenerek Nöral Makine Çevirisi" başlıklı makalede tanıttı. Uzun cümlelerin çeviri etkisini artırabilen makine çevirisi. "Google'ın Nöral Makine Çeviri Sistemi: İnsan ve Makine Çevirisi Arasındaki Uçurumu Kapatma" başlıklı makalede, Google, gerçek sistemlerinde sinir ağı makine çevirisini kullanma deneyimlerinin bir kısmını tanıttı. Bu, sektörde uygulanan ilk sinir ağı çeviri sistemidir.

Resim: LSTM

seq2seq plus Attention, özet, soru-cevap ve hatta diyalog sistemleri dahil olmak üzere birçok problemi çözmek için standart bir yöntem haline geldi Bu Uçtan Uca seq2seq modeli popüler hale geldi.

Google, 2017 yılında "Tek İhtiyacınız Olan Dikkat" konusunda Dikkat mekanizmasını en uç noktaya taşıdı ve Transformer modelini önerdi. Dikkat, RNN'den daha iyi paralel olabildiğinden ve Öz Dikkat mekanizması aynı zamanda bağlamsal bilgileri kodlayabildiğinden, makine tarafından çevrilmiş WMT14 verilerinde ilk sonucu elde etti.

Resim: Nöral Makine Çevirisi

Ama aslında, "Bellek", Dikkat ile aynı zamanda popülerdir. Bu yaklaşık 2015'ti. O zamanlar "Akıl, Dikkat ve Bellek" (RAM olarak anılır) popülerdi.NIPS'in de bir RAM atölyesi olduğunu hatırlıyorum. Bellek, LSTM'nin Hücresini daha da soyutlamak ve onu bilgisayarın hafızası gibi bir depolama mekanizmasına dönüştürmek ve ardından sinir ağının sıralama gibi algoritmaları otomatik olarak öğrenmesine izin vermek de dahil olmak üzere Nöral Turing Makinesi (NTM) gibi birçok karmaşık model önermektir. O zamanlar da bir süre popülerdi, ancak sonunda herhangi bir pratik sorunu çözmedi.

RNN / Transformer, makine çevirisi gibi birkaç görev dışında bağlamsal anlamsal ilişkileri öğrenebilmesine rağmen, çoğu görevin çok az eğitim verisi vardır. Bu nedenle, iyi bağlamsal anlamsal ilişkileri öğrenmek için denetimsiz külliyatın nasıl kullanılacağı çok önemli bir konu haline geldi. Bu yön, Elmo, OpenAI GPT, BERT ve XLNet vb. Dahil olmak üzere 2018'den günümüze kadar devam etti. Bu modeller listeyi defalarca kaydırarak harika Dikkat .

ELMo, Dil Modellerinden Gömme'nin kısaltmasıdır; bu, dil modeli ile elde edilen (cümle) Gömme anlamına gelir. Ayrıca Elmo, Amerikan çocuklarının eğitici televizyon programı Susam Sokağı'ndaki küçük canavarın adıdır. Orijinal makale "Derin bağlamsallaştırılmış kelime gösterimleri" dir, bu başlık çok uygundur, bağlama duyarlı kelime temsillerini öğrenmek için derin Transformer modelini kullanmaktır.

Bu makalenin fikri aslında çok, çok basit, ancak çok iyi sonuçlar elde etti. Buradaki fikir, aşağıdaki şekilde gösterildiği gibi, büyük miktarda etiketlenmemiş veri üzerinde bir dil modeli eğitmek için derin çift yönlü bir RNN (LSTM) kullanmaktır. Sonra asıl görevde, girdi cümlesi için, onu işlemek ve çıktı vektörünü elde etmek için bu dil modelini kullanırız, böylece bu bir özellik çıkarma olarak kabul edilebilir. Ancak sıradan Word2Vec veya GloVe'nin ön eğitiminden farklı olarak ELMo tarafından elde edilen Gömme bağlamsaldır.

Örneğin, Word2Vec kullanarak "banka" kelimesinin Gömülmesini de alabiliriz.Bu Gömme'nin bankanın anlamını içerdiğini düşünebiliriz. Ancak bankanın birçok anlamı vardır, bir banka veya bir su kenarı olabilir. Sıradan Word2Vec'i Ön Eğitimin Gömülü Olarak Kullanarak, her iki semantiği de vektöre aynı anda kodlayabilir ve ardından bağlama göre doğru olanı seçmek için RNN gibi ikinci modele güvenebilirsiniz. Örneğin, bağlamın anlamsallığı, o zaman bir banka olma olasılığı daha yüksektir; ve bağlam nehir ise, o zaman daha çok su anlamına gelir. Ancak RNN'nin bu tür bir bağlamsal ilişkiyi öğrenmesi için, bu görev için birçok durumda mevcut olmayan birçok ilgili ek açıklama verisine ihtiyacı vardır. ELMo'nun öznitelik çıkarımı bağlama duyarlı olarak kabul edilebilir.Eğer girdi cümlesinin parası varsa, o zaman (ya da umuyoruz) daha uygun bir kodlama seçmemize yardımcı olmak için bankanın daha olası anlambilimini bilebilir olmalıdır.

Şekil: RNN dil modeli

ELMo tarafından öğrenilen dil modeli parametreleri sabittir ve aşağı akış görevleri gizli durumunu bir özellik olarak alır. "Üretken Ön Eğitimle Dil Anlayışını İyileştirme" başlıklı makaledeki OpenAI GPT modeli, belirli görevlere göre ayarlanacak (genellikle ince ayar), böylece ortaya çıkan cümle temsili belirli görevlere daha iyi uyum sağlayabilir. Fikri aslında çok basit.Transformer'ı bir dil modeli öğrenmek, cümleleri denetimsiz olarak gömmek ve ardından belirli görevlere göre Transformer parametrelerini ince ayarlamak için kullanın. Eğitilmiş görev dili modelinin girdisi bir cümle olduğundan, ancak birçok aşağı akış görevinin iki girdisi olduğundan, OpenAI GPT, aşağıdaki şekilde gösterildiği gibi, iki cümleden önce özel bir ayırıcı ekleyerek iki girişi işler.

Şekil: OpenAI GPT'nin aşağı akış görevlerini işleme yöntemi

OpenAI GPT, birçok görevde önceki bir numarayı çok geride bırakarak çok iyi sonuçlar elde etti.

ELMo ve GPT ile ilgili en büyük sorun, geleneksel dil modelinin tek yönlü olmasıdır - mevcut kelimeyi önceki tarihe dayanarak tahmin ediyoruz. Ancak son bilgileri kullanamayız. Örneğin, "Hayvan çok yorgun olduğu için karşıdan karşıya geçmedi" cümlesi. Onun anlamını kodladığımızda, bilgiyi ondan önce ve sonra kullanmamız gerekir çünkü bu cümlede hayvan veya sokağa atıfta bulunabilir. Yorgun'a göre, hayvana atıfta bulunduğunu anlıyoruz çünkü sokak yorgun olamaz. Ama yorgunluğu geniş olarak değiştirirseniz, o zaman sokağa atıfta bulunur.

Geleneksel dil modeli, ister RNN ister Transformer olsun, yalnızca tek yönlü bilgileri kullanabilir. Örneğin, ileri RNN kodlarken, hayvanı ve sokağı görür, ancak yorgun görmemiştir, bu yüzden neyi ifade ettiğinden emin olamaz. Geriye dönük bir RNN ise, kodlarken yorgun görür, ancak hayvanı hiç görmemiştir, bu nedenle hayvana atıfta bulunduğunu bilemez. Transformer'in Kendine Dikkat Etmesi teorik olarak bu iki kelimeye aynı anda katılabilir, ancak önceki girişe göre, dil modelini öğrenmek için Transformer'ı kullanmamız gerektiğinden, onu gelecekteki bilgiler için görünmez hale getirmek için Mask'i kullanmalıyız, bu yüzden Bu sorunu çözemez.

Dil modelinin bilgiyi sadece tek bir yönde kullanabileceği problemini nasıl çözer? Cevap, ön eğitim eğitiminin sıradan bir dil modeli değil, bir Mask dil modeli olmasıdır. Bu fikir, şu anda aşina olduğumuz BERT modeli olan Google'ın "Dil Anlamak için Derin Çift Yönlü Transformatörlerin Ön Eğitimi" başlıklı makalesinde ortaya konmuştur.

BERT ortaya çıkar çıkmaz, çeşitli NLP değerlendirme listelerini tarayarak harika Dikkat . Medya, BERT'i "en güçlü NLP modeli" gibi kelimelerle övdüğünde, yakın zamanda ortaya çıkan XLNet, bir kez daha büyük listelerde yer aldı. BERT'in iki büyük sorunu olduğuna inanmaktadır: Maskelenen kelimelerin diğer Maske olmayan kelimeler verildiğinde bağımsız olduğunu varsayar, bu koşul geçerli değildir; ön eğitim özeldir, ancak ince öğretme bunu yapmaz, Bu bir uyumsuzluğa neden olur. XLNet, ortak dil modelinde tek yönlü bilgi akışı sorununu çözmek için Permütasyon dil modelini kullanır ve Transformer-XL'in avantajlarından yararlanır. Hedefin farkında olmadan sorununu çözmek için İki Akışlı Öz Dikkat sayesinde, son eğitimli model, birçok görevde yeni kayıtlar oluşturmak için BERT'yi aştı.

Takviye öğrenme

Pekiştirmeli öğrenme ile görme, işitme ve dil aslında aynı seviyedeki şeyler değildir. Daha çok denetimli öğrenmeye ve denetimsiz öğrenmeye paralel bir tür öğrenme mekanizması (algoritma), ancak pekiştirmeli öğrenmenin çok önemli bir öğrenme türü olduğunu düşünüyorum. mekanizma.

Denetimli öğrenmenin özelliği, bizi "denetleyecek" ve bize doğru sonucun ne olduğunu söyleyecek bir "öğretmen" olmasıdır. Biz gençken, öğretmenler bize öğretmeye gelirdi, özünde, denetimli öğrenme bir tür bilgi aktarımıdır, ancak yeni bilgi keşfedilemez. Bir bütün olarak insanlık için, gerçek (hatta tek) bilgi kaynağı pratiktir - yani pekiştirmeli öğrenmedir. Örneğin, Shennong Baicao'yu tattığında, insanlar ilk başta hangi otların hastalıkları iyileştirebileceğini bilmiyorlardı, ancak deneyerek yeni bilgiler öğrenebiliyorlardı. Öğrenilen bilgi dil tarafından kaydedilir ve nesilden nesile aktarılır, böylece insan toplumu bir bütün olarak ilerlemeye devam edebilir.

Denetimli öğrenmenin aksine, hiçbir "öğretmen" bizi "denetlemez". Örneğin, Go oynarken, kimse bize mevcut durumda en iyi hamlenin ne olduğunu söylemeyecek.Sadece oyun bittiğinde nihai sonucu bileceğiz. Hangi hareketin iyi ve hangi hareketin kötü olduğunu tekrar etmemiz (öğrenmemiz) gerekiyor. . Doğal dünya aynıdır Bize başkalarıyla işbirliği yapıp yapmamamız gerektiğini söylemeyecek, ancak en güçlü olanın hayatta kalması yoluyla, sonunda birbirimize yardım ettiğimiz bir toplumun daha rekabetçi olacağını "söyleyecektir". Önceki denetimli ve denetimsiz öğrenmeyle karşılaştırıldığında, büyük bir fark vardır: pekiştirmeli öğrenmedeki aracı Eylem yoluyla çevreyi etkileyebilir - yaptığımız her hareket durumu değiştirecek ve bu da daha iyi veya daha kötü olabilir. .

Çözmek istediği temel sorun, bir durum verildiğinde onun değerini (Değerini) yargılamamız gerektiğidir. Değer ve ödül (Ödül), pekiştirmeli öğrenmenin en temel iki kavramıdır. Bir Temsilci için (pekiştirmeli öğrenmenin ana yapısı), Ödül anında, dahili olarak veya hatta doğal olarak alınır. Örneğin, aç bir durumda yemek için bir ödül olacaktır. Değer ertelenir ve hesaplanması ve dikkatle değerlendirilmesi gerekir. Örneğin, acıkırsanız ve yiyecek bir şeyler çalarsanız, bir ödül vardır, ancak Değer açısından bu (belki) iyi bir Eylem değildir. neden olmasın? Örneğin, insan denetimli öğrenme olmasına rağmen, bilgeler bize bunun etik olmadığını ve iyi bir davranış olmadığını söylediler. Ama daha önce de söylediğimiz gibi, insan bilgisinin nihai kaynağı pekiştirmeli öğrenmedir Bilgeler nereden biliyorlardı? Bazı insanlar bunun Tanrı'dan veya insan doğasından geldiğini düşünür, örneğin "insan doğası ilk başta iyidir". Evrim açısından açıklanacak olursa, insan aslında bir "hayatta kalma" oyunu oynamaktadır, ahlaki değerleri takip eden ve takip etmeyen insanlar vardır.Doğa bize en uygun olanın hayatta kalmasıyla nihai sonucu söyleyecek ve nihayetinde bilgelerimiz öğrenecektir. Bu etik kodlara ulaştım (aslında ben seçildim) ve bu kodlar nesilden nesile eğitim (denetimli öğrenme) yoluyla aktarıldı.

Pekiştirmeli öğrenme sadece bir yöntem olduğu için birçok alanda uygulamaları vardır Robotlar, kontroller ve oyunlar en yaygın uygulama alanlarıdır, ancak doğal dil işleme için diyalog sistemleri dahil olmak üzere diğer alanlar genellikle pekiştirmeli öğrenme tekniklerini kullanır. Pekiştirmeli öğrenme ve makine öğreniminin birçok yöntemi vardır: Ortamın modellenip modellenmediğine göre Model tabanlı ve Modsuz yöntemler olarak ikiye ayrılabilir; Bir Değer fonksiyonu olup olmadığına göre, Değer tabanlı yöntem ve Politika Gradyanı olarak ikiye ayrılır, ancak ikisi bölünebilir Birleştirmek Actor-Critic yöntemini edinin ...

Buradaki odak noktamız Dikkat Derin öğrenme ve pekiştirmeli öğrenme Birleştirmek Bazı yöntemler.

Google DeepMind in Nature tarafından yayınlanan "Derin Güçlendirmeli Öğrenme Yoluyla İnsan Seviyesinde Kontrol" makalesi, Uçtan Uca derin güçlendirme öğrenme modeli Deep Q-Networks'ü ilk kez uyguluyor. Girdisi oyun ekranının piksel değeridir ve çıktısı oyundur. Kontrol komutu, prensibi aşağıdaki şekilde gösterilmiştir.

Resim: Derin Q Ağları

Aynı yörünge verilerinin korelasyonundan kaçınmak için Experience Replay aracılığıyla ve aynı zamanda hedef istikrarsızlık sorununu çözmek için bir Hedef Ağ use kullanın.Atari 2600'deki 49 oyundan Deep Q-Networks, insanlara ulaşan skorlara sahip 29 oyuna sahiptir. Aşağıdaki şekilde gösterildiği gibi, oyunun% 75'inden fazlası ve bunların 23'ü insan oyunculardan daha fazla puan aldı.

Şekil: Deep Q-Networks'ün Atari2600 platformundaki puanı

Deep Q-Networks'ün takip iyileştirmeleri arasında "Öncelikli Deneyim Tekrarı", "Double Q-öğrenme ile Derin Güçlendirmeli Öğrenme" ve "Rainbow: Derin Güçlendirmeli Öğrenmede İyileştirmeleri Birleştirme" yer alıyor.

Politika Gradyan kategorisinin çalışması, "Güven Bölgesi Politika Optimizasyonu" (TRPO), Belirleyici Politika Gradyan Algoritmaları (DPG), "Güçlendirmeli Öğrenme için Beklenen Politika Gradyanları", "Proksimal Politika Optimizasyon Algoritmaları" (PPO) vb. İçerir.

Oyunlar açısından, Google DeepMind tanıdık AlphaGo, AlphaGoZero ve AlphaZero serisi makaleleri yayınladı.

Go çözüldükten sonra herkes şunu da koydu: Dikkat Nokta, DeepMind'ın "AlphaStar: Bir Evrimsel Hesaplama Perspektifi" de dahil olmak üzere gerçek zamanlı strateji oyunlarına yerleştirildi ve OpenAI Five, hem StarCraft 2 hem de Dota 2'de büyük ilerleme kaydetti.

Buna ek olarak, Meta Öğrenme, Taklit Öğrenme ve Ters Pekiştirmeli Öğrenmede, hepsini burada listelemeyeceğimiz bazı yeni gelişmeler oldu.

Geleceğe bakış

En belirgin son trendlerden biri, denetimsiz (yarı denetimli) öğrenmenin ilerlemesidir.İlk olarak, doğal dil işleme alanında.Önceki analize göre, daha fazla görev ve daha az denetlenen veriye sahip bu alanın özelliklerinin bu yönde bir atılım olması bekleniyordu. . Bilgisayarla görmede, Google DeepMind'ın son ilerlemesini de gördük ve daha fazla atılım olacağını düşünüyorum. Nispeten konuşursak, konuşma tanıma alanındaki ilerleme, denetimsiz olmak bir yana, daha yavaş olmuştur, bir veri setinden (uygulama senaryosu) başka bir veri setine (senaryo) transfer bile zordur. Örneğin, büyük miktarda Mandarin verisine sahibiz, diğer Mandarin lehçelerinde iyi bir tanıma yapabilmek için az miktarda veriyi nasıl kullanabiliriz? Pek çok Adaptasyon teknolojisi olmasına rağmen, genel olarak beklentileri karşılamak hala zor görünüyor.

Diğeri ise End-to-End sisteminin endüstride yaygın olarak kullanılmamış olmasıdır (Google'ın kullandığını iddia etmesi dışında) Tabii ki bu ses alanında görece az sayıda oyuncuyla ilgili. Üstelik mevcut sistem iyi çalışıyor ve tam bir devrilmeye sahip değil. Gerekli (bilgisayarla görme alanındaki derin öğrenme yöntemi geleneksel yöntemin çok ötesinde olmadığı sürece). Orijinal HMM-GMM'yi HMM-DNN'ye dönüştürdükten sonra Artı Çeşitli adaptasyon ve sıralama ayırt edici eğitim hala SOTA'nın etkisini alabilir, bu nedenle nispeten konuşursak, Uçtan uca kullanmanın gücü daha da yetersizdir. Akademi bu yönde kuvvetli bir şekilde gelişiyor olsa da, eski ses oyuncuları (Google dışında) bunun için fazla ödeme yapmıyor.

Uzun vadede, yapay zekayı "doğru" gerçekleştirmek için, bence Birleştirmek Denetimsiz, denetimli ve güçlendirilmiş öğrenme yöntemlerini kullanarak görme, işitme (hatta tat ve dokunma vb.) Ve dil, "makinenin" kendi kendine kontrol edilebilen bir vücuda sahip olmasına ve üç yaşındaki bir çocuk gibi "gerçek" fiziksel dünyaya ve insanlara entegre olmasına izin verin Toplum mümkündür. Teknolojik ilerlemeye ek olarak, bunun mümkün olması için insan düşüncemizde büyük bir atılım gerektiriyor.

SON

Röportajı keşfedin

TechSugar'ın editoryal departmanı Suzhou'dan başlayarak, yüzlerce elektronik yarı iletken şirketini ziyaret etmeyi, işletmelerin ön saflarına yaklaşmayı, sektörün gerçeğini keşfetmeyi, size daha gerçekçi ve temelli raporlar sunmayı ve yerel şirketlere konuşma şansı vermeyi planlıyor. Hoşgeldin iş mesaj bırakın veya Özel mektup Görüşme konuları ile iletişime geçin.

Röportajı keşfedin

Dövüş çemberindeki dövüş sanatları süperstarlarına ne olacak? Fan Shaohuang "merhamet için yalvardı", Wu Jing en şaşırtıcı olanıydı

"Bilim" Tarım 4.0 Nedir?