Pekiştirmeli öğrenme çerçevesi, AI geliştirmede yeni beyinleri patlatacak mı?

Görüntü kaynağı @

Metin | Beyin Kutupsal Gövdesi

Bir uygulama geliştiriciyseniz, algoritmaları anlamıyorsanız ve AI işlevlerine sahip bir APP geliştirmek istiyorsanız, şunları seçersiniz:

  • Sıfırdan bir yapay zeka modeli eğitin;
  • Geliştirme platformunun eğitim çerçevesini ve API'sini kullanın;
  • Cevap açıktır: Teknik çözümler ve düşük giriş engelleri sağlayabilen ikincisi kraldır.

    Ancak birçok geliştirme platformu için derin öğrenme çerçeveleri karşısında, dikkate alınması gereken daha fazla konu vardır: uyumluluk, topluluk kaynakları, çerçeve geçişi vb.

    Son zamanlarda, çerçeve tartışmasının odak noktası pekiştirmeli öğrenmeye kaymıştır.

    Google, geçen yıl TensorFlow tabanlı bir pekiştirmeli öğrenme çerçevesi olan Dopamine'i piyasaya sürdü ve takviye öğrenme dünyasında bir yıldız olan OpenAI, birçok algoritmayı da temele oturtdu. Baidu ayrıca yakın zamanda PaddlePaddle'ın takviye öğrenme çerçevesi PARL'yi güncelledi. Her zaman düşük anahtar olan NetEase bile kendi geliştirdiği Güçlendirilmiş Programlama çerçevesini duyurdu ...

    Çoğu geliştirici için, yoğun öğrenme ne getirebilir, derin öğrenme çerçevelerindeki fark nedir ve kendi uygulamalarının nereye gitmesi gerektiğinden korkarım hala bir sis bulutu var.

    Dolayısıyla bugün, pekiştirmeli öğrenmenin gerçek değerini ve pratik sorunlarını açıklığa kavuşturabiliriz.

    Derin öğrenme, pekiştirmeli öğrenme, derin pekiştirmeli öğrenme, aptalca ve net değil mi?

    Birkaç yıllık piyasa eğitiminden sonra çoğu geliştirici, derin öğrenme çerçevelerinin neler yapabileceğini daha iyi anlar.

    Bununla birlikte, büyük platformlar tarafından başlatılan pekiştirmeli öğrenme çerçeveleri veya derinlemesine pekiştirmeli öğrenme çerçeveleri, insanların hemen kafasını biraz karıştırıyor. Aralarındaki fark nedir ve her biri hangi sorumlulukları üstlenir?

    Bu üç makine öğrenimi yöntemi arasındaki farkı açıklamak için bir örnek verelim:

    Bir ekim fabrikası isem ve Apple'ın kalitesini belirleyebilecek bir APP oluşturmak istiyorsam, üzerinde bir eğitim süreci oluşturmak için bir derin öğrenme geliştirme çerçevesine ihtiyacım var. Hemen hemen tüm geliştirme platformlarında hazır görüntü tanıma API'leri var.Eğitimli bir Apple tanıma modeli elde etmek için yalnızca eğitim resimlerini (yani çeşitli Apple fotoğraflarını) sisteme sürüklemem gerekiyor.

    Ama ya daha tembel olsaydım ve yüksek kaliteli olgun elmaları kendi başıma seçmeyi öğrenebilecek bir robot istersem? Derin öğrenme biraz zordur.

    Şu anda, bir temsilciyi eğitmek için pekiştirmeli bir öğrenme çerçevesi kullanmam gerekiyor. Ne zaman taze ve güzel bir elma seçse, olumlu pekiştirme için sistemden ödüller alacak. Olgunlaşmamış veya çürümüş bir elma yanlışlıkla toplanırsa, olumsuz pekiştirme için hiçbir ödül veya hatta puan kesintisi olmayacaktır.

    Daha fazla ödül elde etmek için, akıllı deneyim bu iyi meyveleri seçmeye ve 0 hatta negatif puan getirecek olanlardan vazgeçmeye daha isteklidir. Bu şekilde, iyi meyvelerin hasadını maksimize eden akıllı bir robot elde ederim. Güzel değil mi?

    Ama tatlılıktan tatmin olmadım, sadece salatalık ve domates toplamayı öğrenmesini istemiyorum, aynı zamanda onu yeniden eğitme zahmetine girmiyorum. Şu anda, derin öğrenmeyi ve pekiştirmeli öğrenmeyi birleştiren yepyeni bir algoritmaya ihtiyaç var.Yeni ödül mekanizmasını anlattığınız sürece, makine derin sinir ağıyla benzer becerileri otomatik olarak alabilir ve benim manuel olarak eğitmeme gerek yok.

    Geçmişte kodu satır satır yazmam gerekiyordu.Artık bir geliştirme çerçevem + eğitim örneklerim olduğu sürece, hiç yorulmayan, gayretle öğrenen ve benzetme yoluyla öğrenen bir temsilciye kolayca sahip olabilirim.Bu cazibeyi kim reddedebilir?

    Tabii ki burada onların çalışma modlarının kısa bir açıklaması var: Böylesine akıllı bir modeli eğitmek ve kendi ürünlerine uygulamak daha karmaşık kapsamlı bir proje.

    Ancak, pekiştirmeli öğrenme işlevleri için bir geliştirme çerçevesinin eklenmesi, pekiştirmeli öğrenme eğitiminin programlama zorluğunu ve iş yükünü büyük ölçüde azaltır.Bu, pekiştirmeli öğrenme yapmak isteyen ancak sıfırdan bir ortam ve eğitim inşa edemeyen teknisyenler ve şirketler için şüphesiz iyi bir fikirdir. Haberler.

    Yapay zeka geliştirmenin yeni favorisi: pekiştirmeli öğrenmenin kullanımı nedir?

    Günümüzde, pekiştirmeli öğrenme sadece akademinin sevgilisi haline gelmekle kalmadı, en iyi konferanslardaki ilgili araştırma makalelerinin oranı hızla artıyor; çeşitli geliştirme platformları da pekiştirmeli öğrenme çerçevesini konuşlandırma ve rekabet odağı olarak görüyor.

    Ancak sorun aynı zamanda şu şekildedir: çerçeve, geliştirme eşiğinin yalnızca bir kısmını düşürebilir.Özelleştirilmiş modeller, hata ayıklama, uyumluluk ve diğer görevler hala şirketlerin çok fazla insan gücü, malzeme ve mali kaynak yatırmasını gerektirir.Büyük çabalarla elde edilen sonuçlar uygulanamaz veya pratik olamazsa, Şüphesiz geliştiricilere karşı çok acımasız.

    Bu nedenle, "örneği takip etmek" için acele etmeden önce, şunu bulmak gerekir: Yoğun öğrenmenin gücü nedir? Geliştiriciler hangi koşullarda buna teslim olmalı?

    İlk olarak, pekiştirmeli öğrenmenin temel mantığını açıklayın, yani temsilci, ortamdaki (Çevre) ödüldeki (Ödül) farka göre hangi durumda (Durumda) hangi eylemi gerçekleştirdiğine karar verebilir. Birikimli ödülleri artırın.

    Örneğin Go'nun dünya şampiyonunu mağlup eden Alpha Go, Dota 2'de insan oyuncuları istismar eden OpenAI Five ve Atari 2600 oyununda en yüksek puanı alan DeepMind DQN, takviye öğrenmeye dayanıyor.

    Öyleyse, kendine özgü özellikleri nelerdir, kabaca üç açıdan özetlenebilir:

  • Eğitim örnekleri. Pekiştirmeli öğrenme, çevre tarafından verilen ödüller ve cezalar yoluyla öğrenmektir ve ödüllü veriler gerektirir.
  • etkileşimli mod. Pekiştirmeli öğrenmenin öğrenme süreci dinamiktir.Onu tamamlamak için çevre ile etkileşime girmesi gerekir.Sadece hangi örneklerin verildiğini öğrenmiyorsunuz ve ortam yok.
  • Problemi çöz. Pekiştirmeli öğrenmenin mantığı daha çok insan beynine benzer ve esas olarak oyunlarda yüksek puanlar, genel robotlar, öneri sistemleri vb. Gibi akıllı karar verme sorununu çözer.
  • Bu özel ayarlar, pek çok uygulama alanında pekiştirmeli öğrenmenin geleneksel derin öğrenmeden daha iyi performans göstermesini sağlar, örneğin:

    Kontrol zekası: endüstride çok eklemli robotik kolların gerçek zamanlı kontrolü, robotların eylemleri öğrenmek ve bunları gerçek hayat senaryolarına uygulamak için YouTube videolarını izlemelerine veya insansız araçların yoldan rastgele geçen insanlar ve hayvanlar gibi özel durumlarla nasıl başa çıkacaklarını öğrenmelerine yardımcı olmak;

    Sıra problemleri: Örneğin, arama sıralamasını optimize etmek için davranış geribildirimi yoluyla metin dizisi tahmini; öneri stratejisini gerçek zamanlı olarak değiştirmek için öneri listesindeki kullanıcı geri bildirimlerine göre (yok say, tıkla veya satın al) e-ticaret öneri sistemi.

    Diyalog oluşturma: Örneğin, daha iyi bir insan-makine çok yönlü diyaloğu deneyimleyin, böylece robot saçma sapan konuşmak yerine anlamlı diyaloglar oluşturmaya devam edebilir; daha iyi makine iki dilli çeviri efektleri elde etmek için derin öğrenme ile birleştirilebilir.

    Geleneksel derin öğrenme, makine algılama ve tanıma sorununu çözebildi, ancak insanların makine zekası için gereksinimleri bundan çok daha fazlası. Karmaşık gerçeklikte karar verme sorunlarıyla başa çıkabilen pekiştirmeli öğrenme ve ikisinin entegrasyonu doğal olarak AI uygulamalarının geleceği olacaktır. Gelişimin odak noktası.

    Bu durumda, algoritmanın ilk hamle avantajına hakim olan teknoloji platformları, şüphesiz geliştiriciler ve giriş hakları için rekabet etmek için en iyi düzen olan RL çerçevesini art arda başlattı.

    Pekiştirmeli öğrenme çerçevesi için mücadele nedir?

    Elbette, pekiştirmeli öğrenme birçok "harika" başarı elde etmiş olsa da, uygulama sınırlamaları da açıktır ve önceden hazırlanmanız gerekir:

    Örneğin, pekiştirmeli öğrenme yeni doğmuş bir bebek gibidir, tüm beceriler sıfırdan eğitilmelidir ve bir görev hedefine hakim olmayı öğretmek çok zaman alır;

    Dahası, pekiştirmeli öğrenme yalnızca anlık geribildirim talimatına dayalı eylemler gerçekleştirebilir.Go ve Dota oynamak harika olabilir, ancak kişiselleştirilmiş ses asistanları gibi hafıza ve muhakeme becerileri gerektiren görevlerle yüzleşmek biraz güçsüzdür;

    Diğer bir sıkıntılı sorun, mevcut takviye öğrenme algoritmalarının kararlılık ve verimlilik açısından eşit olmamasıdır.Gerçek dünya senaryolarının uygulama gereksinimlerini gerçekten karşılamak istiyorsanız, güçlendirilmesi gerekir.

    Bu nedenle, suları test etmek için işletmeniz için uygun bir takviye öğrenme çerçevesinin nasıl seçileceği, şu anda geliştiriciler için belki de en endişe verici konudur.

    Takviye öğrenmenin gelişim yönü ve her platformun özellikleri açısından, referans için birkaç olgunlaşmamış ipucumuz var:

    • Platformun kararlılığı ve tekrarlanabilirliği

    Derin öğrenme kararlıdır. Sabit veri setleri ve sabit hedefler vardır. Hiperparametrelerde küçük değişiklikler vardır ve nihai performans büyük ölçüde etkilenmeyecektir. Ancak bu pekiştirmeli öğrenmede (veya derin pekiştirmeli öğrenmede) durum böyle değildir Eğitim sonuçları, sonuçlarda büyük farklılıklar getirecek ve yinelemenin başarı oranını düşürecek olan rastgele olasılık, örnek verimliliği ve algoritma kararlılığı gibi çoklu etkilerden etkilenecektir. Daha ciddi bir durum, makinenin nasıl denerse denesin başarısız olacağını düşünmesi ve sadece çöker ve öğrenmeyi durdurmasıdır.

    Rastgelelik ve tekrarlama problemini çözmek için farklı platformların farklı çözümleri vardır.

    Örneğin Google, eğitim ortamının ve bağlantıların test edilmesinin standardizasyonunu gerçekleştiriyor. Kod için 60 oyun için test kapsamı ve eğitim verileri sağlayın ve standartlaştırılmış deneyim değerlendirmesi için Arcade Öğrenme Ortamını kullanın.

    Baidu, mümkün olduğunca çok sayıda ilgili algoritmayı kapsıyor. PARL çerçevesi, modelin tekrarlama oranını sağlamak için çok sayıda ana akım klasik algoritma ve tam bir hiperparametre listesi içeren bir algoritma seti sağlar.

    • Esneklik ve kullanım kolaylığı

    Çoğu geliştiricinin nihai talebi, algoritmanın zincirlerini kırmak için teknik çerçeveyi kullanmak ve özgürce dörtnala koşup yeni fikirlerini ve iş yaratıcılığını serbest bırakmaktır. Bu nedenle, çerçeve tasarımı bir yandan çoklu iş senaryoları ile basit eğitim yöntemleri arasındaki çelişkiyi dengelemeli ve diğer yandan teknolojik eğilimlerin hızlı yinelemesine ayak uydurmalıdır.

    Örneğin, Google'ın atari öğrenim ortamı, aracının içinde nasıl çalıştığını anlamak çok basittir ve ayrıntılı belgeler ve orijinal günlükler vardır. Ayrıca Google, geliştiricilerin yeni fikirleri kısa bir süre içinde açık ve sezgisel bir şekilde sıralaması, doğrulaması ve yinelemesine yardımcı olmak için bir TensorBoard görselleştirme aracı paketi de başlattı.

    • Çerçeve ve işin birleştirilmesi

    Pekiştirmeli öğrenmenin hala endüstriyel sondan çok uzak olduğunu söylesek de, endüstrilerin entegrasyonuna hazırlanmak için temel gelişimden gelen teknolojik çerçeve açıkça süreci hızlandırabilir.

    Bu nedenle, teknik çerçevenin ve endüstrinin iş ihtiyaçlarının birleştirilmesi, geliştirme platformunun canlılığı için büyük bir garanti haline geldi. Örneğin Baidu, takviye öğrenme algoritmasındaki Çin belgelerinin ve eğitim verilerinin eksikliklerini dolduran takviye öğrenme çerçevesinin takibini hızlandırıyor.

    Dikkate alınması gereken bir diğer husus, Çin dünyasındaki geliştiricilerin sayısı, verilerin ölçeği, kullanıcı sayısı ve teknik çerçeveyi destekleme yeteneği de büyük bir zorluktur. PaddlePaddle'ın büyük ölçekli endüstriyel sınıf sıralama / öneri ve diğer seyrek modelleri destekleme becerisine dayanan Baidu'nun PARL'ı, kolayca on milyarlarca veriye veya özellik eğitimine genişletilebilir. Bu paralel hızlandırma yeteneği, Çin pazarının gerçek ihtiyaçları ile daha uyumludur.

    Tabii ki, topluluk kaynaklarının bolluğu, algoritmaların kalitesi ve uygulama araçlarının çeşitliliği gibi pekiştirmeli öğrenme ve kullanıcı seçiminin performansını etkileyen birçok faktör vardır.

    Genel olarak, bu aşamada düşük eşik ve kısa süreli iyi bir pekiştirmeli öğrenme modelini eğitmek hala zordur. Ancak Wu Enda'nın dediği gibi, "kısa vadeli kötümserlik, uzun vadeli iyimserlik", makine zekasının bir sonraki gelişme yönü olarak derin pekiştirmeli öğrenme şüphe götürmez.

    Geleceği kazanmak için, bu yeni rekabetçi yayla işgal edilmelidir. Pekiştirmeli öğrenmenin çerçevesi hakkındaki tartışma sadece bir başlangıçtır.Hayal gücünün ötesinde çeşitli pratik sorunlar birer birer çözüldükçe birçok ilginç şey gerçekleşecektir.

    Daha heyecan verici içerik için Titanium Media WeChat ID'yi (ID: taimeiti) takip edin veya Titanium Media Uygulamasını indirin

    Ekran Süresi Instagram'daki Japon sanatçıların son güncellemelerinden oluşan bir koleksiyon
    önceki
    Bir büyüteçle karşılaştırılabilir Huawei Mate 20 Pro makro yetenek deneyimi
    Sonraki
    "Makaisenki" ilk remake sürüm ayrıntıları ve sınırlı sürüm içeriği duyuruldu
    Makine Öğreniminde Karar Ağaçlarının İlkeleri ve Algoritmaları | Popüler Bilim
    ARM ve Android'e Dayalı Akıllı Ev Kontrol Sisteminin Tasarımı
    Klima alırken neden invertörü seçmelisiniz? Frekans dönüştürme ile sabit frekans arasındaki fark nedir
    Çin çeviri endüstrisindeki en yüksek kişisel ödülü kazanan Yang Wuneng, sıkı çalışması için memleketi Chongqing'deki kiliseye en çok minnettar.
    SNK, NEOGEO retro konsolu piyasaya sürerek konsol pazarına geri dönecek
    IBM Bilişsel Sistem: Uygulamadan başlayarak, yapay zekanın tam olarak uygulanmasına izin verin
    UCG440 halka açıldığında, adam üç kelime bağırdı
    ThoughtWorks teknik uzmanları ayrıntılı olarak açıkladı: Kurumsal düzeydeki blok zinciri başlangıçta böyle oynandı
    Erkeklerin hem parfüm hem de el oyunları parfümü giymesini sağlamak harika bir şey oluyor Smart Planet
    "Kardeşim, sorun çıkarmayı bırak! 10 Kasım, Gao Xiaopan ve Sen Xianchao bütün gün "birbirinizi vurun"
    Otomobil ön tamponunun enerji emici yapısının düşük hızlı çarpışma simülasyon analizi
    To Top