Tao Dacheng, Sidney Üniversitesi: Genetik Tartışmalı Nesil Ağı, GAN'ın İki Acı Noktasını Etkili Şekilde Çözüyor

Kaynak: Xinzhiyuan

Bu makale Toplam 7372 kelime, Önerilen Okuma 10 dakika.

Bu makale Profesör Tao Dacheng'in 20 Eylül'de AI WORLD 2018 Dünya Yapay Zeka Zirvesi'ndeki konuşmasının içeriğini derledi.

Avustralya Bilimler Akademisi'nden bir akademisyen ve Ubisoft'un baş bilim adamı olan Sidney Üniversitesi'nde profesör olan Profesör Tao Dacheng, insanların algılama, akıl yürütme, öğrenme ve davranış zekasına sahip olduklarına dikkat çekti.Azeka'nın nihai amacı, makinelerin insanlarla aynı zekaya sahip olmasını sağlamak. 20 Eylül'deki AI WORLD 2018 Dünya Yapay Zeka Zirvesi'nde Dr. Tao Dacheng, ekibinin bu dört yönde kaydettiği önemli ilerlemeyi tanıttı.

Avustralya Bilimler Akademisi'nden bir akademisyen ve Ubisoft Yapay Zeka'nın baş bilim adamı olan Sidney Üniversitesi'nde profesör olan Profesör Tao Dacheng, 20 Eylül'de AI WORLD 2018 Dünya Yapay Zeka Zirvesi'nde "AI Breaking: Fırsatlar ve Zorluklar" konulu bir açılış konuşması yaptı.

Tao Dacheng dedi ki, Yapay zekanın amacı, makinelerde insan benzeri zeka elde etmektir. İnsanların zekanın dört yönü vardır: Algılama, Öğrenme, Akıl Yürütme ve Davranma. Konuşması bu dört yön etrafında dönüyordu.

Algılama birçok yönü içerir: nesne algılama, hedef izleme, sahne bölümleme, anahtar nokta algılama, yüz görüntüsü analizi vb. Ancak yüksek performanslı algılama aynı zamanda yüksek kaliteli veri girişine de bağlıdır. Giriş görüntüsü veya video gürültü, türbülans, bulanıklık, sis ve düşük çözünürlük gibi faktörlerden etkilenirse, veri kalitesinin iyileştirilmesi gerekir.

Öğrenme açısından, Dr. Tao Dacheng çok perspektifli öğrenmeyi, çok etiketli öğrenmeyi, rakip etki alanı genellemeyi, etiket çözülmüş GAN'ı vb. Tanıttı. Özellikle, Evrimsel GAN, geleneksel GAN ağı öğreniminin iki acı noktasını etkili bir şekilde çözer:

  • Eğitim istikrarsız.
  • Model çöktü. Bu çalışma ayrıca MIT Technology Review tarafından The Best of the Physics arXiv seçildi.

Ek olarak, bilgi teorisindeki veri işleme eşitsizliklerinden esinlenen Dr. Tao ve öğrencileri, derin öğrenmede çok dikkat çeken iki konuyu teorik olarak açıkladılar:

  • Model karmaşıklığı çok yüksek olan derin bir sinir ağı neden aşırı uyum sağlayamıyor?
  • Derin bir sinir ağı olabildiğince derin mi?

Son olarak, Dr. Tao Dacheng, Sidney Üniversitesi Yapay Zeka Enstitüsü tarafından akıl yürütme ve davranışta bazı ilerlemeler kaydetti. Ekibi son zamanlarda hem görsel soru cevaplama (MYK) hem de görsel diyalog uluslararası yarışmalarda çok iyi sonuçlar elde etti.

Şu anda, Dr. Dacheng Tao'nun ekibi insansı robotlar üzerinde taklit öğrenmeyi gerçekleştirmek için çok çalışıyor. Bunun yakın gelecekte gerçekleştirilmesi umuluyor: robotlar, insan davranışını anlamak, insan davranışını taklit etmek ve nihayetinde insanlarla etkili bir şekilde etkileşim kurmak için kameralar kullanıyor.

Aşağıdakiler, Profesör Tao Dacheng'in konuşmasının harmanlamasıdır:

Son iki yılda yapay zeka alanında yaptığımız bazı çalışmaları sizinle paylaşmaya beni davet ettiğiniz için teşekkür ederim Xinzhiyuan.

Öncelikle lütfen bu fotoğrafa bakın. Burada size bir soru sormak istiyorum, bu fotoğrafta kaç kişi var? Bu soruyu cevaplamak zor değil ama çok zaman alıyor. Tek tek sayarsak, yaklaşık bir saat içinde burada yaklaşık 900 kişi olduğunu bilebiliriz.

Yüz algılama teknolojimizi kullanırsanız, GPU grafik kartına sahip bir masaüstü bilgisayarda yalnızca üç saniye içinde benzer sonuçlar elde edebilirsiniz. Bu basit bir görev gibi görünebilir, ancak bilgisayarlar için her zaman sorunsuz değildir. 2017'de algoritmamız 700'den fazla yüzü, ardından 800'den fazla yüzü ve şimdi de 900'den fazla yüzü tespit edebiliyor ve bu da insanların etkisine yakın. Ek olarak, bilgisayarlar tarafından algılanan yüzlerin aslında insanların başlangıçta görmedikleri bazı yüzleri keşfetmelerine yardımcı olduğunu gördük. Bu aynı zamanda yapay zekanın insan zekasını genişletebileceğini özel bir perspektiften gösteriyor.

Yapay zekanın amacı: makinelerde insan benzeri zeka elde etmek

Yapay zeka nedir? Yapay zeka, makineler tarafından sergilenen zekadır, bu nedenle insanlar tarafından sergilenen zekayı ayırt etmek için "makine zekası" olarak adlandırılabilir. İnsanların zekanın dört yönü vardır: Algılama, Öğrenme, Akıl Yürütme ve Davranma. Yapay zekanın amacı, makinelerin insan zekasını fark etmesini ve simüle etmesini sağlamaktır. Makinelerin dünyayı algılayabileceği, öğrenebileceği, akıl yürütebileceği ve buna göre yanıt verebileceği günü dört gözle bekliyoruz. Bu nedenle, yapay zekanın bu dört özelliğe sahip olmasına izin vermemiz gerekiyor.

Bu video, hedef tespiti, (tekli, çoklu) hedef takibi, hedef bölümleme, özellik noktası tespiti, insan pozu tahmini, ifade analizi, yaş tahmini, tek kamera derinliği tahmini vb. Dahil olmak üzere yapay zeka alanındaki bazı temel teknolojilerimizi göstermektedir.

Neden bugün herkes yapay zeka hakkında konuşuyor? Uzun zaman öncesine kıyasla büyük verilere ve güçlü bilgi işlem sunucularına sahip olduğumuz için artık çok büyük ölçekli modelleri etkin bir şekilde eğitme yeteneğine sahibiz. Çok katmanlı sinir ağları uzun zaman önce ortaya çıkmış olsalar da, veri ve hesaplama gücü nedeniyle iyi desteklenmemişlerdir. Daha da önemlisi, şu anda endüstri, akademi ve devlet dairelerinden büyük miktarda gerçek talebimiz var. Bunlar, günümüzün yapay zekasının başka bir patlamasına gerçekten katkıda bulundu. Endüstrinin acil ihtiyaçları, akademik topluluğun yapay zekaya yatırımını da büyük ölçüde teşvik etti.

Bugün size dört yöndeki ilerlememizi anlatacağım: algılama, öğrenme, akıl yürütme ve davranış.

Algılama görevi temeli: nesne algılama ve hedef izleme

Nesne algılama, algılamada temel bir görevdir. Mevcut iki aşamalı hedef dedektör çok iyi sonuçlar elde etti. İlk önce bölgesel aday çerçeveleri oluşturun ve ardından bu aday çerçeveleri ayarlayın. Ayarlama işlemi, sonraki çerçevelerin koordinatlarını güncelleyecek ve nesnenin kategorisini tahmin edecektir. Ancak, hatalı aday çerçeveler yanlış algılama sonuçlarına yol açabilir.

Bu sorunu çözmek için, bağlama dayalı bir ayarlama algoritması öneriyoruz. Spesifik olarak, bir algılama çerçevesi için, etrafındaki algılama çerçevesinin genellikle saptanacak nesne için ek bilgi sağladığını bulduk.

Bu nedenle, mevcut ayarlama algoritmasını iyileştirmek için çevredeki algılama çerçevesinden yararlı içerik bilgileri çıkarmaya çalışıyoruz. Önerdiğimiz yöntemde, çıkarılan bağlam bilgisini bir ağırlıklandırma sürecine göre birleştireceğiz. Son olarak, birleştirilmiş bağlam bilgisini ve karşılık gelen görsel özellikleri kullanarak, önerilen bağlama dayalı aday çerçeve ayarlama algoritmamız, mevcut ayarlama algoritmasını önemli ölçüde geliştirebilir.

Örneğin, şekilde gösterildiği gibi, vincin aday kutularından biri ideal değildir: üç kutu mavi, sarı ve kırmızı, her biri vinç bilgilerinin yalnızca bir kısmını içerir. Tarafımızca önerilen bağlama dayalı aday çerçeve ayarlama algoritması, tam bir aday çerçeve oluşturmak için vincin farklı parçalarını içeren aday çerçevelerin bilgilerini etkin bir şekilde entegre edebilir.

Tam bir aday çerçeve ile algılama oranı etkili bir şekilde geliştirilebilir.

Hedef izleme, algılamada çok temel bir görevdir. Tek hedefli izlemenin zorluğu, nesnenin şeklinin geometri / fotometri, kamera bakış açısı ve aydınlatmadaki değişiklikler ve kısmi kapanma nedeniyle büyük ölçüde değişmesinden kaynaklanmaktadır. Çoklu hedef takibi daha zordur Tek hedef takibinde karşılaşılan zorlukların yanı sıra, nesnelerin sayısı ve farklı kimlikleri de ayırt etmek gerekir.

Bu nedenle, kontrolsüz bir ortamda uzun dizileri izlemek çok zordur. Hedef izlemede derin öğrenmenin kullanılması nedeniyle, mevcut izleyici performansı büyük ölçüde iyileştirildi. Bunun temel nedeni derin öğrenmenin izlenen nesnenin orijinal temsilini etkili bir şekilde verebilmesidir, bu nedenle çeşitli değişikliklere ve tıkanmalara karşı iyi bir dirence sahiptir. Bu basketbol sahasında çok oyunculu takip iyi bir örnektir.

Gelişmiş algılama görevleri: Kötü koşullu monoküler derinlik tahmini problemini çözün

Monoküler derinlik tahmini kötü koşullandırılmış bir sorundur ve bu nedenle son derece zordur. Bu görev, piksel seviyesi derinlik değerini tek bir sahne grafiğinden geri yüklemeyi bekler ve 3B sahne geometrisinin anlaşılmasında önemli bir rol oynar. Bu neden patolojik bir problem? Örneğin, üç boyutlu uzayda bir çizgi olduğunu varsayalım ve sonra onu bir düzleme yansıtabiliriz. Yansıtılan düzlemde düz bir çizgi görebiliriz, ancak orijinal üç boyutlu uzayda bu çizginin düz bir çizgi mi yoksa bir eğri mi olduğunu doğrulayamayız. Ancak pratikte, görüntü bilgisine dayanarak derinlik bilgisini tahmin edebiliriz.

Örneğin, bu resimde, orijinal görüntüde kişinin boyu yaklaşık üç santimetredir, ancak kişinin üç boyutlu gerçek uzaydaki boyunun içeride üç olduğunu asla düşünemezsiniz. Sağduyuya göre, yetişkin bir erkeğin boyunun yaklaşık 175-180 cm olduğunu hepimiz biliyoruz.

Basit bir geometrik dönüşüme göre kişiden kameraya olan mesafeyi tahmin edebiliriz. Görüntüde, gölgeler, renk değişiklikleri, düzen, zemin vb. Gibi pikselin derinliğini tahmin etmemize yardımcı olabilecek pek çok bilgi vardır. Kilit soru, özellikleri nasıl tasarlamamız ve ardından her pikselin derinliğini tahmin etmek için makul bir istatistiksel model kullanmamız gerektiğidir.

Uzun zaman önce, araştırmacılar bu görevi gerçekleştirmek için MRF (Markov Random Field) ile birleştirilmiş el yapımı özellikleri kullandılar. Geleneksel MRF modelinin tahmin etkisi tatmin edici olmasa da, mevcut sonuçlar herkese bu sorunun tamamen çözülemez olmadığını söylüyor.

Son yöntemler, derin sinir ağlarının (DCNN) çok seviyeli bağlamsal anlamsal bilgilerini keşfederek bu konuda önemli ilerleme kaydetmiştir. Bununla birlikte, bu yöntemlerle tahmin edilen derinlik değerleri hala çok yanlıştır.

Bunun birkaç olası nedeni şunlardır:

  • Derinlik dağılımının aşırı karmaşıklığından dolayı, standart regresyon paradigması altında derinlik dağılımını öğrenmek çok zordur.
  • Önceki çalışmalar, modellemede derinlik değerleri arasındaki düzenli ilişkiyi göz ardı ediyordu.
  • Görüntü düzeyinde ve çok ölçekli bilgiler henüz tam olarak araştırılmamıştır.

Bu olaylardan esinlenerek, önce derinlik tahmini problemini çözmek için ayrı bir paradigmaya dönüştürdük. İkinci olarak, bir düzen regresyon kısıtlaması önererek derinlik tahmini için bir sıralama mekanizması geliştirdik ve son olarak daha iyi senaryolar elde etmek için etkili bir çok ölçekli derin ağ tasarladık. Anlamsal bilgi öğrenimi. Modelimiz (DORN), dört çok zorlu veri setinde (KITTI, ScanNet, Make3D ve NYU Depth v2) rakiplerini aşmakla kalmadı, aynı zamanda Robust Vision Challenge 2018 derinlik tahmini projesinde de birinci oldu.

Hedef poz tahmini ve tahmini

İnsan vücudu eklemleri veya kuş parçaları gibi bir dizi anlamsal anahtar noktayı tahmin etmek, görüntü anlama alanında önemli bir teknolojidir. Nesnelerin kilit noktaları, nesneleri hizalamaya ve aralarındaki nüansları ortaya çıkarmaya yardımcı olur ve ayrıca bilgisayarların insan duruşlarını anlamaları için anahtar bir teknolojidir. Bu teknoloji son yıllarda önemli ilerleme kaydetmiş olsa da, nesnelerin görünümü, duruş değişiklikleri ve oklüzyondaki büyük farklılıklar nedeniyle kilit noktaların öngörülmesi hala büyük bir zorluktur.

Mevcut CNN tabanlı anahtar nokta konumlandırma yöntemi, anahtar nokta algılayıcısını denetlemek için bir güven haritası kullanır, ancak farklı resimlerdeki kilit noktaların algılanması güçlük açısından farklı olduğundan, aynı derecede güven haritasının kullanılması, anahtar nokta algılayıcısının öğrenmesine yardımcı olmayabilir.

Kilit nokta konumlandırmanın sağlamlık sorununu çözmek için, kaba ve ince denetim ağından (CFN) oluşan derin evrişimli ağ yöntemi öneriyoruz. Bu yöntem tamamen evrişimli bir ağ kullanır ve hiyerarşik bir özellik gösterimi elde etmek için farklı derinliklerde birkaç dal kullanır. Ve farklı alıcı alanlara göre, farklı kalınlıktaki denetim bilgileri kullanılır. Son olarak, tüm hiyerarşik özellik bilgileri, hedef anahtar noktaların hassas konumlandırılmasını sağlamak için birleştirilir. Bu yöntemin etkililiğini ve çok yönlülüğünü, kuş konumu ve insan pozu tahmini için farklı görev deneyleri ile kanıtladık.

Az önce bahsedilen algılama görevlerini başarıyla tamamlamak için, elde ettiğimiz görüntülerin yüksek kalitede olduğunu varsaymamız gerekir. Ancak, gerçek sorunlarda, elde ettiğimiz görüntüler etkilenebilir ve bu da düşük veri kalitesine neden olabilir. Bu nedenle, görüntü kalitesi değerlendirmesini çözmemiz gerekiyor.Görüntü kalitesi değerlendirmesinin sonuçlarına göre, görüntü kalitesini iyileştirmek için, denoise, deblur, orta türbülans etkisini ortadan kaldırmak, düşük çözünürlüklü görüntülerin çözünürlüğünü iyileştirmek gibi etkili bir modele de ihtiyacımız var. Sis, bekle.

Son zamanlarda birçok insanın bir fikri var: Derin öğrenme dünyadır. Asıl sorunu çözmek için, farklı ağ katmanlarını biriktirmenin, ağı sürekli derinleştirmenin ve ardından parametreleri ayarlamanın bir yolunu bulmaktır. Aslında o kadar basit değil. Pratik sorunları etkili bir şekilde çözmek için, yalnızca derin öğrenmeyi anlamalı ve parametreleri nasıl etkili bir şekilde ayarlayacağımızı bilmemeli, aynı zamanda geleneksel istatistiksel makine öğrenimine ve klasik bilgisayar vizyonuna aşina olmalıyız, aynı zamanda sorunu derinlemesine anlamalı ve nasıl etkili bir şekilde inşa edeceğimizi bilmeliyiz. Öğrenme modeli elbette bir derin öğrenme modelidir.

Öğrenme yönünde ayrıca çok fazla iş yaptık: hızlı matris ayrıştırma, çok perspektifli öğrenme, çok görevli öğrenme, çok etiketli öğrenme, transfer öğrenimi, etiket gürültüsü ile öğrenme, üretken düşman ağlar, derin öğrenme teorisi vb. Zamanla ilgili nedenlerden dolayı, çok perspektifli öğrenme, üretken karşıt ağlar ve derin öğrenme teorisindeki son çalışmalarımızdan bazılarını kısaca tanıtmama izin verin.

Çok perspektifli öğrenme: Karar verme stratejileri için "Körler fillere dokunur"

Fillere dokunan körlerin hikayesini herkes bilir, aslında karar verdiğimizde körlerle aynıyız çünkü elde ettiğimiz bilgiler de eksik. Dolayısıyla, düşündüğümüzde, sahip olduğumuz bilgilere dayanan en uygun stratejidir. Bu nedenle, aynı şey için herkes farklı kararlar alabilir.

Çok perspektifli öğrenme günümüzün akıllı sistemleri için çok önemlidir, çünkü akıllı sistemlere çok sayıda sensör yerleştirilmiştir.Örneğin, günümüz insansız araçları lidarlar, milimetre dalga radarları, kameralar, IMU'lar vb. İle donatılmıştır. Her sensör ortamdaki bilgilerin yalnızca bir kısmını algılayabilir, bu nedenle son kararı vermemize yardımcı olmak için farklı sensör bilgilerini birleştirmemiz gerekir.

Bir oracle alanı olduğu varsayıldığında, her sensör oracle uzayının doğrusal veya doğrusal olmayan bir izdüşümü olarak modellenebilir. Çok sayıda sensörümüz varsa, büyük miktarda projeksiyon bilgisi elde edebiliriz. Yeterince farklı projeksiyon bilgisine sahipsek, bu kehanet uzayını çok yüksek bir olasılıkla yeniden inşa edebileceğimizi kanıtlayabiliriz. Bu oracle alanı ile etkili kararlar verebiliriz.

Lütfen en soldaki bu resme bir bakın. İlk bakışta ne gördün? Çoğu insan bunun bir tekne olduğunu söylüyor. Sonra teknede birini fark edeceksiniz. sağ? Bu fenomen bize, bu tür sıralı bilgilerin çok etiketli öğrenmede bize çok yardımcı olacağını hatırlatıyor. Pekiştirmeli öğrenme yoluyla, pekiştirmeli öğrenmenin verimliliğini artırmak için bu sıralamayı etkili bir şekilde öğrenebiliriz.

Bugün karşılaştığımız öğrenme sorunu böyle bir durum olabilir: eğitim verileri ve test verileri farklı sensörlerden veya bilgi alanlarından gelir. Alan genellemesi ile çözülmesi gereken sorun budur. Eğitim verileri ve test verileri farklı alanlardan geldiği için bazı özellikler bulmamız gerekiyor: Bu özellikler, hem eğitim verileri hem de test verileri üzerinde öngörülen görevlerimizi tamamlamak için etkilidir.

İnsanlar bunu kolayca yapabilir: oğlum 3 yaşındayken ona bir zürafa karikatürü gösterdim. Onu hayvanat bahçesine götürdüğümde, gerçek zürafayı kolayca tanıyabilirdi. Ama ondan önce, gerçek bir sahnede hiç zürafa görmemişti. Kesinlikle bilgisayarların benzer yeteneklere sahip olmasını umuyoruz. Burada, bu tür değişmez özellikleri etkili bir şekilde öğrenmek için GAN ağını (antagonistik nesil ağı) kullanıyoruz.

Etki alanı değişmeyen özellikleri öğrenmek için uçtan uca koşullu rakip etki alanına uyarlanabilir derin öğrenme modeli öneriyoruz Bu model, P (Y) dağılımının ve koşullu olasılık dağılımının P (X | Y) aynı anda değişmezliğini ölçer. Ağ çerçevesi dört bölümden oluşur. AlexNet'in ilk bölümü, etki alanıyla değişmeyen özellikleri öğrenmek için kullanılır. İkinci bölüm, öğrenilen özelliklerin iyi bir sınıflandırmaya sahip olmasını sağlamak için kullanılan görüntü sınıflandırma ağıdır.

Özelliklerin etki alanı değişmezliği, kategori önceden normalleştirilmiş etki alanı sınıflandırma ağı ve kategori koşullu etki alanı sınıflandırma ağı tarafından garanti edilir. Önceden normalleştirilmiş alan sınıflandırma ağı kategori önceden normalleştirilmiş farklı alanların dağıtımını eşleştirmek için kullanılır.Bu ağın ana amacı, farklı alanlar arasındaki varyasyonu ortadan kaldırmaktır. İkinci olarak, kategori koşulu alan sınıflandırma ağı, her kategori için dağıtım eşleşmesini sağlamak için kullanılır. Bu, farklı alanların ortak olasılık dağılımlarının eşleşmesini sağlar. Farklı standart veri setlerinde elde edilen deneysel sonuçlar, yöntemimizin etkinliğini kanıtlamaktadır ve mevcut yöntemlere göre önemli ölçüde geliştirilmiştir.

Yeni TD-GAN çerçevesi, derin öğrenmenin yorumlanabilirlik sorununu çözüyor

Son zamanlarda herkes öğrenmenin yorumlanabilirliğine dikkat etmeye başladı. İhtiyacımız olan verileri oluşturmak için GAN ağı ile özellikleri öğrenebiliriz. Peki bu özelliklerin anlamı nedir? Emin değiliz.

İnsanların dünyayı anlama şeklini taklit ederek, bilgisayarların bu karmaşık dünyadan soyut kavramları öğrenebileceğini ve bu kavramlara dayalı yeni şeyler yaratabileceğini umuyoruz. Bu nedenle, fotoğraftaki kişinin kimliği, çekim açısı, ışık koşulları vb. Gibi gerçek dünyadaki görüntülerden ayrıştırılabilir özellikleri çıkarabilmek için bir bilgisayara ihtiyacımız var. Bu etiket çözülmesidir. Ayrıştırılabilir özelliklerle, öğrendiğimiz özelliklerin fiziksel anlamını da açıklayabiliriz.

Tek bir giriş görüntüsünden ayrıştırılabilir özellikleri çıkarmak ve öğrenilen özellikleri ayarlayarak görüntüyü yeniden oluşturmak için yeni bir çerçeve (TD-GAN) öneriyoruz. TD-GAN, bir dereceye kadar gerçek dünyadaki görüntüleri anlayabilen derin bir öğrenme çerçevesi sağlar.

Ağ tarafından öğrenilen ayrıştırılabilir özellikler, aslında görüntüde açıklanan öznenin farklı niteliklerine karşılık gelir. İnsanların dünyayı nasıl anladığına benzer şekilde, ayrıştırılabilir özellikleri öğrenmek, makinelerin gerçek dünyadaki görüntüleri yorumlamasına ve yeniden yapılandırmasına yardımcı olur. Bu nedenle, TD-GAN, kullanıcı tarafından belirlenen bilgilere dayalı olarak yüksek kaliteli çıktı görüntülerini sentezleyebilir.

TD-GAN şunlara uygulanabilir:

  • Diğer derin öğrenme algoritmalarının eğitimi ve testi için yeni görüntüler sentezleyerek veri geliştirme
  • 3B modelin yeniden yapılandırılması için belirli bir nesnenin sürekli pozunun görüntülerini oluşturun
  • Analiz ve genelleme yoluyla mevcut kreasyonları geliştirin ve yeni yaratıcı resimler yaratın

Gerçek dünya verilerinin (görüntüler gibi) olasılık dağılımını öğrenmek ve manipüle etmek, istatistiklerin ve makine öğreniminin ana hedeflerinden biridir. Son yıllarda, Derin Üretici Tartışmalı Ağ (GAN), karmaşık verilerin olasılık dağılımını öğrenmek için yaygın bir yöntemdir.

Üretken rakip ağlar, görüntü oluşturma, görüntü "çevirme" ve stil dönüşümü gibi nesille ilgili birçok görevde ikna edici performans elde etti. Ancak, mevcut algoritmalar hala birçok eğitim zorluğuyla karşı karşıyadır. Örneğin, çoğu GAN'ın jeneratör ve ayırıcı arasındaki yetenekleri dikkatlice dengelemesi gerekir. Uygun olmayan parametre ayarları GAN'ın performansını düşürecektir ve makul bir çıktı üretmek bile zordur.

Geçmişte uzun süredir birçok araştırmacı, farklı kayıp fonksiyonlarının GAN üzerindeki etkisini araştırmaktadır (ve herkes farklı kayıp fonksiyonlarının farklı avantaj ve dezavantajlara sahip olduğuna ve farklı eğitim sorunlarına yol açabileceğine inanmaktadır). Bu nedenle, GAN'ın performansını iyileştirmek için GAN'ın eğitimine ve öğrenimine minimax, en küçük kareler vb. Gibi birçok farklı kayıp işlevi dahil edilmiştir.

Farklı görevler için, farklı veriler, farklı kayıp fonksiyonları belirli etkilere ulaşmıştır. Daha sonra, Google araştırmacıları birçok deney sonucunda, farklı kayıp işlevlerinin farklı görevler veya veriler üzerinde farklı performanslara sahip olmasına rağmen, genel ortalama etkinin benzer olduğunu keşfettiler.

Bu bize, mevcut nesil yüzleşme ağının kayıp fonksiyonunun farklı avantaj ve dezavantajlara sahip olduğunu ve önceden tanımlanmış yüzleşme optimizasyon stratejisinin üretim yüzleşme ağının eğitimi sırasında istikrarsızlığa yol açabileceğini söyler. Doğal evrimden esinlenerek, üretken karşıt ağları eğitmek için evrimsel bir çerçeve tasarladık. Her yineleme sırasında, üretici birden fazla yavru üretmek için farklı mutasyonlara maruz kalır. Daha sonra, şu anda öğrenilen ayırıcı göz önüne alındığında, güncellenmiş yavrular tarafından üretilen örneklerin kalitesini ve çeşitliliğini değerlendiriyoruz. Son olarak, "en güçlü olanın hayatta kalması" ilkesine göre, performansı düşük olan yavrular çıkarılır ve kalan iyi performans gösteren üreteçler alıkonulur ve daha ileri yüzleşme eğitimi için kullanılır.

Evrimsel modele dayalı üretken yüzleşme ağı, bireysel yüzleşme eğitim yöntemlerinin doğasında bulunan sınırlamaların üstesinden gelir, üretken yüzleşme ağının eğitim sürecini büyük ölçüde stabilize eder ve üretim etkisini iyileştirir. Deneyler, önerilen E-GAN'ın ikna edici görüntü oluşturma performansına ulaştığını ve mevcut GAN'ların yapısal eğitim sorunlarını azalttığını göstermektedir.

Bu çalışma, MIT Technology Review tarafından "PhysicsarXiv'in En İyisi" listesinde yer aldı.

Hepimizin bildiği gibi, derin sinir ağlarının bir özelliği vardır, yani geniş parametre alanı ve yüksek model karmaşıklığı. Geleneksel istatistiksel öğrenme teorisi, parametre alanı ne kadar büyükse ve modelin karmaşıklığı ne kadar yüksekse, eğitim verilerine uyma kabiliyetinin o kadar güçlü, ancak genelleme kabiliyetinin o kadar kötü olduğuna inanmaktadır.

Evrensel yaklaşım teoremi, gizli bir katmana sahip geleneksel çok katmanlı algılayıcının herhangi bir veriye uyabileceğini kanıtlamıştır. Örneğin, böyle bir model ImageNet gibi verilere uyabilir. Öyleyse, neden ilk altı katmanlı AlexNet'ten sonraki 152 katmanlı ResNet'e kadar ağın derinliğini artırmaya devam ediyoruz ve hatta insanlar yüzlerce ağ katmanını kullanıyor? Çünkü hepimiz bu tek gizli katman modelinin küçük bir eğitim hatası alma şansı olduğunu biliyoruz, ancak genelleme yeteneği çok zayıf. Diğer bir deyişle, test sonuçları iyi değil.

Bir makine öğrenimi modeli için, eğer eğitim hatası test hatasından çok daha küçükse, o zaman fazla uyuyor demektir. Mevcut istatistiksel öğrenme teorisi çerçevesinde, sinir ağları için çözülmemiş iki sorun vardır: Birincisi, model karmaşıklığı çok yüksek olan derin bir sinir ağı neden aşırı uyum sağlayamıyor? İkincisi, ne kadar derin o kadar iyi?

Bilgi teorisinde bilgi işleme eşitsizliklerini kullanarak, son çalışmamız ilginç bir sonuca ulaştı: derin sinir ağlarının genelleme hatası, katman sayısı arttıkça katlanarak azalacak. Bu sonuç bize prensipte eğitim hatasının yeterince küçük olduğu varsayımına göre ağ ne kadar derinse o kadar iyi olur.

Akıl yürütme ve davranışsal görevler: resimlerle diyalog ve soru cevap

Muhakeme ve davranışla ilgili olarak da bazı çalışmalar yaptık. Burada taklit öğrenme, görsel soru cevaplama ve görsel diyalogdan bahsediyorum.

Şu anda, herhangi bir robotun ana etkileşim yöntemi, ayarlanmış prosedürler ve parametrelerdir. Ancak mevcut robotlar kameralar kurdu, bu nedenle gelecekte robotların öğrenmenin etkisini elde etmek için insan hareketlerini gözlemleyebileceğini ve taklit edebileceğini umuyoruz.

Resimlerle soru-cevap, görsel içeriğin ayrıntılı içerik anlayışını etkileşimli bir soru-cevap yolu ile çözmeyi amaçlamaktadır. Herhangi bir resim göz önüne alındığında, kullanıcılar görüntünün içeriği hakkında sorular sormak için doğal dili kullanır ve algoritma, doğru doğal dil yanıtları sağlar. Tipik bir görsel soru-cevap çerçevesi temel olarak üç modül içerir: görsel özelliklerin ayrıntılı ifadesi, görsel dikkat öğrenimi ve çok modlu özelliklerin ince taneli füzyonu.

Üç temel modül için daha etkili yöntemler önerdik. Böyle bir model, robotlar ve insanlar arasındaki etkileşim için de çok önemlidir. Görsel soru cevap standart veri seti VQA v2'nin gerçek zamanlı sıralamasında, yöntemimiz sektördeki en iyi seviyeye ulaştı.

Resimlere bakarak soru cevaptan daha karmaşık olan ilgili bir görev görsel diyalogdur. Resimleri sorgulama ve cevaplama görevi ile karşılaştırıldığında, resim diyaloğunda iki zorluk vardır: ilki, bağlamsal referans ilişkisi olan tarihsel diyalog sorusudur. İkincisi, benzer cevapların nasıl ayırt edileceğidir. Son rekabette bu iki konuyu etkin bir şekilde değerlendirdik ve iyi sonuçlar elde ettik.

Son olarak herkesi bu fotoğrafa bakmaya davet ediyorum. Şimdi, burada kaç kişi olduğunu sormuyorum, ama ne yapıyorsun? Sanırım bana bir anda bu insanların maçı izlediğini söyleyebilirsin. Bu fotoğrafın içeriği, konuşmanın başındakinden tamamen farklı. Bu fotoğraf herkesin bir grup fotoğrafı. fakat Bilgisayar için iki fotoğraf arasındaki farkı cevaplamak hala çok zor Bu kadar basit bir soruyu cevaplayabilmek için eğitim için en azından büyük miktarda veriye ihtiyaç var.

Bu tür bir zeka ihtiyacımız olan yapay zeka mı? Belli ki değil, Gelecekte bilgisayarlarımızın birçok yönden insanlarla ortak özelliklere sahip olacağını umuyoruz. Bu nedenle, bilgisayarların daha iyi akıl yürütme ve davranış yeteneğine sahip olmasını sağlamalıyız.

hepinize teşekkür ederim!

Baotu Bahar Fener Festivali yeni yılın ilk gününde parlıyor! Muhteşem Karnaval, 40. seansın en iyileri bir araya geldi
önceki
Polis Chengdu'dan Panzhihua'ya bir uyuşturucu ağını imha etti ve 11 kilo uyuşturucu ele geçirdi
Sonraki
ABD'deki ünlü bir tıp merkezini ziyaret ettikten sonra, Tsinghua Akademisyeni Dong Jiahong "4I stratejisini" önerdi.
Kaynaklar | Python anahtar ifadelerini mi unuttunuz? Bu not hafızanızı kaydeder (indirme eklidir)
Shukurov, ayak bileği kırığı nedeniyle 2 aydır dışarıda olacak ve Wei Shihao için Evergrande ile alenen araya girdi.
SpaceX, önümüzdeki yıl ayın etrafındaki ilk insanlı uçuşunu duyuracak
Süper Lig'in en muhteşem takımı! Arka arkaya üç maçta geri sayım golleri vardı ve 8 gol patladı ancak kazanılamadı
Özel Yapay zeka balonu patlayacak ve endüstri büyük bir değişiklik mi başlatacak?
Risk Sermayesi Gözlemi 3G / 4G endüstri döngüsünden elde edilen 5G yatırım fırsatları
Büyük geri dönüş! Fransız süperstarı önemli bir karar verdi ve Barselona'ya katılmak için maaşını kesmeyi reddediyor
Genç nesil lüks alımlarda ana güç haline geldi ve Çin, pazarın üçte birini işgal ediyor!
Makine öğrenimi interneti değiştirir, fizikçiler Silikon Vadisi'ni yeniden tanımlayacak
Juventus koçu 1 büyük kötü haberi kabul ediyor! Bir numaralı süperstar, Şampiyonlar Ligi açılışını kaçırabilir
Özel 5 TensorFlow envanteri ve makine öğrenimi kursları, programcı avantajları (kaynaklarla)
To Top