Yazar: Lu Sidi Şangay Jiaotong Üniversitesi
Xin Zhiyuan Rehberi Şangay Jiaotong Üniversitesi'nin APEX laboratuvar araştırma ekibi işbirliğine dayalı eğitim önerdi Jeneratör (G) ve harmonizörü (M) dönüşümlü olarak eğiterek, mevcut dağıtım ile hedef dağıtım arasındaki JS sapması herhangi bir ön eğitim olmadan istikrarlı bir şekilde azaltılabilir. Ve üretim performansı ve tahmin performansında önceki algoritmaları aşıyor. Ayrık dizi modelleme görevleri için, algoritmanın modelin ağ yapısını değiştirmesine gerek yoktur ve aynı zamanda hesaplama maliyeti, evrensel ve verimli bir algoritma olan nispeten idealdir. Bu makale, tezin ilk yazarı Lu Sidi'nin getirdiği yorumdur.
Kağıt adresi: https://arxiv.org/pdf/1804.03782.pdf
GitHub: https://github.com/desire2020/Cooperative-Training
Üretken modeller, denetimsiz öğrenme alanında önemli bir konudur. Sürekli verilerin modellenmesi için (resimler gibi), 2014 yılında Generative Adversarial Network'ün (GAN) yayınlanmasından bu yana, araştırmada çok ilerleme kaydedildi. Bununla birlikte, ayrık veriler için, özellikle ayrık dizilerin modellenmesi ve oluşturulması için, bu sorun üzerine yapılan araştırmalar henüz tatmin edici bir ilerleme sağlamamıştır.
Bu tür bir veri modelleme problemi için klasik algoritmalar Maksimum olasılık tahmini (Maximum Likelihood Estimation, MLE) ideal bir algoritma olarak adlandırılamaz. Sınırlı verilerle, üretken görevlere tam olarak uymaz. Aşağıdaki şekilde gösterildiği gibi, MLE, tek taraflı KL sapmasını KL (P || G) optimize etmeye eşdeğerdir:
KL sapmasının asimetrisinden dolayı, MLE'nin nesnel işlevi tahmin hataları için daha iyi bir ceza verebilir ve sonra bunları düzeltebilir; ancak olası üretim hataları için MLE iyi bir rol oynamaz.
Bu soruna yanıt olarak, araştırmacılar Sıra Üreten Karşıt Ağ (SeqGAN) . SeqGAN, MLE problemlerini ele almak için bu alandaki erken girişimlerden biridir.GAN'ın amaç işlevini optimize etmek için takviye öğrenmeyi kullanır, yani:
Klasik algoritma ile karşılaştırıldığında SeqGAN, örnek oluşturma kalitesinde bazı iyileştirmelere sahiptir. Bununla birlikte, rakip ağların doğasında var olan istikrarsızlık nedeniyle SeqGAN genellikle öngörücü görevlerde yetersiz performans gösterir. Ek olarak, politika gradyanı yönteminin politika tabanlı pekiştirmeli öğrenme (Politikaya dayalı Güçlendirmeli Öğrenme) yeteneği nedeniyle, SeqGAN tek başına kullanılamaz ve ön eğitim için MLE gerektirir.
Bu soruna yanıt olarak, Şangay Jiaotong Üniversitesi'nin APEX laboratuvar araştırma ekibi, Kooperatif Eğitimi , Jeneratör (G) ve uzlaştırıcıyı (M) dönüşümlü olarak eğiterek, mevcut dağıtım ile hedef dağıtım arasındaki JS farklılığı herhangi bir ön eğitim gerekmeden istikrarlı bir şekilde azaltılabilir ve üretim performansı ve tahmin performansında önceki algoritmaları geride bırakır. Ayrık dizi modelleme görevleri için, algoritmanın modelin ağ yapısını değiştirmesine gerek yoktur ve aynı zamanda hesaplama maliyeti, evrensel ve verimli bir algoritma olan nispeten idealdir.