AAAI 2020 | Sun Yat-sen Üniversitesi HCP Lab: Ağaç yapısı stratejisine dayalı aşamalı pekiştirmeli öğrenme, kod açık kaynaktır

Yazar | Wu Jie

Düzenle | Deve

Bu makale Sun Yat-sen Üniversitesi hakkındadır. Pekin Havacılık ve Uzay Bilimleri Üniversitesi ve DMAI, AAAI2020 tarafından kabul edilen "Videoda Geçici Dil Topraklaması için Ağaç Yapılı Politika tabanlı Aşamalı Güçlendirme Öğrenimi" başlıklı çok modlu video anlayışıyla ilgili bir makaleyi tamamlamak için işbirliği yaptı. Anlamak için okuyun.

Kağıt bağlantısı: http : //colalab.org/media/paper/AAAI2020-Tree-Structured.pdf

Kod bağlantısı: https: // github .com / WuJie1010 / TSP-PRL

Tez motivasyonu

Videoda Geçici Dil Topraklaması (Videoda Doğal Dil Temellendirmesi), videonun anlaşılmasında yeni ve zorlu bir görevdir. Amacı, videodaki belirli bir cümle açıklamasına karşılık gelen video bölümünün zaman sınırını belirlemektir. Bu görev, dil ve video gibi modalitelerin füzyon anlayışını ve dil ile görsel modaliteler arasındaki ortak anlamın modellenmesini gerektirir. ilişki . Mevcut yöntemlerin çoğu verimsiz ve esnek değildir, yoğun sürgülü pencerelere dayanırlar ve kesişen birçok sürgülü pencereye uyması veya kapsamlı bir şekilde eşleşmesi gerekir. aramak Öte yandan, mevcut yöntemler yorumlanabilirlikten yoksundur ve insan muhakeme mekanizmasından sapmaktadır.

İnsanlar videodaki açıklamayı bulduklarında, genellikle bir ilk video segmenti sınırını varsayarlar ve cümle açıklaması ile sınır içindeki video segmenti arasındaki anlamsal farkı karşılaştırır ve analiz ederler. Ardından, sınırı ayarlamak için yakınlaştırma veya hareket ettirme gibi bir dizi sürekli eylemi adım adım gerçekleştirin. İnsan düşünce paradigmasının derinlemesine incelenmesi, insanlar genellikle daha makul ve açıklanabilir bir karar vermek için kabadan inceye bir düşünme süreci yürütürler. Bu yukarıdan aşağıya, genelden ince muhakeme modeli, makine çevirisi ve metin özetleme gibi görevlerde incelenmiştir.

Şekil 1: TSP-PRL, görevi kabadan en inceğe doğru yinelemeli bir optimizasyon süreci olarak formüle eder.

Dayalı, Biz Sınırların sırasını ayarlamak için yinelemeli bir optimizasyon süreci kullanan bir ağaç yapısı stratejisine dayalı yeni bir aşamalı güçlendirme öğrenme (TSP-PRL) çerçevesi önerilmiştir. Çerçeve, karmaşık eylem stratejilerini etkili bir şekilde ayrıştırarak, aramak Alanı azaltırken aramak Daha makul bir şekilde daha iyi sonuçlar almak için gereken adımların sayısı.

Tez yöntemi

Ağaç yapısı stratejisi

Bu sayfada, Biz Görev, bir durum sS, eylem grubu ve transfer işlevi olarak ifade edilen bir Markov karar süreci olarak formüle edilmiştir. TSP-PRL'deki ağaç yapısı stratejisi, bir kök stratejisi ve bir yaprak stratejisinden oluşur ve sırasıyla kök stratejinin ve yaprak stratejisinin eylem seçimini temsil eder. TSP-PRL, tüm ilkel eylemleri, temsilcinin hareketinin uzaklığına ve yönüne göre semantik kavramlarla ilgili beş kategoriye ayırır: ölçek değişikliği, önemli sola kaydırma, önemli sağa kaydırma, hafif sola ayar ve hafif sağ ayar.

Bu anlamsal kavramlar, ağaç yapısının kök stratejisinin dalları olarak açıkça ifade edilir.Kök strateji, önce anlamsal boşluğu en aza indirebilecek dalı kabaca tahmin eder ve ardından yaprak stratejisi, seçilen dala göre daha rafine bir eylem gerçekleştirir, böylece sınırı ayarlar. . Model aracı, bir dizi sürekli atomik eylem elde etmek için ağaç yapısı stratejisini tekrar tekrar çağırır, böylece anlamsal boşlukları ortadan kaldırır ve doğru zaman sınırlarını kademeli olarak elde eder.

Şekil 2: TSP-PRL çerçevesinin akış şeması.

Kök strateji, aramayı öğrenmek için tasarlanmıştır. doğru Yaprak stratejisi:

1) Tahmin sınırının ölçeği doğru Sınırın ölçeği eşleşmediğinde, ölçek dönüştürme stratejisi seçilmelidir;

2) Tahmin sınırı çok uzakta olduğunda doğru Sınırda, temsilci önemli bir sola kaydırma veya önemli bir sağa kaydırma stratejisi uygulamalıdır;

3) Tahmin sınırı şu noktada olduğunda doğru Sınırların belirli bir kesişme noktasına ancak bazı sapmalara sahip olması durumunda, temsilci hafif bir sol ayar ve hafif bir sağ ayarlama stratejisi uygulamalıdır.

Her zaman adımında, ağaç yapısı stratejisi ilk olarak kök stratejiden örnekler alır ve ardından seçilen anlamsal dalla ilgili yaprak stratejisi ll'den ortama gönderilen eylemleri örnekler:.

Artımlı pekiştirmeli öğrenme stratejisi

Ağaç yapısı stratejisi, aşamalı pekiştirmeli öğrenme yoluyla optimize edilir. Aşamalı pekiştirmeli öğrenme görev odaklı ödül ayarlarının sağlayabilmesi gerekir doğru Kredi tahsisi kademeli olarak optimize edilir ve temel strateji ve yaprak stratejisi, temsilciyi doğru konumlandırma sonuçları elde etmek için daha az adım atmaya teşvik etmek için kademeli olarak optimize edilir. Biz Görev odaklı iki ödül işlevi tanımlanmıştır: İlk ödül, eylemin mevcut çevre üzerindeki etkisini yansıtan yaprak ödülüdür. IoU süresi, yani doğrudan ortamdaki değişim yoluyla elde edilebilir:

İkinci ödül ise kök ödülüdür.Kök strateji tarafından gerçekleştirilen işlemler, kapsamlı ve kapsamlı sağlamak için doğrudan çevre ile etkileşime girmediğinden doğru Kredi tahsisi, iki ödül öğesini içerecek şekilde tanımlanır: 1) içsel ödül öğesi, anlamsal dalın seçimini yansıtır; 2) harici ödül öğesi, seçilen şube tarafından gerçekleştirilen sonraki eylemlerin çevresel etkisini yansıtır. Kök stratejinin üst düzey anlamsal dalları seçme yeteneğini tahmin etmek için model, beş farklı IoU oluşturmak için tüm olası dalları geçer. Bu beş IoU arasındaki en büyük IoU olarak tanımlanır. Ardından kök ödül tasarımı aşağıdaki gibi :

Şekil 3: Ağaç yapısı stratejisinin yinelemeli optimizasyon süreci.

Aynı zamanda, kök ve yaprak stratejilerinin optimize edilmesi, eğitim sürecinin farklı olmasına neden olacaktır. kararlı . Bu durumdan kaçınmak için, Biz Aşamalı bir takviye öğrenme optimizasyon süreci tasarlanır: her yineleme kümesi için bir strateji sabit tutulur ve yalnızca başka bir strateji eğitilir. Yinelemeye ulaştığında, eğitim stratejisini değiştirir. Ağaç yapısı stratejisine dayalı aşamalı pekiştirme öğrenimi şu şekilde özetlenebilir:

Bunlar arasında, eğitim stratejisi seçimini gösteren ikili bir değişken vardır. Tüm eğitim sürecindeki yineleme sayısını temsil eder. Bölme işleminin alt sınırı mı Tamsayı , Modüler bir işlevdir. Ve sırasıyla temsilci Kök ve yaprak stratejisinin kayıp işlevi. Bu iki strateji, eğitim sürecinde birbirini destekler, yaprak stratejisi, kök strateji için doğru dahili ödüller sağlar ve kök strateji, uygun olanı seçer. Yüksek seviye Yaprak stratejisini daha da iyileştirmek için anlamsal dal. Bu aşamalı optimizasyon, temsilcinin güçlendirme öğrenme ortamında kazanmasını sağlar kararlı Ve mükemmel performans.

Deneysel sonuçlar

Ağaç yapısı stratejisinin etkinliği

Ağaç yapısı stratejisinin önemini doğrulamak için, Biz Ağaç yapısı stratejisini TSP-PRL'den silen ve durum özelliklerini doğrudan orijinal bir eylemle eşleştiren "TSP-10 olmadan Bizimki" olarak adlandırılan düz bir strateji tasarlanır. Deneysel sonuçlar, keşif adımlarının sayısı azaldıkça performansının önemli ölçüde azalacağını göstermektedir, bu da düz stratejinin daha iyi sonuçlar elde etmek için büyük ölçüde adım sayısına bağlı olduğunu göstermektedir.

ancak, bizim Yöntem, daha az adımda mükemmel performans elde edebilir. Ağaç stratejisinin çevrenin durumunu daha iyi algılayıp algılayamayacağını ve karmaşık stratejileri ayrıştırıp çözemeyeceğini daha fazla araştırmak için, Biz Her zaman adımında ve IoU aralığındaki seçimi özetler Yüksek seviye Anlamsal dalların oranı.

Biz Daire stratejisinin her zaman ince ayarlara göre şubeleri seçme eğiliminde olduğu ve zaman adımı ve IoU'nun etkilenmediği gözlemlenebilir. hassas . Bununla birlikte, TSP-PRL, anlamsal boşluğu daha hızlı azaltmak için ilk birkaç adımda önemli harekete dayalı dalları seçmeyi başardı.

IoU arttığında veya zaman adımı arttığında, ince ayar dalı kademeli olarak baskın hale gelir ve sınır ince ayarlanır. Bu bulgu, ağaç yapısı stratejisinin, düz stratejilerin öğrenemeyeceği karmaşık stratejileri bulma yeteneğini geliştirmek için karmaşık eylem stratejilerini etkili bir şekilde ayrıştırmaya yardımcı olduğunu göstermektedir.

Son teknoloji yöntemlerle karşılaştırma

Charades-STA'da, ActivityNet veri setinin deneysel sonuçları, TSP-PRL'nin bu iki veri setinde en gelişmiş performansı elde edebileceğini kanıtlamaktadır.

Denetimli öğrenmeye (SL) dayalı yöntemlerle karşılaştırıldığında, TSP-PRL daha esnek sınırlar elde edebilir ve aramak Ve kapsamlı bir şekilde sürgülü pencereler. SL yöntemi aşırı uyuma karşı savunmasızdır ve bu görevi yorumlanabilirlikten yoksun bir kara kutu gibi ele alır.

Ve TSP-PRL, daha etkili ve aydınlatıcı konumlandırma sonuçları elde etmeye yardımcı olur. Ablasyon deneylerinin sonuçları ayrıca TSP-PRL'nin (1) öğrenilemeyen düz stratejiler (ağaç dışı stratejiler) bulmanın karmaşıklığını etkili bir şekilde iyileştirebileceğini göstermektedir. politika (2) Daha uygun kredi tahsisi sağlayın ve ağaç yapısını kademeli olarak optimize edin politika ; (3) Daha doğru bir durdurma sinyali belirleyin.

Daha AAAI 2020 bilgileri "AAAI 2020 Değişim grubu "" ve gruba katılmanın yolu: AI Yanxishe 2 asistanını (AIyanxishe2) ekleyin, "AAAI" not edin ve gruba katılmaya davet edin.

AAAI 2020 Bildirileri: AAAI 2020 Kağıt Yorumlama Toplantısı @ (PPT ile indir )

AAAI 2020 kağıt yorumlama serisi:

01. Tanıma ve çeviri etkileşimi yoluyla daha iyi bir sesli çeviri modeli oluşturun

02. "Hedef algılama" ve "örnek bölümleme" nin karşılıklı yararını keşfetmek için yeni bir bakış açısı ilişki

03. Bilineer havuzlamaya yeni bir perspektiften bakıldığında, artıklık ve ani problemlerin özü nereden geliyor?

04. Görüntü sekansları için hikayeler oluşturmak için sahne grafiklerini kullanın

05. 2100 Glory of Kings oyunu, 1v1 kazanma oranı 99 .8%, Tencent Jue Wu AI teknolojisi yorumu

06. Çok görevli öğrenme, daha iyi bir parametre paylaşım mekanizması nasıl tasarlanır?

07. Kelimeleri unuttunuz mu? Bu model size yardımcı olabilir | Çok kanallı ters sözlük modeli

08. DualVD: görsel diyalog için yeni bir çerçeve

09. BabelNet ile çok dilli Yiyuan bilgi tabanı oluşturun

10. Boşluğun doldurulması kolaydır: uçtan uca konuşma çevirisinde ön eğitim ve ince ayar için bağlantı yöntemi

11. Zaman iki boyutlu olabilir mi? İki boyutlu zaman haritasına dayalı video içeriği segmenti algılama

12. Daha az kullanıldı ilişki Sinir ağı kartopu öğrenme mekanizması

13. Çözülme modeli aracılığıyla anlamsal ve gramatik beyin temsil mekanizmasının keşfedilmesi

14. Çok modlu kıyaslamalar tarafından yönlendirilen üretken çok modlu otomatik özetleme

15. Farklı çeviriler oluşturmak için çok başlı dikkat mekanizması kullanın

16. Bilgi grafiğini genişletmek için sıfır örnek öğrenme (video yorumlama)

17. Görüntü sorgusuna dayalı video alımı, kod açık kaynak kodludur!

18. NAS tabanlı GCN ağ tasarımı (video yorumlama)

28. İkili görünüm sınıflandırma , İyileştirmek için birden çok zayıf etiket kullanma sınıflandırma verim

Hangi Çin Yeni Yılı beyiti güçlü, yapay zeka çılgın
önceki
Alt markalar saldırır, NetEase Cloud Music "yolu savunur"
Sonraki
"2020 Bilim ve Teknoloji Eğilimleri Raporu": Yapay zeka ve Çin, geleceğin teknoloji dünyasında anahtar kelimeler haline geldi
Çin'de 200 milyar yuan'dan fazla evcil hayvan pazarı nedir?
Ali atıştırmak için dışarı çıktı, korkarım ki üç sincap, Liangpin Shop ve Baicao titriyor olmalı
Salgın sonrası dönemde perakende sektörü: Kullanıcı operasyonları aracılığıyla mağaza verimliliği nasıl artırılır?
Wutong Tree Capital Tong Weiliang: Dijital Ekonomi Reformu Kapsamında Yatırım Fırsatları | Yatırımcılar
Çin İşletmelerinin Yaşamı ve Ölümü "Eğitim Birlikleri" | Titanium Medya Kapağı · Mart
Davos Birinci Mali Oturumu | Çin mali açılımını hızlandırdı, bundan sonraki adım nedir?
Bilim ve Teknoloji İnovasyon Kurulu Kabulü | 4 Bilim ve Teknoloji İnovasyon Kurulu hisseleri% 10'dan fazla arttı, ilk kar amacı gütmeyen şirket ilk gün% 120'den fazla arttı
Fon Kabulü | Ağır hacim düştü, A hisseli domuz yılı sona erdi! Bu fonlar neden piyasaya karşı yükseliyor?
Tekrarlanan 8 resim Domuz yılının son işlem günü, Şangay Endeksi 3000 puan kaybetti
COVID-19'a yanıt olarak veba felaketinden ne öğrenebiliriz?
Yangtze Nehri Havzasının yangın tarihini insan faaliyetleri rahatsız
To Top