Finans sektörü web sitesi haberleri Yakın zamanda, Zhejiang Üniversitesi-Tongdun Yapay Zeka Ortak Laboratuvarı tarafından yayınlanan "Sorgu Tabanlı Video Yerelleştirme için Aşağıdan Yukarı Çerçeveyi Yeniden Düşünmek" adlı makale, en iyi yapay zeka konferansı AAAI 2020'ye dahil edildi ve olay yerinde sözlü sunum olarak seçildi. ), sözlü raporların tüm konferans içinde kabul oranının sadece% 5,9 olduğunu belirtmekte fayda var.
Makale, Yukarıdan Aşağıya SOTA (Son Teknoloji) model algoritmasını aşan Aşağıdan Yukarıya video konumlandırma algoritmasının yeniliğini önermektedir.Video kliplerin geri getirme görevini çözmekte ve mevcut aşağıdan yukarıya modelin tasarım kusurlarını iyileştirmektedir. Ve yeni atılımlar elde etti. Yenilikçi başarılar, gelecekte video içeriği alma, içerik inceleme ve uyumluluk risk kontrol yönetim sisteminin oluşturulması için önemli uygulama değerine sahip olacaktır.
"Zhejiang Üniversitesi-Tongdun Yapay Zeka Ortak Laboratuvarı" nın kurulmasından bu yana, her iki taraf da akademik araştırma alanında sürekli olarak önemli sonuçlar elde etmiştir. Ortak laboratuvar resmi olarak 2018 yılında Zhejiang Üniversitesi Bilgisayar Bilimleri Fakültesi'nde profesör olan Zhuang Yueting ve Tongdun Technology'nin kurucusu ve CEO'su Jiang Tao ile birlikte kuruldu.
Ortak laboratuvar araştırma konuları, finans alanında uygulanan federe öğrenme algoritmalarının araştırılması, risk kontrol ortamları alanında doğal dil işleme, karmaşık ağlarda anormallik tespit yöntemleri ve görsel içerik anlama ve muhakeme algoritmaları üzerine araştırmalar dahil olmak üzere temel yapay zeka teknolojilerine yöneliktir. Akıllı analiz ve karar verme alanındaki temel teorilerde ve temel teknolojilerde atılımlar gerçekleştirmeyi ve endüstrinin akıllıca yükseltilmesini teşvik etmek için bunu finans, İnternet, ulaşım, hükümet ve halkla ilişkiler ve diğer alanlarla entegre etmeyi amaçlamaktadır.
AAAI 2020'de yer alan makale, ortak laboratuvarın bir dizi önemli başarısının bir mikrokozmosudur.Kağıt, mevcut video klip alma çerçevesinin (yukarıdan aşağıya model ve seyrek aşağıdan yukarıya model) avantajlarını ve dezavantajlarını analiz etmekte ve yeni bir önermektedir. Yoğun aşağıdan yukarıya çerçeve, mevcut çerçevenin tüm eksikliklerini önleyebilir. Aynı zamanda araştırma ekibi, omurga ağının kodlama yeteneklerini geliştirmek için grafik evrişime dayalı bir özellik piramidi katmanı tasarladı.
Aşağıdaki, gazeteden bir alıntıdır:
Sorgu tabanlı video konumlandırma görevinde, geçmişte tatmin edici bir performans göstermeyen Aşağıdan Yukarı ağ çerçevesinin potansiyeli yeniden değerlendirildi. Makale, çerçevenin omurgasını ve baş ağını yeniden tasarlayarak, iki tür sorgu tabanlı video konumlandırma görevinde Yukarıdan Aşağıya SOTA modelini geride bırakan Yoğun Tahminlere sahip Graph-FPN (GDP) modelini önermektedir.
Video konumlandırma algoritması çerçevesinin mevcut durumu
Mevcut video konumlandırma algoritmaları iki kategoriye ayrılabilir: Yukarıdan Aşağıya ve Aşağıdan Yukarı. Yukarıdan Aşağı yöntemi, videonun tamamını bir dizi aday kısa video halinde önceden keser ve ardından her aday videoyu sınıflandırıp geriler; Aşağıdan yukarıya yöntemi, sorguyu ve tüm videoyu girdi olarak alır ve her kareyi "başlangıç / bitiş" olarak çıkarır. İşaretleyicinin olasılık dağılımı.
Mevcut Yukarıdan Aşağı yöntemi, Aşağıdan Yukarı yönteminden daha iyi performans gösterse de, Yukarıdan Aşağı modelin not edilmesi gereken bazı çok kötü sınırlamaları vardır: ilk olarak, model performansı, geçici ölçek veya aday sayısı gibi sezgisel kurallara çok duyarlıdır; İkinci olarak, modelin geri çağırma oranını iyileştirmek için genellikle aday kısa videoları çok yoğun bir şekilde seçmemiz gerekir, bu da Yukarıdan Aşağıya yönteminin çok fazla hesaplama gerektirmesine ve daha yavaş bir konumlandırma hızına neden olmasına neden olur.
Bu sorunları çözmek için Aşağıdan Yukarı yöntemi önerilmektedir Standart Aşağıdan Yukarı yöntemi (aşağıdaki şekilde gösterildiği gibi) iki bölümden oluşur: omurga ve kafa ağı. Birincisi, genellikle sorgunun anlamını videonun her karesiyle ilişkilendirmek için ortak dikkat veya çapraz geçiş mekanizmalarını kullanır; omurganın çıkışı (sorgu-ref çerçeve dizisi), LSTM / RNN kodlamasından sonra ana ağa girer ve ağ her kareyi tahmin eder "Başlangıç / bitiş" etiketi olarak bir video karesinin olasılığı.
Yazar, iki parçalı ağ tasarımındaki kusurlar nedeniyle mevcut Aşağıdan Yukarı yönteminin Yukarıdan Aşağıya yöntemi kadar iyi olmadığına inanıyor.
Omurga hakkında:
-backbone, video kareleri arasındaki ilişkiyi modellemek için yalnızca RNN / LSTM kullanır ve sahneler arasındaki ilişkiyi (bir çerçeve kümesi) yok sayar;
-Backbone çoğunlukla düşük boyutlu özellik vektörlerini kullanırken, Aşağıdan Yukarı çerçevesi video konumlandırma için daha yüksek boyutlu anlamsal bilgi gerektirir.
Baş ağ hakkında:
-Videonun her karesini "başlangıç / bitiş" etiketleriyle sınıflandırın Mevcut verilerin temel gerçekliği son derece dengesiz bir veri kümesidir;
- Başlangıç çerçevesinin ve bitiş çerçevesinin etiketlenmesi bilinen yöntemlerde bağımsızdır ve bu da açıkça modelin yakalanan video içeriğinin tutarlılığını göz ardı etmesine neden olur.
Yeni Aşağıdan Yukarı model Yoğun Tahminler (GDP) ile Grafik-FPN
Bu makalede önerilen model GSYİH her iki bölümde de iyileştirilmiştir.Aşağıdaki şekil GSYİH'nın ayrıntılı bir resmini göstermektedir.
Omurgada, GDP, omurganın ifade yeteneğini geliştirmek için Graph-FPN katmanını sunar. Bu katman ilk olarak yüksek boyutlu anlamsal bilgileri daha iyi yakalamak için sorgu-ref çerçeve dizisi için piramit benzeri bir hiyerarşik yapı oluşturur; daha sonra bu çok ölçekli çerçeveleri bir düğümün bir sahneyi temsil ettiği sahne alanıyla eşler Son olarak, sahneler arasındaki ilişkiyi etkin bir şekilde modellemek için bu sahne alanında grafik evrişimi gerçekleştirilir.
Ana ağda, GDP, orijinal seyrek dağılım tahminini yoğun tahminle değiştirir: "başlangıç / bitiş" işaretleri arasındaki tüm video karelerini pozitif örnekler (ön plan) ve geri kalanını negatif örnekler (arka plan ). Aynı zamanda, her çerçeve bir sınır olarak güvenlerini puanlayacaktır. Bu şekilde, daha önce bahsedilen Aşağıdan Yukarı modelin dengesiz örnek dağılımı sorunu çözülür.
Birden çok test seti SOTA'dan daha iyi performans gösterir
Bu makale, iki ana görev türü, birden çok veri kümesinde (TACoS, Charades-STA, ActivityNet Captions ve Activity-VRL) Doğal Dilde Video Yerelleştirme ve Video Yeniden Yerelleştirme (Video Yeniden Yerelleştirme) üzerinde çalışmaktadır. Performans SOTA modelinden daha iyidir, aşağıdaki spesifik performansdır.
Baş ağın seyrek olup olmadığına bakalım ablasyon deneyinin sonuçlarına bir göz atalım (bkz. Tablo 3) Çoklu görevlerin çoklu veri setlerinde, Yoğun kafa ağını kullanan model genellikle daha iyi performansa sahiptir.
Son olarak, GSYİH modelini kullanmanın etkisine bir göz atalım: GSYİH'nın, çerçevenin daha iyi bir performans olan temel gerçeğe dahil edilip edilmediğine dair bu temel gerçek segmentinin ortasında olma eğiliminde olduğunu görebiliriz.