g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Chapel Hill'deki Kuzey Karolina Üniversitesi: Video, kitlenin sohbet tepkisini kullanarak tahmini öne çıkarıyor

EMNLP 2017 Düzenli Bildiriler

Video, kitlenin sohbet tepkisini kullanarak tahmini öne çıkarır

Kitle Sohbet Tepkilerini Kullanan Video Vurgu Tahmini

Kuzey Karolina Üniversitesi, Chapel Hill

UNC Chapel Hill

Özet Spor kanalı video portalı, çok modlu ve çok dilli analiz çalışmaları için heyecan verici bir araştırma alanı sağlar. Karmaşık İngilizce ve Geleneksel Çince argo içeren gerçek dünyadaki izleyici konuşmaları için ortak görsel özelliklere ve metin analizi yöntemlerine dayanan otomatik video vurgu tahminini çözmek için bir yöntem öneriyoruz. Twitch.tv kanalında Kuzey Amerika ve Tayvan'dan League of Legends Şampiyonası için yeni bir veri seti sağlıyoruz (daha fazla araştırma için yayınlanacak) ve gücünü göstermek için bu veriler üzerinde çok modlu, karakter seviyesinde CNN-RNN model mimarisini kullanıyoruz. sonucu.

1. Giriş

Çevrimiçi e-spor etkinlikleri, büyük ölçekli sosyal etkileşimlerin gözlemlenebildiği yeni bir ortam sağlar ve bu, esas olarak zaman içinde gelişen görsel bir hikayeye, video oyunlarına odaklanır. Spor oyunları izlemek binlerce yıldır ana eğlence kaynağı olmasına ve günümüz kültürünün önemli bir parçası olmasına rağmen, e-spor birçok yönden bu sorunu yeni bir seviyeye taşımıştır. İlki küresel kapsamdır.Aynı oyun dünya çapında farklı kültürlerde ve farklı dillerde popüler olabilir. İkincisi, rekabette herkese açık olan ve analizi değiştirebilen metin tabanlı çevrimiçi sohbetin ölçeğidir. En popüler oyunlardan biri olan "League of Legends", 2016 World Series finalleri (18 dilde yayınlanır) 43 milyon görüntüleme çekti ve en yüksek eşzamanlı izleyici oranı 14,7 milyondu ( / en_US / makaleler / 2016-lig-efsaneleri-dünya-şampiyonası-sayıları). Sonunda, oyuncular ekranda gördükleriyle etkileşime giriyor ve hayranlar (ve araştırmacılar) tamamen aynı görünümü görebiliyor.

E-sporla ilgili çok sayıda etkileşime dayanan bu makale, hedef kitlenin çevrimiçi sohbetine ve maç video kayıtlarına dayalı bir maç videosu özeti tahmin modeli oluşturur. E-spor muhabirleri ve hayranları, oyundaki önemli anların harika videolarını oluşturdu. Buna dayanarak, bu makale çok modlu CNN + RNN modeli aracılığıyla çoklu dil koşulları altında otomatik tahmin teknolojisinin toplanmasını araştırmaktadır. Bu görevin doğal bir olay olduğuna dikkat edilmelidir, çünkü topluluk büyük miktarda küresel çok dilli ve çok modlu gerçek veri üretmiştir.

Vurgu tahmini, belirli bir videodaki (bu durumda bir oyundaki) heyecan verici anları yakalamaktır ve bağlama, oyun durumuna ve oyunculara bağlıdır. Heyecan anını tahmin etme görevi, tüm oyunun bir özetini oluşturmaktan farklıdır. Vurgu tahminleri, hayranlardan gelen gerçek zamanlı metin yorumlarından yararlanabilir ve bilgisayarla görme teknikleriyle mümkün olmayan (oyun durumunun belirli yönlerini kolayca belirleyebilen) daha fazla arka plan bağlamını ortaya çıkarmak için değerlidir. . Örnek olarak, bilgisayar görüşü Michael Jordanın başka bir oyuncuya karşı smaçlarının neden mükemmel bir performans olduğunu anlamayabilir ve eşzamanlı hayran yorumları bunu ortaya çıkarabilir.

Entegre yorum içeren gerçek zamanlı bir akış platformu olan (bkz. Şekil 1) ve en büyük canlı video oyun platformu olan Twitch.tv'den veri topluyoruz. En büyük e-spor oyununun iki etkinlik alt kümesi olan League of Legends (LOL) oyunlarını kaydediyoruz: 1) Kuzey Amerika League of Legends Bahar Şampiyonlar Ligi (NALCS); 2) Tayvan / Hong Kong / Macau League of Legends Masters (LMS), Sohbet yorumları sırasıyla İngilizce ve Geleneksel Çince'dir. Yarışmanın her karesini işaretlemek için topluluk tarafından oluşturulan önemli noktaları kullanıyoruz.

Şekil 1: Yayın platformu fotoğrafları: (a) Twitch: League of Legends turnuva yayını, (b) Youtube: haber kanalı; (c) kişisel yaşam paylaşımı

Yeni veri setimize ek olarak, çok dilli karakter modellerine, derin öğrenmeye dayalı tek kare veya video dizisi seti görsel modeli LSTM-RNN'ye ve dil ve görsel modellerin bir kombinasyonuna dayalı birkaç deney de yaptık. Sonuçlarımız, görsel modellerin genellikle dile dayalı modellerden daha iyi performans gösterdiğini gösteriyor, ancak yine de görsel modellerin belirsizliğini ortadan kaldırmak için oldukça faydalı bazı dil modelleri oluşturabiliriz ve bu iki kaynağı birleştiren model en etkili olanıdır (çapraz çok dilli).

2. İlgili çalışma

Dil ve vizyon veri setleri, soyut üretme ve koleksiyon tahmini ile ilgili bazı çalışmaları kısaca tartıştık. Geçtiğimiz birkaç yılda, başlıklara odaklanan çok sayıda görsel ve dilbilimsel veri seti ortaya çıktı (Rashtchian vd., 2010; Ordonez vd., 2011; Lin vd., 2014) ve sonraki veri setleri görüntülere odaklandı. Belirli bölümler (Krishna ve diğerleri, 2016), ya göndermeli kelimelerin ifadesine odaklanır (Kazemzadeh ve diğerleri, 2014) ya da genel bağlama odaklanır (Huang ve diğerleri, 2016). Video için, benzer çalışmalar açıklamaları topladı (Chen ve Dolan, 2011) ve bazıları mevcut Betimleyici Video Hizmeti (DVS) kaynaklarını kullandı (Rohrbach ve diğerleri, 2015; Torabi ve diğerleri. al., 2015). Açıklamalara ek olarak, diğer veri setleri de görüntüleri ve dili ilişkilendirmek için sorular kullanır (Antol vd., 2015; Yu vd., 2015). Son zamanlarda, Tapaswi ve diğerleri (2016) bu yöntemi filmlere genişletti.

Video özetlerinin üretilmesiyle ilgili sorunlar (önemli noktalara bakmanın aksine), çok sayıda festival ve spor etkinliği veri seti oluşturmuştur. Özet videolar oluşturmak için birden fazla kullanıcı kullanırlar (Gygli ve diğerleri, 2014) ve kısa videolardan birden fazla kullanıcı. Anahtar kareleri seçin (de Avila ve diğerleri, 2011). Dil temelli özet oluşturma için, çıkarma modeli (Filippova ve Altun, 2013; Filippova ve diğerleri, 2015) önemli cümleleri seçer ve ardından bu cümleleri bir özet oluşturmak için birleştirir; üretken model ise (Chopra ve diğerleri, 2016 ; Mei et al., 2016; Nallapati et al., 2016; See et al., 2017) özetleri sıfırdan oluşturun / yeniden yazın.

Geçmişimize yaklaştıkça, mevcut futbol ve basketbol oyununda öngörülerin altını çizer (Cheng ve Hsu, 2006) (Wang ve diğerleri, 2004), yorumcular büyük etkiye veya görsel özelliklere sahip olabilir (Bertini ve ark. al., 2005). Açıkçası, spor etkinliklerinde tweetlere odaklanan bazı çalışmalar (Hsieh ve diğerleri, 2012) olmuştur, ancak bu tweetler e-spor yorumları kadar doğrudan veya oyunlarla tutarlı değildir. Çalışmamızla daha yakından ilgili olan Song (2016), Heroes of the Storm, League of Legends ve Dota2 gibi çevrimiçi yayın siteleri için yaklaşık 327 saat video topladı. Ayrıca dört etiketleyici ile işaretlenmiş vurgular sağlarlar. Başka bir deyişle, yöntemimiz de benzer miktarda veriye sahiptir, ancak mevcut koleksiyonları kullanıyoruz ve ayrıca dil ve görsel araştırma için yeni bir kaynak ve görev sağlayan metin tabanlı izleyici sohbeti yorumlarını da kullanıyoruz. Kısacası, video koleksiyonları için çok dilli, sohbet benzeri izleyici yanıtlarını içeren birinci dil video veri setini sağlıyoruz. Topluluk tarafından üretilen gerçek veriler, her çerçeve için bir etiket sağlar ve denetimli öğrenme için kullanılabilir. Dil açısından, bu yeni veri seti, gerçek dünyada İnternet tarzı argoya bazı ilginç zorluklar getiriyor.

3 Veri toplama

Veri setimiz, 2017'nin 1. haftasından 9. haftasına kadar olan ilkbahar etkinlikleri serisini kapsamaktadır. NALCS'den 218 video ve LMS'den 103 video olmak üzere toplam 321 video bulunmaktadır. Her hafta 10 NALCS oyunu ve 6 LMS oyunu var. Oyun, üç oyunlu iki galibiyetli bir sistemdir, bu nedenle iki veya üç oyundan oluşur. Birinci ve üçüncü turlar eğitim için kullanılır, önceki 4 haftanın ikinci turu doğrulama için kullanılır ve kalan ikinci tur test için kullanılır. Tablo 1 eğitim, doğrulama ve test alt kümelerindeki videoların sayısını listeler.

Tablo 1: Veri seti istatistikleri (birim olarak video sayısı)

Her oyunun video uzunluğu 30 ila 50 dakika arasında değişir ve bu, her oyunun belirtilen zaman damgasıyla ilgili görüntüleri ve sohbet verilerini içerir. Video başına ortalama sohbet sayısı 7.490'dır ve standart sapma 4922'dir. Yüksek standart sapma, esas olarak NALCS'nin oyunu aynı anda iki farklı kanalda (nalcs1 (https://www.twitch.tv/nalcs1) ve nalcs2 (https://www.twitch.tv/nalcs2)) yayınlaması gerçeğinden kaynaklanmaktadır. Bu, çoğu kullanıcının nispeten daha popüler takım maçlarını izlemesine ve sohbet sayısında dengesizliğe neden olur. Yalnızca LMS'yi tek kanallı yayın kullanarak düşünürsek, ortalama sohbet sayısı 7210 ve standart sapma 2719'dur. Her oyundaki ortalama seyirci sayısı 21.526, sohbete katılan ortalama kullanıcı sayısı 2.185, yani seyircinin yaklaşık% 10'u.

Vurgu işareti Her oyun için, topluluk tarafından oluşturulan 5 dakikadan 7 dakikaya kadar olan önemli anları topluyoruz. Verilerimizin tutarlılığını sağlamak için, iki Şampiyonlar Ligi için tutarlı bir düzenleme sağlayan tek bir Youtube kanalı Onivia'dan (https://www.youtube.com/channel/UCPhab209KEicqPJFAk9IZEA) topluyoruz. Bu tutarlılığın modelimizin öne çıkan özellikleri daha iyi seçmesine yardımcı olacağını umuyoruz.

Bundan sonra, vurgular videosundaki karenin konumunu tam oyun videosundaki kareyle hizalamamız gerekir. Bu amaçla, bir şablon eşleştirme yöntemi benimsedik. Videodaki ve koleksiyondaki her kareyi 4 × 4'lük 16 alana bölerek her alandaki her renk kanalının ortalama değerini karakteristik olarak kullanırız. Şekil 2'de gösterildiği gibi, her çerçevenin özelliği nihayet 48 boyutlu bir vektör olarak temsil edilir. Koleksiyondaki her kare için, bu iki vektör arasındaki mesafeyi hesaplayarak videonun tamamında en benzer kareyi bulabiliriz. Ancak, tek bir kareyi başka bir kareyle eşleştirmek gürültülü olabilir. Bu nedenle, bir pencere oluşturmak için sonraki kareleri birleştirebilir ve videoda en iyi eşleşen konumu bulmak için şablon eşleştirmeyi kullanabiliriz. Pencere boyutu 60 kare olduğunda tutarlı, yüksek kaliteli sonuçlar ürettiğini gördük. Her kare için, eşleşen sonuç yalnızca en iyi kare eşleştirme puanını değil, aynı zamanda videodaki eşleşmenin konumunu da içerir. (Pencere bir klip değiştirme sahneleri koleksiyonu içerdiğinde, en iyi eşleşme puanı çok düşüktür. Bu, koleksiyondaki tüm klipleri ayırmak için kullanılır. Daha sonra, videoyu işaretlemek için her klibin başlangıç ve bitiş konumlarını kullanabiliriz). Şekil 2 (b) bu eşleştirme sürecini göstermektedir.

Şekil 2: Vurgular ek açıklaması: (a) Her karenin özellik temsilini hesaplamak için her bölgenin ortalama renk kanalını kullanın. (b) Şablon eşleştirildikten sonra, üst sütun koleksiyondaki her karenin benzerlik eşleşmesinin maksimum değerini gösterir ve alttaki sütun videonun ek açıklama sonucunu gösterir.

4 modelleme

Bu bölümde önerilen model ve bileşenleri açıklayacağız. Önce sorunun sembolü ve tanımını ve kullanılan değerlendirme göstergelerini açıklıyoruz. Ardından, vizyon modelimiz VCNN-LSTM ve dil modelimiz L-Char-LSTM'yi açıklayacağız. Son olarak, ortak multimodal model lv-LSTM'yi açıklıyoruz.

Problem tanımı Temel görevimiz, girdi tamamlanmış videodaki bir karenin çıktı koleksiyonunun parçası olarak işaretlenip işaretlenmeyeceğini belirlemektir. Gösterimi basitleştirmek için, çerçevenin bir dizi özelliğini temsil etmek için X = {x1, x2, ..., xt} kullanırız. Sohbet C = {(c1, ts1), ..., (cn, tsn)} olarak ifade edilir. Her sohbet c'nin bir zaman damgası vardır. Görüntü özelliklerini ve / veya sohbet özelliklerini elde etme ve çerçeve etiketlemeyi tahmin etme yöntemi Y = {y1, y2, ..., yt} şeklindedir.

Değerlendirme indeksi Sgt olarak pozitif doğruluk etiketleri olan bir dizi çerçeveyi ve Spred olarak pozitif etiketleri olan bir dizi tahmini çerçeveyi gösteririz. (Gygli vd., 2014; Song vd., 2015) 'e göre, aşağıdakileri değerlendirmek için video özet oluşturma görevinde yaygın olarak kullanılan harmonik ortalama F skorunu kullanıyoruz:

V-CNN ResNet-34 modelini (He ve diğerleri, 2016) çerçeveleri temsil etmek için kullanıyoruz çünkü ImageNet Challenge'da iyi bir sonuca sahip (Russakovsky ve diğerleri, 2015). Saf V-CNN modelimiz (Şekil 3a), her bir karede doğrudan tahminler yapmak için bu ağın önceden eğitilmiş özelliklerini (https://github.com/pytorch/pytorch) kullanır (boyutunu 224x224 olarak ayarlayın).

V-CNN-LSTM Görselleştirilmiş video bilgilerini sırayla geliştirebilmek ve kullanabilmek için, uzun vadeli bağımlılıkları modellemek için görüntü özelliklerinin üstünde bellek tabanlı LSTM-RNN kullanıyoruz. Tüm videolarımız saniyede 30 kare (FPS). Ardışık çerçeveler arasındaki fark genellikle küçük olduğu için, değerlendirme işlemi sırasında her 10 çerçevede bir tahmin yapar ve bu çerçeveler arasında enterpolasyon yaparız. Eğitim süresi boyunca, GPU belleğindeki sınırlamalar nedeniyle LSTM birimini 16 kat genişletiyoruz. Bu nedenle, görüntü penceresi boyutu yaklaşık 5 saniyedir (30 fps videodan her 10 karede bir örnek alınır ve toplam 16 örnek örneklenir). Son hücreden gizlenen durum, V-CNN-LSTM özelliği olarak kullanılır. Bu süreç Şekil 3 (b) 'de gösterilmektedir.

L-Word-LSTM ve L-Char-LSTM Ardından, kitle sohbet metnini kullanan dil tabanlı bir modeli tartışacağız. Metin düzeyinde LSTM-RNN modeli (Sutskever ve diğerleri, 2014) cümleleri yerleştirmek için yaygın bir yöntemdir. Maalesef bu, İnternet argo tarzı dilimiz için uygun değildir, çünkü "yazım hataları" (hapy, happppppy), emoji (^. ^), Kısaltmalar (LOL), işaretler (?! ?!?!?!) veya onomatopoeia kullanımı (örneğin: 4 Geleneksel Çince "" telaffuzu gibi geliyor). Kişiler, yorumlarını ifade etmek için 44444444 gibi 4 farklı uzunlukta girebilirler.

Bu nedenle, bir seçenek olarak, izleyici sohbetini modellemek için karakter düzeyinde LSTM-RNN modelini (Graves, 2013) kullanıyoruz. Sohbet sunucusunda Unicode veya diğer temsillerin kullanımına göre, karakterin dili, Çince, İngilizce veya ifadeler, vb. Birden çok ASCII karakterine genişletilir. Her giriş ASCII karakteri için bir sıcak vektör derliyoruz. Her çerçeve için, L-Char-LSTM girişini oluşturmak için sonraki Wt saniyelerinde (metin penceresi boyutu) gerçekleşen tüm sohbetleri kullanırız. Tüm sohbetleri pencere boyutuna göre bağlar, özel bir durdurma karakteriyle ayırır ve ardından üç katmanlı bir L-Char-LSTM modeline göndeririz (bu durdurma karakterlerinin sayısı, sohbet sayısı için bir koddur. Bu nedenle, eğer öyleyse, Yararlı bir özellik, L-Char-LSTM'nin bu # sohbet mesajını kullanmayı öğrenebilmesidir. Ek olarak, Twitch.tv'deki bazı uygunsuz içerikler veya kanalın kendisi silinmiştir. Bu durumu değiştirmek için "\ n" sembolünü kullanıyoruz) . Bu model Şekil 3 (c) 'de gösterilmektedir. Bölüm 5'teki ayarlara göre, metin penceresi boyutunu 5 saniyeden 9 saniyeye kadar değerlendirdik ve şu doğruluğu elde ettik:% 32.1,% 29.6,% 41.5,% 28.2,% 28.2. Metin penceresi boyutu olarak 7 saniye ile en iyi sonuçları elde ettik ve bu ayarı diğer deneylerde kullandık.

lv-LSTM modeli Son lv-LSTM modelimiz en iyi görsel ve dil modellerini birleştirir: V-CNN-LSTM ve L-Char-LSTM. Görme ve dil modelleri için, sırasıyla V-CNN-LSTM ve L-Char-LSTM'den Fv ve Fl özelliklerini çıkarabiliriz. Ardından, Fv ve Fl'yi bağlayıp 2 katmanlı bir MLP'ye giriyoruz. Tam model Şekil 3 (d) 'de gösterilmektedir. Gelecekte, bilineer havuzlar (Fukui vd., 2016), bellek ağları (Xiong vd., 2016) ve dikkat modelleri (Lu vd., 2016) gibi daha ilgili temsil yöntemlerini kullanmayı umuyoruz. Bu yöntemi geliştirin.

Honda Dafa iyi olmalı mı? Kodiak GT'nin Guandao'ya "erkek olmayı" nasıl öğrettiğini görün

PC'de HD video izlemenin en iyi etkisini elde etmeyi öğretin!