g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Spor yorumcusu olarak yapay zeka? Shanghai Jiao Tong Üniversitesi CVPR raporu, ayrıntılı bir video açıklama modeli öneriyor

Bu yaz heyecan verici bir sezon. NBA'in sıcaklığı dağılmadan önce, başka bir spor olayı - Dünya Kupası başlıyor. Sahadaki çaresiz sporcular, elinde kızarmış tavuk ve biranın yanı sıra harika bir maç izlememize eşlik eden özel bir rol sporları yorumcusu da var.

Harika yorumlar izleyicilerin ilgisini çekebilir, seyircilerin duygularını harekete geçirebilir ve tüm oyuna puanlar ekleyebilir. Öyleyse makine bu görevi üstlenebilir ve spor etkinliklerinin yorumcusu olabilir mi? Şangay Jiaotong Üniversitesi'nin ilgili araştırması gerçekten yapay zekanın mikrofonu eline almasını sağladı. Spor etkinliği videolarında ayrıntılı video (Spor Anlatısı için Ayrıntılı Video Altyazıları) açıklaması üzerinde araştırma yaptılar, yeni bir veri kümesi oluşturdular ve yeni bir değerlendirme mekanizması ve modeli önerdiler. Şu anda bu çalışma CVPR2018'e dahil edilmiştir.

Şekil | CVPR Konferansı (Kaynak: CVPR)

CVPR (Bilgisayarla Görme ve Örüntü Tanıma üzerine IEEE Konferansı, Bilgisayarla Görme ve Örüntü Tanıma Uluslararası Konferansı), IEEE tarafından düzenlenen bilgisayarla görme ve örüntü tanıma alanında en önemli konferanstır. Konferans bu yıl 18-22 Haziran tarihleri arasında ABD'nin Utah eyaletindeki Salt Lake City'de yapılacak. Bu yıl CVPR 3300'den fazla bildiri ve 979 bildiri aldı

Son yıllarda, video tanımlama alanında sonsuz sayıda yeni yöntem ve modellerin ortaya çıkmasına rağmen, videolar için otomatik olarak ince taneli açıklamalar oluşturmak, farklı kişilerin eylemlerinin ayrıntılı açıklamaları ve aralarındaki sık etkileşimler gibi sorun olmaya devam ediyor. Spor videosu, özellikle basketbol ve futbol gibi takım sporları gibi ayrıntılı video açıklamaları için çok iyi bir uygulama alanıdır.

Şekil | Geleneksel video açıklama görevi ve ayrıntılı video açıklama görevi. Ayrıntılı video açıklama sonuçları daha fazla ayrıntı ve etkileşimli ilişkiler içerir.

Geleneksel video açıklama görevleri, video içeriğini yalnızca "videoda futbol oynayan bir grup insan" gibi makro bir perspektiften açıklayabilir. Ayrıntılı video açıklaması, tek tek işlemlerin ve bunların etkileşimlerinin daha fazla açıklamasını içerir. Örneğin, "bir adam topu bir takım arkadaşına pas atar ve takım arkadaşı topu defans oyuncunun yanından geçer ve smaç atarak gol atar."

Basketbol ve futbol oyunları gibi birden çok etkileşimli birey içeren videolarda, ayrıntılı video açıklamasının özü, videodaki birden çok uzay-zamansal olayı birbiriyle ilişkili birden çok cümleyle eşlemektir. Bu görev iki zorlukla karşı karşıyadır. Birincisi, takımda çok sayıda karmaşık konu (forvetler, savunucular) ve hızla değişen hücum ve savunma durumları ve konumları vardır. Her bir bireyin yerini doğru bir şekilde belirlemek ve rollerini ve işlevlerini belirlemek çok zordur. İkincisi, bazı önemli eylemler ve bireyler arasındaki etkileşimler çok ince olabilir ve geleneksel kaba teftişler bu eylemleri tespit edemez. Bu, insan vücudunun makroskopik hareketinin, kemik hareketinin ve bireyler arasındaki etkileşimin hassas bir şekilde modellenmesini gerektirir.

Bu problemleri çözmek için, araştırmacılar, zaman ve uzay varlıklarının konumlandırma ve eylem ve etkileşim davranışının ince taneli modellemesini gerçekleştirmek için seviyelere göre gruplandırılmış döngüsel bir yapı modeli oluşturdular. Bu ağ yapısı üç bölümden oluşur:

Mekansal-zamansal varlık konumlandırma ve rol madenciliği alt ağı: sporcuların konumunu ve rolünü belirleyin.

İnce taneli hareket modelleme alt ağları: hızlı hareket eden kemikleri tanımlayın ve konumları dönüştürün.

Bir dizi ilişki modelleme alt ağları: sporcular arasındaki ilişkileri modelleme.

Son olarak, model, özellik vektörleri oluşturmak için yukarıdaki üç alt ağın özelliklerini bir araya getirmek için iki LSTM ağı kullanır. Daha sonra özellik vektörüne dayalı olarak doğal dil açıklamaları oluşturmak için iki yönlü bir codec bileşeni kullanılır.

Şekil | Model yapı şeması

Araştırmacılar, bu sorun için bir grup spor video açıklama veri kümesi olan yeni bir veri kümesi FSN (İnce Taneli Spor Anlatısı veri kümesi) oluşturdu. Önce YouTube'dan 50 yüksek çözünürlüklü NBA oyun videosu topladılar ve bunları 6000 klibe böldüler. Ardından, çok kısa ve düşük kaliteli olanları kaldırın ve bir veri kümesi oluşturmak için çeşitli ayrıntılı eylemler içeren 2000 parça seçin. Video basketbolun anlatım şekline göre işaretlenmiştir. Etiket iki bölümden oluşur: bir açıklama ve her bir açıklamanın başlangıç ve bitiş zamanı. Açıklama bölümü birden çok cümleden oluşur ve her cümle videodaki küçük bir bölüme karşılık gelen bir konunun eylemi içindir ve bu küçük bölümler birbiriyle örtüşür. Her konunun ayrıntılı eylemlerine odaklanmak, bu veri seti ile önceki veri seti arasında önemli bir farktır. Sonunda, veri seti 2000 video klip ve 6520 cümle içermektedir. Ortalama olarak, her video segmentinde 3.16 cümle ve 29.7 açıklayıcı kelime bulunur.

Şekil | Veri setinde cümle yoğunluğu ve fiil yoğunluğunun karşılaştırılması. FSN'nin çoğu eylem açıklaması daha ayrıntılıdır

Mevcut değerlendirme yöntemleri bu konu için geçerli olmadığından, araştırmacılar yeni bir değerlendirme indeksi FCE (İnce Tanımlı Altyazı Değerlendirme) önermişlerdir. Bu değerlendirme yöntemi sadece dil tanımının kalitesini dikkate almakla kalmaz, aynı zamanda temel eylemlerin ve bunların sırasının doğru bir şekilde belirlenip belirlenmediğini de dikkate alır.

Araştırmacılar ilk olarak modelin FSN veri kümesinde ayrıntılı açıklamalar oluşturma yeteneğini değerlendirdiler. Araştırmacılar, yeni modeli yalnızca farklı veri kümelerinde iyi sonuçlar elde eden mevcut modellerle karşılaştırmakla kalmadı, aynı zamanda etkilerini keşfetmek için yeni modelin farklı modüllerini kaldırdı. Deneysel sonuçları daha ikna edici kılmak için insan değerlendirmeleri de referans olarak tanıtıldı.

Şekil | Deneysel sonuçlar: her modelin CIDEr-D (C), METEOR (M), Bleu (B), Rouge-L (R), SPICE (S) ve FCE (F) üzerindeki puanları. Mavi veriler, FCE veri seti ve METEOR veri setindeki sonuçlardan göreceli değişimi gösterir Büyük azalma ayrıca ayrıntılı tanımlamanın zorluğunu da gösterir.

Deneysel sonuçlardan LSTM-YT modelinin en kötü etkiye sahip olduğu görülmektedir çünkü model yapısı birçok önemli bilgiyi kaybetmesine neden olmaktadır. Deneye katılan modelle karşılaştırıldığında, yeni model daha ayrıntılı bir açıklama oluşturabilir ve her görevde en iyi sonuçları elde edebilir.

Şekil | Spor yorumu sonuçlarına örnekler: Referans: Referans yorum; Tam Model: Yeni modeli tamamlayın

OF olmadan: Optik akış kullanmaz (ince hareketleri tanımlamanın anahtarı) TF'siz: Takım logoları kullanmaz (oyuncular ve rakipler arasında ayrım yapmak için)

Yukarıdaki şekildeki örnekten de görülebileceği gibi, model tarafından oluşturulan açıklama zaten daha doğrudur. Bununla birlikte, iyi bir anlatıcı olmak istiyorsanız, her eylemi doğru bir şekilde tanımlayabilmeniz yeterli değildir. Ayrıca ayrıntıları tamamlamak ve izleyicilere işaretler vermek için bol miktarda ilgili bilgi gerektirir (yukarıdaki dördüncü örnekte, model gol atma eylemini açıklar, ancak bunu üç sayılık olarak tanımlamaz). Seyircinin duygularını harekete geçirmek için esprili ve ayırt edici bir dile de ihtiyaç duyar. Bunlar iyi bir insan anlatıcının nitelikleridir.

Ancak insan yorumcunun da bariz bir kusuru vardır: İzleyiciye yalnızca belirli bir düzeyde bakabilir ve kıdemli hayranlar ve yeni gelenler gibi farklı insan gruplarının ihtiyaçlarını karşılamak zordur. Makine açıklama görevini üstlenebilirse, her kişinin özelliklerine ve ihtiyaçlarına göre kişiselleştirilebilir. Gelecekte bir gün yapay zekanın, yorumu bize uyarlamak ve oyunu izlemek için bize eşlik etmek için özel bir yorumcu olarak kullanılmasını bekleyebiliriz.

Hanfu'daki güzel kadınlar, Doğu Gölü kıyısında yoğun karda sanatsal fotoğraflar çekiyor

Buradaki insanlar elmaları sevmiyor, Cook neden bu kadar önemsiyor?