Yüksek verimli medya içeriğini anlama forumu Douyin Kuaishou, savaş alanında hepiniz kimi seçersiniz CNCC 2018

Leifeng.com AI Technology Review Press, 2018 Çin Bilgisayar Konferansı (CNCC2018) 25-27 Ekim tarihlerinde Hangzhou Uluslararası Fuar Merkezi'nde düzenlendi.Konferans Çin Bilgisayar Topluluğu (CCF) ev sahipliğinde ve Xiaoshan Bölgesi Halk Hükümeti, Hangzhou Şehri ve Zhejiang Üniversitesi, Zhejiang Teknoloji Üniversitesi, Zhejiang Gongshang Üniversitesi ve Hangzhou Dianzi Üniversitesi tarafından ortaklaşa düzenlenmiştir. Bu yılki konferansın teması "Büyük Veri Dijital Ekonomiyi Güçlendirir". CNCC, yurtiçi ve yurtdışında bilgisayar alanında yaklaşık 400 tanınmış uzman ve girişimciyi konuşma yapmak üzere davet etti. Konferans, 15 davetli rapor ve 3 Konferans forumları, 60 teknik forum ve 20 özel etkinlik.

Bugün konferansın son günü Sabah harika ana forumun ardından öğleden sonra birçok teknik forum düzenleniyor. "Yüksek verimli Medya İçeriği Anlama" forumunda, akademiden iki konuk - Çin Bilim ve Teknoloji Üniversitesi'nden Profesör Zhang Yongdong, Beihang Bilgisayar Okulu'ndan Yangtze River Scholar Seçkin Profesör Li Bo ve sektörden iki konuk - ByteDance Artificial Smart Lab müdürü Wang Changhu ve Kuaishou Multimedya İçeriği Anlama Departmanı başkanı Li Yan, bir dizi görüntü ve video anlayışıyla ilgili teknoloji ve uygulamaların yanı sıra şu anda karşılaştıkları bir dizi zorluğu içeren dört harika paylaşım oturumu getirdi.

Forumun başında, forumun başkanı ve Hefei Teknoloji Üniversitesi Bilgisayar ve Bilgi Fakültesi'nde profesör olan Hong Richang, yüksek verimli medyayı tanıttı.Büyük veri çağında, resimler ve videolarla temsil edilen yüksek verimli medya içeriği verilerinin yalnızca ölçek olarak değil, aynı zamanda Üç özelliğe sahiptir: yüksek boyutluluk, geniş akış ve yüksek eşzamanlılık. Bugünün konukları, akademi ve endüstri perspektifinden yüksek verimli medya içeriğini paylaşacak.

Çin Bilim ve Teknoloji Üniversitesi'nden Profesör Zhang Yongdong, sahnede konuşan ilk konuğdu ve konusu "İnternet Videosu için Verimli Akışlı Hesaplama" idi.

Profesör Yongdong Zhang, Çin Bilim ve Teknoloji Üniversitesi

Büyük veri işleme sistemi toplu hesaplama ve akışlı hesaplama olarak ikiye ayrılabilir.İki tür hesaplamayı canlı bir şekilde tanıttı ve farklılıklarını tartıştı. Akış hesaplaması, büyük akış verilerini gerçek zamanlı olarak işlemek için dağıtılmış paralelleştirme fikirlerinin ve yöntemlerinin kullanılması anlamına gelir. Toplu hesaplamanın özellikleri, zamanlılık, süreklilik, sağlamlık ve yüksek insidandır.

Şu andaki sorun, video web sitelerinin güçlü dinamikler, büyük trafik ve yüksek eşzamanlılık özelliklerini gösteren çok fazla veri oluşturmasıdır.Geleneksel hesaplama yöntemlerinin mevcut sorunları çözmesi zordur. Video akışlı hesaplamanın araştırma çerçevesini açıkladı, ana uygulamalar İnternet video içeriği güvenliği (video akışlarındaki zararlı içeriğin gerçek zamanlı tespiti ve engellenmesi), İnternet video bilgi hizmetleri (video akışı çevrimiçi yeniden yayınlama, erişim vb.).

Ardından, teknolojik gelişmenin statükosunu analiz etti:

  • Akış kodek hesaplamalarıyla ilgili sorunlar var. Önceki araştırmalar, bu sorunu algoritma basitleştirme / dinamik zamanlama yoluyla çözmeyi umuyor, ancak algoritmanın basitleştirilmesi, video sıkıştırma performansında büyük bir kayba yol açacak ve dinamik zamanlama, düşük paralel tanecikliliğe yol açacaktır.

  • Akış benzerliği hesaplaması. Geleneksel yöntem, ölçek uzayının sabit olduğu ve verilerin bağımsız olarak dağıtıldığı varsayımına dayanır, ancak bunun dezavantajları vardır. Hash yoluyla öğrenme, akış hesaplamanın özelliklerini göz ardı eder.

  • Anlamsal hesaplama akışı. Sorun, görsel belirsizlik ve anlamsal polimorfizmin güçlü olması ve görsel anlambilimin karmaşık olmasıdır. Önceki insanlar bu sorunu küresel bir sınıflandırma yöntemiyle çözmeye çalıştı.

Önceki problemlere cevaben ilgili araştırma şu şekildedir:

  • Video akışı codec bileşeni. Mod kararı, hareket tahmini ve döngü filtreleme için yeni yöntemler önerilmiştir. Grafik optimizasyonuna dayalı paralel hareket tahminini, olasılık geçiş tahminine dayalı paralel döngü filtrelemeyi vb. Tanımladı ve geleneksel yöntemlerle karşılaştırdı.

  • Video akışı benzerlik hesaplaması. Özellik çıkarma, özellik füzyonu, özellik ölçümü, özellik indeksleme ve özellik ölçümünden bahsetti. Veri korelasyonu ve özellik füzyonu açısından, veri korelasyonunun resmi tanımından bahsetti.

  • Video akışı anlamsal hesaplama. Biri seyrek toplu öğrenmedir, diğeri ise zayıf bir şekilde etiketlenmiş anlamsal derin öğrenmedir. Seyrek toplu öğrenme çerçevesini, deneysel koşulları ve zayıf etiketli anlamsal derin öğrenme modelini ayrıntılı olarak tanıttı.

Konuşmanın sonunda Profesör Zhang Yongdong, video akış kodeki, video akışı benzerlik hesaplaması, video akışı anlamsal hesaplama ve video akışlı hesaplama platformundaki sonraki adımları dört gözle bekledi.

İkinci konuk konuşmacı, ByteDance Yapay Zeka Laboratuvarı Direktörü Dr. Wang Changhu. Başlangıçta Douyin'i tanıtmak için kısa bir video kullandı. Douyin'deki içeriğin çok zengin ve heyecan verici olduğu sonucuna vardı ve Douyin'i bu kadar etkili kılan üç faktörü daha da analiz etti: algoritma gücü, operasyon gücü ve ürün gücü.

ByteDance Yapay Zeka Laboratuvarı Direktörü Dr. Wang Changhu

Bu sefer getirdiği içerik, AI Kamera teknolojisi, yüz algılama ve kalibrasyon teknolojisi, insan vücudu kilit nokta algılama teknolojisi ve segmentasyon teknolojisi dahil olmak üzere Douyin'in arkasındaki bir dizi bilgisayar görme teknolojisidir. Douyin'in bu teknolojilerdeki avantajlarını ve mevcut zorlukları ayrı ayrı analiz etti. Yüz algılama ve kalibrasyon teknolojisi için, avantajları arasında önemli milisaniye düzeyinde konumlandırma, profil, karanlık ışık vb. Gibi karmaşık ortamlarda sağlam algoritma bulunur. Bu teknolojinin yüz güzelleştirme, çıkartmalar, yüz özel efektleri gibi birçok uygulama senaryosu vardır. , Kaş şekli, kozmetik kontakt lensler, ruj vb. İçin çevrimiçi deneme.

Daha sonra video önerileri ve video anlayışından bahsetti. Video öneri algoritmasında, puanlama işlevinin nasıl optimize edileceği, böylece kullanıcıların daha iyi bir deneyim elde etmeleri, çalışmaya değer bir kilit noktadır. Video anlayışı, video sınıflandırmasını ve etiketlemeyi içerir. Büyük gönderimler, videoların sürekli ve hızlı büyümesi, geniş kapsam, geniş ürün etkisi, yüksek algoritma gereksinimleri, birçok sorun türü, son derece düzensiz örnekler ve sorun alanları gibi birçok zorluk vardır. Küçük, insan-makine bağlantısı, çoklu denetim mekanizmaları ve özelleştirilmiş modeller gibi birçok çözüm vardır.

Daha sonra büyük ölçekli video sınıflandırma ve etiketlemeden de bahsetti, bazı anlamsız videoları ve siyah ekran videolarını filtrelemek gibi teknoloji ile çözülmesi gereken bazı örneklere değindi. Videodaki OCR teknolojisi ile ilgili olarak, bazı sorunların zor olduğunu ve ince tespit ve bölümleme gerektirdiğini söyledi.

Son olarak, Dr. Wang Changhu, Douyin'deki bilgisayarla görme teknolojisinin geniş uygulamasına ek olarak, bugünün manşetlerini, yanardağ videolarını ve karpuz videolarını da desteklediği sonucuna vardı. Bilgisayarla görmenin Douyin ve Toutiao'nun birçok ürününün önemli bir köşe taşı olduğunu ve daha fazla öğretmen ve öğrencinin ByteDance'e katılacağını umduğunu söyledi.

Kuaishou Multimedya İçeriği Anlama Departmanı başkanı Li Yan, sahnedeki üçüncü konuğu, konuşması "Multimodal İçerik Üretimi ve Anlayışı". Konuşmasında, herkese Kuaishou'nun ne tür bir şirket olduğunu ve neden çok modlu içerik üretimi ve teknolojiyi anlamaları gerektiğini anlattı.

Li Yan, Kuaishou Multimedya İçeriği Anlama Departmanı başkanı

"Uzak bir dağ köyünde olsanız bile, daha fazla hayran edinmeyi, yalnızlığı ortadan kaldırmayı ve Kuaishou'nun çalışmaları aracılığıyla daha fazla bağlantı kurmayı umabilirsiniz." Li Yan, örneklemek için birkaç tipik Kuaishou video vakasına atıfta bulundu.

Kuaishou'nun devasa çok modlu verisi, 7 milyardan fazla kısa video verisi ve 15 milyardan fazla video oynatma verisi var. Çok modlu teknolojinin iki ana uygulamaya sahip olduğunu vurguladı: Biri insan-bilgisayar etkileşimini değiştirmek, diğeri de bilgi dağıtımını daha verimli hale getirmek. Bununla birlikte, bu tür sorunları incelemek hala çok zordur. Üç büyük zorluk vardır: Biri anlamsal boşluk, diğeri heterojen boşluk (birçok veri türü vardır) ve üçüncüsü veri eksikliği (çok modlu verilerin oluşturulması çok zordur).

Kuaishou'nun çok çalıştığını, herkesin daha iyi kayıt yapabileceğini ve herkesi kendi hayatlarının yönetmeni yapabileceğini ve kayıt sürecinin rahat, kişiselleştirilmiş, ilginç ve kapsayıcı olabileceğini umduğunu söyledi. Birkaç örneği takip ediyor:

  • Otomatik altyazılar ve akıllı dublaj. Kaydı daha rahat ve ilginç hale getirecek konuşma sentez teknolojisi sayesinde kayıt ihtiyaçlarını daha iyi karşılayabilirsiniz. Daha sonra konuşma tanıma ve sentez teknolojisini de detaylandırdı ve şu anda daha fazla kullanılan derin öğrenme teknolojisinden de bahsetti.

  • Otomatik müzik oluşturma teknolojisi. Video müzikleri nispeten zordur. Video müziğin oluşturulmasına dahil olan birçok teknoloji vardır ve ayrıca şarkı yapısı, şarkı hızı ve müziğin temel unsurları gibi bazı alan bilgileri de vardır.Bu, müzik ve bilgisayarla görme eğitimi alan kişilerin işbirliğini gerektirebilir.

  • Animoji. Kuaishou aracılığıyla doğrudan Android telefonlarda deneyimleyebilirsiniz, bu da kullanıcı deneyimi maliyetini düşürür. Mevcut teknolojileri, donanım eşiğini düşürerek yüz ifadelerindeki değişiklikleri keskin bir şekilde yakalayabilir.

Son olarak, gelecekte iki çok önemli yönün olacağı sonucuna varmıştır: çok modlu özellik hizalaması ve çok modlu özellik gösterimi. Şu üç perspektifi ifade etti: Birincisi, çoklu modalitenin insan-bilgisayar etkileşimi için yeni yollar getireceği, diğeri ise çok modluluğun yeni içerik formları getireceği ve üçüncüsü, çoklu modalitenin yeni algoritmalara ve büyük veri setlerine acil ihtiyaç duyması.

Son konuk konuşmacı, Beihang Bilgisayar Bilimleri Üniversitesi'nden Changjiang Scholars'ın seçkin bir profesörü olan Li Bo'dur. Konusu, "Kamu Güvenliği için Gökyüzünde, Yerde ve Ağda Büyük Verilerin Entegre İşlenmesi" dir.

Li Bo, Changjiang Bilgini Değerli Profesör, Beihang Bilgisayar Okulu

Çevrimiçi dünyada, telekomünikasyon veya çevrimiçi dolandırıcılık ve sınır ötesi siber saldırılar gibi yeni suç faaliyetleri türleri sonsuz bir şekilde ortaya çıkıyor. Yabancı askeri uçaklar, ülkemiz denizlerini yasadışı bir şekilde işgal etti ve sadece uzay görüntüleme kullanarak hedefin kapsamlı bir resmini elde etmek imkansızdır.Hedef hakkında daha eksiksiz bilgi elde etmek için gökyüzü ve yer ağı İnternet ile birlikte kullanılabilir.

Profesör Li Bo, Skynet bilgisinin bir hedefin tam bir görüntüsünü çıkarmak için kullanılması durumundan bahsetti.Ayrıca uzaktan algılama görüntülerinin ve sosyal medyanın entegrasyonundan ve Amerika Birleşik Devletleri'nin kamu güvenliği alanındaki araştırma ve uygulamasından bahsetti.

Daha sonra, birkaç önemli bilimsel ve teknolojik sorunu gündeme getirdi:

Gökyüzünün üç boyutlu algılanması: uzamsal ölçeklerde büyük farklılıklar, zamanlamada büyük farklılıklar, bakış açılarında büyük farklılıklar ve çözünürlükteki büyük farklılıklar.

Ağ içeriği analizi sorunları: çeşitli ağ biçimleri ve bağımsız kullanım; karmaşık ağ içeriği; karmaşık kullanıcı davranışları ve belirsiz genel bakış; parçalı davranış yörüngeleri.

Gökyüzü ve yer verilerinin kapsamlı uygulaması: görüntülerin ve videoların basit yapılandırılmış açıklaması; mekansal-zamansal ilişki, nedensel ilişki vb. Gibi çok boyutlu ilişki analizini içeren durumlar.

Çözüm aşağıdaki gibidir:

  • Zamansal ve mekansal korelasyona dayalı hedef ve olay tespiti

Yerde, zaman ve mekanla birlikte sahne anlamsal bölümlemesini kullanabilir; ayrıca stereo algı elde etmek için birbirinize gökyüzünde rehberlik edebilirsiniz.

  • Varlık odaklı ağlar arası içerik ilişkilendirmesi

Bu, temel unsurlara dayalı hassas içerik tespitini içerir. Algılama temelinde, bilgi çıkarma, benzer anlamlara ve zamansal ve uzamsal korelasyonlara dayalı bilgi öğrenmeye ve ardından ağlar arası bilgi entegrasyonunu sağlamak için kavramsal özelliklere dayalı ağlar arası kimlik ilişkisine dayalı olabilir.

  • Sanal ve gerçek füzyonun entegre olay analizi

Gerçek, fiziksel dünyaya, sanal ise ağ dünyasına atıfta bulunur. Varlık-eylem meta-olay modeli, kamu güvenliği olay araştırması ve yargısı yürütmek için polis bilgisi tarafından yönlendirilen olay analizi ile birleştirilerek oluşturulabilir.

Profesör Li Bo'nun konuşmasından sonra, harika bir yuvarlak masa tartışması başladı. Kuaishou Multimedya İçeriği Anlama Bölümü başkanı Li Yan, Changjiang Bilgini, Beihang Bilgisayar Okulu Seçkin Profesörü Li Bo, ByteDance Yapay Zeka Laboratuvarı Direktörü Wang Changhu ve Ulusal İnternet Acil Durum Merkezi Zhang Dongming Yüksek verimli medya içeriğinin anlaşılması üzerine daha fazla tartışma başlatmak için birbiri ardına sahneye geldi ve izleyiciler ayrıca coşkulu sorular da yayınladı. Ardından, Profesör Li Bo bugünkü forumun bir özetini yaptı ve mevcut izleyicilere minnettarlığını dile getirdi. Harika forum burada bitiyor, ancak multimedya içeriği hakkındaki tartışma devam ediyor.

Resim: Hong Richang, Li Yan, Li Bo, Wang Changhu, Zhang Dongming (soldan sağa)

Leifeng.com AI Technology Review'un takibi, CNCC hakkında bir dizi haber de getirecek, bu yüzden bizi izlemeye devam edin. Lei Feng

Yu Qian, Nanjing Roadshow'a "Öğretmen İyi" filmini getirdi ve ruhu oyunculuk becerileri şan dolu.
önceki
Zafer Kralı: Çıtır kahraman onlarla yalnız kaçmak için buluşur
Sonraki
Streetwear'ın en etkili sanatçısı Top 5 açıklandı Kanye West neden listede yok?
İki kattan fazla pirinç erişte festivali teklif etmek, iyi ürün önerisi satın almaya en değer olanıdır
2017 Şangay Otomobil Fuarı: Panamera yöneticisi genişletilmiş versiyonunun lansmanı
Okulunuz ve bölümünüz "Double First Class" disiplinleri listesinde var mı?
Zheng Yunlong'un White Day'de sıcak itirafı olan "Dumbo" Çince tema şarkısı MV yayınlandı!
[Chongqing Bulut Çiçek Fuarı] Bir yolculukta çiçeklerin tadını çıkarmanın ve meyve toplamanın tadını çıkaran Hechuan Bahar Turizm Festivali'nin 18 temalı etkinliği sizi oynamaya davet ediyor!
CNCC'nin son gününde, akademisyen Lu Jianın harika raporu + 3 konferans forumu tam bir yük ile geri dönmenizi sağlayacak CNCC2018
Kralın Zaferi: SNK kahraman özelliklerinin analizi, tüketimi ve hasadı
2017 Şangay Otomobil Fuarı: Lexus yeni NX dünya prömiyeri
Xiaomi kablosuz araç şarj cihazı endüktif elektrikli kelepçe kolu 20W yüksek hızlı kablosuz flaş şarjı sahip olmaya değer
Xiaomi Mi 9, Xiaomi'yi kurtarabilir mi? Snapdragon 855, nihai yenilikçi yeteneklere sahip olamaz!
"The Lego Movie 2", "Her şey kötü" MV'sini ifşa ediyor! Emmett, "Xiao Que yasını" iyileştirmek için tavuk çorbasını tersine çevirdi
To Top