Meitu büyük ölçekli multimedya veri alma teknolojisinin şifresini çözme DeepHash

Leifeng.com AI Technology Review Press Bu makale, Meitu Cloud'un Vision Technology Departmanının Hash Proje Ekibi tarafından AI Technology Review'e sağlanan özel bir el yazmasıdır.İzinsiz çoğaltılamaz.

"Meitu Kısa Video Gerçek Zamanlı Sınıflandırma Yarışması MTSVRC" kısa süre önce resmi olarak başlatıldı. Bu meydan okuma, Meitu tarafından üstlenilen ve Çin Bilimler Akademisi Otomasyon Enstitüsü tarafından ortaklaşa düzenlenen Çin Örüntü Tanıma ve Bilgisayarlı Görü Konferansı'na ev sahipliği yapıyor. Leifeng.com'un akademik kanalının AI teknoloji inceleme veritabanı ürününün "AI Etki Faktörü" nde Meitu Cloud'un görsel teknoloji departmanı AAAI 2018 sözlü bildirilerle iyi bir performans sergiledi ve ilgili yarışmalar düzenledi ve bu kez özel teknik yorumuyla ilgili puanlar kazandı.

Meitu, muazzam multimedya verilerine sahip bir şirkettir.Bu verilerin içeriğini etkili bir şekilde analiz etmek ve anlamak ve bunlardan etkili bilgileri çıkarmak bizim için büyük bir zorluk teşkil etmektedir. Bu makale, büyük kısa video verilerinin ve büyük ölçekli erişim teknolojisinin içerik analizi ve anlaşılmasındaki keşif ve uygulamamızı tanıtmak için Meipai işini örnek olarak alıyor.

Multimedya verilerinin benzerlik geri kazanımı, özellikleri ifade etmek için farklı medya materyallerinin kullanılması ve ardından ilgili özellik alanında arama ve sıralama olarak anlaşılabilir. Özellikleri ifade etmenin iki yolu vardır: Birincisi, temel nokta özellikleri, renk histogramları, vb. Gibi geleneksel yöntemlerle çıkarılan görsel özelliklerdir; diğeri, altta yatan temel özellikleri veya üst düzey anlamsal özellikleri (derinlik özellikleri) çıkarmak için derin öğrenmeye dayanır. Meitu DeepHash, derin hash teknolojisine dayalı büyük ölçekli bir multimedya veri alma sistemidir. Büyük multimedya verilerine dayanan sistem iki modüle bölünmüştür: algoritma ve servis.

/ DeepHash video karma algoritması /

Meipai'nin kısa video içeriğinin özellikleri için etiket formülasyonundan, veri işlemeden algoritma ağ tasarımına kadar bir dizi özelleştirilmiş algoritma optimizasyon stratejisi öneriyoruz.

Belirli teknik çözümleri tartışmadan önce, ilk olarak bir soru üzerinde düşünelim: Bir video nasıl tanımlanır? Video hashing teknolojisini kullanmadan önce videoyu açıklamak için bir etiket sistemi kullandık. Şekil 1, Meipai'nin müzik, evcil hayvanlar, danslar, öğreticiler vb. Gibi en yaygın etiketleme sistemlerini gösterir. Videoları tanımlamak için etiketleme sistemini kullanmanın eksiklikleri şunlardır: etiket, esas olarak video içeriği için bir özet ve açıklayıcı bir sözlüktür ve pek çok bilgi içerir. Daha azı, bazı ayrıntılı bilgiler yansıtılamaz ve etiket, ayrı bir açıklamadır. Ve insanlar bir videoyu nasıl tanımlar? Örnek olarak sol üst köşedeki videonun ekran görüntüsünü alın, bir insan ona bakacak ve şöyle diyecektir: Açık mavi giysili gitar çalıp şarkı söyleyen iki küçük kız. Bulunabilir ki İnsanlar, zengin bilgiler ve çeşitli boyutlar içeren videoyu tanımlamak için görsel özellikleri kullanır. Bu sürekli bir tanımdır. Açıkçası, bu daha makul bir açıklama şeklidir.

Şekil 1

Ayrıca, videoları açıklamak için etiketlerin kullanılması aşağıdaki sorunlara sahiptir.

1. Bilgileri ifade etme yeteneği zayıftır ve daha ayrıntılı bilgileri yansıtamaz. Şekil 2'de gösterilen video ekran görüntüsü, parkta dans eden yeşil bir Hanfu giyen bir kızı göstermektedir. İçerik etiketi dans, etiket aracılığıyla diğer bilgileri okumak zordur. Sahne, nesne, cinsiyet vb. Boyutlar eklemek gibi daha karmaşık bir etiketleme sistemi denerseniz, etiketleme maliyeti çok yüksek olsa bile tüm koşulları sıralamanın zor olduğunu görebilirsiniz.

şekil 2

2. Bilgi arasındaki benzerliği karşılaştırmak zordur ve bilginin ölçülmesi zordur. Şekil 3'te gösterilen üç video etiketinin hepsi "köpekler" dir. Hangi iki videonun daha benzer olduğunu etiketler aracılığıyla ayırt etmek zordur. Görsel özellikleri kullanırsanız, soldaki videonun sağ üst köşedeki videoya daha çok benzediğini kolayca bulabilirsiniz. Elbette iki resim arasındaki benzerliği hesaplamak için köpeklerin türünü ve sayısını kullanabiliriz ancak resim içeriği daha karmaşık olduğunda ve çok sayıda nesne olduğunda bu yöntemi uygulamak zordur.

resim 3

Özellik ifade videolarını kullanın

Video hash algoritması, videoyu açıklamak için görsel özellikler kullanır. Aşağıdaki özelliklere sahiptir:

1. Çeşitlilik. Özellikler, daha boyutlu bilgileri, daha fazla bilgiyi ve ifade edilebilecek çeşitli içerikleri içerir;

2. Sağlamlık. İki video nispeten benzerse, ifade ettikleri özellikler de nispeten benzerdir ve çıkarılan özelliklerin de kararlı olması gerekir;

3. Mesafe hesaplanabilir. Özellikler arasındaki mesafe hesaplanabilir Mesafe, iki özelliğin benzerliğini açıklar.Uzaklık ne kadar küçükse, video içeriği o kadar benzerdir.

Özellik tabanlı video alma teknolojisi, görsel olarak benzer video önerileri, özel video alma, video inceleme, video tekilleştirme, vb. Gibi çok çeşitli uygulama senaryolarına sahiptir; ayrıca, özellik kümeleme ve içerik madenciliği gerçekleştirmek için çıkarılan video özelliklerini de kullanabilir ve bunlar arasında madencilik yapabilir Sıcak içerik ve yeni kategoriler keşfedin.

Özellik ifadesi

Yaygın olarak kullanılan iki özellik ifade yöntemi vardır: kayan nokta özellikleri ve ikili özellikler.

İkili özelliklerin depolama ve erişim hızı açısından önemli avantajları vardır: ikili depolamayı kullanmak çok verimlidir; Hamming mesafesini kullanarak mesafeyi hesaplamak, erişim hızı daha hızlıdır. Kayan nokta özelliği mesafe hesaplaması genellikle yüksek hesaplama karmaşıklığına ve yavaş erişim hızına sahip olan Öklid mesafesini veya kosinüs mesafesini kullanır; Ek olarak, kayan nokta özelliği ayrıca mesafe hesaplamasını etkileyecek aşırı değer paraziti sorununa da sahiptir. İkili özellikler hem 0 hem de 1'dir ve özellikler nispeten kararlıdır. Yukarıdaki duruma dayanarak, işletmemiz ikili biçime dayalı bir özellik ifade yöntemi benimsemiştir.

Hash özelliği çıkarma

Şekil 4

Video hash özelliklerinin genel çıkarma işlemi şudur: evrişimli sinir ağı video özelliklerini çıkarır, özellikleri sabit uzunlukta kayan nokta özelliklerine eşler ve kayan nokta özelliklerini bir sigmoid katmanla aralığa eşler ve bunları şu şekilde nicelendirir: İkili form.

Karma özelliklerini çıkarmak için kullanılan ağ modelinin eğitimi iki biçime ayrılabilir: denetimli ve denetimsiz. Denetimli öğrenme, etiketli verilere dayalı olarak eğitilir ve özelliklerin ifade yeteneğini geliştirmek için belirli bir kayıp işlevi eklenir. Karakteristik özelliği, özellik ifadesinin kontrol edilebilir olması ve ağa hangi özelliklerin öğrenmeye odaklanacağını söylemek için kullanılabilmesidir; denetimsiz öğrenme, genellikle özellik ifade yeteneklerini öğrenmek için görüntü dönüştürme yoluyla eğitim için etiketlenmemiş verilere dayanır, bu nedenle karakteristik özelliği, özellik ifadesinin iyi olmamasıdır. Kontrol, ağın hangi özellikleri öğrenmesi gerektiğine müdahale etmek zordur. Denetimsiz öğrenme şu anda hala akademik araştırma aşamasındadır ve doğrudan işi uygulamak zordur. Bu nedenle, mevcut planımız ayrıca denetlenen bir video karma algoritmasına dayanmaktadır.

Şekil 5

Meipai video karma algoritma süreci temel olarak beş modüle bölünmüştür: etiket, veri, ağ, eğitim ve tahmin. Her modül için, Meipai'nin veri özelliklerine ve iş mantığına dayalı olarak bazı özelleştirilmiş optimizasyon stratejileri oluşturduk. Bu beş modülün ilgili çalışmaları aşağıda tanıtılmaktadır.

etiket

Meipai, Meipai kısa videolarının ortak içeriğini ve kategorilerini kapsayan, içerik işlemleri için yüzlerce etiket sistemine sahiptir. Ancak, bu mevcut iş etiketleri doğrudan algoritma eğitimi için uygun değildir. Ana sorunlar aşağıdaki gibidir:

1. Dengesiz veriler

Şekil 6, Meipainin popüler videolarının etiket dağılımını göstermektedir. Her kategorideki veri miktarının son derece dengesiz olduğu görülebilir. Algoritma eğitildiğinde, bazı kategorilerdeki veri miktarı görece küçükse, ağın bu kategorilerin özelliklerini öğrenmesi ve beceriyi ifade etmesi zordur.

Resim 6

2. Vizyon ayrılmaz

İşletme etiketleme sistemi görsel özellikleri bölmez ve farklı video türlerinin görsel olarak ayrılmaz olmasına neden olur. Doğrudan bu etiketle eğitim, birçok yanlış sınıflandırmaya neden olur ve ağın her kategorinin özelliklerini öğrenmesi zordur.

Şekil 7

3. Tek boyut

İş etiketi sistemi, en önemli anlamsal içeriğin bölünmesine yöneliktir ve diğer boyutlardaki bilgileri yansıtamaz. Kıyafet, sahne ve cinsiyet gibi boyutlar bu etiket sistemiyle yansıtılamaz. Bu etiketleme sistemi aracılığıyla ağı eğitmek, diğer boyutlardaki özellik ifadelerini öğrenemez.

Yukarıdaki üç soruya yanıt olarak, Çok boyutlu çok seviyeli etiket sistemi. "Çok boyutlu", etiket sistemine iş ihtiyaçlarına göre boyutlar eklemeyi ifade eder; "çok düzeyli" ise hiyerarşik olması ve ilk düzey kurulduğunda nakış, güzellik makyajı, parmak dansı gibi görsel olarak ayrılabilir olması gerektiği şeklinde yansıtılır. Kategoriler görsel olarak özçekimlere benzer ve bu kategoriler görsel olarak ayrılabilirliği sağlamak için birinci seviyede tek bir kategoriye ayrılır.

Ancak çok boyutlu ve çok seviyeli etiketleme sistemi bazı yeni sorunları beraberinde getirecektir. Her şeyden önce, büyük veriler birden çok boyutta işaretlenir ve işaretlemenin maliyeti çok yüksektir. İkinci olarak, benimsediğimiz model ağ yapısı basamaklı bir yaklaşımdır.Her birinci düzey kategorinin, özellik çıkarımı için karşılık gelen bir ikinci düzey modeli vardır. Birçok model vardır ve hesaplama karmaşıklığı yüksek olacaktır. Bu iki sorunu çözmek için veri etiketlemeyi ve ağ tasarımını optimize ettik.

veri

Veriler açısından, etiketleme maliyetlerini azaltmak için otomatik etiketleme kullanıyoruz. Örneğin, içerik etiketleriyle işaretlenmiş bir grup video verisi için, onu giyim boyutunda işaretlememiz gerekir. Daha sonra otomatik etiketleme süreci:

1. Az miktarda veriyi işaretleyin.

2. Ayrı bir sınıflandırıcıyı eğitmek için az miktarda veri kullanın ve sınıflandırıcının doğruluğunu% 99'un üzerine çıkarmak için güven düzeyini ayarlayın, yani sınıflandırıcının çıktı sonucunun güven düzeyi belirli bir eşikten yüksekse, sonuç inandırıcıdır.

3. Verileri otomatik olarak etiketlemek için bu sınıflandırıcıyı kullanın ve yüksek güvenilirliğe sahip parçalar giysi etiketlerini korur. Güvenilirliği düşük olan parça, giysi etiketinin doğru olup olmadığından emin değildir, bu nedenle giysi etiketi eşit şekilde -1 olarak kaydedilir. Ağ güncellendiğinde, verilerin bu kısmı yalnızca içerik etiketi kaybını günceller, giyim etiketi kaybını değil.

İnternet

Video özelliklerinin çok boyutlu bilgileri içermesini sağlamak için, çok boyutlu modelin karmaşıklığını azaltmak için eğitim sırasında çok etiketli bir ortak eğitim yöntemi kullanılır.

Figür 8

Yukarıda bahsedilen ikincil modelin yüksek hesaplama karmaşıklığı ışığında, optimize etmek için özellikleri paylaşma yöntemini kullanıyoruz. Yani video ağının paylaştığı temel özellikler çıkarılır, paylaşılan özellikler önce sınıflandırma ve özellik çıkarımı için birinci seviye kategori modeline gönderilir ve buna karşılık gelen ikinci seviye kategori modeli birinci seviye kategori modelinin sınıflandırma sonuçlarına göre özellik çıkarımı için çağrılır. MobileNet'i temel ağ olarak kullanarak, her videodan 5 kare veri çıkarılır ve iki seviyeli bir model çıkarılır.Saniyede 100 videonun işleme hızına Titan X'te ulaşılabilir.

Eğitim

Ağ eğitimi aşamasında, özelliklerin ifade kabiliyetini geliştirmek için Triplet kaybı kullanılır. Üçlü kayıp, benzer videoların özellikleri ile benzer olmayan videolar arasındaki mesafeyi kısaltacaktır.

Figür 9

Triplet kaybı eğitimi sırasında pozitif ve negatif örnek çiftlerinin nasıl etkili bir şekilde seçileceği önemli bir konudur. Aralıklı kareleri çıkararak pozitif örnek videolar seçiyoruz Bir videonun 10 kare çıkardığını varsayarsak, hedef video klip çerçevesi olarak 1, 3, 5, 7 ve 9 numaralı kareler ve 2, 4, 6, 8 ve 10 numaralı kareler pozitif olarak alınır. Örnek video klipler çerçevelenirken, negatif örnek video klipler farklı kategorilerdeki diğer videolardan alınmıştır. Bunun iki avantajı vardır: 1. Pozitif örnek video, hedef videoya benzerdir ve bir araya getirilmesi kolaydır: 2. Etiketlemeye gerek yoktur, bu da etiketleme maliyetlerini düşürür.

tahmin

Özellik karma kodunu aldıktan sonra, kategori maskesini işleyerek alma doğruluğunu iyileştiririz. Kategori maskesinin işlevi, düşük katkı özelliği bitlerini gizlemek ve önemli özellik bitlerini korumaktır.

Figür 10

Şekil 10'da gösterildiği gibi, farklı özelliklere sahip lokasyonlar arasında bir işbölümü olduğuna inanıyoruz. Önemli özelliklerin bit konumlarını bulmak için gereken bilgiler, ağın son katmanının ağırlık parametrelerinde saklanır.

Figür 11

Şekil 11 kategori maskesinin ayıklama yöntemini gösterir Orta kısım ağın sınıflandırma katmanının ağırlık parametreleridir. Şekli, özellik uzunluğu ile çarpılan kategori sayısına eşittir ve ağırlığın her bir sütunu, ilgili kategoriyi temsil eder. Videoyu ağa girdiğimizde ve kategorisini aldığımızda, ilgili kategori ağırlığını bulabiliriz. Bu ağırlık değerleri sütununun mutlak değerini alıp en büyükten en küçüğe sıralayın. Daha büyük mutlak değerlere sahip ağırlık konumlarının Karma özelliğindeki daha önemli konum.

Kategori maskesinin ayrıntılı bir açıklaması için lütfen "Hızlı Video Erişimi için Kategori Maskeli Derin Karma İşlemi" belgesine bakın.

Kağıt adresi: https://arxiv.org/pdf/1712.08315.pdf

Figür 12

Şekil 12, ağın genel akışını göstermektedir. İfade yeteneğini geliştirmek için Triplet kaybı ile birleştirilen çok etiketli ortak eğitim kullanılır ve ağ yapısı, bir kademeli model ve özellikleri paylaşma yöntemini benimser. Son olarak, geri alma doğruluğunu artırmak için kategori maskesi kullanılır.

etki

Figür 13

Şekil 13, modelin doğruluğunu ve geri getirme etkisini göstermektedir. Alma işleminin sol üst köşesindeki video, hedef videodur ve aşağıdaki, alma sonucudur.

/ DeepHash multimedya erişim hizmeti /

Daha önce belirtildiği gibi, DeepHash sistemi iki ana modül içerir: algoritmalar ve hizmetler. Daha önce, video hash özelliği çıkarma algoritmamızı tanıtmak için Meipai videosunu örnek olarak aldık. Daha sonra DeepHash sisteminin servis bölümünü tanıtıyoruz.

DeepHash hizmeti, çevrimdışı görevlere ve çevrimiçi görevlere ayrılmıştır. Çevrimdışı görev, hedef özellik kitaplığı olarak büyük video verilerinin karma kodunu oluşturmaktan sorumludur. Spesifik içerik iki modül içerir: model eğitimi ve özellik oluşturma. UGC kısa video verilerinin güçlü bir zamanlılığı vardır ve farklı zaman dilimlerine ait video konu içeriği farklıdır, bu nedenle işletmenin modeli düzenli olarak eğitmek ve güncellemek için en son verileri kullanması gerekir. Yeni ağ modeli elde edildikten sonra, yeni karma kodlar oluşturmak için geçmiş videoların gruplar halinde işlenmesi ve hedef özellik veritabanında güncellenmesi gerekir.

Çevrimiçi görevler, alma taleplerini gerçek zamanlı olarak işlemekten ve benzer sonuçları arayan kişiye döndürmekten sorumludur. Bir alma isteği geldiğinde, sorgu modülü ilk önce o anda istenen video karmasının var olup olmadığını sorgulamak için büyük hedef özellik kitaplığına gidecek, varsa geçerli karma kodunu kullanacak, hedef özellik kitaplığının karma kodundan mesafeyi hesaplayacak ve en iyi benzerine dönecektir. Sonuç: yoksa, hizmet tahmin modelini çağırır, videonun karma kodunu çıkarır, hedef kitaplıkta arama yapmak için karma kodu kullanır ve tahmin edilen karma kodunu hedef özellik kitaplığına ekler.

Mimari evrim

DeepHash hizmeti, ilk tek veritabanı sıcak havuz video desteğinden tam video almayı destekleyebilen en son sürüme kadar üç aşamalı sürüm yineleme ve optimizasyondan geçti.

Figür 14

V1.0'ın ilk sürümü tek bir düğümde çalışır ve özellik veritabanını yalnızca parçalama ve paralel arama için optimize eder Bu sürüm, bir milyon içinde temel özellik veritabanı alımını destekler.

V2.0 sürümü, daha fazla medya verisi biçiminin alınmasını destekler Bu sürümde, ses özelliği çıkarma algoritmalarına erişimimiz vardır. Aynı zamanda, benzer video ve ses alımını destekler. Birden çok medya özelliği türünü desteklemek için, V2.0, dizini birleştirir ve temel özellik kitaplığını gruplara ayırır (gruplama: sınıflandırma, önce kategoriyi bulur ve ardından veri parçalama sorgusu gerçekleştirir) arama kararlılığını geliştirir. Video kare kesme, GÇ tıkanıklığını azaltmak için eşzamansız arama kullanır.

V3.0, şu anda geliştirilmekte olan bir sürümdür. Kapsayıcıya alınmış bir kümede çalışır ve aynı zamanda geri alma kümelemesini optimize eder. Amaç, yüz milyonlarca özellik temel kitaplığının gerçek zamanlı alınmasını desteklemektir.

Figür 15

Şekil 15, geri alma kümesinin iş mantığı hiyerarşik yapısıdır. Bunlar arasında, aracı katmanı, istek dağıtımından sorumludur ve yüksek eşzamanlılık durumunda durumsuz olarak genişletilebilir; iş katmanı verileri önceden işler ve paketler, veri katmanının alma hizmetini çağırır ve sonuçları kullanıcı tarafından okunabilir bir formda kapsüller; veri katmanı, alma algoritmasını çalıştırır ve böler Özellik kitaplığı verileri filme yüklenir ve geri alma işleminin zamanında ve kararlılığını sağlamak için paralel erişim gerçekleştirilir.

verim

Daha sonra DeepHash sisteminin geri alma performansını gösteriyoruz. Depolama performansı açısından, bir videoyu temsil etmek için 128 bitlik bir karma kod kullanmak, 100 milyon videoyu depolamak, 1,5 GB'den az depolama alanı gerektirir. Geri alma hızı açısından, 1 milyon temel özellik kitaplığında tam video alımı gerçekleştirmek için 8 örnek çalıştırmak 0,35 saniye sürer; 300 milyon temel özellik kitaplığında tam video alımı gerçekleştirmek için 50 örnek kullanmak, yalnızca 3 saniye sürer.

Şekil 16: DeepHash gerçek zamanlı arama motoru çözümü

Görünüm

DeepHash, genel amaçlı bir multimedya erişim sistemidir. Halihazırda desteklenen video ve ses benzerliği alımına ek olarak, görüntüler ve metinler gibi veriler için geri alma desteği eklemek gibi daha fazla medya verisine erişecektir.

/ İş uygulamaları /

Şu anda, DeepHash sistemi, tavsiye işinde benzer video alma ve operasyon işinde video tekilleştirme hizmeti vermektedir. Bundan sonra denetim hizmetine de erişilecektir.

Figür 17

Honor Band 4, Mi Band 3 ile savaşacak. Renkli ekran ve NFC yalnızca birini seçebiliyorsa!
önceki
Komşu durak ve aşk pavyonu alev aldı On binlerce onarım masrafını kim karşılamalı?
Sonraki
LOL: UZI, "köpek tanrı kupası" oyununu açıklamak için Brother Snake ile ortaklık kurdu, LPL yetkilileri paniğe kapıldı mı?
Rüyalar gerçeğe dönüştüğünde, akıllı eve başlamak için belki de 2019 en iyi zamandır
Shawn Yue çok meşgul! MADNESS, 3. yıl dönümü planına ek olarak yeni ürünler ekledi!
Shu Xilinin torunu 31. Nikkan Spor Filmi Ödül Töreni'nde ödülü kabul etmek için sahne aldı
Sürüş rahatlığını artırın Changan Ford Sharp Teknolojisi Öne Çıkan Deneyim
Nubia Z18 daha çok bir sanat kamerasına benziyor, amiral gemisi bir sonrakine bağlı!
Kamyonun nihai formu ortaya çıktı mı? İsveçli Einride şirketi tarafından piyasaya sürülen sürücüsüz elektrikli kamyon bir trend belirleyici olabilir mi?
PGI eğitim oyunu zaferi: 4AM ve OMG dört veya beş sıra kazandı! Netizen: Eğitim oyununun "lanetine" dikkat edin
Sony Çin, PS4 Tyrant Gold Limited Edition'ı piyasaya sürdü
Teknik yorumlama: Bluetooth Mesh'i asla gerçekten anlayamayabilir misiniz?
Yine küresel bir ayrıcalık mı? Dört gözle beklediğiniz baba ayakkabıları sadece Colette'de!
"Reunion 4" konsept afişini ortaya çıkardı ve bir üzüntü geliyor!
To Top