Bilgisayarla görmenin sekiz görevine tam bir genel bakış: PaddlePaddle mühendisleri, popüler görüntü modellerini ayrıntılı olarak açıklıyor

Editörün Notu:

Baidu'dan bir derin öğrenme mühendisi, bilgisayar görüşü alanındaki sekiz ana göreve odaklanıyor: görüntü sınıflandırma, hedef algılama, görüntü anlamsal bölümleme, sahne metni tanıma, görüntü oluşturma, insan kilit nokta algılama, video sınıflandırma, metrik öğrenme vb. Daha ayrıntılı olarak Ve bu makaleyi oluşturdu.

Bu derlemede, bu görevlerin temel durumunun yanı sıra mevcut teknolojik ilerleme, ana modeller ve performans karşılaştırmaları tanıtılmaktadır. Ayrıca daha fazla çalışma ve kurulum uygulama kılavuzu için birer birer GitHub portalını ekledik. Öğreticilerin çoğu hala Çince yazılmış ve bu da çok dostane.

Kısacası, bu inceleme tüm süreç boyunca kuru malların toplanması ve okunması tavsiye edilir.

Bölüm I

Bilgisayarla Görme, makinelerin nasıl "görülebileceği" üzerine çalışma bilimidir. Ayrıca, hedefleri belirlemek, izlemek ve ölçmek için insan gözü yerine kameralar ve bilgisayarlar kullanan ve bilgisayar tarafından işlenen makine görmesidir. İnsan gözünün incelemesi için görüntüleri gözlemlemesi veya cihaza iletmesi uygundur.

Canlı bir şekilde ifade etmek gerekirse, bilgisayarın çevreyi bir insan gibi görmesi ve algılaması için bilgisayara gözler (kameralar) ve beyinler (algoritmalar) yerleştirmektir. Yapay zekanın önemli temel teknolojilerinden biri olan bilgisayarla görme teknolojisi, güvenlik, finans, donanım, pazarlama, sürüş, tıp ve diğer alanlarda yaygın olarak kullanılmaktadır. Bu makalenin ilk bölümünde, PaddlePaddle ve bunlarla ilgili derin öğrenme modellerine dayalı dört bilgisayarlı görme teknolojisini tanıtacağız.

Bir, görüntü sınıflandırması

Görüntü sınıflandırması, görüntünün anlamsal bilgilerine dayalı olarak farklı görüntü türlerini ayırt etmektir.Bilgisayarla görmede önemli bir temel sorundur ve nesne algılama, görüntü bölümleme, nesne izleme, davranış analizi ve yüz tanıma gibi diğer üst düzey görme görevlerinin temelini oluşturur.

Görüntü sınıflandırmanın birçok alanda geniş uygulamaları vardır. Örneğin: güvenlik alanında yüz tanıma ve akıllı video analizi, ulaşım alanında trafik sahnesi tanıma, içerik tabanlı görüntü alma ve İnternet alanında otomatik albüm sınıflandırması ve tıbbi alanda görüntü tanıma.

Derin öğrenmenin teşvik edilmesi sayesinde, görüntü sınıflandırmasının doğruluğu büyük ölçüde geliştirildi. Klasik veri kümesi ImageNet'te, AlexNet, VGG, GoogLeNet, ResNet, Inception-v4, MobileNet, MobileNetV2, DPN (Dual Path Network), SE-ResNeXt, ShuffleNet vb. Dahil olmak üzere görüntü sınıflandırma görevleri için yaygın olarak kullanılan modelleri eğitmek.

AlexNet

VGG

GoogLeNet

ResNet

Başlangıç-v4

MobileNet

SE-ResNeXt

ShuffleNet

Modelin yapısı ve karmaşıklığı farklıdır ve nihai doğruluk oranı da farklıdır. Aşağıdaki tablo, ImageNet 2012 veri setindeki farklı modellerin ilk 1 / ilk 5 doğrulama doğruluk oranlarını listeler.

Görüntü sınıflandırma serisi model değerlendirme sonuçları

GitHub sayfamızda yukarıdakileri ve eğitim modellerini indirin. Ve PaddlePaddle Fluid'in görüntü sınıflandırma görevleri için nasıl kullanılacağını ayrıntılı olarak tanıtır. Tüm kurulum süreci, veri hazırlama, model eğitimi, değerlendirme vb. Caffe modellerini PaddlePaddle Fluid model konfigürasyonuna ve parametre dosyalarına dönüştürmek için bir araç da vardır.

Yukarıdaki sayfanın portalı burada:

https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleCV/image_classification

İki, hedef tespiti

Hedef tespit görevinin amacı, bir görüntü veya video karesi vermek, bilgisayarın içindeki tüm hedeflerin konumunu bulmasına izin vermek ve her hedefin belirli kategorisini vermektir.

İnsanlar için hedef tespiti çok basit bir iştir. Bununla birlikte, bilgisayarın "görebildiği", görüntü kodlandıktan sonraki sayıdır. Görüntü veya video karesindeki insanlar veya nesneler gibi üst düzey anlamsal kavramları anlamak zordur ve görüntüdeki hedefi bulmak daha da zordur. .

Aynı zamanda, hedef görüntünün veya video karesinin herhangi bir yerinde görüneceğinden, hedefin şekli sürekli değişmekte ve görüntünün veya video çerçevesinin arka planı çok farklıdır.Birçok faktör hedef algılamayı bilgisayarlar için zor bir sorun haline getirir. .

Hedef algılama görevinde, temel olarak SSD modeli, PyramidBox modeli ve R-CNN modeli dahil olmak üzere PASCAL VOC ve MS COCO verilerine dayalı genel nesne algılama modellerinin nasıl eğitileceğini sunuyoruz.

SSD modeli , Single Shot MultiBox Detector, tek aşamalı bir hedef dedektörüdür. İki aşamalı tespit yönteminden farklı olarak, tek aşamalı hedef tespiti alan önerisini gerçekleştirmez, ancak özellik haritasından hedefin sınırlayıcı kutusunu ve sınıflandırma olasılığını doğrudan döndürür. SSD, bu tek aşamalı algılama fikrini kullanır ve geliştirir: farklı ölçeklerdeki özellik haritalarında karşılık gelen ölçeklerin hedeflerini tespit etmek, hızlı algılama hızıyla hedef algılama alanındaki daha yeni ve daha iyi algılama algoritmalarından biridir. Ve yüksek algılama doğruluğunun özellikleri.

SSD hedef tespit modeli yapısı

SSD hedef tespit görselleştirme

Hedef tespit SSD modeli değerlendirme sonuçları

GitHub'da, bu modelin nasıl indirileceğini, eğitileceğini ve kullanılacağını daha ayrıntılı olarak tanıttık.

Portal burada:

https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleCV/object_detection

PyramidBox modeli , Baidunun kendi geliştirdiği yüz algılama modeli, kontrolsüz bir ortamda küçük, bulanık ve kısmen kapatılmış yüzleri algılama sorununu çözebilen yeni bir bağlam destekli tek seferlik yüz algılama yöntemidir. Model, Mart 2018'de WIDER Face veri setinde birinci oldu.

Pyramidbox yüz algılama modeli

Pyramidbox tahmin görselleştirme

PyramidBox modeli değerlendirme sonuçları

Bu model hakkında daha fazla bilgi edinmek istiyorsanız, portal burada (ve kılavuz Çince'dir):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/face_detection

R-CNN serisi modeller Bölgesel Evrişimli Sinir Ağı (R-CNN) serisi modelleri, tipik iki aşamalı hedef dedektörlerdir.R-CNN'deki RPN ağı, bölgelerin çıkarılmasına ilişkin geleneksel yöntemlerle karşılaştırıldığında, evrişimli katman parametrelerini paylaşarak bölgelerin çıkarılma verimliliğini büyük ölçüde artırır. Ve yüksek kaliteli aday bölgeler önerin. Daha hızlı R-CNN ve Mask R-CNN, R-CNN serisinin tipik modelleridir.

Daha Hızlı R-CNN Bölge Oluşturma Ağı (RPN) + Hızlı R-CNN uygulaması, aday bölge oluşturma, özellik çıkarma, sınıflandırma ve konum iyileştirmeyi çalışma hızını büyük ölçüde artıran derin bir ağ çerçevesi içinde birleştirir.

Maske R-CNN, maske sonucunu elde etmek için orijinal Faster R-CNN modeline bir segmentasyon dalı ekler ve maske ile kategori tahmini arasındaki ilişkinin ayrıştırılmasını gerçekleştirir ve klasik bir örnek segmentasyon modelidir.

Daha hızlı R-CNN yapısı

Daha hızlı R-CNN tahmin görselleştirme

Maske R-CNN yapısı

Maske R-CNN tahmin görselleştirmesi

Daha hızlı R-CNN değerlendirme sonuçları

Maske R-CNN değerlendirme sonuçları

Benzer şekilde, R-CNN kurulumu, hazırlığı, eğitimi vb. Hakkında daha fazla bilgi edinmek istiyorsanız, aşağıdaki portala gidebilirsiniz:

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/rcnn

Üç, görüntü anlamsal bölümleme

Görüntü anlamsal bölümleme, adından da anlaşılacağı gibi görüntü piksellerini ifade edilen farklı anlamsal anlamlara göre gruplamak / bölümlere ayırmaktır.

Görüntü semantiği, görüntünün içeriğinin anlaşılması anlamına gelir, örneğin, hangi nesnelerin yaptığını ve ne yapıldığını vb. Tanımlama yeteneği. Segmentasyon, görüntüdeki her pikselin etiketlenmesi ve ait olduğu kategoriyi etiketlemeyi ifade eder. Son yıllarda, insansız araç sürüş teknolojisinde, yayalardan ve araçlardan kaçınmak için sokak sahnelerini bölümlere ayırmak ve tıbbi görüntü analizinde tanıya yardımcı olmak için kullanılmaktadır.

Bölümleme görevi temel olarak örnek bölümleme ve anlamsal bölümlemeye ayrılmıştır. Örnek bölümleme, nesne algılama ve anlamsal bölümlemenin bir kombinasyonudur. Yukarıda sunulan Maske R-CNN, örnek bölümleme gibi klasik ağ yapılarından biridir. Görüntü semantik bölümleme görevinde, esas olarak hem doğruluğu hem de hızı hesaba katan ICNet'i ve en yeni ve en iyi performans gösteren DeepLab olan DeepLab v3 + 'ı tanıtıyoruz.

DeepLab v3 + , DeepLab semantik segmentasyon serisi ağının en son çalışması, çok ölçekli bilgi füzyonu için kodlayıcı-kod çözücü aracılığıyla, orijinal içi boş evrişimi ve ASSP katmanını korurken, omurga ağı semantik segmentasyonun sağlamlığını ve çalışmasını iyileştiren Xception modelini kullanır Hız, PASCAL VOC 2012 veri setinde 89.0mIOU yeni bir son teknoloji performans elde etti.

DeepLab v3 + temel yapısı

DeepLab v3 + değerlendirme sonuçları

Her zamanki gibi GitHub portalı burada (Çince):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/deeplabv3%2B

ICNet , Görüntü Kademeli Ağı, esas olarak görüntülerin gerçek zamanlı anlamsal bölümlendirilmesi için kullanılır. Ana fikir, giriş görüntüsünü farklı çözünürlüklere dönüştürmek ve ardından farklı çözünürlüklerin girdisini hesaplamak için farklı hesaplama karmaşıklığına sahip alt ağları kullanmak ve ardından sonuçları birleştirmektir. ICNet üç alt ağdan oluşur.Yüksek hesaplama karmaşıklığına sahip ağ, düşük çözünürlüklü girişi, düşük hesaplama karmaşıklığına sahip ağ ise yüksek çözünürlüklü ağı yönetir.Bu şekilde, yüksek çözünürlüklü görüntünün doğruluğu ve düşük karmaşıklık ağı Verimlilik arasında bir denge.

ICNet ağ yapısı

ICNet görselleştirme

ICNet değerlendirme sonuçları

Daha fazla uygulamalı uygulama için portal burada (Çince de):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/icnet

Dört, sahne metni tanıma

Birçok sahne görüntüsü, görüntü bilgilerinin anlaşılmasında önemli bir rol oynayan ve insanların sahne görüntülerinin içeriğini tanımasına ve anlamasına büyük ölçüde yardımcı olabilecek zengin metin bilgileri içerir. Sahne metin tanıma, karmaşık görüntü arka planı, düşük çözünürlük, çeşitli yazı tipleri ve rastgele dağıtım koşulları altında görüntü bilgilerini metin dizilerine dönüştürme işlemidir.Özel bir çeviri işlemi olarak düşünülebilir: görüntü girişi doğal dil çıktısına çevrilir. . Sahne görüntüsü metin tanıma teknolojisinin gelişimi, sokak görünümü uygulamalarının sokak tabelalarındaki metni otomatik olarak tanıyarak daha doğru adres bilgileri elde etmesine yardımcı olmak gibi bazı yeni uygulamaların ortaya çıkmasını da teşvik etti.

Sahne metin tanıma görevinde, özelliklerin manuel olarak tanımlanmasını önlemek, karakter segmentasyonundan kaçınmak ve karakter tanımayı tamamlamak için otomatik olarak öğrenilen görüntü özelliklerini kullanmak için CNN tabanlı görüntü özelliği çıkarma ve RNN tabanlı sıra dönüştürme teknolojisinin nasıl birleştirileceğini tanıtıyoruz. Bu makale esas olarak dikkat mekanizmasına dayalı CRNN-CTC modeli ve diziden diziye modeli tanıtmaktadır.

CRNN-CTC modeli , CNN + RNN + CTC mimarisini benimseyin, evrişim katmanı CNN kullanır, giriş görüntüsünden özellik dizisini çıkarır, döngü katmanı RNN kullanır, evrişim katmanından elde edilen özellik dizisinin etiket (gerçek değer) dağılımını tahmin eder, transkripsiyon katmanı CTC kullanır, Döngü katmanından elde edilen etiket dağılımı, tekilleştirme entegrasyonu gibi işlemler ile nihai tanıma sonucuna dönüştürülür.

Dikkat mekanizmasına dayalı diziden diziye model Dikkat mekanizmasına dayalı bir metin tanıma yöntemi önerilmiştir. Algılama gerektirmez ve tanıma için resme doğrudan girer.Plaka tanıma ve doğal sahne resimlerinden ana anahtar sözcük çıkarma gibi az sayıda tanınan karakter kategorisine sahip sahneler için çok pratiktir. Aynı zamanda tanınan metnin tek satır, iki satır veya birden çok satır olarak düzenlenmesi gerekli değildir. Eğitim sürecinde metin kutusunu etiketlemeye gerek yoktur ve eğitim verilerinin toplanması çok kolay hale gelir.

CRNN-CTC model yapısı

Dikkat mekanizmasına dayalı diziden diziye model yapısı

OCR modeli değerlendirme sonuçları

GitHub portalı burada (Çin dostu):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/ocr_recognition

Sonraki

Önceki makalede, bilgisayarla görme teknolojisinin, görüntü sınıflandırma, hedef algılama, görüntü anlambilimsel bölümleme ve sahne metni tanıma gibi dört temel görevdeki tek veya bir dizi resimden analiz ve anlama için bilgisayarın anahtar bilgileri çıkarmasına nasıl yardımcı olabileceğini anlattık. Günümüzde video, insanların hayatlarında gittikçe daha önemli hale geliyor.Teknolojik olgunluğun gelişmesiyle birlikte, bilgisayarla görme teknolojisinin atılımı, statik görüntü tanımanın "görme" nden video anlayışının "anlaşılmasına" doğru kaymıştır.

Daha sonra, PaddlePaddle tabanlı görüntü oluşturma, insan anahtar nokta algılama ve video sınıflandırmasıyla ilgili derin öğrenme modellerini keşfedeceğiz.

Bir, görüntü oluşturma

Görüntü oluşturma, giriş vektörüne dayalı bir hedef görüntü oluşturmayı ifade eder. Buradaki giriş vektörü rastgele gürültü veya kullanıcı tanımlı bir koşul vektörü olabilir. Belirli uygulama senaryoları şunları içerir: el yazısı oluşturma, yüz sentezi, stil aktarımı, görüntü restorasyonu, süper çözünürlükte yeniden yapılandırma vb. Mevcut görüntü oluşturma görevi esas olarak Generative Adversarial Network (GAN) yardımıyla gerçekleştirilir.

Generative Adversarial Network (GAN) iki alt ağdan oluşur: oluşturucu ve tanıyıcı. Jeneratörün girişi rastgele gürültü veya koşul vektörüdür ve çıktı hedef görüntüdür. Tanıyıcı bir sınıflandırıcıdır, girdi bir görüntüdür ve çıktı, görüntünün gerçek bir görüntü olup olmadığıdır. Eğitim sürecinde, jeneratör ve tanıyan, sürekli karşılıklı oyunlarla yeteneklerini geliştirir.

Görüntü oluşturma görevinde, esas olarak el yazısı sayıları oluşturmak için DCGAN ve ConditioanlGAN'ın nasıl kullanılacağını ve ayrıca stil aktarımı için CycleGAN'ı tanıtıyoruz.

ConditioanlGAN , Adından da anlaşılacağı gibi, koşullu kısıtlamalara sahip üretken bir yüzleşme modelidir. Üreticinin veri üretmesi için yol gösterici bir role sahip olan hem üretken modelin hem de diskriminant modelin modellemesinde ek koşullu değişkenler sunar. ConditioanlGAN, denetimsiz GAN'ı denetimli bir modele dönüştüren ve sonraki çalışmalar için rehberlik sağlayan bir gelişmedir.

ConditioanlGAN yapısı

ConditioanlGAN tahmin etkisi haritası

Portal (Çince):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/gan/c_gan

DCGAN CNN'nin denetimli öğrenimi ile denetimsiz öğrenme arasındaki boşluğu doldurmak için, bu makale CNN ve GAN'ı birleştiren bir DCGAN (Derin Evrişim Üreten Karşıt Ağ) önerir ve DCGAN denetimsiz öğrenmede iyi sonuçlar elde eder.

DCGAN yapısı

DCGAN tahmin etkisi haritası

Portal (Çince):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/gan/c_gan

CycleGAN , Bir tür resmi başka bir resim türüne dönüştürmek için. Geleneksel GAN tek yönlü üretimdir ve CycleGAN birbiri tarafından üretilir. Esasında, iki ayna simetrik GAN bir halka ağı oluşturur, bu nedenle bunlar Döngü olarak adlandırılır. Stil aktarımı görevleri genellikle eğitim verileri olarak iki alanda aynı içeriğe sahip eşleştirilmiş görüntüler gerektirir.CycleGAN'ın yeniliği, görüntü içeriğini kaynak etki alanından hedef etki alanına eşleştirilmiş eğitim verileri olmadan aktarma yeteneğinde yatmaktadır. .

CycleGAN yapısı

CycleGAN tahmin görselleştirme

Portal (Çince):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/gan/cycle_gan

2. İnsan vücudunun kilit noktalarının tespiti

İnsan hareketini ve davranışını tanımlamak için insan vücudu anahtar düğümlerinin kombinasyonu ve takibi yoluyla insan vücudunun kilit nokta tespiti, insan duruşunu tanımlamak ve insan davranışını tahmin etmek için gereklidir. Hareket sınıflandırması, anormal davranış tespiti gibi birçok bilgisayarla görme görevinin temelini oluşturur ve Otonom sürüş vb. Ayrıca oyunlar ve videolar için yeni etkileşimli yöntemler sağlar.

İnsan vücudu anahtar nokta tespit görevinde, temel olarak coco2018 anahtar nokta tespit projesinin ikinci programını basit bir ağ yapısıyla tanıtıyoruz.

Sıvıdaki İnsan Duruşu Tahmini için Basit Temeller , Coco2018 anahtar nokta tespit projesinin ikinci programı. Muhteşem bir teknik yok. Önemli noktaları tahmin etmek için gerekli Isı Haritasını oluşturmak için düşük çözünürlüklü özellik haritasını orijinal görüntünün boyutuna genişletmek için ResNet'e birkaç katman ters evrişim ekliyor. . Herhangi bir özellik füzyonu olmadan ağ yapısı çok basittir, ancak en son teknolojinin etkisine ulaşır.

Video Demosu: Bruno Mars-Sevdiğim Şey Bu

Sıvı değerlendirme sonuçlarında İnsan Duruşu Tahmini için Basit Temeller

GitHub Portalı:

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/human_pose_estimation

Üç, video sınıflandırması

Video sınıflandırması, videoyu anlama görevlerinin temelidir. Görüntü sınıflandırmasından farklı olarak, sınıflandırma nesnesi artık sabit bir görüntü değil, ses verilerini, hareket bilgilerini vb. İçeren birden çok görüntü çerçevesinden oluşan bir video nesnesidir. Videonun yalnızca her bir görüntü karesinin ne olduğunu ve ne içerdiğini anlamak için değil, aynı zamanda bağlamsal bilgileri bilmek için farklı kareleri birleştirmesi için daha fazla bağlamsal bilgi edinmesi gerekir.

Video sınıflandırma yöntemleri temelde evrişimli sinir ağlarına, tekrarlayan sinir ağlarına veya ikisinin bir kombinasyonuna dayanan yöntemleri içerir.

Video sınıflandırma görevinde, esas olarak video sınıflandırması yönünde birkaç ana akım lider modeli sunuyoruz.Bunlardan, Attention LSTM, Attention Cluster ve NeXtVLAD daha popüler özellik dizisi modelleridir ve TSN ve StNet iki uçtan uca video sınıflandırma modelidir. .

Attention LSTM modeli hızlı ve doğrudur NeXtVLAD, 2nd-Youtube-8M yarışmasında en iyi tek modeldir TSN, 2D-CNN tabanlı klasik bir çözümdür. Attention Cluster ve StNet, Baidu'nun sırasıyla CVPR2018 ve AAAI2019'da yayınlanan kendi geliştirdiği modeller ve Kinetics600 yarışmasında ilk sırada kullanılan modellerdir.

Dikkat Kümesi Model, ActivityNet Kinetics Challenge 2017'deki en iyi sekans modelidir. Çıkarılan RGB, Akış ve Ses verileri, Shifting Opeation ile Dikkat Kümeleri aracılığıyla işlenir.

Dikkat Kümesi modeli yapısı

Attention LSTM modeli, videonun tüm çerçeve özelliklerini sırayla kodlamak için iki yönlü uzun ve kısa bellek ağı (LSTM) kullanır. Doğrudan LSTM'nin son anının çıktısını kullanan geleneksel yöntemden farklı olarak, bu model bir Dikkat katmanı ekler ve her andaki gizli durum çıktısının uyarlanabilir bir ağırlığı vardır ve ardından son özellik vektörünü doğrusal olarak ağırlıklandırır.

Dikkat LSTM model yapısı

NeXtVLAD modeli , İkinci Youtube-8M video anlayış yarışmasındaki en iyi tek model, büyük boyutlu video dosyalarının sınıflandırılması için kare düzeyinde video özelliklerini özellik vektörlerine dönüştürme ve sıkıştırma yöntemi sağlar. Temel başlangıç noktası, yüksek boyutlu özellikleri NetVLAD modeline göre gruplamak ve bir dikkat mekanizması sunarak zaman boyutlu bilgileri toplamak ve çıkarmaktır, böylece hem daha yüksek bir doğruluk oranı hem de daha az miktarda parametre elde edilebilir.

NeXtVLAD model yapısı

StNet modeli Çerçeve, ActivityNet Kinetics Challenge 2018'i kazanan temel ağ çerçevesidir. Videodaki yerel uzamsal-zamansal korelasyonu modellemek için "süper görüntü" kavramını önerir ve süper görüntü üzerinde 2D evrişim gerçekleştirir. Ek olarak, videonun küresel uzamsal-zamansal bağımlılığını modellemek için bir zamansal modelleme bloğu kullanılır ve son olarak, çıkarılan özellik dizisinin uzun vadeli modellemesini gerçekleştirmek için geçici bir Xception bloğu kullanılır.

StNet model yapısı

Temporal Segment Ağı (TSN) , Video sınıflandırma alanındaki klasik 2D-CNN tabanlı çözüm, esas olarak videonun uzun vadeli davranış değerlendirmesi sorununu çözer.Yoğun örnekleme yerine video karelerini seyrek olarak örnekleyerek, yalnızca video küresel bilgilerini yakalamakla kalmaz, aynı zamanda fazlalığı ortadan kaldırır ve hesaplamaları azaltır. Tutar. Son olarak, videonun genel özelliklerini elde etmek için her karenin özellikleri ortalama olarak birleştirilir ve sınıflandırma için kullanılır.

TSN model yapısı

Youtube-8M veri seti Değerlendirme sonuçlarına dayalı video sınıflandırma modeli

Kinetics veri seti Değerlendirme sonuçlarına dayalı video sınıflandırma modeli

Bu bölümün detayları için GitHub'a geçebilirsiniz ve tüm süreç Çince'dir. Portal:

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/video

Dört, metrik öğrenme

Metrik öğrenme, uzaktan metrik öğrenme ve benzerlik öğrenme olarak da adlandırılır.Öğrenme nesneleri arasındaki mesafe sayesinde, metrik öğrenme, nesne zamanının korelasyonunu ve karşılaştırmasını analiz etmek için kullanılabilir.Pratik problemlerde yaygın olarak kullanılır ve yardımcı sınıflandırma ve toplamaya uygulanabilir. Bu tür sorunlar aynı zamanda görüntü alma, yüz tanıma ve diğer alanlarda da yaygın olarak kullanılmaktadır.

Geçmişte, farklı görevler için, uygun özellikleri seçmek ve manuel olarak bir mesafe işlevi oluşturmak gerekliydi; metrik öğrenme ise, farklı görevlere göre belirli bir görev için metrik mesafe işlevini özerk olarak öğrenebiliyordu. Metrik öğrenme ve derin öğrenmenin kombinasyonu, yüz tanıma / doğrulama, insan Re-ID (insan Re-ID), görüntü alma vb. Alanlarda iyi bir performans elde etti. Bu görevde, esas olarak sıvı tabanlı derin metrik öğrenme modelini tanıtıyoruz. , Üçlü ve dörtlü gibi kayıp fonksiyonları dahil.

Metrik öğrenme modeli Değerlendirme sonuçları

GitHub sayfasında kurulum, hazırlık, eğitim vb. İle ilgili talimatlar vardır. Portal:

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/metric_learning

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Oyun ne kadar havalı olabilir? Oyuncular karaciğeri 10 saatlik öfke nefreti: kılıcı göndermenin devamı yok!
önceki
Su içebilir misin Bunlar genellikle yazın yapılan 4 hidrasyon hatasıdır
Sonraki
Tencent de bugün var mı? Bir gecede patlayan yerli oyun, kamuoyuna açıkladı: Tencent'e asla lisans verilmeyecek
Google "tarihteki en güçlü GAN", şimdi PyTorch'un önceden eğitilmiş bir sürümüne sahip, gel ve oyna | kod
Bir kişi için bir aydaki en makul ağırlık ne kadar?
Çin'de PUBG'de 1 numaralı büyük kavun! 4AM yetkilisi Xuan Gucun takımdan izinsiz ayrıldı, büyük oyuncular sona erdi
1700 sayfalık matematik notları yanıyor! Tüm süreç boyunca kodu yıkın, sert çekirdek kardeş size LaTeX + Vim öğretir
Gerçeklikten sanala, Japonya'nın üç Asya Oyunları takımı futbol etkinliğinin finaline ulaştı ve 2 altın ve 1 gümüş kazandı
Tencent'in hayatta kalma arzusu gerçekten güçlü! Oyuncular tarafından azarlanmamak için en iyi eşyaları verdi mi?
Asyalı kardeş yıkanmak için askeri üniforma giyiyor! İki Avrupalı tugay genç, Japonya'nın Asya Oyunları'nı savunan altın madalyasını uzatmada başarıyla bozdu
Çim Kilo veremez mi? Böyle bir akıllı ağırlık ölçeği görmediniz!
Tesla "Dünyadaki Hırsızlar": Xiaopeng Motors ve Zoox, eski çalışanlarla birlikte gizli belgelerimi çalıyor
Tencent, NetEase tarafından baskı altına alındıktan sonra sinirlendi! Kutunun kozunu sunan yeni oyunun görüntü kalitesi, oyunun sonunu öldürmek için patladı
Tsinghua Xueba, bir rüya olarak on yılda üç oyun yaptı ve buharda en iyi yerli oyunları yaptı!
To Top