g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Makine öğrenmiyor: CNN + RNN, iki tanrı, sonsuz güç, en iyi NN modeline giriş

Makine www.jqbxx.com'u öğrenmiyor: Derin toplu makine öğrenimi, derin öğrenme algoritmaları ve teknik mücadele

Evrişimli ağ tekrarlayan ağ kombinasyonu-CNN + RNN

1. CNN + RNN

Aynı nokta

Her ikisi de geleneksel sinir ağlarının uzantılarıdır;
İleri hesaplama sonuçları üretir ve ters hesaplama modeli günceller;
Her bir sinir ağı katmanı, yatay yönde birden çok nöronla bir arada bulunabilir ve dikey yönde birden çok sinir ağı bağlantısı katmanına sahip olabilir.

fark

CNN uzamsal genişleme, nöron ve özellik evrişimi gerçekleştirir; RNN zamansal genişleme, nöron ve çoklu zaman çıktı hesaplamaları gerçekleştirir;
RNN, bellek fonksiyonu ile zaman içinde sürekli durumun çıktısını açıklamak için kullanılabilir; CNN statik çıktı için kullanılır;
CNN'in gelişmiş yapısı 100'den fazla derinliğe ulaşabilir; RNN'nin derinliği sınırlıdır.

Kombinasyonun anlamı

Büyük miktarda bilgi aynı zamanda zaman ve mekan özelliklerine sahiptir: video, resim ve metin kombinasyonu, gerçek sahne diyaloğu;
Resimlerle diyalog, metin ifadesi daha belirgindir;
Video açıklamasının içeriği, resim açıklamasından daha eksiksizdir.

Kombinasyon yöntemi

RNN cümle oluşturmak için kullanılan CNN özellik çıkarma > Resim açıklaması

CNN içerik sınıflandırması için RNN özellik çıkarma kullanılır. > Video sınıflandırması

Diyalog sorusu ve cevabı için CNN özellik çıkarma- > Resim Soru-Cevap

Kombinasyonla gerçekleştirme

Özellik çıkarma:
LSTM çıktısı (farklı zamanlarda araştırma nesnelerinin özelliklerini dikkate alarak), FC katman çıktısı.
Özellik birleştirme
Katmanı birleştir (daha uzun bir vektör oluşturmak için birlikte birleştirilir), Dikkat çarpımı (bazı alanlar güçlenir, bazı alanlar zayıflar).
Sonuç çıkışı
Sürekli cümle çıktısı LSTM, birleşik sınıflandırma regresyonu DNN.

2. Resim açıklaması

Sorun Açıklaması

Çok sayıda resim ve ek açıklama bilgileriyle, öğrenerek resimleri otomatik olarak işaretleyebilen bir model oluşturabilirler mi?

Temel fikir

Amaç, LSTM kullanarak temelde bir RNN görevi olan bir cümle oluşturma görevi olan açıklamalı cümleler oluşturmaktır.
Açıklamanın amacı büyük miktarda görüntü bilgisidir Görüntü bilgilerinin ifade edilmesi için CNN kullanılır.
CNN ağındaki tam bağlı katman, resimleri açıklamak için özellikler kullanır ve özellikler LSTM girişi ile birleştirilir.

Model tasarımı

1. Genel yapı

2. Özellik çıkarma

Resim özellikleri: CNN tam bağlı katman çıkarma;
Dil özellikleri: Word2Vec.

3. Veri hazırlama

Görüntü CNN özelliği çıkarma;
Görüntü açıklama Word2Vec vektörünü oluşturur;
Eğitim verilerini oluşturun: görüntü özelliği + n'inci kelime vektörü- > N + 1. kelime vektörü.

4. Model eğitimi

Mevcut modelleri kullanarak model oluşturma ve eğitim, CNN özellikleri ve cümle özellikleri için aktarım öğrenmeyi kullanın;
Nihai çıktı modeli, eğitim sürecinin parametreleri olan LSTM'dir: gradyan patlamasını önlemek için gradyan üst limitini (gradyan kırpma) ayarlayın, öğrenme oranı ayarı (uyarlamalı öğrenme)

5. Çalışan model

Özellik çıkarma için CNN;
CNN özellikleri + cümlelerin başlangıcı, kelimeler tek tek tahmin edilir;

Resim açıklama yükseltme detaylı açıklama

DenseCap, esas olarak Daha Hızlı R-CNN'ye dayalı

3. Video davranışı tanıma

Ortak yöntem

CNN özelliklerinin basit kombinasyonu

3D versiyonu CNN

RNN + CNN

RNN, CNN özellik füzyonu için kullanılır
Özellik çıkarma için CNN;
LSTM kararı;
Tanıma sonuçlarını birden çok kez analiz edin.

Özellik çıkarma için CNN;
LSTM füzyonu;
Doğrusal regr + Softmax sınıflandırması.

RNN, CNN özellik taraması + füzyon için kullanılır
Tüm video görüntüleri belirli sınıflandırma bilgileri içermez;
RNN, hangi çerçevelerin yararlı olduğunu belirlemek için kullanılır;
Kullanışlı görüntü özelliklerinin birleştirilmesi;

Hedef tespiti için RNN
CNN doğrudan hedef aday alanları oluşturur;
LSTM, aday bölgeleri birleştirir (bitişik momentlerdeki yaklaşık konumlar);
Nihai kesin konumu belirleyin.

4. Resim / Video Soru-Cevap

Bir resim verildiğinde, resmin içeriği hakkında sorular sorun ve soru-cevap modeli cevabı verecektir.

Sorunun türü

Yöntem akışı

Dil soru ve cevap yoluna göre çözün;
Resim özellikleri dil özellikleriyle entegre edilmiştir;
Eğitim verileri: sorular + resimler- > Cevap

Model tasarımı

Düz metinli soru cevaplama sistemi

Arka plan hikayesi oluşturma (kelime yerleştirme)
Problem özelliği oluşturma;
Arka plan, problem özellik birleştirme;
Standart cevap geri döndü.

Resimli soru cevaplama sistemi

Temel model
Arka plan hikayesi özelliği oluşturma-CNN;
Problem özelliği oluşturma;
Arka plan, problem özellik birleştirme;
Standart cevap geri döndü.

Model optimizasyonu 1
CNN özelliğinin balıkçı özelliğini oluşturmak için görüntü özelliği vektörünü daha fazla işleyin;
Özellik ifadesinin verimliliğini artırın ve kodlama özellikleriyle birleştirmeyi kolaylaştırın.