Makine öğrenmiyor: CNN + RNN, iki tanrı, sonsuz güç, en iyi NN modeline giriş

Makine www.jqbxx.com'u öğrenmiyor: Derin toplu makine öğrenimi, derin öğrenme algoritmaları ve teknik mücadele

Evrişimli ağ tekrarlayan ağ kombinasyonu-CNN + RNN

1. CNN + RNN

Aynı nokta

  • Her ikisi de geleneksel sinir ağlarının uzantılarıdır;
  • İleri hesaplama sonuçları üretir ve ters hesaplama modeli günceller;
  • Her bir sinir ağı katmanı, yatay yönde birden çok nöronla bir arada bulunabilir ve dikey yönde birden çok sinir ağı bağlantısı katmanına sahip olabilir.

fark

  • CNN uzamsal genişleme, nöron ve özellik evrişimi gerçekleştirir; RNN zamansal genişleme, nöron ve çoklu zaman çıktı hesaplamaları gerçekleştirir;
  • RNN, bellek fonksiyonu ile zaman içinde sürekli durumun çıktısını açıklamak için kullanılabilir; CNN statik çıktı için kullanılır;
  • CNN'in gelişmiş yapısı 100'den fazla derinliğe ulaşabilir; RNN'nin derinliği sınırlıdır.

Kombinasyonun anlamı

  • Büyük miktarda bilgi aynı zamanda zaman ve mekan özelliklerine sahiptir: video, resim ve metin kombinasyonu, gerçek sahne diyaloğu;
  • Resimlerle diyalog, metin ifadesi daha belirgindir;
  • Video açıklamasının içeriği, resim açıklamasından daha eksiksizdir.

Kombinasyon yöntemi

  • RNN cümle oluşturmak için kullanılan CNN özellik çıkarma > Resim açıklaması

  • CNN içerik sınıflandırması için RNN özellik çıkarma kullanılır. > Video sınıflandırması

  • Diyalog sorusu ve cevabı için CNN özellik çıkarma- > Resim Soru-Cevap

Kombinasyonla gerçekleştirme

  • Özellik çıkarma:
  • LSTM çıktısı (farklı zamanlarda araştırma nesnelerinin özelliklerini dikkate alarak), FC katman çıktısı.
  • Özellik birleştirme
  • Katmanı birleştir (daha uzun bir vektör oluşturmak için birlikte birleştirilir), Dikkat çarpımı (bazı alanlar güçlenir, bazı alanlar zayıflar).
  • Sonuç çıkışı
  • Sürekli cümle çıktısı LSTM, birleşik sınıflandırma regresyonu DNN.

2. Resim açıklaması

Sorun Açıklaması

Çok sayıda resim ve ek açıklama bilgileriyle, öğrenerek resimleri otomatik olarak işaretleyebilen bir model oluşturabilirler mi?

Temel fikir

  • Amaç, LSTM kullanarak temelde bir RNN görevi olan bir cümle oluşturma görevi olan açıklamalı cümleler oluşturmaktır.
  • Açıklamanın amacı büyük miktarda görüntü bilgisidir Görüntü bilgilerinin ifade edilmesi için CNN kullanılır.
  • CNN ağındaki tam bağlı katman, resimleri açıklamak için özellikler kullanır ve özellikler LSTM girişi ile birleştirilir.

Model tasarımı

1. Genel yapı

2. Özellik çıkarma

  • Resim özellikleri: CNN tam bağlı katman çıkarma;
  • Dil özellikleri: Word2Vec.

3. Veri hazırlama

  • Görüntü CNN özelliği çıkarma;
  • Görüntü açıklama Word2Vec vektörünü oluşturur;
  • Eğitim verilerini oluşturun: görüntü özelliği + n'inci kelime vektörü- > N + 1. kelime vektörü.

4. Model eğitimi

  • Mevcut modelleri kullanarak model oluşturma ve eğitim, CNN özellikleri ve cümle özellikleri için aktarım öğrenmeyi kullanın;
  • Nihai çıktı modeli, eğitim sürecinin parametreleri olan LSTM'dir: gradyan patlamasını önlemek için gradyan üst limitini (gradyan kırpma) ayarlayın, öğrenme oranı ayarı (uyarlamalı öğrenme)

5. Çalışan model

  • Özellik çıkarma için CNN;
  • CNN özellikleri + cümlelerin başlangıcı, kelimeler tek tek tahmin edilir;

Resim açıklama yükseltme detaylı açıklama

DenseCap, esas olarak Daha Hızlı R-CNN'ye dayalı

3. Video davranışı tanıma

Ortak yöntem

  • CNN özelliklerinin basit kombinasyonu

  • 3D versiyonu CNN

RNN + CNN

  • RNN, CNN özellik füzyonu için kullanılır
  • Özellik çıkarma için CNN;
  • LSTM kararı;
  • Tanıma sonuçlarını birden çok kez analiz edin.

  • Özellik çıkarma için CNN;
  • LSTM füzyonu;
  • Doğrusal regr + Softmax sınıflandırması.

  • RNN, CNN özellik taraması + füzyon için kullanılır
  • Tüm video görüntüleri belirli sınıflandırma bilgileri içermez;
  • RNN, hangi çerçevelerin yararlı olduğunu belirlemek için kullanılır;
  • Kullanışlı görüntü özelliklerinin birleştirilmesi;

  • Hedef tespiti için RNN
  • CNN doğrudan hedef aday alanları oluşturur;
  • LSTM, aday bölgeleri birleştirir (bitişik momentlerdeki yaklaşık konumlar);
  • Nihai kesin konumu belirleyin.

4. Resim / Video Soru-Cevap

Bir resim verildiğinde, resmin içeriği hakkında sorular sorun ve soru-cevap modeli cevabı verecektir.

Sorunun türü

Yöntem akışı

  • Dil soru ve cevap yoluna göre çözün;
  • Resim özellikleri dil özellikleriyle entegre edilmiştir;
  • Eğitim verileri: sorular + resimler- > Cevap

Model tasarımı

Düz metinli soru cevaplama sistemi

  • Arka plan hikayesi oluşturma (kelime yerleştirme)
  • Problem özelliği oluşturma;
  • Arka plan, problem özellik birleştirme;
  • Standart cevap geri döndü.

Resimli soru cevaplama sistemi

  • Temel model
  • Arka plan hikayesi özelliği oluşturma-CNN;
  • Problem özelliği oluşturma;
  • Arka plan, problem özellik birleştirme;
  • Standart cevap geri döndü.

  • Model optimizasyonu 1
  • CNN özelliğinin balıkçı özelliğini oluşturmak için görüntü özelliği vektörünü daha fazla işleyin;
  • Özellik ifadesinin verimliliğini artırın ve kodlama özellikleriyle birleştirmeyi kolaylaştırın.

  • Model optimizasyonu 2
  • Orijinal CNN özellik haritasını yerel olarak tanımak için soruyu "aday alan" olarak kullanın.

  • Model optimizasyonu 3
  • Dikkat haritası resimli soru ve cevaplara yardımcı olur;
  • Probleme göre ilk dikkat haritasını oluşturun;
  • Ardından son dikkat haritasını oluşturun;

5. Örnek: Resimleri otomatik olarak etiketlemek için Resim Yazısını Öğrenin

Bir resmi karşılık gelen bir metin açıklamasına dönüştürmenin bir örneği.

Çatal kodu bkz: https://github.com/KoalaTree/models/tree/master/im2txt

Kullanıcıların yüklemesi için iyi bir seçim, Toshiba A100240G katı hal sürücü deneyimi
önceki
Keyifli mutfağa aşık olun, Jinzheng entegre duman sobası kombinasyonu
Sonraki
Ağlamaktan korkuyorsanız izlemeyin, bu Kuzey driftçiler için gerçek Fener Festivali!
Siyah beyaz cep telefonlarından başlayarak bilgi talebimiz hiç azalmadı
Bu King Sky, Titan I767001080 oyun konsolunun inancıdır
Makine öğrenmiyor: Bi-LSTM-CRF'yi bir makalede anlayın
Yüksek Sesle Haberler | Dikkatli bakın, sosyal güvenlik ödemesinde çok fazla hileli var! Kanmayın ...
Wang Baoqiang'ın arkadaşı Chen Sicheng de aldattı mı? Kullandıkları telefona bak
Saf Vokal Orkestrası "Sürpriz! Hangzhou ilk gösterisi, "Bayan Dong", Hangzhou pazarını "havaya uçurmak" için kullanacak
Oyun kazanmak, sol B845R optik eksen mekanik klavye deneyimi
AMD Ryzen PRO masaüstü çözümü, ticari bilgisayar satıcıları tarafından desteklenir
B150 platformu için en iyi seçim! Kingston DDR4213316 genel şerit
Çevre korumasına katkıda bulunun, eskiyi kullanın ve yeni satın almayın, 3000 yuan ana ekran
Moto Z4 Play işleme görüntüsü pozlama: su damlası ekranı / modüler tasarım veya 5G desteği
To Top