Dün gece Stanford Fighting Chart'ta iki öğrenciye kaybettim, ifade oluşturmak için derin sinir ağlarını kullandılar ve çok hızlı bir şekilde resimleri yayınladılar.

Leifeng.com AI Teknolojisi Yorumu: Stanford Üniversitesi'nden iki öğrenci, Abel L Peirson V ve Meltem Tolunay, CS224n son makalelerini yayınladı - Generated by Deep Neural Network İfadeler (Doğru okudunuz). Makalenin ana içeriği, resimlerin içeriğine bağlı olarak ilgili açıklamalar (Tucao) üretmektir. Belki makale diğer gazeteler kadar ciddi değil ama fikir de açık, makale ve kod yayınlandı. Leifeng.com AI Technology Review, makalenin içeriğini de kısaca tanıttı.

Özet

Abel ve Meltem, bir resme karşılık gelen metni (ifadeleri) otomatik olarak atayabilen yeni bir ifade paketi oluşturma sistemi geliştirdi. Ayrıca bu sistem, kullanıcı tanımlı etiketlere de uygulanarak, kullanıcıların bunları resmin içeriğine göre (ifadeler) sınıflandırmasını kolaylaştırır. Sistem, bir görüntü yerleştirme oluşturmak için önce önceden eğitilmiş Inception-v3 ağını kullanır ve ardından son ek açıklamayı oluşturmak için bunu dikkat tabanlı derin LSTM modeline aktarır. Bu yaklaşım, ünlü SHowTell modelinden esinlenmiştir. Ayrıca kümeyi biraz değiştirdiler. Eşleşen karakterlerin çeşitliliğini sağlamak için arama algoritması (suç düşmanı Ufly kardeş + eşleşen karakterler). Modellerini değerlendirmek için kafa karışıklığı değerlendirmesi ve insan değerlendirmesi kullanırlar Değerlendirme göstergeleri esas olarak ikidir, biri oluşturulan ifade paketinin kalitesi, diğeri ise sahte olup olmadığıdır.

Giriş

Her kültürdeki popüler emojiler bir fikri veya davranış tarzını (Tucao) temsil eder ve genellikle belirli bir fenomeni, temayı ve anlamı (sosyal kişi?) İfade etmeyi amaçlarlar.

İfadeler her yerde ve dil ve stil sürekli değişiyor (İnternet ünlüleri aşırı gaz çıkarıyor). İfadeler çok çeşitli kaynaklardan ilham alır ve formları sürekli olarak gelişir. Başlangıçta memler, mizahı yaymak için kültürel (özellikle alt kültür) temaları kullanan bir araçtı. Bununla birlikte memler, siyasi idealleri desteklemek için de kullanılabilir :) , Rezonansı yay, azınlık adına konuş. İfadeler bu neslin iletişim yoludur ve bu nesli gerçekten şekillendirmişlerdir. AI artık hızla gelişiyor ve acilen yeni zorluklara ihtiyaç var. İfadelerin yüksek alaka düzeyi aynı zamanda güçlü kavrama becerileri gerektirir, bu nedenle bu projeyi (ciddi olanı) seçerler.

Herkes ifade oluşturmak için derin öğrenmeyi kullanamaz

Bu görev sadece yukarıdaki resmin etkisini tamamlar, yani resme kelimeler ekler. Bu yaklaşım, sorunu ve veri toplamanın zorluğunu büyük ölçüde basitleştirir ( v ). Bu makaledeki ana görev, şablon ifadeleri olarak kullanılabilecek, resimlerle son derece ilgili olan mizahi kelimeler üretmektir. Mevcut bir görüntü açıklama kodlama ve kod çözme sistemini uyguladılar.Sistem önce bir CNN görüntüsünü yerleştirir ve ardından metin oluşturmak için bir LSTM-RNN kullanır. Ayrıca farklı LSTM modellerini test ettiler ve performanslarını değerlendirdiler.

Oluşturulan ifadelerin kalitesinin otomatik olarak değerlendirilmesi zordur. Modellerini değerlendirmek ve ayarlamak için bir gösterge olarak kafa karışıklığını kullanırlar Karışıklık, BLEU (Bilingual Evaluation understudy) puanı ile oldukça ilişkilidir. Kantitatif değerlendirmeleri insan testçileri tarafından yapılır. İnsan deneyi yapanların ifadelerin üretilip üretilmediğini ayırt etmesi veya ifadelerin neşesini değerlendirmesi gerekir Sonuçta, ifadelerin ruhu eğlencelidir.

Arka planla ilgili çalışma

1. Resim açıklama modeli

"Göster ve söyle: Bir sinirsel görüntü resim yazısı oluşturucu" (https://arxiv.org/abs/1411.4555) Bu makalenin yazarı tarafından sunulan görüntü açıklama modeli, ifade oluşturma modelinin uyluğudur. Son yıllarda, bu modelin gelişimi, iki yönlü LSTM ve dikkat mekanizması kullanılarak büyük ölçüde geliştirildi. Ancak bu modeller temelde "mizahi notlar" için kullanılmıyor. StyleNet'in girişimleri sınırlı başarı elde etti, ancak bu modeller yazarın projesi için cephane sağladı.

İki, RNN dil modelleme için kullanılır

RNN ve varyant modelleri, son zamanlarda dil modelleme ve makine çevirisi NLP görevlerinde en iyi sonuçları elde etti. Bunlar arasında, LSTM özellikle iyidir çünkü verileri uzun süre hatırlamak için bir "geçit mekanizması" kullanırlar. İki yazar tarafından kullanılan LSTM birimi aşağıdaki formüle dayanmaktadır:

Burada f unutma kapısı, i giriş kapısı, o çıkış kapısı, m bellek çıkışı ve W eğitilebilir matristir. Kelime tahmini, kelime haznesindeki her kelimenin olasılık dağılımını çıkaran softmax katmanı tarafından gerçekleştirilir.

3. Önceden eğitilmiş GloVe vektörü

Kelimeleri temsil etmek için vektör yerleştirmeyi kullanmak, birçok NLP görevinde anlamsal benzerliği yakalamanın önemli bir yoludur. Projelerinde kullanılan vektör gömme, "Glove: Kelime temsili için küresel vektörler" ( makalesinden gelmektedir.

Dördüncü olarak, RNN'nin dikkat mekanizması

Dil modelleme, metin oluşturma ve makine çevirisi gibi sürekli NLP görevlerinde dikkat mekanizması, sabit uzunluklu vektörlerin uzun dizilere uymaması sorununu çözer. İki yazar tarafından oluşturulan modelin bir çeşidi Luong ve diğerlerinin dikkat modelini kullanır (https://arxiv.org/abs/1508.04025).

özel yöntem

Bir, veritabanı

Veri kümeleri, adresinden taranan kendi Python kodlarını yazdıkları 400.000 görüntü içermektedir. Resmi eğitimden önce, yazar ayrıca verileri ön işlemden geçirdi.Ek açıklamadaki her kelime GloVe formatına uyacak şekilde küçültüldü ve noktalama işaretleri de işlendi.

İki model varyantları

  • Kodlayıcı: Kodlayıcının rolü, kod çözücüye bir varoluş nedeni vermektir. İki öğrenci bu projede üç model varyantı yaptı (çok iyi): Birincisi etiketi görmezden geliyor, ikincisi bir etikete sahip ve üçüncüsü ikinciye bir dikkat mekanizması ekliyor.

  • Kod çözücü: Kod çözücü, yukarıda açıklanan denkleme göre çalışan tek yönlü bir LSTM ağından oluşur. Her LSTM birimi modeldeki değişkenleri yeniden kullanır. Kod çözücünün anlamı, kodlayıcıyı pota bağlamaktır Yukarıdaki üç varyantın ilk ikisi aynı kod çözücü ile çözülebilir ve ikinci yazar bunun nasıl çözüleceğinden bahsetmedi.

  • Çıkarım ve küme araştırması: Yazarlar, standart küme aramaya dayalı çıkarım algoritmasının uygulamada etkili olduğunu bulmuşlar, bu nedenle bu algoritmayı kullanmaya karar vermişlerdir.Üretilen ifadelerin çeşitliliğini sağlamak için, algoritmaya bir sıcaklık fonksiyonu da eklediler.

  • Deney

    1. Eğitim

    Çok kararlı (bazı işlemleri atlayın).

    2. Sonuçların değerlendirilmesi

    Sorun değil (oh, daha fazla işlemi atlayın).

    Oluşturulan bazı ifadelerin tadını çıkaralım

    (Tek bir köpek Orz'a yapılan son eleştiri de dahil olmak üzere oldukça iyi ...)

    sonuç olarak

    Bu makale, ifadeleri oluşturmak için resimleri eşleştirmek için sinir ağı modelinin nasıl kullanılacağını açıklamaktadır. Abel ve Meltem ayrıca, hem etiketli hem de etiketsiz bir dizi model varyantı geliştirdi (kapsamlı) ve ayrıca dil modellemeye küçük bir katkı olarak kabul edilen ince ayarlı bir LSTM modeli sağladı (mütevazı). Nihai test sonuçları, üretilen ifadelerin ve yapay ifadelerin kolayca ayırt edilemediğini gösteriyor (buna inanıyorum).

    İki öğrenci, bu proje ve diğer benzer dil modelleme görevleri için en büyük zorluğun anlayış Çeşitli insanların ve kültürlerin sapı. Gelecekte ısrarlı çabalar göstereceklerdir. Son bir sorun daha var: Veri setinde önyargı, ırk ayrımcılığı ve cinsiyet ayrımcılığı var ve ilerideki çalışmalarda bu sorunu çözmeye özen gösterecekler.

    Yukarıdakiler, Leifeng.com'un tüm derlenmiş içeriğidir.

    Kağıt adresi: https://arxiv.org/abs/1806.04510

    Hala mizaçla siyah: Vivo Xplay6 Canlı Uygulamalı Tur
    önceki
    Gökkuşağı dalgası devam ediyor! Nike KD 10, "Rainbow Team" e katıldı
    Sonraki
    2018'de selfieler için en iyi amiral gemisi telefonu, kimi seçersiniz?
    Vivonun ilk ekran parmak izi tanıma özellikli cep telefonu resmi olarak tanıtıldı ve 1 Şubat'ta satışa sunulacak!
    Bu iki ticari aracın zengin olmasına kaç kişi yardım etti?
    İki ekran eğlencelidir, size çift ekranlı telefonları kolayca oynamayı öğretir
    En "harika" job-hopping? Bir nesil LOL süper çapaları kurt adam öldürmeye başladı ve kardeş oldu!
    5000 fincan Starbucks içti ve bir iPhoneX aldı ve neredeyse yüz kişi onu elinden aldı!
    Audi'nin önümüzdeki yıl Çin'e gireceği bu yeni otomobiller, Mercedes-Benz ve BMW'yi rahatsız etmeye yetiyor.
    Ünlü yönetmen Bernardo Bertolucci hastalıktan öldü ve "Son İmparator" u yönetti.
    Xiaobai Ailesi Bulut Disk Deneyimi Giriş seviyesi NAS için yeni bir seçim
    MSI Sezon Ortası: Şampiyonluk mu oldu? UZI ve Xiaomingin hanbok'u yükseldi! Bu kazanma yüzdesi çok abartılı!
    Gel farkı bul! Bu adidas Stan Smith'de eksik olan ne görünüyor?
    Büyük kapasite mi yoksa küçük boyut mu? Size uygun güç bankasını seçmek çok önemlidir!
    To Top