g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Alex Smola ayrıntılı makale: Aynı anda üç avantaja sahip doğru, seyrek ve açıklanabilir, sekans verisi tahmin algoritması LLA | ICML 2017

Leifeng.com AI Technology Review Press: Son zamanlarda, ICML2017'de yer alan bir makale Leifeng.com AI Technology Review'in dikkatini çekti. Sekans verisi tahmini hakkındaki bu makale, Alex Smola ve CMU'daki iki doktora öğrencisi Manzil Zaheer ve Amr Ahmed tarafından ortaklaşa tamamlandı, ikincisi şimdi Google Brain'e katıldı.

Alex Smola, makine öğrenimi endüstrisinde önemli bir figürdür.Ana araştırma alanları ölçeklenebilir algoritmalar, nükleer yöntemler, istatistiksel modeller ve uygulamalarıdır.200'den fazla makale yayınlamış ve birçok akademik monografinin derlemesine katılmıştır. NIITA, Yahoo ve Google'da araştırmalarda çalıştı, 2013'ten 2016'ya kadar CMU profesörü olarak görev yaptı ve ardından AWS'de makine öğrenimi direktörü olarak Amazon'a geldi. MXNet, geçen yıl Amazon AWS'nin resmi açık kaynak platformu haline geldi ve MXNet'in ana yazarı Li Mu, CMU'da Alex Smola'nın bir öğrencisiydi.

Bu makalede yer alan aşağıdaki Leifeng.com AI teknolojisi yorumu, "Gizli LSTM Tahsisi: Sıralı Verilerin Birleşik Kümelenmesi ve Doğrusal Olmayan Dinamik Modellemesi" (Gizli LSTM Tahsisi: Sıralı Verilerin Ortak Kümelenmesi ve Doğrusal Olmayan Dinamik Modellemesi) Spesifik giriş.

çalışma arka fon

Sıralı veri tahmini, makine öğrenimi alanında önemli bir problemdir.Bu problem, metinden kullanıcı davranışına kadar çeşitli davranışlarda ortaya çıkar. Örneğin, istatistiksel dil modelleme uygulamalarında, araştırma amacı, belirli bir bağlamdaki metin verilerinin sonraki kelimesini tahmin etmektir; bu, kullanıcı davranışı modelleme uygulamalarında kullanıcı geçmiş davranışına dayalı olarak sonraki davranışı tahmin etmeye çok benzer. Doğru kullanıcı davranışı modellemesi, kullanıcılara alakalı, kişiselleştirilmiş ve yararlı içerik sağlamak için önemli bir temeldir.

İyi bir sıralı veri modeli doğru, seyrek ve yorumlanabilir olmalıdır, ancak, tüm mevcut kullanıcı modelleri veya metin modelleri bu üç gereksinimi aynı anda karşılayamaz. Şu anda, sıra verilerini modellemek için en gelişmiş yöntem, LSTM (Uzun-Kısa Süreli Bellek) gibi RNN ağlarını kullanmaktır.Dilde temsil düzeyini yakalamak gibi verilerdeki uzun ve kısa kalıpları etkili bir şekilde yakalayabileceklerini gösteren birçok örnek vardır. Anlambilim ve sözdizimsel kuralları yakalayın. Bununla birlikte, bu sinir ağları tarafından öğrenilen temsiller genellikle açıklayıcı değildir ve insanlar için erişilemez. Sadece bu değil, modelde yer alan parametrelerin sayısı, modelin tahmin edebileceği kelime veya eylem türleriyle doğru orantılıdır ve parametrelerin sayısı genellikle on milyonlara, hatta yüz milyonlara ulaşır. Kullanıcı modelleme görevlerinde, karakter düzeyindeki RNN'lerin, kullanıcı davranışını tanımlayan sözcükler değil, karma dizinler veya URL'ler olduğu için mümkün olmadığına dikkat çekmek önemlidir.

Bu soruna başka bir açıdan bakıldığında, LDA tarafından temsil edilen çoklu görev öğrenme gizli değişken modelleri ve diğer bazı değişken konu modelleri, kesinlikle sıralı olmayan veri modelleridir ve gizli yapıyı metin ve kullanıcı verilerinden çıkarma potansiyeline sahiptir. Ve bazı ticari sonuçlar elde edildi. Konu modelleri çok popülerdir çünkü farklı kullanıcılar (veya belgeler) arasında istatistiksel gücü paylaşabilirler ve bu nedenle verileri az sayıda önemli konu (veya konu) halinde düzenleme yeteneğine sahiptirler. Bu tür konu temsillerine genellikle insanlar tarafından erişilebilir ve açıklanması kolaydır.

LLA modeli

Bu yazıda yazarlar, sıralı olmayan LDA'nın avantajlarını sıralı RNN'lere aşılayan Latent LSTM Tahsis (Latent LSTM Allocation, LLA) modelini öne sürdüler. LLA, farklı kullanıcılar (veya belgeler) ve tekrarlayan sinir ağları arasında istatistiksel gücü paylaşarak konulara (bir grup ilgili kelime veya kullanıcı davranışı hakkında) atıfta bulunmak için grafik modelindeki teknikleri ödünç alır. Konu evriminin modellenmesi, eylemlerin veya belgelerin sırasındaki değişir, modelleme yöntemini tek bir kullanıcının davranışından veya kelime düzeyinden terk eder.

LLA, LDA modelinin seyrekliğini ve yorumlanabilirliğini miras alır ve ayrıca LSTM'nin doğruluğuna sahiptir. Yazarlar, açıklayıcı özellikleri korurken model boyutu ile doğruluk arasında bir denge bulmaya çalışarak makalede LLA'nın birden çok çeşidini sunmuşlardır. Şekil 1'de gösterildiği gibi, Wikipedia veri setine dayalı dil modelleme görevinde, LLA, model boyutu açısından LDA ile aynı seyrekliği korurken, LSTM'ye yakın bir doğruluk elde etmiştir. Yazarlar, LLA parametresi muhakemesi için etkili bir muhakeme algoritması sağlamış ve bunun birden çok veri setinde etkinliğini ve yorumlanabilirliğini göstermişlerdir.

Histogram, parametre sayısıdır ve kesik çizgi karmaşıklıktır. Şekle göre, Wikipedia veri setine dayalı dil modelleme görevinde, LLA, LDA'dan daha düşük karmaşıklığa sahiptir ve parametrelerin sayısı da LSTM'den büyük ölçüde azalmıştır.

LLA, hiyerarşik Bayes modelini ve LSTM'yi birleştirir. LLA, her kullanıcıyı kullanıcının davranış sırası verilerine göre modelleyecektir Model ayrıca bu eylemleri aynı anda farklı konulara bölecek ve davranış alanını doğrudan öğrenmek yerine konu dizisindeki kısa vadeli dinamik değişiklikleri öğrenecektir. Sonuç, modelin çok yorumlanabilir, çok özlü ve karmaşık dinamik değişiklikleri yakalayabilmesidir. Yazarlar, ilk önce konu dizisini modellemek için LSTM'yi kullanarak ve ardından kelime yayılmasını modellemek için Dirichlet polinomlarını kullanarak üretken bir ayrıştırma modeli tasarladılar, bu adım LDA'ya çok benzer.

Konu sayısının K ve kelime veri tabanının büyüklüğünün V olduğunu varsayarsak; tek bir d belgesinin Nd kelimelerden oluştuğu bir belge kümesi D vardır. Üretken modelin tüm süreci şu şekilde ifade edilebilir (yukarıdaki Şekil a'da gösterildiği gibi):

Böyle bir model altında, belirli bir belgeyi gözlemlemenin marjinal olasılığı şu şekilde ifade edilebilir:

Nerede

Belgedeki belirli bir konu altındaki ilk birkaç kelimeden sonra konunun bir dahaki sefere üretilme olasılığıdır;

Belirli bir konudan sonra kelime üretme olasılığıdır. Bu formül, LSTM ve LDA'ya dayalı dil modelinde basit bir değişikliği gösterir.

Bu modifikasyonun faydaları iki seviyeye sahiptir: Birincisi, bu yolla bir ayrıştırma modeli elde edilebilir ve RRLM'ye göre parametrelerin sayısı büyük ölçüde azaltılır. İkincisi, bu modelin yorumlanabilirliği çok yüksektir.

Öte yandan, LLA tabanlı muhakeme algoritmasını uygulamak için, yazarlar model temsilini rastgele EM yöntemiyle yakınlaştırmış ve bazı hızlandırılmış örnekleme yöntemleri tasarlamıştır. Modelin sözde kodu aşağıdaki gibidir:

LLA çeşitleri

Yazarlar, orijinal metni doğrudan kullanan modelin, özetlenen konuları kullanmaktan daha iyi bir öngörücü etkiye sahip olacağına inanıyorlar. Bu nedenle, Konu LLA'ya ek olarak, orijinal metnin kelimelerini ve karakterlerini doğrudan işleyebilen iki kelime LLA ve Char LLA (önceki paragrafta a, b ve c'nin üç modeli) önerilmektedir (Char LLA'nın kendisi dizeyi yapacaktır. Çok büyük Word LLA kelime veritabanı sorununu hafifletmek için).

Deneysel sonuçlar

Birkaç deneyde, yazarlar modeli eğitmek için verilerin% 60'ını kullandılar ve modelin görev hedefi olarak kalan% 40'ı tahmin etmesine izin verdi. Eşzamanlı karşılaştırma modelleri arasında otomatik kodlayıcı (kod çözücü), kelime düzeyinde LSTM, karakter düzeyinde LSTM, LDA ve Mesafeye bağlı LDA bulunur.

Histogram bölümündeki parametre sayısı, modelin boyutunu yansıtmak için kullanılır ve indirgenmiş karmaşıklık, modelin doğruluğunu yansıtmak için kullanılır. İki görevde, LDA'nın hala en küçük model boyutunu koruduğu ve kelime düzeyinde LSTM'nin en yüksek doğruluğu gösterdiği, ancak model boyutunun daha büyük bir sıra olduğu görülebilir; kelime düzeyinde LSTM'den karakter düzeyinde LSTM'ye, model boyutu temelde Yarıya indi, doğruluk da feda edildi.

Bu tezat altında, LLA'nın özellikleri yansıtılır.LDA ile aynı açıklayıcı niteliği korurken, model boyutu ve doğruluk arasında daha iyi bir denge sağlayabilir (amaç, LSTM'den daha yüksek bir seviyeye ulaşmak değildir. Doğruluk).

Diğer yönlerden karşılaştırma şu şekildedir:

yakınsama hızı LLA'nın yakınsama hızının dezavantajı yoktur ve hızlı LDA örneklemesinden sadece biraz daha yavaştır. Bununla birlikte, karakter tabanlı LSTM ve LLA'nın eğitilmesi diğer varyantlara göre daha yavaştır.Bu, modelin doğasından kaynaklanır.LSTM'nin kelime ve karakter düzeyinde geri yayılım yapmak gerekir.

Karakteristik verimlilik Yazarlar denedi ve yalnızca 250 konuya sahip üç LLA modelinin tümü, 1000 konu içeren LDA modelinden daha yüksek doğruluğa sahip. Bu, LLA özelliklerinin daha verimli olduğunu gösterir. Başka bir bakış açısına göre, LLA'nın performansı model daha büyük olduğu için değil, verilerdeki sıralamayı daha iyi açıklayabildiği için daha iyidir.

Açıklayıcı Hem LLA hem de LDA genel temayı ortaya çıkarabilir ve LLA'nın sonuçları daha net olmalıdır. Aşağıdaki tabloda gösterildiği gibi, LDA "Iowa" yı sadece farklı belgelerde göründüğü için özetleyecektir ve LLA'nın kısa vadeli dinamikleri izleme özelliği cümledeki farklı konumlardaki konuları doğru şekilde değiştirmesine izin verir.

Ortak eğitim Makaledeki model LDA ve LSTM olmak üzere iki bölüme ayrılabildiğinden, yazarlar ayrıca iki farklı eğitim yönteminin etkilerini de karşılaştırdı: "ortak eğitim" ve "önce LDA'yı eğitin, ardından LSTM'yi konu hakkında eğitin". Sonuçlar, ortak eğitimin etkisinin çok daha iyi olduğunu göstermektedir, çünkü ayrı olarak eğitilmiş LDA'da üretilen rastgele hatalar daha sonra eğitilmiş LSTM tarafından da öğrenilecektir LSTM'nin öğrenme performansı, LDA sekans oluşturma kalitesiyle belirlenir. Bu nedenle, LDA'nın performansı ortak eğitim koşulu altında geliştirilebilir, böylece tüm modelin performansı iyileştirilebilir.