g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Makine Öğrenimi ve Uygulama Oturumu AIS Ders Öncesi Oturumu Tam Kuru Mal Paylaşımı

AIS (ACL, IJCAI, SIGIR) 2018

5. Oturum: Makine Öğrenimi ve Uygulamalar

1 Shen Dazhong Çin Bilim ve Teknoloji Üniversitesi

Akıllı İş Görüşmesi Değerlendirmesine Ortak Öğrenme Yaklaşımı

Önce Motivasyonumuza bir göz atalım Mülakat yetenek işe alımının önemli bir parçasıdır. Gittikçe daha fazla ilgi gördü. Bununla birlikte, geleneksel görüşme sürecinde bazı kaçınılmaz dezavantajlar vardır. Örneğin, mülakatta karar verme esas olarak mülakatı yapanın kişisel muhakemesine dayanır ve mülakatı yapan kişinin kişisel tercihlerinden, deneyiminden ve yeteneklerinden kaçınılmaz olarak etkilenecek ve bu da özellikle kariyerlerinin ilk aşamalarında bazı deneyimsiz mülakatçılar için belirli sapmalara neden olacaktır. Bazı deneyimli görüşmeciler için, deneyimlerinin miras alınması ve genç görüşmeciler tarafından öğrenilmesi de zordur. İkincisi, bazı şirketler büyük miktarda işe alım görüşmesi verisi biriktirmiş olsa da, veri madenciliği perspektifinden görüşme sonuçlarını iyileştirmek için hala çok az çalışma vardır. Özellikle mükemmel görüşmecilerin deneyimlerini keşfetmek için.

Bu nedenle, çalışmamızın amacı, çok sayıda mükemmel görüşmecinin katıldığı görüşme kayıtlarından öğrenerek görüşmedeki çeşitli metin türlerinin iç ilişkisini keşfetmektir. Mülakata daha fazla yardımcı olmak için mülakatta mükemmel mülakatçıların ana odağını bulmak için "iş tanımı, özgeçmiş ve mülakat yorumları arasındadır". Geleneksel görüşmelerde öznel ve tek taraflı sorunları iyileştirin.

Ancak bu süreçte, işe alımdaki bazı olayların veya zorlukların özel muamele gerektirdiğini de gördük. Birincisi, görüşmeciler genellikle adayların özgeçmişlerine dayalı olarak görüşmeler tasarlar, bu da özgeçmişler ve görüşme yorumları arasında güçlü ilişkilere yol açar. İkincisi, özgeçmişler ve iş tanımları arasında da güçlü bir ilişki vardır, ancak aradaki fark, genel iş tanımlarının daha özlü olması, özgeçmişlerin daha spesifik olması ve farklı deneyimlere sahip birçok kişinin aynı anda aynı işe başvurabilmesidir. İş tanımının çeşitliliği özgeçmişe göre daha küçüktür. Son olarak, teknik mülakatlar ile kapsamlı mülakatlar arasında büyük bir fark olduğunu fark ettik: Biri teknik araştırmalara eğilimli, diğeri insani okuryazarlığa odaklanıyor. Onlara farklı davranmalıyız.

Yukarıdaki üç zorluğu çözmek için. Mülakat Değerlendirmesi (JLMIA) üzerine model Ortak Öğrenme Modelimizi önerdik. Modelimiz, genişletmek ve tanıtmak için LDA konu modeline dayanmaktadır. Sağda karşılık gelen olasılık grafik ekranı var Röportajdaki her türlü metnin birden fazla konudan karıştırıldığına inanıyoruz.Görüntü inceleme ile özgeçmiş arasındaki ilişkiyi kazımak için konu dağılımını tetaA aralarında paylaşıyoruz. Aynı zamanda, özgeçmiş ile gönderi arasındaki ilişkiyi açıklamak için iş tanımı konu dağıtımı thetaJ'den thetaA üretildiği varsayılır. İş tanımı ile özgeçmiş arasındaki farkı daha iyi karakterize etmek için, üç belge türünün her birindeki konu sayısının farklı olduğunu varsayıyoruz. Daha sonra, teknik ve kapsamlı görüşmeleri birbirinden ayırmak için, farklı görüşme metinleri türleri için farklı konu setleri kullanıyoruz. Son olarak modelimizi çözmek için EM algoritmasını tasarladık. Modelimiz hakkında daha detaylı bilgi almak isterseniz yazımızı okuyabilirsiniz.

Daha sonra, uygulama destekli iki görüşme tasarladık: Biri kişi-iş eşleştirmesidir. Bir çift iş tanımı ve özgeçmiş göz önüne alındığında, ikisi arasındaki eşleşmeyi ölçmeyi umuyoruz. Her şeyden önce, modelimiz iki metnin ilgili konu dağılımlarını ilgili temsil vektörleri olarak çıkarabilir, böylece eşleştirme derecesini ölçmek için çeşitli yöntemler kullanabiliriz, örneğin vektörler arasındaki kosinüs benzerliği, KL mesafesi veya eşleşen bir çift olarak vektör ekleme Özellik olarak, bir kabul etiketi ekleyin veya etmeyin ve kabul olasılığını tahmin etmek için bir sınıflandırıcıyı eğitmek için denetimli bir yöntem kullanın. Gerçek mülakat verileri üzerindeki etkimizi test ediyoruz.Başlangıçta LDA kelime torbası var Modelimiz çeşitli ölçüm yöntemlerinde temelden önemli ölçüde daha iyi.Modelimizin bir tür özgeçmiş ve iş tanımı bulduğu söylenebilir. Korelasyon.

Diğer bir uygulama mülakat soru önerisidir. Bir mülakat soru setimiz olduğunu varsayalım. Bir sorgu verildiğinde, ilgili bir soru alt kümesi X önermek istiyoruz. Bir yandan, bu soru alt kümesi X sorguyla ilişkili olmalı, diğer yandan soru seti Mümkün olduğu kadar çok bilgi noktası olmalı, yani aralarında farklılıklar olmalıdır. Soruları röportaj yorumları olarak ele alıyoruz ve konuyu bir temsil olarak çıkarıyoruz. Aynı zamanda, optimizasyon işlevi F'yi tasarlamak için problem setinin Alaka düzeyini ve Çeşitliliğini göz önünde bulundurun. F maksimum değeri aldığında ortaya çıkan problem en uygun çözümdür. Yöntemlerimizi gerçek mülakat soruları üzerinde yoğun bir şekilde test ediyoruz.

Alaka düzeyi, çeşitlilik ve Kişi Kalitesi olmak üzere üç değerlendirme göstergesi öneriyoruz. Alaka düzeyi, önerilen on sorudan kaçının sorgu ile ilgili olduğunu ve çeşitlilik, bu ilgili sorulardan kaç tanesinin farklı bilgi noktaları içerdiğini ve son olarak kişinin kalitesinin ne olduğunu ifade eder. Kapsamlı mülakatlar içeren sorular. Üç değerlendirme göstergesi arasında, modelimiz tarafından önerilen Uygunluk ve Çeşitlilik'in her ikisi de yüksektir, bu da önerilen sorunun yalnızca sorgulama ile ilgili olmadığını, aynı zamanda daha fazla bilgi noktasını kapsadığını göstermektedir. İkinci olarak, kapsamlı görüşmeler için önerilen sorular, teknik görüşmelerden daha yüksek olan ve yine gerçeklikle uyumlu olan Kişi Kalitesi konularını içerir. Bununla birlikte, karakter eşleştirmeye dayalı BM25 algoritmasının etkisi nispeten zayıftır, bu, sorgudaki potansiyel bilgi noktalarını keşfetmedeki zorluğundan kaynaklanıyor olabilir. Daha spesifik olarak, etkimizi daha fazla görselleştirmek için makalede bir örnek gösterdik. Eğer ilgileniyorsanız yazımızı okuyabilirsiniz.

Akıllı görüşmelerde bizim işimiz bu ve işe alımda doğru kişilerin öne çıkabilmesi için görüşme değerlendirmesinin kalitesini iyileştirmek için bazı katkılarda bulunmayı umuyoruz. hepinize teşekkür ederim.

2 Mao Yuzhao Pekin Posta ve Telekomünikasyon Üniversitesi

Daha Fazlasını Gösterin ve Anlatın: Konu Odaklı Çok Cümleli Resim Yazısı

Resimler için metin açıklamaları oluşturmak için Resim Altyazı Oluşturma görevine bir göz atalım. Resim sınıflandırmasından farklı olarak, cümleler bir resmi tanımlamak için kullanılabilir. Erken çocukluk eğitimi, kör gezinme ve otomatik tur rehberleri gibi birçok alanda yaygın olarak kullanılabilir. Bu çok güzel bir uygulama ... Şimdi tur rehber sistemi, bir yere gittik ve aniden konuşmaya başladık. Ne konuşacağımı bilmiyorum, VR gözlüklerini birleştir ve birini hedef al, sana içeriğini açıklayacak.

Multimedya insan-makine diyaloğu ve tıbbi görüntüler için otomatik olarak bazı raporlar oluşturabiliyoruz, geniş bir uygulama yelpazesine sahiptir. Motivasyonumuz, resim açıklamalarının genellikle resim için tek bir cümle açıklaması oluşturmasıdır.

Aklımıza gelen ilk şey LDA modelidir.Öncelikle, cümlenin konusu ve cümlenin başlığındaki konu sözcükleri de dahil olmak üzere bazı parametreler elde etmek için bu cümleleri LDA modeline koyun ve bu görüntüler üzerinde işaretlenebilir. Aynı zamanda temalarımızı da görselleştirebiliriz. İlk konu mutfakta, ikinci konu, renkler, üçüncüsü, telefon görüşmeleri ve dördüncüsü, gazete okumakla ilgili bir şeyi anlatıyor.

Katkımız, resmi tamamen açıklamak için birden çok cümle kullanan konu odaklı bir model önermektir. Konuyu bütünleştiren ve oluşturulan cümleleri konuyla tutarlı tutan bir füzyon birimi kapısı öneriyoruz. Modelimizin konu tutarlılığı ve açıklama tutarlılığı açısından etkili olduğunu kanıtlamak için cümle sayı kümeleri ve paragraf kümeleri üzerinde de birçok deney yaptık.

Model ilk olarak biçimsel bir tanımlamadır.Geleneksel olarak, bir görüntü tanımının amacı, bir resim verilen bir cümlenin olasılığını maksimize etmektir. Modelimiz, farklı odakların tanımını yakalamak için konu değişkenlerini sunar. Belirli bir resim durumunda, bir cümle ve resim birlikte dağıtılır ve iki öğeye genişletilebilir: İlk öğe, modelimizin bir çıktısına karşılık gelen konuya yönelik bir dil modelidir ve ikinci öğe bir konu sınıflandırıcıdır. Bu modelin ikinci çıktısına karşılık gelir.

Maliyetlerimiz iki içerir, biri dil modelini eğitmenin maliyeti ve diğeri de sınıflandırıcıyı eğitmenin maliyeti.

Girdiğimiz iki öğe içeriyor: Birincisi, LDA eğitildi ve diğeri LCM'dir. İlk anda bir görüntü gireceğiz ve sonraki anda bir cümle gireceğiz.

İlk modül, LSTM birimidir, iki gösterim elde eder, biri h0'ın çıktısı olan görüntü temsilidir ve bağlam gösterimi ht, t 0'dan büyük olduğunda çıktıdır.

Ayrıca bir füzyon birimi geçidimiz var. Elde edilen üç temsil bağlamdan biri, diğeri görüntü ve diğeri tema. Füzyon yöntemi çok basit. Önce temayı ve görüntüyü çarpın ve sonra Daha sonra dil modelinin olasılık dağılımını çıkarmak için bağlam gösterimine eklenmiştir.

Modelimiz paragraf açıklaması için tasarlanmamıştır, ancak paragraf veri setlerinde daha iyi performans sağlayabilir.

Bir konu verildiğinde, NIC göze çarpan kısmın bir açıklamasını oluşturacak ve modelimiz, model avantajımız olan konuyla ilgili görüntü ayrıntılarını oluşturacaktır.

Aynı sahneyi inşa etmek gibi tarif ettiğimizde, farklı tanımlamalar olacaktır Bu nitel sonuçlardır.

3 Çin Bilimler Akademisi He Ben Üniversitesi

TDNN: İstemden Bağımsız Otomatik Deneme Puanlama için İki Aşamalı Derin Sinir Ağı

Otomatik kompozisyon puanlama, manuel puanlamanın maliyetini düşürmeyi umarak kompozisyona otomatik olarak bir puan atayan makine öğrenimi yöntemini ifade eder. Amerika Birleşik Devletleri AES, GRE'de makine puanlamasını 2005 yılında kullanmaya başladı.

Mevcut kompozisyon puanlama yöntemleri kabaca iki kategoriye ayrılır: Biri temayla ilgili modellerdir.Her kompozisyon sorusu için puanlanmış veriler vardır ve model eğitilir ve sonra tahmin edilir. İkincisi, konudan bağımsız kompozisyon puanlamasıdır. Kompozisyonu yazmak için bir not simülasyon testi vardır, ancak eğitim verisi yoktur, sadece geçmiş geçmiş verileri vardır. Geçmiş tarihsel verilere dayanarak, hızlı bir şekilde puan almak için bir model vardır.

Önceki yöntemlerin çoğu konu ile ilgili modellerdir ve sonuçlar da çok iyidir İnsanlarla daha tutarlı olduklarını gösteren sonuçlar bile vardır. Ancak konudan bağımsız kompozisyonun puanlaması nispeten o kadar basit değildir.

Bu soruna yanıt olarak, çalışmamızda doğrudan itme aktarımı öğrenmeye dayalı iki aşamalı bir algoritma önerdik.

İlk aşamada, konu bağımsızlık aşamasında, konu bağımsız bir model olan ve konu bağımsız özellikleri kullanan basit bir puanlama modeli eğitiyoruz. Hedef soruyu bir puan olarak tahmin etmek için bu modeli kullanın. Bu puan güvenilmezdir, ancak genellikle bu puanı hangi makalelerin en iyi hangilerinin en kötü olduğunu bilmek için kullanabilirsiniz.

İkinci aşamada, sinir ağı modeli, hedef kompozisyon koleksiyonunun kompozisyon puanını tahmin etmek için eğitilir. Bu derin sinir ağının üç girdi bölümü vardır: İlk bölüm anlamsal ağdır.Girişi eğitimli gömme, ikinci bölüm POS etiket girişi ve üçüncü bölüm girdi olarak sözdizimsel etikettir. Bir kompozisyonun anlamsal bilgilerini ve bir cümlenin gramer yapısını yakalamak için üç farklı girdi kullanmayı umuyoruz. Ayrıca, bunlar ve kompozisyon puanları arasındaki ilişkiyi yakalamak için bir tür paragraf organizasyonu, sözdizimsel organizasyon vardır.İki katman ve üç katman LSTM, kompozisyon temsilleri oluşturduktan sonra, bunlar birbirine eklenecek ve nihai puanı elde etmek için dağıtım öncesi ağa girilecektir.

Bu yazıda önerilen model, bu üç farklı model girdisi, yedinci kompozisyon sorusu hariç, her kompozisyondaki en iyi temelin performans karşılaştırması, diğer birkaç kompozisyon sorusu belirli bir derecede gelişme göstermiştir. Ortalama olarak sekiz kompozisyon sorusu, en üstteki temel, alttaki ise farklı yöntemlerle özellik girdisidir. Önerilen yöntemin, ortalama olarak, üç göstergede belirli bir iyileşme elde edebileceğini bulduk En iyi özellik kombinasyonu, girdi artı sözdizimsel belirteçleri yerleştirmektir.

Ek olarak, kuyruk etiketi bilgilerinin doğruluğu, kuyruk etiketi puanı doğru olmasa da, kuyruktaki pozitif durumlar, kuyruktaki negatif durumlardan daha yüksektir ve kuyruktaki negatif durumlar, kuyruktaki pozitif durumlardan daha düşüktür. Doğruluk% 80'den fazladır, garantilidir. Eğitimin güvenilirliğini artırın.

Son olarak, özetlemek gerekirse, bu makale, konudan bağımsız kompozisyon puanlama görevini çözmeyi umarak, aktarım öğrenmeye dayalı iki aşamalı bir sinir ağı modeli önermektedir.Sonuçlar yöntemin etkinliğini göstermektedir.Ayrıca, sözdizimsel özelliklerin kompozisyonu puanlamak için yararlı olduğu kanıtlanmıştır. özelliği.

4 Zhou Qianrong Pekin Posta ve Telekomünikasyon Üniversitesi

Cümle Sınıflandırması İçin Farklılaştırılmış Özenli Temsil Öğrenme

Mevcut birçok cümle sınıflandırma modeli arasında en önemli bağlantı cümle temsili öğrenmesidir.Bu aşamada, temsili öğrenmenin derin modeline dayalı olarak herkes bir dikkat mekanizması modeli kullanacaktır.Bu dikkat mekanizması tüm cümlenin iyileştirilmesi için yararlıdır. Modelin sınıflandırma performansı ve teknolojik tutarlılığı çok yardımcıdır.

Özet olarak, ilgili çalışmada, bu tek dikkat öğesinde, kullanılan kılavuz vektör genellikle cümlenin veya ilklendirmenin ortalama vektörüdür. Bu tek miktarlı model bir çoklu atlama mekanizmasını geliştirebilir. Bu mekanizmanın ana değişikliği, orijinal tek atlamanın cümleye bir kez dikkat etmesidir.Bu çoklu atlama, cümlenin dikkat ağırlığını güncelleyecektir. Cümlenin daha önemli kısımlarına dikkat edin.

Tek atlama tabanlı model, bazı daha karmaşık cümlelerde veya uzun cümlelerde özellikle iyi performans göstermez. Genel olarak, performans tek sekmeli modelden daha iyidir Genel olarak konuşursak, paylaşılan bir tam değer yöntemi, yani birleşik bir ağırlık kullanan çok sekmeli bir dikkat mekanizması kullanır. Ek olarak, bu yöntemin, ortada başka bir denetimli bilgi sağlamadan, son anda sınıflandırma etiketinin denetim bilgilerini vermek olduğunu gördük.

İşte bulduğumuz bir problem: Bu çoklu atlama modeli, ilk dikkat için genellikle çok önemlidir. Örneğin, ilk kez yanlış yere dikkat ettiğimde, temelde yanlış yolu gitgide daha fazla takip ettim. Beklentimiz, hataya ilk kez odaklandığımızda doğru yere nasıl gideceğimizdir.

Modelimizin motivasyonlarından biri, bir hata oluştuğunda bu dikkati doğru tek sıçramaya aktarmanın bir yolunu bulmak ve bir öngörüde bulunmaktır. Motivasyonumuz, dikkat ettiğimizde bir sinyal vermektir.Bu sinyal bir tür bilgiyi iletir.Bu bilgi, önceki dikkatin iyi veya kötü performansını ifade eder.Sınıflandırma yanlışsa, sonraki hop'a nasıl ayarlanacağını söylemeliyiz.

Eğitim metotları açısından doğrudan iki kaybı birbirine eklersek aslında bir fark yok. GR kaybına bir düzeltme faktörü ekledik.Bir hata olduğunda, özellikle iyi olmayan bir alana dikkat ettiğimizde dikkatini aktarabiliriz.

Burada, ayarlama faktörümüz bir dağılım fonksiyonu kullanır, bu da C1 olasılık değerinin doğru etiket üzerinde tahmin edildiği anlamına gelir.Bu değer görece küçükse, telaffuz görece büyük olacaktır. Kaybın optimizasyon odağı L2 üzerindedir. Bunun gibi bir sinyal gösterin, nasıl davrandığını, bu sinyal C2'ye iletilir.

Sonuncusu, ayırıcının kaybıdır ve bu kaybın denetim bilgisi, bir işlev kullanılarak C1 ve C2'nin sınıflandırma kaybından gelir.

Deneyde bulduk ki C1 öğrenme durumu C2 üzerinde özellikle büyük bir etkiye sahipse, C1 her zaman çok keskin bir olasılık dağılımı veya çok ortalama bir olasılık dağılımı veriyorsa, C2 öğrenimini etkileyecektir. C1'in tahmin edilen çıktısı üzerinde bir kelime ile doğru etikette ve özellikle düşük olmayan bir değere sahip diğer etiketlerde bir çarpma yapıyoruz. Son olarak, bu üçünü bir araya getirip birlikte optimize ediyoruz.

Model düzeyinde, esas olarak farklılaştırılmış bir model öneriyoruz. Problem çözme seviyesinde, dikkat yanlılığı problemini etkili bir şekilde çözebilecek bir tür ekran sinyal aktarımı öneriyoruz. Ek olarak, bir görselleştirme yaptık ve modelin daha etkileyici özellikler çıkarabileceğini ve ayrıştırma performansını iyileştirebileceğini gördük.

5 Liu Yijia Harbin Teknoloji Enstitüsü

Arama Tabanlı Yapılandırılmış Tahmin için Bilgiyi Damıtma

Doğal dilin yapı tahmini, doğal dili bir yapıya haritalandırmaktır.Bu yapı bir ağaç veya grafik olabilir.Tipik sözdizimi analizi ve çevirisi, yapı tahmin problemleridir. Bu yapı tahmin problemleri, bir yapı bulma sürecini yeni bir duruma ulaşmak için bir arama eylemi kullanan bir sürece dönüştürebilen bir arama problemi olarak modellenebilir ve sürekli işlemden sonra son duruma ulaşır.

Arama tabanlı yapı tahmini genellikle bir puanlama işlevi gerektirir.Bir durumda, en yüksek puana sahip eylem seçildiği ve sürekli olarak düştüğü sürece, bir eylemin puanı nedir.

Bir puanlama işlevini öğrenmek, bir referans politika stratejisi oluşturmaktır. Bu strateji bize, bir eyaletteki yapıyı bildikten sonra doğru eylemin ne olması gerektiğini söyler. Doğru olanı elde etmek için eğitim verilerini sürekli olarak çalıştırmak için bu referans politikasını kullanın. Durum ve doğru eylemler. Bu doğru durumu ve doğru eylemi aldıktan sonra, puanlama işlevini elde etmek için bir ayırıcı eğitin.

Bununla birlikte, eğitim sürecinin aşağıdaki iki ana sorunu vardır: Biri, eğitim süreci boyunca eğitim verilerinin farklılaşmasıdır. İkincisi, eğitim ve testin tutarsız olması ve test sırasında bir hata durumunun girilebilmesidir.

İlk sorunun çözümü, entegre öğrenme yöntemlerini kullanmaktır.

İkinci problemin en tipik çözümü, eğitim sürecine bir keşif mekanizması getirmektir.

Yukarıdaki iki noktayı göz önünde bulundurarak, bu iki sorunu aynı anda çözmek için bilgi damıtma kullanmaya karar verdik.

M modellerini farklı imha yöntemleriyle eğittik ve ortalama çıktıyı nihai model çıktısı olarak kullandık. Bilgi damıtmasını doğrudan bu modelin çıktısından kullanabilirsiniz. Elde edilen model uzayı keşfettiği için birçok arama durumu elde edilir ve bilgi damıtma öğrenme hedefi halihazırda öğrenmek için kullanılır, yani keşif mekanizması bilgi düzeltme sürecine dahil edilir ve herhangi bir durumda bazı model bilgileri öğrenilir.

Algoritmayı referans politikasından veya örnekleme politikasından öğrenilen birleşik bir çerçeveye yazdık.Bu iki bölümden elde edilen veriler tamamen ortogonaldir ve ikisi birleştirilerek modelimizin performansını daha da iyileştirebiliriz.

Deneyler açısından, iki standart veri seti üzerinde küçük bir veri ile deneyler yaptık, inceleme sonucu 1.3 puanlık bir artış oldu ve NMT'nin küçük veri sonucu 2.6 puan arttı. Veriler, mevcut model performansının diğer arama tabanlı yapı tahmin performansından daha iyi olduğunu göstermektedir.

Modelimiz hata durumunda daha iyi öğrenebilir, bilgi damıtma kaybından öğrenebilir ve geleneksel NLL'den daha kararlıdır.

Çalışmamızın en büyük özelliği, sözdizimsel analizin doğruluğunu herhangi bir model değiştirmeden ve herhangi bir veri veya yapay bilgi eklemeden 1,3 puan artırmak ve küçük bir makine çeviri modelinde doğruluğu 2,6 puan artırmaktır.

6 Luo Bingfeng Peking Üniversitesi

Normal İfadeleri Sinir Ağları ile Birleştirme: Konuşulan Dili Anlamak İçin Bir Örnek Olay

Çalışmamız, bilgiyi doğru ifadelerle kullanarak sinir ağlarının eğitimine yardımcı olmaktır, böylece veri miktarı çok küçük olsa bile, daha iyi modeller eğitilebilir.

Sinir ağı makine öğrenimi yöntemlerini gerçekten kullandığımızda, genellikle belirli uygulama senaryolarıyla birleştirmemiz gerekir. Bölümlere ayrılmış bir senaryoya özgü olduktan sonra, kullanabileceğimiz veriler genellikle çok sınırlıdır. Görev tabanlı diyalog sistemi tipik bir örnektir. Asıl zorluk, az alan verisi ile güvenilir bir sözlü anlama sisteminin nasıl elde edileceğidir.

Konuşulan dili anlama iki alt göreve ayrılmıştır. Biri niyet tanımadır, yani kullanıcının söylediği talimata karşılık gelen niyetin tanımlanması (cümle sınıflandırması); ikincisi, slot analizi, yani kullanıcının talimatında kullanıcının niyetiyle ilgili boşluğu bulma (sıra etiketleme).

Sektörde, veri eksikliği olduğunda, bir kural sistemi oluşturmak için genellikle manuel olarak bir dizi düzenli ifade kuralı yazarız. Bu yöntem eğitim verisi gerektirmese de genelleme yeteneği çok zayıftır. Buna uygun olarak, sinir ağı modelleri vektör uzayında çalıştırıldığı için, genellikle daha iyi genelleme yeteneklerine sahiptirler. Bu nedenle, az veriyle daha güvenilir bir sistem oluşturmak için normal ifadeleri ve sinir ağlarını birleştirebilir miyiz?

Normal ifadelerin hangi kısımlarının sinir ağları için yararlı olduğuna bir göz atalım.

Birincisi, normal ifadelerin çıktısı kesinlikle kullanışlıdır. Amaç tanıma gibi cümle sınıflandırma görevleri için, normal ifadeler genellikle cümle düzeyinde etiketler üretir; yuva analizi gibi sıra etiketleme görevleri için, normal ifadeler genellikle kelime düzeyinde etiketler üretir. Bu nedenle, bir yandan etiket çıktısını normal ifadeyle vektörleştirebilir ve onu sinir ağının yardımcı girişi olarak kullanabiliriz; diğer yandan da normal ifadenin etiket çıktısını sinir ağı ile doğrusal ağırlıklandırmaya benzer bir biçimde birleştirebiliriz. Ağın çıktısı öğrenilebilir bir şekilde birleştirilir.

İkinci olarak, normal ifadenin aslında bize sınıflandırmaya dayalı ipucu sözcüğün ne olduğunu söylediğini bulduk. Bu nedenle, buna paralel olarak, sinir ağının da sınıflandırma yaparken bu ipucu kelimelerine dikkat edeceğini umuyoruz. Ve bir cümledeki belirli kelimelere dikkat etmek, sinir ağındaki dikkat modülünün yaptığı şeydir. Bu nedenle, düzenli ifadelerin başka bir kullanımı, dikkat modülünün eğitimine rehberlik etmek için ipucu kelimelerini normal ifadelerde kullanabilmemizdir.

Aynı zamanda, pratikte sadece kendi kalıbına uyan örneklerin belirli bir kategori olarak etiketlenmesi gerektiğini düşünen pozitif düzenli ifadeler kullanmayacağımızı, kendi kalıbına uygun olduğunu düşünen negatif düzenli ifadeler de kullanacağımızı gördük. Örnekler belirli bir kategori olarak etiketlenmemelidir. Bu nedenle biz de buna göre olumlu ve olumsuz ilgi gösterdik. Bunlar arasında, olumsuz dikkat, örneklemdeki hangi kelimelerin bize bu örneğin bu kategoriye ait olmadığını söylediğine odaklanırken, olumlu dikkat tam tersidir. K-inci kategorisinin final puanını elde etmek için k-inci kategorisinin puanını pozitif dikkat ile, k-inci kategorisinin puanını negatif dikkat ile çıkarıyoruz.

Deneyimiz ATIS uçuş bilgileri veri seti üzerinde gerçekleştirildi. Önce küçük bir örnek öğrenme deneyi yaptık. Bu ayar altında, her kategorinin yalnızca 5, 10 veya 20 eğitim örneği içermesini sağlamak için rastgele örnekleme kullanırız.

Niyet tanıma görevinde, üç yöntemimiz temel iki yönlü LSTM modeline göre önemli bir gelişmeye sahiptir. Bunların arasında, dikkati denetlemek için normal ifadeleri kullanma yöntemi en büyük gelişmeye sahiptir ve bu da Doğruluğu yaklaşık% 8-% 15 oranında artırabilir. Slot analizi görevinde, bir özellik olarak normal ifadenin çıktısını girme yönteminin en iyi sonucu verdiğini ve bu da makro F1'i yaklaşık% 5 artırabileceğini bulduk. Aynı zamanda, yöntemimiz saf düzenli ifade eşleştirme yöntemini de önemli ölçüde aşmaktadır. Tam ATIS eğitim setini kullanırken, birleşik düzenli ifade yöntemimiz, amaç tanıma ve yuva analizinin makro F1'ine önemli iyileştirmeler getirmeye devam edebilir.

Sonunda karmaşık doğru ifadeler ile basit doğru ifadeler arasındaki farkı analiz ettik. Karmaşık normal ifadelerin genellikle basit normal ifadelerden daha iyi sonuçlara sahip olduğunu bulduk. Bununla birlikte, çok basit normal ifadeler kullanmak çok önemli gelişmeler sağlamıştır. Bu nedenle, fiili uygulamada, basit bir doğru ifadeyle başlayabilir ve ardından maliyet izin verdiğinde doğru ifadenin karmaşıklığını kademeli olarak artırabiliriz.

7 Ni Yao Pekin Teknoloji Enstitüsü

CAGAN: Tutarlı Tartışmalı Eğitim Geliştirilmiş GAN'lar

Üretken yüzleşme ağları görüntü oluşturma ve birçok alanda kullanılmaktadır. Basitçe söylemek gerekirse, bir yüzleşme ağı oluşturmak, oluşturulan resimleri gerçek resimlerden olabildiğince ayırmak ve jeneratörün gerçek görünen resimler oluşturmaya çalışmasına izin vermektir.

Aslında bu yüzleşme ağının iki sorunu var. İlk olarak, bir işlev alanında optimize edilmesi gerekir, ancak gerçek süreçte bir sinir ağı olarak temsil edilir ve sınırlı bir parametre alanında optimize edilir. Diğer bir problem de gradyanların kaybolmasıdır. Ayırıcı çok güçlü olduğunda, jeneratör neredeyse hiçbir şey öğrenemez, bu da dengesiz eğitime ve modelin çökmesine neden olur.

Sınırlı parametre uzayında ters ağ öğrenme probleminin üstesinden gelmek için mevcut yöntemler ve gradyan kaybolması sorunu esas olarak iki kategoriye ayrılmıştır: Birincisi gradyan kaybolması probleminin üstesinden gelmek için ayırıcının işlevini değiştirmek, diğeri ise sınırlı parametre alanı optimizasyonunda çözmektir. , Bir jeneratör, daha iyi eğitilebilen birden fazla ayırıcıya karşılık gelir.

Çözümde, ayırıcı ağa bırakma ekliyoruz. Bu şekilde, her çıktı, belirli bir örneği işlemek için bir ağın örneklenmesine eşdeğerdir ve birçok ayırıcı oluşturulabilir.

Bu tür avantajları vardır.Birincisi, sonsuz parametreler uzayında optimizasyona yakındır.İkincisi, parametre patlamasını önleyebilir.Üçüncüsü, aşırı uyumu önleyebilir, böylece oyun süreci böyle bir ikilemden, yani jeneratör simülasyonundan kaçabilir. Eğitim verilerini birleştirin.

Birden fazla ayrımcı oluşturmanın yanı sıra, tutarlı bir rakip eğitim süreci de inşa ettik. Bunun ana nedeni, gerçek örneklerle tutarlı olmaya çalışması, tutarlılığı ölçmek için iki farklı ayırma ağı çıktısı arasındaki farkı kullanması ve gerçek verilere daha iyi uyması için gerçek örneklerle tutarlı olmaya çalışmasıdır. Üretilen verilerle olabildiğince tutarsız olmasına izin verin.Başlangıç noktamız, birçok yanlış özelliğe sahip bir resim için birçok yanlış özelliğe sahip olması, ancak bir ağın farklı özellikleri öğrenmesi, böylece farklı ağlar arasındaki farkların olabildiğince büyük olmasıdır.

Jeneratörü eğitirken, ürettiği numunelerin ayırıcının tutarlı olduğunu düşündüğü yönde hareket etmesine izin veririz.

Bazen, oluşturucuyu ve ayırıcıyı eğitme sürecinde, bir eğitim birden fazla ayırıcıyı yineleyebilir ve oluşturucuyu bir kez yineleyebilir; bu, veri tutarlılığı ve gerçek veriler üretmesini sağlamak için tutarlılıkta bazı sapmalara neden olur. Tutarlılık belirli bir aralıkta tutulur ve onu dengelemek için bir işlev kullanırız.

Deneyimiz, iki temel çizgiye tutarlı rakip eğitim sürecini ekler ve bunu görüntü oluşturma görevine koyar. Performansımız CIFAR-10 için 9.17 ve STL-10 için 10.02 başlangıç puanıyla iyileşti ve sonunda çok gerçekçi görünen görüntüler oluşturdu. Aynı zamanda modelimizin eğitim süreci daha istikrarlı. Yarı denetimli görüntü sınıflandırma görevinde, rekabetçi sonuçlar elde ettik.Ağ modelinin çökmesi sorununu hafifletebilecek daha çeşitli görüntüler üretiyoruz.

Sonuç olarak, neredeyse sonsuz sayıda ayrımcı oluşturmak için bırakmayı kullanıyoruz. Tutarlı bir düşmanlık eğitimi öneriyoruz. Deneylerimiz gelişmiş sonuçlar elde etti. Eğitim istikrarını artırdık ve model çökme problemini hafiflettik.

8 Yu Sihao Bilgisayar Teknolojisi Enstitüsü, Çin Bilimler Akademisi

Antitetik Değişkenler Yöntemi Kullanılarak Gradyan Bandit Algoritmasındaki Varyansı Azaltma

Bu makale armür probleminde strateji gradyanı yöntemini optimize eder. Strateji gradyan yöntemi, büyük bir varyans olduğunda gradyanı tahmin etmek için Monte Carlo yöntemini kullanır Bu çalışma, onu azaltmak için ikili değişken yöntemini sunar.

Önce arka planı tanıtın. Armürlü makine şöyle bir problemi anlatıyor: Birden fazla kollu bir slot makinesi oynuyoruz ve her kolun aldığı ödüller farklı bilinmeyen dağılımlara uyuyor ve beklentiler farklı ... Belirli sayıda oyun altında hangi kolu bulabilir miyiz? Düşen ödül beklentisi en büyüğüdür. Strateji gradyanı yöntemi, bu sorunu çözmek için önemli bir yöntemdir. Her kol için 0 olarak bir başlangıç tercih değeri ayarlayın ve tercih, oyunu oynama stratejimiz olan SoftMax'tan sonra, yani her bir kolu seçme olasılığımızdan sonra bir olasılık dağılımı elde edecektir. Bu olasılık dağılımı altında, beklenen getirinin ifadesini listeleyebilir, tercihin kısmi türevini elde etmek için kullanabilir ve iyi bir oyun stratejisi elde etmek için en uygun tercihi elde etmek için gradyan yükselme yöntemini yineleyebiliriz. En büyük tercihe sahip son kol geri dönüştür. En büyük kolu bekleyin.

Ancak çözme sürecinde her bir kolun kar beklentisini bilmiyoruz, bu yüzden doğru bir gradyan elde edemiyoruz. Bu nedenle, strateji gradyan yöntemi, onu tarafsız tahmin etmek için Monte Carlo yöntemini kullanır, ancak bu tahminin büyük bir varyansı vardır. Ve bu varyansın, gradyan çıkış yöntemimizin verimliliği ve sonuçları üzerinde büyük bir etkisi olduğu açıktır, bu nedenle bu varyansı azaltmayı umuyoruz.

Monte Carlo yöntemi için, kontrollü değişken yöntemi ve ikili değişken yöntemi gibi, varyansı azaltmak için aslında daha olgun stratejiler vardır. Takviye öğrenmede çok kullanılan, temelli strateji gradyan yönteminden türetilen kontrol değişkeni yöntemine benzer şekilde, yöntemimizi elde etmek için armürüne ikili değişken yöntemini ekliyoruz.

Metodumuzdaki gradyan tahmincisinin ifadesinin doğrudan bir listesi, karşılaştırmada, soldaki ikili değişken metodunun parametrelerinin belirli bir ayarından sonra sağdaki formülün bizim metodumuz olduğu görülebilir. Metodumuz üç bölümün toplamıdır, ikinci ve üçüncü bölümler anti-korelasyondur.Anti-korelasyon kurmadaki en büyük zorluk, monoton bir bileşik fonksiyon inşa etme ihtiyacında yatmaktadır.

Nasıl yapılandırılır? Örneğin, dört kollu bir armür makinesi, her kola bir sıra olarak dokunarak elde edilen gradyan böyle bir matris oluşturabilir.Monotonik fonksiyonun yapımını kolaylaştırmak için, çözmek için koordinat yükselme yöntemini kullanıyoruz. İkinci kolu seçerken, şimdi sadece matrisin ikinci sütununa odaklanmamız gerekiyor. Bu sütundaki değerler sıralanabiliyorsa, gerçek gradyan değeri 0-1'de sağdaki parçalı fonksiyonun integraline eşit olabilir ve çünkü Bu işlev monotondur, bu nedenle çift değişkenli yöntem kolayca tanıtılabilir. Ancak formüldeki her bir kolun kar beklentisi bilinmemektedir, nasıl sıralıyoruz? Bu konuda, kullandığımız her bir kolun tercih değerinin, belirli sayıda eğitimden sonra beden ilişkisi açısından beklenen getiri ile tutarlı olduğuna inanıyoruz, bu nedenle sağdaki işlevi yaklaşık olarak sıralamak için tercih boyutunu doğrudan kullanıyoruz. Tüm süreç bizim yöntemimizdir.

Bu benim deneyim. 20 kollu armürlü bir makinede yapılıyor ve her bir kol Bernoulli dağılımına uyuyor.Orta resim sonunda en uygun kolu bulma olasılığını ve sağdaki resim tahmin ediciyi gösteriyor. Durumun varyansı.

Kabaca bu kadar. Son olarak, önyargısız tahmin ve varyans azaltımına dair bazı kanıtlar yer almaktadır.Kağıtta ayrıntılı ifadeler var, ilgileniyorsanız ona bir göz atabilirsiniz.

9 Feng Yue Bilgisayar Teknolojisi Enstitüsü, Çin Bilimler Akademisi

Açgözlü Seçimden Keşif Amaçlı Karar Vermeye: Politika-Değer Ağları ile Farklı Sıralama

Çalışmamız, Farklı Sıralamada açgözlü seçimin neden olduğu yerel optimal çözümler sorununu çözmektedir.

Sorguladığımız sorgu tarafından ifade edilen bilgiler birçok yön içerdiğinde, kullanıcıların görmek istediği arama sonuçları bilginin bu birçok yönünü içerebilir. Dolayısıyla, Farklı Sıralama görevinin amacı, arama sonuçlarının olabildiğince çok alt konu içerebileceğini ummaktır.

Mevcut yöntem, Farklı Sıralama sürecini serileştirilmiş bir belge seçme süreci olarak modellemektedir: Değerlendirme temel olarak iki yönü içerir, biri benzerlik, diğeri çeşitlilik ve son olarak iki faktör bir olarak entegre edilmiştir. Belge seçimi. Bu süreçte, açgözlü bir seçim çerçevesi olan sonraki belge sıralama sürecini dikkate almadan, her adımda hangi belgenin mevcut konumda en iyi olduğunu değerlendirecektir.

Böyle bir seçim çerçevesi, bu soruna yerel bir optimal çözüm oluşturacaktır. En basit çözüm, sonraki sıralanan belgelerin olası sıralama sürecini aramaktır, ancak sorunumuz bir alt dizi seçim süreci olduğundan, bu polinom olmayan zor bir sorundur. Tüm aramalar çok gerçekçi değilse, kullanmayı umuyoruz Bu sorunu çözmek için olabildiğince az arama yapın. Burada, ağaç aramaya bazı arama stratejileri aracılığıyla rehberlik edebilen MCTS yöntemini kullanıyoruz ve nispeten optimum bir çözüm elde etmek için mümkün olduğunca az arama kullanmaya çalışıyoruz. Arama stratejimiz esas olarak politika-değer ağımız tarafından verilmektedir. Bu bağlamda, politikamız esas olarak arama genişliğini kontrol eder ve değerimiz esas olarak aramanın derinliğini kontrol eder.

Modelin özel süreci, Farklı Sıralama sürecini bir MDP süreci olarak modellemektir MDP sürecindeki durum, problem ve sıralanan belgelerdir. Eylemimiz daha sonra seçilen her belgedir. Buradaki durum geçişi, bir belgeyi seçtikten sonra, bu belgeyi sıralanmış listeye koymamızdır. Modülümüzün başlıca dört modülü vardır, biri durum kodlama modülüdür, politika modülü, değer modülü ve son olarak MCTS arama modülü vardır.

Öncelikle kodlama modülünü tanıtayım. LSTM modelini kullanıyoruz. Sorguyu LSTM'nin başlangıç durumu olarak kullanacağız ve sırasıyla belgelerimizi LSTM modülüne gireceğiz. Son durumumuza dönecek ve son durumu kodlayacağız. Vektör, MDP'nin mevcut durumu olarak kabul edilir. Daha sonra, mevcut duruma bağlı olarak, politika modülü hangi belgenin en iyi olduğunu verebilir. Değer modülü esas olarak mevcut durumun sonraki faydalarını, yani mevcut duruma göre değerlendirmektir, sonraki liste sıralanırsa, nihai fayda Ne, bir tahmin yap. Son olarak, esas olarak politika rehberliğine ve bir arama gerçekleştirmek için değer arama stratejilerine dayanan, sonraki konumların sıralamasını inceleyebilen ve daha iyi bir arama stratejisi elde edebilen MCTS arama modülü vardır.

Son olarak, modelimizi TREC veri setinde doğruladık ve derin öğrenme yöntemleri ve geleneksel yöntemler dahil olmak üzere yöntemleri karşılaştırdık.Son olarak, deneysel etki önemli ölçüde iyileştirildi. Ayrıca MCTS aramasının rolünü de araştırdık Eğitim süreci ve test süreci sırasında, MCTS arama etkimiz, arama yapılmadan politikaya kıyasla önemli ölçüde iyileştirildi.

Soru-Cevap Algoritma Sistemi Oturumu AIS Ders Öncesi Oturumu Tam Kuru Mal Paylaşımı

Milli futbol takımı Asya'daki ilk İran takımını bekliyor.