g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Makine öğrenmiyor: derin öğrenmeye dayalı akıllı bir soru yanıtlama sistemi

| Giriş Soru cevaplama sistemi, kullanıcılar tarafından doğal dilde sorulan soruları daha doğru bir şekilde anlayabilen ve külliyat, bilgi grafiği veya soru-cevap bilgi tabanını arayarak kısa ve doğru eşleşen cevaplar verebilen gelişmiş bir bilgi alma şeklidir. Arama motorları ile karşılaştırıldığında, Soru-Cevap sistemleri kullanıcıların sorularının gerçek niyetlerini daha iyi anlayabilir ve kullanıcıların bilgi ihtiyaçlarını daha etkin bir şekilde karşılayabilir. Soru cevaplama sistemi şu anda yapay zeka ve doğal dil işleme alanında çok ilgi gören ve geniş gelişme beklentileri olan bir araştırma yönüdür.

I.Giriş

Soru cevap sisteminin ele aldığı nesneler, ağırlıklı olarak kullanıcı soru ve cevaplarını içerir. Sorunun ait olduğu bilgi alanına göre, soru cevaplama sistemi, sınırlı alanlar için bir soru cevaplama sistemi, açık alanlar için bir soru cevaplama sistemi ve sık sorulan sorular için bir soru cevaplama sistemi (Sıkça Sorulan Sorular, SSS) olarak ikiye ayrılabilir. Cevapların kaynağına göre soru cevaplama sistemleri, KBQA gibi yapılandırılmış verilere dayalı soru cevaplama sistemleri, makine okuduğunu anlama gibi metin tabanlı soru cevaplama sistemleri ve SSS gibi soru cevap çiftlerine dayalı soru cevaplama sistemlerine ayrılabilir. Ayrıca cevabın geri bildirim mekanizmasına göre soru cevaplama sistemi, geri getirme stiline dayalı soru cevaplama sistemi ve üretici stile dayalı soru cevaplama sistemine bölünebilir.

Bu makale esas olarak FAQBot alma türü soru cevaplama sisteminin ilgili araştırma ve işleme çerçevesini ve ayrıca derin öğrenmenin uygulamasını detaylandırmaktadır. SSS arama türü soru cevap, kullanıcının yeni sorgusuna göre SSS bilgi tabanında en uygun cevabı bulmak ve kullanıcıya geri bildirim sağlamaktır. resim gösterdiği gibi:

Bunların arasında Qi, bilgi tabanındaki standart sorudur ve Ai, standart soruya karşılık gelen yanıttır.

Spesifik işlem akışı:

Aday küme çevrimdışı olarak endekslenir. Lucene motorunu on binlerce benzer soru kümesi için kelime düzeyinde ters çevrilmiş bir dizin oluşturmak için kullanma. Lucene motorunun performansı, geri çağırma süresini milisaniye düzeyinde kontrol edebilir ve sonraki modüllerin hesaplama basıncını büyük ölçüde azaltır;
Kullanıcı sorgusunu çevrimiçi olarak aldıktan sonra, bir grup aday kümeleri başlangıçta kaba sıralama sonuçları olarak geri çağrılır ve daha hassas sıralama için sonraki modüle aktarılır;
Kullanıcının sorgusu ile SSS bilgi tabanındaki soru veya cevap arasındaki eşleşme derecesini hesaplamak için eşleştirme modelini kullanın;
Aday kümesini yeniden sıralamak ve en iyi aday cevaplarını döndürmek için sıralama modelini kullanın.

SSS soru cevaplama sisteminin temel görevinin bir metin eşleştirme görevi olarak soyutlanabileceği görülebilir. Bilgi erişiminde BM25 gibi geleneksel metin eşleştirme yöntemleri, vektör uzayı modeli VSM ve diğer yöntemler temelde literal benzerlik sorununu çözer. Bununla birlikte, Çince anlamının zenginliğinden dolayı, anahtar kelime eşlemeye dayalı olarak iki cümle arasındaki anlamsal benzerliği veya makine öğrenimine dayalı sığ bir modeli doğrudan belirlemek genellikle zordur. Son yıllarda metinlerin derin anlamsal özelliklerini öğrenmek için sinir ağlarının, özellikle derin öğrenme modellerinin kullanılması, anlamsal temsilden sonra metinlerin anlamsal olarak eşleştirilmesi yöntemi önerilmeye ve soru cevap sistemlerine uygulanmaya başlamıştır. Bir yandan, derin öğrenmeye dayalı bir model, özellikleri manuel olarak çıkarmak için çok fazla insan gücü ve malzeme kaynağı tasarrufu sağlayabilir. Ek olarak, geleneksel yöntemlerle karşılaştırıldığında, derin metin eşleştirme modeli, çok sayıda örnekten sözcükler arasındaki ilişkiyi otomatik olarak çıkarabilir ve öbek eşlemedeki yapısal bilgileri ve geleneksel modellerle keşfedilmesi zor olan metin eşlemesinin hiyerarşik özelliklerini birleştirebilir. Gizleme, büyük miktarda veride bariz olmayan bir özelliktir ve metin eşleştirme problemini daha ince bir şekilde açıklar.

İkincisi, derin öğrenme metin eşleştirme

SSS soru cevaplama sisteminin genel olarak iki çözümü vardır, bunlardan biri benzer soru eşleştirme, yani kullanıcının sorusu ile mevcut SSS bilgi tabanındaki soru arasındaki benzerliği karşılaştırmak ve kullanıcının sorusuna karşılık gelen en doğru cevabı döndürmek. Bu fikir metin açıklamasına benzer Diğeri ise soru-cevap çifti eşleştirmesidir, yani kullanıcının sorusu ile SSS bilgi tabanındaki cevap arasındaki eşleşme derecesini karşılaştırmak ve kullanıcının sorusuna karşılık gelen en doğru cevabı döndürmek Bu fikir cevap seçimi yani QA eşleştirmesidir. Bu iki tür arasındaki benzerlik, metin anlamsal eşleştirme olarak kabul edilebilmeleridir.Birçok model aynı anda her iki görevde de iyi sonuçlar elde edebilir.Farkı, QA eşleşmesinin farklı yanıt kalitesi ile sorunları olmasıdır.

Aşağıdakiler, derin öğrenmeye dayalı bazı metin eşleştirme çalışmalarının bir özetidir ve bir ilham kaynağı olmayı umarak, eksiklikler veya hatalar varsa, lütfen ekleyin veya işaret edin.

2.1 Model çerçevesi

Özetle, derin anlamsal eşleştirme modelleri temsile dayalı yöntem ve etkileşim temelli yöntem olarak iki kategoriye ayrılabilir.

1) Temsile Dayalı Yöntem

Çerçeve şeması aşağıdaki gibidir:

Bu tür bir algoritma, önce bir derin öğrenme modeliyle eşleştirilecek iki nesneyi temsil eder ve ardından iki nesnenin eşleşme derecesini çıkarmak için iki temsil arasındaki benzerliği hesaplar. Bu şekilde, eşleştirilecek iki nesneyi eşit uzunluktaki anlamsal temsil vektörlerine dönüştürmeyi mümkün olduğu kadar tam yapmak için sunum katmanının yapısına daha fazla vurgu yapılır. Ardından, eşleştirme derecesi, iki nesneye karşılık gelen iki anlamsal temsil vektörüne göre hesaplanır. Eşleşen derece fonksiyonu f (x, y) 'nin hesaplanması için, aşağıdaki şekilde gösterildiği gibi genellikle iki yöntem vardır: Birincisi, benzerlik ölçüm fonksiyonunu hesaplamaktır, gerçek kullanımda en yaygın kullanılanı basit olan kosinüs fonksiyonudur. Verimli ve puan aralığı kontrol edilebilir; diğer yöntem, iki vektörü çok katmanlı bir algılayıcı ağına (MLP) bağlamak ve verileri daha esnek ve daha güçlü uydurma yeteneğine sahip bir eşleştirme puanı eğitmek ve uydurmak için kullanmaktır. , Ancak eğitim gereksinimleri de daha yüksektir.

Temsil Temelli Genişletilmiş

Yukarıda bahsedilen temsile dayalı yöntemle ilgili sorun, cümle temelli temsilin, metin eşleştirme görevini doğru bir şekilde gerçekleştirmek için çok kaba olmasıdır. Bilgi alma alanından esinlenilerek, konu düzeyinde ve kelime düzeyinde eşleştirme bilgilerinin birleştirilmesi genellikle daha iyi performans sağlayabilir. Böylelikle cümle temsili daha da genişletilmiş ve ayrıntılı eşleştirme bilgileri eklenmiştir. Çerçeve şeması aşağıdaki gibidir:

2) Etkileşime Dayalı Yöntem

Çerçeve şeması aşağıdaki gibidir:

Etkileşime dayalı yöntem, Etkileşim yoluyla metin benzerliğini modellemektir. Bu yöntem, eşleştirilecek iki cümlenin etkileşimden sonra daha tam etkileşime girdiğini ve eşleştirildiğini vurgulamaktadır. Sunum katmanında, cümle genel bir temsil vektörüne dönüştürülmeyecektir Genel olarak, kelime konumuna karşılık gelen bir dizi temsil vektörü korunacaktır. İlk olarak, DNN kullanan sunum katmanına veya doğrudan kelime yerleştirmeden elde edilen cümle temsiline bağlı olarak, kelime konumuna karşılık gelen her vektör, çekirdek olarak kelime ile belirli bir küresel bilgiyi yansıtır; daha sonra iki cümle, oluşturmak için birbirleriyle uygun şekilde etkileşime girer. İki metin parçası arasındaki eşleştirme modeli, daha ayrıntılı ve yerel metin etkileşim bilgilerini içerir; eşleşen matrise dayalı olarak, DNN, daha yüksek seviyeli eşleştirme özelliklerini çıkarmak için daha fazla kullanılabilir ve son olarak, nihai eşleştirme puanı hesaplanır. Etkileşime dayalı yöntem eşleştirme modellemesi daha ayrıntılı ve yeterlidir, genel anlamda etki daha iyidir, ancak hesaplama maliyeti artar ve yüksek doğruluk gerektiren ancak yüksek hesaplama performansı gerektirmeyen bazı sahneler için daha uygundur.

Aşağıda farklı derin öğrenme metin eşleştirme modelleri özetlenmektedir. Derin metin eşleştirme üzerine çok sayıda mevcut çalışma olduğu görülmektedir.Bu makale son yıllarda bazı çalışmalara ayrıntılı bir giriş verecektir, diğerleri daha fazla okumak için ilgili literatüre başvurabilir.

temsil tabanlı: DSSM; CDSSM; ARC I; CNTN; LSTM-RNN
temsil tabanlı uzantı: MultiGranCNN; MV-LSTM
Etkileşim tabanlı: ARC II; MatchPyramid; Match-SRNN; DeepMatch; ABCNN; QA-LSTM / CNN-dikkat; AP; AICNN; MVFNN; BiMPM; DQI; DIIN

2.2 Model tanıtımı

2.2.1 ABCNN

Öncelikle ABCNN modelinin temeli olan BCNN'yi yani Dikkatsiz modeli tanıtın. Model yapısı şekilde gösterilmiştir:

Giriş katmanı : Girdi cümlesini bir kelime vektörüne doldurma;

Evrişimli katman : Geniş dönüşüm kullanarak cümle temsilini dönüştürün;

havuz katmanı : Makalede iki havuzlama yöntemi kullanılmaktadır, biri son havuzlama katmanının all-ap olması, diğeri ise orta havuz katmanının w-ap olmasıdır. Aradaki fark, havuzlama sırasında pencere boyutunun farklı olmasıdır;

Çıktı katmanı : 2 sınıflandırma yapmak için lojistik regresyon katmanını bağlayın.

ABCNN, BCNN'ye iki dikkat mekanizması ekler. Model sonuçları aşağıdaki gibidir:

(1) Giriş katmanına dikkat edin

İlke, girişi ikili kanala genişletmektir. Yeni eklenen kanal, yukarıdaki şekilde mavi kısım olan dikkat özelliği haritasıdır. İlk önce dikkat matrisi A'yı hesaplayın. Her bir öğe Aij, 1. cümledeki i-inci kelimenin 2. cümledeki j-inci kelimenin match_score'unu temsil eder. Burada Öklid mesafesi hesaplaması kullanılır. Ardından iki cümlenin dikkat özelliği haritasını ayrı ayrı hesaplayın. Orijinal özellik ile aynı boyutta bir özellik haritası elde etmek için sırasıyla A'yı ve A'nın devrikini çarpmak için iki W0 ve W1 matrisini kullanın. Hem W0 hem de W1 model parametreleridir ve aynı W kullanılabilir, yani iki matris paylaşılır. Bu şekilde, orijinal girişi iki kanala genişletiyoruz.

(2) Havuz katmanına dikkat edin

Dikkat matrisi A'nın hesaplama yöntemi yukarıdakiyle aynıdır.A'yı elde ettikten sonra, dikkat ağırlık vektörlerinin yukarıdaki şekilde iki noktalı çizgide gösterildiği gibi iki cümle için ayrı ayrı hesaplanması gerekir, sütun bazında toplam ve satır bazında toplam. Bu iki vektördeki her bir öğe, Ortalama Havuzlama yapılırken karşılık gelen kelimenin ağırlığını temsil eder. Artık basit Ortalama Havuzlama değil, hesaplanan Dikkat ağırlık vektörüne göre elde edilen havuzlamaya eşdeğerdir.

2.2.2LSTM / CNN, dikkat

Bir (q, a) çifti verildiğinde, q soru ve a aday cevaptır. Önce kelime vektörlerini alın, ardından soruların ve yanıtların dağıtılmış temsillerini oluşturmak için kodlayıcı için biLSTM kullanın ve ardından mesafelerini ölçmek için kosinüs benzerliğini kullanın. Eğitim hedefi menteşe kaybıdır.

CNN'yi biLSTM gösterim çıktısına dayalı olarak kullanarak, CNN, biLSTM tarafından çıkan vektörler arasındaki yerel bilgiyi elde edebilir. Bu, soruların ve cevapların daha karmaşık bir temsilini verir.

BiLSTM modeli, sorular ve cevaplar arasındaki uzun mesafelerde bağımlılıkları yaydığında, gizli vektörün sabit genişliği bir darboğaz haline gelir. Soruya verilen cevabın daha fazla bilgi kısmını dinamik olarak ayarlayarak, bu zayıflığı hafifletmek için dikkat mekanizması kullanılabilir. Maksimum / ortalama havuzlamadan önce, her biLSTM çıktı vektörü, biLSTM'nin problem gömülmesinden elde edilen softmax ağırlığı ile çarpılacaktır.

2.2.3 Özenli Havuzlama Ağları

QA_LSTM'de dikkatin tasarımı, özellik ağırlıklandırması yapmak için sorunun yanıt üzerindeki etkisini kullanmaktır, ancak yanıtın soru üzerindeki etkisini göz ardı eder. Özenli havuz ağları, algoritmanın doğruluğunu artırmak için sorulara ve yanıtlara da dikkat eder. İki girdinin temsillerini ve aralarındaki benzerlik ölçümünü eşzamanlı olarak öğrenerek, yenilik, iki Q ve A girdisinin U parametre matrisi aracılığıyla ortak bir gösterim uzayına yansıtılması ve Q ve A'nın bir temsilinin oluşturulmasıdır. Matris G, sırasıyla G'nin satır ve sütununda maksimum havuzlama yapın, böylece Q ve A'nın dikkat vektörü sırasıyla elde edilebilir. AP_BILSTM modelinin çerçeve diyagramı aşağıdaki gibidir:

AP_BILSTM modelinin tasarımı, önce soru ve cevabın özelliklerini BILSTM aracılığıyla çıkarır ve ardından ikisinin özelliklerine göre yumuşak hizalamayı hesaplar Sonuçta ortaya çıkan G matrisi, soru ile cevap arasındaki etkileşimin sonucunu temsil eder. Matrisin en büyük sütununu almak soruya verilen cevabın önemi puanıdır.Aynı şekilde matrisin en büyük satırını almak da sorunun cevaba önemi puanıdır. Bu iki vektör daha sonra soru ve cevabın yeni bir temsilini elde etmek için soru ve cevap temsilleriyle çarpılacak ve son olarak eşleşecek dikkat vektörleri olarak kullanılır.

2.2.4 AICNN

Cevap seçimiyle ilgili önceki araştırmalar genellikle verilerde yaygın olan fazlalık ve gürültü sorunlarını göz ardı eder. Bu makalede, yeni bir Attention Interactive Neural Network (AI-NN), seçime cevap vermeye yardımcı olan bu metin parçalarına odaklanmak için tasarlanmıştır. Sorunun cevabının temsili ilk olarak evrişimli bir sinir ağı (CNN) veya diğer sinir ağı mimarisi aracılığıyla öğrenilir. Sonra AI-NN, iki metnin her bir eşleştirilmiş bölümünün etkileşimini öğrenir. Ardından etkileşimli bilgi toplamak için satır satır ve sütun sütun havuzlamayı kullanın. Dikkat mekanizması daha sonra her bölümün önemini ölçmek için kullanılır ve etkileşim, soru ve cevabın sabit uzunlukta bir temsilini elde etmek için birleştirilir. Model çerçeve şeması aşağıdaki gibidir:

2.2.5 MVFNN

Yukarıdaki sinir ağı tabanlı yöntem, dikkati hesaplayarak bilginin birkaç farklı yönünü dikkate alır. Bu farklı ilgi türleri her zaman basitçe özetlenir ve soruyu ve aday cevaplarını birçok yönden inceleyemeyen ve ciddi bilgi kaybına yol açan "tek bir görüş" olarak kabul edilebilir. Bu problemin üstesinden gelmek için, bu model, her bir dikkat bileşeninin QA çiftinin farklı bir "görünümünü" oluşturduğu ve QA'nın kendisinin karakteristik temsilinin daha genel bir temsil oluşturmak üzere birleştirildiği çok görüntülü bir füzyon sinir ağı önerir. Model çerçeve şeması aşağıdaki gibidir:

Bir soru için, karşılık gelen cevabını simüle etmek için bir dizi görüş olabilir. Bu modelde, sezgiye dayalı olarak dört görünüm oluşturulmuştur. Bu dört görünüm, sorgu türü görünümü, sorgu ana kelime görünümü, sorgu anlamsal görünümü ve ortak ilgi görünümüdür. Son olarak, bu görüşleri birleştirmek için füzyon RNN modeli kullanılır. Farklı görünümlerin birleşmesi ile iki nesne daha doğru bir şekilde modellenebilir.

2.2.6 BiMPM

Etkileşime dayalı yöntem için, genellikle iki cümlenin birimlerini önce birbiriyle eşleştirmek ve ardından eşleştirme için bir vektörde toplamaktır. Bu yöntem, iki cümle arasındaki etkileşimli özellikleri yakalayabilir, ancak önceki yöntem yalnızca kelime düzeyinde eşleşmeye dayanır ancak diğer bilgi düzeylerini göz ardı eder. Ek olarak, eşleştirme, zıt yönü göz ardı ederek yalnızca bir yöne dayanır. Çift yönlü çok perspektifli bir eşleştirme modeli (BiMPM) bu sorunu çözer. Model çerçevesi aşağıdaki gibidir:

Model, aşağıdan yukarıya beş katmandan oluşur, yani kelime temsil katmanı, bağlam temsil katmanı, eşleştirme katmanı, toplama katmanı ve tahmin katmanı. Eşleştirme katmanı modelin çekirdeğidir. Dört eşleştirme stratejisi önerilmiştir. Eşleştirmeyi burada görebilirsiniz. Başarı, dikkat mekanizmasıdır.

Word sunum katmanı : Karakter yerleştirmeyi rastgele başlatmak için GloVe model eğitim vektörünü ve LSTM ağının girdisi olarak kelimedeki karakterlerin vektör temsilini kullanın.

Bağlamsal sunum katmanı : P ve q'yu ifade etmek için BiLSTM kullanın.

Eşleşen katman : Modelin temel katmanı dört eşleştirme stratejisi içerir: Tam Eşleştirme, Maksimum Paylaşım Eşleştirme, Dikkatli Eşleştirme ve Azami Dikkat Eşleştirme. Dört eşleştirme stratejisi aşağıdaki gibidir:

Toplama katmanı : Eşleşen katmanın çıktı vektörünü işlemek, p, q ileri ve geri son zaman adımının çıktısını elde etmek, bağlanmak ve tahmin katmanına giriş yapmak için BiLSTM kullanın.

Tahmin katmanı : Softmax katmanı, softmax fonksiyon sınıflandırması.

Yukarıdakiler, son yıllardaki bazı derin metin eşleştirme modellerinin bir özetidir.Ardından, derin modele dayalı FAQBot'u tanıtacağız.

3. Derin öğrenmeye dayalı FAQBot uygulaması

3.1 Modelleme süreci

3.2 Veri toplama ve yapı

3.2.1 Veri toplama

Akıllı müşteri hizmetleri gibi çok sayıda soru cevap kaydı bulunan sahneler için bu kayıtlarda çok sayıda yüksek frekanslı bilgi noktası (sorular ve cevaplar dahil bilgi noktaları) bulunmaktadır. Bu yüksek frekanslı bilgi noktalarına karşılık gelen soru yöntemi genellikle benzersiz değildir. Yani, bilgi tabanının yapısı aynı cevaba karşılık gelen bir dizi sorudur. SSS verileri için üç veri türü vardır:

Standart soru q: SSS'deki sorular için standart kullanıcı sorgusu

Cevap A: SSS bölümündeki standart soruya karşılık gelen standart cevap

Benzer soru q1, q2 ...: Standart soruya benzer anlambilimle aynı cevapla cevaplanabilen bir sorgu

Bunlar arasında, standart soru q, karşılık gelen cevap A ve standart soru q'ya karşılık gelen tüm benzer sorular q1, q2, ... birlikte bir bilgi noktası oluşturur. Aşağıdaki şekilde bir bilgi noktası örneği gösterilmektedir:

3.2.2 Veri yapısı

Veri yapısı iki yönü içerir:

(1) Eğitim seti ve test seti yapımı

Deneme seti : Sorgudaki benzer sorudaki ilk benzer soruyu q1 alın ve aday kümesi olarak Lucene aracılığıyla SSS bilgi tabanındaki tüm bilgi noktalarından 30 bilgi puanını hatırlayın

Eğitim Seti : Biri olumlu örneklerin yapısı, diğeri olumsuz örneklerin yapısı olmak üzere iki bölümden oluşur.Bu iki bölümün veri yapısı nihai sonucu doğrudan etkileyecektir. Olumlu örneklerin oluşturulmasında, her bilgi noktasının ilk benzer sorusu test seti olarak göründüğünden, eğitim seti oluşturulurken tüm bilgi noktaları arasından ilk benzer soru q1 hariç tutulmuştur. Bu durumda, ikiden fazla benzer bilgi noktası vardır ve eğitim setini oluşturmak için daha fazla benzer soru kullanılabilir. Bu tanımlama noktalarında standart soruları birleştirerek ikinci sorudan benzerlik (yani) olumlu örnekler ve olumsuz örnekler farklı şekillerde oluşturulabilir.

Eğitim setinin olumlu örneklerinin oluşturulması: ilk benzer soruyu q1 tüm bilgi noktalarından ve diğer benzer sorulardan ve standart sorulardan çıkarın.İki set sentetik pozitif örnek çifti; bilgi noktalarını benzer birçok soruyla kesin.

Eğitim setinin olumsuz örneklerini oluşturma yöntemleri şunları içerir:

Jaccard mesafesine göre geri çağırma;
Lucene tarafından hatırlama;
Diğer bilgi noktalarından rastgele seçin;
Olumlu örnekteki her problemin oranına göre diğer bilgi noktalarından örnekleme ve seçme;
Her cümle ve cümledeki isim / fiil bir çift oluşturur;
Bilgi noktalarının dengesiz dağılımı problemini hedefleyerek, benzer soruları birçok benzer soru ile bilgi noktalarına indirgeyin.

(2) Veri geliştirme stratejisi

Derin öğrenme daha fazla veriye ihtiyaç duyduğundan, verileri geliştirmek için aşağıdaki stratejileri benimsiyoruz:

Sırayı iki cümle arasında değiştirin;
Yeni cümleler oluşturmak için cümleleri bölümlere ayırın ve yeniden birleştirin;
Cümlelerin sırasını boz ve rastgele örnek cümleler.

3.3 Model kurulması

3.3.1 Model çerçevesi

Temel çerçeve, eşleştirilecek iki cümle için karşılık gelen bağlam bilgisini elde etmek için genellikle iki kodlayıcı kullanır ve daha sonra, eşleşen özellik bilgisini elde etmek için ikisinin bağlam bilgisini eşleştirir. Ayrıca, eşleşen özelliklerden sonra diğer bazı geleneksel metin özelliklerini ekleyebilir ve tüm bu özellikleri birleştirebilirsiniz. Son olarak, son sınıflandırma için softmax katmanı bağlanır. Modelin çerçevesi aşağıdaki şekilde gösterilmektedir:

3.3.2 Model kurma ve yinelemeli optimizasyon

Katman yerleştirme : Kelime vektörlerini ve karakter vektörlerini eğitmek için word2vec ve fasttext kullanın.

Kodlayıcı katmanı : Evrişim, yerel öznitelik çıkarma işlevine sahiptir, bu nedenle CNN, metnin bağlam bilgisi dikkate alınarak cümlelerdeki n-gramlara benzer anahtar bilgileri çıkarmak için kullanılabilir. Bu yüzden cümleyi kodlamak için textCNN kullanıyoruz. Kodlayıcı işlemi aşağıdaki şekilde gösterilmektedir:

Eşleşen katman : İki cümlenin temsillerini aldıktan sonra iki cümlenin temsilleri üzerinde eşleştirme işlemleri yapın. Aşağıdaki şekilde gösterildiği gibi ihtiyaçlara göre yapılandırılabilen birçok eşleştirme yöntemi vardır Eşleştirme için nispeten basit eleman bazlı toplama ve çarpma yöntemlerini kullanıyoruz.

katmanı birleştir : Eşleştirme katmanından sonra elde edilen iki cümlenin ortak gösteriminden sonra, aşağıdaki şekle benzer şekilde birleştirme işlemi için ek geleneksel özellikler daha fazla tanıtıldı.

Etkileşimi tanıtın : Yukarıdaki adımlar, iki cümleyi kodlarken iki cümle arasındaki ilişkiyi dikkate almaz. Bu nedenle, iki cümle arasındaki etkileşim özelliklerinin yakalanması ve etkileşimle elde edilen matrise göre iki cümlenin yeni bir temsili elde edilebilmesi için daha detaylı ve kısmi cümle etkileşim bilgileri daha da tanıtılmıştır. Gosterildigi gibi:

Dikkat mekanizmasını tanıtın : Cümlenin farklı bölümlerinin önemindeki farkı ölçmek için ağırlık vektörünü kullanmak için dikkat mekanizması benimseyin. Dikkat hesaplamasının ana fikri, özelliğin dikkati, etkileşimden sonraki yeni ifade ile cümlenin orijinal ifadesi arasındaki dikkat olan AICNN ve ABCNN'deki birkaç tür dikkati takip eder.

Dördüncü olarak, özet ve görünüm

4.1 Veri seviyesi

Daha makul bir bilgi tabanı oluşturun: her bilgi noktası yalnızca bir amaç içerir ve geçiş, belirsizlik, fazlalık ve kolayca kafa karışıklığına neden olabilecek diğer faktörler yoktur.
Ek açıklama: Her SSS için belirli sayıda temsili benzer soru toplayın
Sonraki dönemde sürekli bakım: yeni SSS keşfi, birleştirme, bölme ve orijinal SSS'nin düzeltilmesi vb. Dahil.

4.2 Model seviyesi

Anlamsal rol etiketleme (SRL) ve konuşma etiketlemenin bir parçası (POS, konuşma etiketlemenin bir parçası) vb. Gibi sözdizimsel düzey ve anlamsal düzey bilgilerini daha fazla yakalayın ve metin anlamsal eşleştirmenin etkisini iyileştirmek için metin temsiline dahil edin.
Şu anda, soru ve cevabı arama işinin çoğu, soru ve soruyu veya soru ve cevabı eşleştirmektir. Takipte, şekilde gösterildiği gibi modelleme için hem soru hem de cevap bilgilerini tanıtabilirsiniz:

Referanslar

Huang P S, He X, Gao J, vd. Tıklama verilerini kullanarak web araması için derin yapılandırılmış anlamsal modeller öğrenme // ACM Uluslararası Bilgi ve Bilgi Yönetimi Konferansı. ACM, 2013: 2333-2338.

Shen Y, He X, Gao J, et al.Bilgi Erişimi için Evrişimsel Havuzlama Yapısına Sahip Gizli Bir Anlam Modeli // Acm Uluslararası Bilgi ve Bilgi Yönetimi Konferansı ACM, 2014: 101-110.

Hu B, Lu Z, Li H, et al.Doğal Dil Cümlelerini Eşleştirmek için Evrişimli Sinir Ağı Mimarileri. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler, 2015, 3: 2042-2050.

Qiu X, Huang X. Topluluk temelli soru yanıtlama için evrişimli sinir tensör ağı mimarisi // Uluslararası Yapay Zeka Konferansı AAAI Press, 2015: 1305-1311.

Palangi H, Deng L, Shen Y, ve diğerleri.Uzun Kısa Süreli Bellek Ağlarını Kullanarak Derin Cümle Gömme: Bilgi Erişimi için Analiz ve Uygulama.Sesli Konuşma ve Dil İşleme IEEE / ACM İşlemleri, 2016, 24 (4): 694- 707.

Yin W, Schütze H.MultiGranCNN: Birden Çok Granularity Düzeylerinde Metin Parçalarının Genel Eşleştirilmesi İçin Bir Mimari // Hesaplamalı Dilbilim Derneği Toplantısı ve Uluslararası Doğal Dil İşleme Konferansı.2015: 63-73.

Wan S, Lan Y, Guo J, et al.Çoklu Konumsal Cümle Temsilleri ile Anlamsal Eşleştirme için Derin Bir Mimari.2015: 2835-2841.

Hu B, Lu Z, Li H, et al.Doğal Dil Cümlelerini Eşleştirmek için Evrişimli Sinir Ağı Mimarileri. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler, 2015, 3: 2042-2050.

Pang L, Lan Y, Guo J, et al. Text Matching as Image Recognition.2016.

Wan S, Lan Y, Xu J, et al.Catch-SRNN: Recursive Matching Structure with Spatial RNN. Computers and Graphics, 2016, 28 (5): 731-745.

Lu Z, Li H. Kısa metinleri eşleştirmek için derin bir mimari // Sinirsel Bilgi İşleme Sistemleri Uluslararası Konferansı. Curran Associates Inc. 2013: 1367-1375.

Yin W, Schütze H, Xiang B ve diğerleri.ABCNN: Cümle Çiftlerini Modellemek için Dikkat Temelli Evrişimli Sinir Ağı. Bilgisayar Bilimi, 2015.

Tan M, Santos C D, Xiang B, et al. Factoid Olmayan Yanıt Seçimi için LSTM tabanlı Derin Öğrenme Modelleri Bilgisayar Bilimi, 2015.

Tan M, Santos C D, Xiang B, ve diğerleri Soru Cevap Eşleştirme için Geliştirilmiş Temsil Öğrenimi // Hesaplamalı Dilbilim Derneği Toplantısı. 2016: 464-473.

Santos C D, Tan M, Xiang B, et al. Attentive Pooling Networks.2016.

X Zhang, S Li, L Sha, H Wang Topluluk Soru Cevaplarında Cevap Seçimi için Özenli Etkileşimli Sinir Ağları // Yapay Zeka üzerine Uluslararası Konferans.

L Sha, X Zhang, F Qian, B Chang, Z Sui. Cevap Seçimi için Çok Görüşlü Füzyon Sinir Ağı // Yapay Zeka üzerine Uluslararası Konferans.

Wang Z, Hamza W, Florian R. Bilateral Multi-Perspective Matching for Natural Language Cümleler // Twenty-Sixth International Joint Conference on Artificial Intelligence.2017: 4144-4150.

Kim Y. Cümle Sınıflandırması için Evrişimli Sinir Ağları. Eprint Arxiv, 2014.

Wang S, Jiang J. Bir Karşılaştırmalı Metin Dizisi için Toplu Model. 2016.

Severyn A, Moschitti A. Kısa Metin Çiftlerini Evrişimli Derin Sinir Ağları ile Sıralamayı Öğrenmek // Uluslararası ACM SIGIR Konferansı. ACM, 2015: 373-382.

Xiaodong Zhang, Xu Sun, Houfeng Wang. FrameNet'i Neural Networks ile Entegre Ederek Yinelenen Soru Tanımlama // Otuz İkinci AAAI Yapay Zeka Konferansı'nda (AAAI-18)

Gong Y, Luo H, Zhang J. Etkileşim Alanı Üzerinden Doğal Dil Çıkarımı.2018.

Orijinal metin WeChat Resmi Hesabı-Tencent Wisdom'da (tencent_wisdom) yayınlandı

Tencent ve Alibaba, NetEase Cloud'un gölgesini aramak için yoğun bir şekilde işbirliği yapıyor

İnternette toplanan e-atıkların "müzik dinleme" düzeyinde olduğu söyleniyor