Derin anlamsal model ve Taobao aramasındaki uygulaması

BM25 gibi geleneksel arama metni korelasyon modeli, genellikle Sorgu ve Doc metin terimi arasındaki eşleşme derecesini hesaplar. Sorgu ve Doküman arasındaki anlamsal boşluk nedeniyle, birçok anlamsal korelasyon olabilir, ancak metin eşleşmiyor. Anlamsal eşleme problemini çözmek için LSA ve LDA gibi birçok anlamsal model ortaya çıkar.

Orijinal:

BM25 gibi geleneksel arama metni korelasyon modeli, genellikle Sorgu ve Doc metin terimi arasındaki eşleşme derecesini hesaplar. Query ve Doc arasındaki anlamsal boşluk nedeniyle, birçok anlamsal korelasyon olabilir, ancak metin eşleşmiyor. Anlamsal eşleme problemini çözmek için LSA ve LDA gibi birçok anlamsal model ortaya çıkar. NLP'de derin öğrenmenin uygulanmasıyla, IR ve QA'da (soru cevaplama sistemleri) birçok derin model ortaya çıkmıştır.Sorgu ve belge, sinir ağı gömme yoluyla yoğun bir uzay vektörü gösterimine eşlenir ve daha sonra ilgili olup olmadığı hesaplanır ve elde edilir. mükemmel sonuçlar. Bu makale, Microsoft, IBM Waston Lab, Google, vb .'nin bu alandaki bazı çalışmalarını araştırmakta ve Taobao aramasıyla ilgili bazı çalışmalarımızı tanıtmaktadır.

1. DSSM, CDSSM, LSTM-DSSM ve ilgili iş serileri

Microsoft'un DSSM'si ve ilgili model serisi, derin anlamsal modelde daha etkilidir. Gruptaki PS üzerinde dağıtılmış bir DSSM uygulaması vardır ve ayrıca çoklu hizmet uygulamaları da vardır.

DSSM, önce sorguyu ve dokümanı yüksek boyutlu ve seyrek bir BOW vektörü olarak ifade eder. Vektörün boyutu, sözlüğün boyutudur. Her boyut, terimin sorgu veya dokümandaki sıklığını temsil eder; vektörün her biti doğrudan bir kelime olarak kullanılıyorsa, Görünüm boyutu çok yüksektir ve bazı kayıtsız kelimeler işlenemez. Yazar çok yararlı bir kelime karma numarası yaptı: her kelime bir harf-üç gram dizisi olarak temsil edildi, örneğin: çocuk # -bo, boy, oy- # şeklinde bölünür ve ardından harf-tri- olarak ifade edilir. gram vektör. Tüm metnin vektörünü temsil etmek için her kelime vektörünü toplayın.

Daha sonra, yüksek boyutlu seyrek vektör, tamamen bağlı ağ bağlantılarının birkaç katmanı aracılığıyla yoğun, düşük boyutlu bir vektör halinde sıkıştırılır Bu vektör uzayında, korelasyon derecesini ölçmek için sorgu ve doc vektörlerinin kosin benzerliği hesaplanır. Eğitimin amacı, pozitif ve negatif örnekler arasındaki ayrımı olabildiğince büyük yapmak için pozitif bir örnekle aynı sorgu altında 1 tıklanmış dokümanı ve negatif örnek olarak rastgele 4 tıklanmamış dokümanı almaktır:

DSSM, metni gömerken terimin sıra bilgisini dikkate almadığından, metin sırasını saklayabilen metni gömmek için ardışık olarak Evrişim ve LSTM kullanımını önermiştir. Bunların arasında Evrişim, sabit boyutlu bir kayan pencereyle sorgu veya dokümanın parçalarını alarak, her bir parçadaki metni word-hash + dnn ile sıkıştırarak ve ardından tüm sorguyu veya doc vektörünü temsil etmek için max-pooling alarak elde edilir.

Ek olarak, ister Evrişim veya LSTM metnin gömülmesi olsun, tüm cümlenin vektörünün kelimenin veya kısmi parçanın vektörü aracılığıyla oluşturulmasını içerir.Daha basit ve kaba yöntem, doğrudan toplamı, ortalama veya maks. Microsoft akademisyenleri daha fazla iyileştirme yaptılar ve bir cümle vektöründe birleştirilen her kelimenin ağırlığını öğrenmek için Dikkat mekanizmasını kullanmayı önerdiler. Örnek olarak LSTM-DSSM'yi ele alalım. Adım (terim) her seferinde LSTM tarafından gizli vektör h çıkışı, bir dikkat ağına s (h) s (h) girilir. Ağırlık çıkarıldıktan sonra, softmax normalleştirilir ve ardından her kelimenin değeri Örtük vektör ağırlıklı ortalama, cümle vektörleri oluşturur. S (h) s (h) ve korelasyon hedefinin parametreleri birlikte eğitilir. Bu Dikkat mekanizması da nispeten zayıftır, çünkü farklı sorgular aynı dokümana farklı "dikkatlere" sahip olabilir Bu yöntem sadece doküman için benzersiz bir vektör oluşturabilir.

Son zamanlarda, Microsoft bilim adamları başka bir bakış açısı ortaya koydular: sorgu ve doc arasındaki alaka derecesi, sorgudaki terim ile doc metni arasındaki tam eşleşme ve sorgu semantiği ile doc semantiği arasındaki eşleşme derecesi tarafından belirlenir. Ayrıca terim eşleştirme, doc'taki terimin konumu ve yakınlığı ile büyük bir ilişkiye sahiptir. Bu nedenle, terim eşleştirme derecesini ifade etmek için yerel bir model ve anlamsal eşleştirme derecesini ifade etmek için bir dağıtım modeli kullanırlar ve bu iki alt modeli eğitim için aynı modele koyarlar. Dağıtım modeli, anlamsal eşleştirme ilişkilerini öğrenmek için DSSM'ye benzer. Yerel modelin girdisi bir mm nq ndnq nd matrisidir, nqnq sorgudaki terimlerin sayısıdır, ndnd dokümandaki terimlerin sayısıdır ve m (i, j) = 0or1m (i, j) = 0or1 konumu sorgu anlamına gelir İ-inci kelime belgedeki j-inci kelime ile eşleşse de, giriş matrisi evrişim ile çıkarılır ve vektörleştirilir. Deneysel sonuçlarına göre, terim eşleştirme bilgilerini birleştiren bu modelin etkisi, DSSM gibi anlamsal modellerden daha iyidir.

2. Google ile ilgili çalışmalar

Google bilim adamları, CDSSM'ye kıyasla bir gelişme olan, metni vektörleştirmek için evrişimi kullanıyor. Evrişim yöntemi, Nal Kalchbrenner'ın evrişimi kullanarak metni sınıflandırma yöntemini ifade eder.

İlk olarak, cümledeki her kelime için gömme yapın ve ardından kelimelerin iç içe geçmesini bir matris içinde birleştirin, bu bir görüntünün ifadesine biraz benzer. Ardından, bu matristeki farklı özellik haritalarından özellikler çıkarılır ve ardından havuzlama, cümleleri ifade etmek için boyutlu bir vektör oluşturur. Query ve Doc'un anlamsal vektörü için, anlamsal benzerlik iki doğrusal bir model aracılığıyla hesaplanır: sim (xq, xd) = xq M xdsim (xq, xd) = xq M xd. Son olarak, semantik benzerlik ve diğer ilgili sıralama özelliklerinin yanı sıra sorgu ve belge vektörleri sıralamayı belirlemek için faktörler olarak kullanılır ve noktasal DNN modeli tarafından eğitilir.

3. IBM Waston Lab'daki ilgili çalışma

Birçok soru cevaplama sistemi vardır.Bir Soru ve aday Cevap verildiğinde, aday Cevaptan en uygun cevabı seçin.Bu işlem, bilgi erişimindeki korelasyon modeline çok benzer. Waston Lab, InsuranceQA veri setinde yukarıda bahsedilen benzer modelleri denedi ve CNN ile LSTM'nin avantajlarını birleştirdi ve birkaç ilginç hibrit model önerdi:

(1) Evrişimli havuzlama LSTM

Kelime gömme yöntemi olarak bir Bi-LSTM kullanın ve ardından cümleleri ifade etmek için bir matrise kelime gömme kelime gömme, soru ve cevaplayıcı vektör ifadesi olarak birleşik özellikleri çıkarmak için evrişimi kullanın ve ardından cosin kaybını hesaplayın.

(2) Evrişim tabanlı LSTM

İlk olarak orijinal metindeki yerel N-gram bilgilerini yakalamak için evrişimi kullanın ve ardından daha geniş bir bağlam bağımlılığı yelpazesini öğrenmek için bu temelde Bi-LSTM kullanın.

(3) Özenli-LSTM

LSTM-DSSM ile karşılaştırıldığında, NMT'nin Dikkat mekanizmasına yakın olan Dikkat mekanizmasında bazı iyileştirmeler yapmıştır, yani: Tüm Cevabın vektörü Yanıttaki kelime vektörlerinin ağırlıklı ortalaması ile oluşturulduğunda, her bir kelimenin ağırlığı Soru vektörü ve kelime tarafından belirlenir. Vektör belirlenir. Soru ifadesi hala tüm kelime vektörlerinin ortalama veya toplamı ile temsil edilir.

4. Diğer ilgili işler

Yukarıdaki çalışma esas olarak Query ve Doc vektör ifadelerinin nasıl daha iyi oluşturulacağına odaklanmaktadır.Ayrıca benzerliği hesaplamak için iki vektör karşılaştırma fonksiyonunun nasıl tasarlanacağına yönelik birçok yöntem vardır. Shuohang Wang, 6 yöntem özetledi: NN, NTN, EUCCOS, SUB, MULT ve SUBMULT + NN. Sırasıyla sorgu ve doc vektörlerinde çarpma, çıkarma, Öklid uzaklığı, cosin, bilineer, concat ve bu hesaplamaların bir kombinasyonunu hesaplayın.

Ek olarak, makine okumayı anlamada birçok benzer görev vardır, bu nedenle bu makale onu açıklamayacaktır. Aşağıda ilgili çalışmalarımız anlatılmaktadır.

5. Çalışmamız

Taobao aramasının birçok anlamsal yeniden yazımını yaptıktan sonra, eşleştirme, terim eşleştirme ile sınırlı değildir.Aşağıda, veriler ve modellerden çalışmalarımıza bir giriş yer almaktadır.

5.1 Derin modeller genellikle büyük miktarda eğitim verisine sahiptir ve ürün arama alaka düzeyi sorunu için büyük miktarda yüksek kaliteli eğitim verisi elde etmek kolay değildir. Web araması genellikle, ilgili olup olmadığının etiketi olarak tıklama verilerini doğrudan kullanır ve bu, ürün aramada çok etkili değildir: kullanıcı tıklama davranışı, fiyat, resimler, kişiselleştirilmiş tercihler gibi birçok faktörle ilgilidir ve tek başına tıklama verilerine güvenmenin, korelasyon örneklerinde çok fazla gürültü vardır; Bununla birlikte, verileri manuel olarak etiketlemenin doğruluğu nispeten yüksektir, ancak zamanlama ve maliyet gibi faktörlerle sınırlıdır. Son zamanlarda, akademik topluluk yavaş yavaş bu sorunu fark etti ve çok sayıda örnek oluşturmak için BM25 gibi denetimsiz modeller önerdi. Eğitim verilerini elde ettiğimiz yollar şunlardır:

(1) Davranış verilerini örnekleme ve Görece düşük doğrulukla çok sayıda (100 milyon düzey) eğitim verisi elde etmek için Görüntü Verisi Artırmaya benzer bazı yöntemler kullanarak, önce bu verileri daha iyi bir model eğitmek için kullanın; bu yöntemler şunları içerir:

a. Sorgu altında, normal TO'ya sahip ürünleri pozitif örnekler olarak ve TO'su ortalamanın altında olan ürünleri negatif örnekler olarak alın

b. Sorgunun negatif numune olarak geri çağırabileceği kategoriler altındaki ürünleri rastgele örnekleyin

c. Sorgudaki terim üzerinde bazı dönüşümler yapın ve dönüştürülmüş sorguyu orijinal sorgunun negatif bir örneği olarak ürünü tıklamak için kullanın; örneğin, "kırmızı uzun kollu elbise" "mavi kısa kollu elbise" ve "mavi kısa kollu elbise" haline getirilir "Kırmızı Uzun Kollu Elbise" altında negatif örnek olması için "" altındaki ürünü tıklayın;

(2) Modeli yeniden yazarak korelasyon modeli için çok sayıda örnek oluşturun ve özel bir makale bu bölümü takipte tanıtabilir;

(3) Yapay olarak etiketlenmiş verilere görece küçük sayı (100w) ve yüksek doğruluk oranıyla ince ayar yapma İyi bir modeli önceden eğitmek için yukarıdaki iki yöntemi kullanın.

5.2 Model tasarımında dikkate alınan birkaç faktör:

(1) Sorgu ve Taobao'daki ürün başlıklarında çok sayıda uzun kuyruklu kelime vardır, özellikle çok sayıda sayı ve İngilizce kombinasyonunun sayısı, modeli ve kapasitesi ve kelime segmentasyonu tükenemez. Sorguyu ve başlığı yerleştirmek için yalnızca kelimeleri kullanmak birçok bilgiyi kaybedecektir ve karakter boyutunun dikkate alınması gerekir.

(2) Ürünün başlığına ek olarak kullanılabilecek resimler, kategoriler, öznitelikler ve diğer bilgiler de vardır.

(3) Projenin çevrimiçi hesaplaması hafif olmalı ve iki vektörün karşılaştırma işlevi hesaplama karmaşıklığını kontrol etmelidir.

Şu anda kullanmakta olduğumuz model aşağıdaki gibidir:

(1) Sorgu ve başlık vektörü için DNN + Char-LSTM kombinasyonu kullanıyoruz: DNN, TOP kelimelerin gömülmesini verimli bir şekilde öğrenebilir ve Char-LSTM uzun kuyruk karakter kombinasyonlarını yakalayabilir. Char-LSTM tanıtıldıktan sonra, modelin eğitilmesi daha zordur. Daha iyi başlangıç parametreleri elde etmek için sorgu ve başlık metni korpusu ön eğitimi LSTM-AutoEncoder kullanıyoruz; aynı zamanda, TOP kelimelerin gömülmesi word2vec tarafından başlatılır ve model daha hızlı yakınlaşabilir.

(2) Farklı kategorilerdeki ürünlerin vektör uzayında daha iyi ayırt edilebilmesi için ürün başlığının gömülmesine kategori tahmini için yardımcı bir görev eklenir ve model etkisi ve yakınsama hızı iyileştirilir.

(3) Çevrimiçi sıralama, nispeten yüksek gecikme gerektirir. Mühendislik optimizasyonuna ek olarak, modelde optimizasyon için de yer vardır. Verilerimiz üzerinde yapılan deneyler, karşılaştırma işlevindeki tam bağlantılı katmanın derinliğinin ve genişliğinin model üzerinde daha büyük bir etkiye sahip olduğunu buldu. Daha geniş, tam bağlantılı bir katman daha iyi bir etkiye sahip olacaktır, ancak hesaplama miktarı büyük ölçüde artacaktır; daha dar, tam bağlantılı bir katman oluşturmak ve modeli derinleştirmek için ResNet kullanmak, hesaplama miktarını büyük ölçüde azaltırken etkiyi sağlayabilir.

Çevrimiçi sıralama sonuçlarını yakalamak için bazı sorgulardan örnekler aldık ve bu modelle sıralamadan sonra TOP30 manuel değerlendirme İYİ oranı% 1,31 arttı.

5.3 Takip planı

Ürünün başlığı ve kategorisinin yanı sıra resim de çok önemli bir bilgi kaynağıdır.Resim bilgisi sonradan eklenir ve aynı zamanda çok modlu geri çağırma elde etmek için geri çağırma için sorgu ve ürün vektörlerini kullanmaya çalışmaktadır.

Ek olarak, Dikkat mekanizması da kanıtlanmış önemli bir iyileştirme noktasıdır. Çevrimiçi sıralama gecikmesinin gerekleriyle sınırlı olduğundan, sorguya göre her ürün başlığının "dikkat" bölümünü hesaplamak imkansızdır, ancak daha iyi başlık vektörleri oluşturmak için bazı öz-dikkat yöntemleri getirilebilir.

Referanslar:

Shen, Y., He, X., Gao, J., Deng, L. ve Mesnil, G. (2014). Bilgi Erişimi için Evrişimli Havuz Yapılı Gizli Bir Anlamsal Model (s. 101-110). Sunulan 23rd ACM Uluslararası Konferansı'nda, New York, New York, ABD: ACM Press.

Services, E. U. C. (2014) Tıklama Verilerini Kullanarak Web Araması için Derin Yapılandırılmış Anlamsal Modeller Öğrenme, 1-8.

Uzun Kısa Süreli Bellek Ağlarını Kullanarak Derin Cümle Gömme: Bilgi Erişimi için Analiz ve Uygulama. (2016) Uzun Kısa Süreli Bellek Ağlarını Kullanarak Derin Cümle Gömme: Bilgi Erişimine Analiz ve Uygulama, 125.

Zhai, S., Chang, K.-H., Zhang, R., ve Zhang, Z. M. (2016). DeepIntent: Tekrarlayan Sinir Ağları ile Çevrimiçi Reklamcılık için Öğrenme Dikkatleri

(sayfa 12951304) 22. ACM SIGKDD Uluslararası Konferansı'nda sunulmuştur, New York, New York, ABD: ACM Press.

Mitra, B., Diaz, F., ve Craswell, N. (2016). Web Araması için Metnin Yerel ve Dağıtık Temsillerini Kullanarak Eşleştirmeyi Öğrenmek, 1-9.

Soru Cevap Eşleştirme için Geliştirilmiş Temsil Öğrenimi. (2016) Soru Cevap Eşleştirme için Geliştirilmiş Temsil Öğrenme, 1-10.

Feng, M., Xiang, B., Glass, M. R., Wang, L., ve Zhou, B. (2015) CEVAP SEÇİMİNE DERİN ÖĞRENMEYİ UYGULAMA: BİR ÇALIŞMA VE AÇIK BİR GÖREV, 1-8.

Severyn, A. ve Moschitti, A. (2015). Kısa Metin Çiftlerini Evrişimli Derin Sinir Ağları ile Sıralamayı Öğrenmek (s. 373-382) 38. Uluslararası ACM SIGIR Konferansı, New York, New York, ABD : ACM Basın.

Kalchbrenner, N., Grefenstette, E., ve Blunsom, P. (2014) .Cümleleri Modellemek için Evrişimli Bir Sinir Ağı

Wang, S., ve Jiang, J. (2017). METİN SEKANSLARINI EŞLEŞTİRMEK İÇİN BİR KARŞILAŞTIRMA-TOPLAMA MODELİ, 111.

Lin, Z., Feng, M., Santos, dos, CN, Yu, M., Xiang, B., Zhou, B., and Bengio, Y. (2017). YAPILANDIRILMIŞ KENDİNE İLİŞKİN CÜMLE YAPILANDIRMA, 1 15.

Yeni perakendede iyi bir iş çıkarmak için önce ürünlerde iyi bir iş çıkarmalıyız
önceki
Unutmayın: Bu 5 yiyecek yenmeden önce beyazlatılmalıdır.Kolayca zehirlenirler ve vücuda zarar verebilirler.
Sonraki
Meizhou'nun Fengshun İlçesi, "Orman Şehri · Büyük Körfez Alanını Ortaklaşa İnşa Etmek · Halkın Yararına Orman" konulu bir tanıtım kampanyası başlattı.
Akıllı Diyalog (1): Yapay Zeka Çağında Tanrı Atı Arayışı! Shenma akıllı diyalog teknolojisinin derinlemesine yorumu
10.000'den fazla ciltlik bir koleksiyonla, Sanjiao Kasabasında iki self servis kütüphane açıldı
Sistem trafiğini zirveye çıkarmak için ne yapmalıyım?
Güçlü gök gürültüsü ve şimşekle on seviyeli fırtına! Wujiang, Chongyang Kasabası Aktif Bir Şekilde Kurtarma ve Afet Yardımı Çalışmalarını Gerçekleştiriyor
Alt veritabanları ve alt tablolar sonsuz genişleyebilir mi?
Makine öğrenmiyor: Yüksek eşzamanlı IM sistem mimarisinin optimizasyon uygulaması
Bir buçuk yıl boyunca 2,2 milyar zararla kurulan Ruixing Coffee, Amerika Birleşik Devletleri'nde halka açılacak! Canlı yayın platformu Douyu birlikte
Film ve televizyon dizilerinde çete çekimleri, klasik dramalarda internet anlatıları, Zhang Yishan "kendini iyileştirmiş"
İnternet yüksek kullanılabilirlik mimarisi teknolojisi uygulaması
Dünya ağır sıklet boks şampiyonu üzüldü ve elendi, Zhang Junlong, Çin boksunun güçlü yükselişine liderlik edecek güce sahip
"Shen Cong" neredesin? Çocuk bir yaşında Guangzhou'da kaçırıldı ve babası işini bıraktı ve 14 yıl boyunca bir oğul bulmak için evini sattı.
To Top