1. Giriş
Zorluklar ve fikirler
Arama, kullanıcıların Dianping Uygulamasında bilgi araması için en büyük giriştir ve kullanıcılar ile bilgiler arasında önemli bir bağlantıdır. Kullanıcılar için arama yöntemleri ve senaryoları çok çeşitlidir ve çok çeşitli yerleştirme hizmetleri ve trafikteki büyük fark nedeniyle, bu, aşağıdaki yönlerden somutlaştırılan Dianping Araması'na (bundan sonra Dianping Araması olarak anılacaktır) büyük zorluklar getirir:
Zaman, mekan ve sahne gibi boyutların üzerine eklenen yukarıda bahsedilen özellikler, inceleme aramasını genel arama motorlarından daha benzersiz zorluklarla karşı karşıya bırakmaktadır. Bu zorlukları çözmek için, NLP (Doğal Dil İşleme, doğal dil işleme) teknolojisini yükseltmek, derinlemesine sorgu anlayışı ve derinlemesine değerlendirme ve analiz yapmak ve arama mimarisini bir bütün olarak yükseltmek için bilgi grafiği teknolojisine ve derin öğrenme teknolojisine güvenmek gerekir. Meituan NLP Center ve Dianping Search Intelligence Center'ın iki ekibinin yakın işbirliği ile, sadece altı ay sonra, Dianping Search'ün temel KPI'si, son bir buçuk yılın altı katı olan yüksek seviyesinden önemli ölçüde arttı. Yıllık hedefi altı ay önceden tamamlayın.
Arama mimarisini bilgi grafiğine göre yeniden şekillendirme
Meituan NLP Merkezi, dünyanın en büyük yemek ve eğlence bilgi haritası olan Meituan Beynini inşa ediyor (ilgili bilgiler için lütfen "Meituan Beyin: Bilgi Haritası Modelleme Yöntemleri ve Uygulamaları" na bakın). Çeşitli sahne verilerini tamamen madencilik yapar ve ilişkilendirir, makinelerin kullanıcıların genel yorumlarını "okumasına" izin vermek için NLP teknolojisini kullanır, kullanıcıların yemekler, fiyatlar, hizmetler, ortam vb. Açısından tercihlerini anlar ve insanlar, mağazalar, ürünler ve sahneler arasında bilgi ilişkileri kurar. Bir "bilgi beyni" oluşturun. Arama süreçlerine bilgi grafiği bilgilerini ekleyerek, gözden geçirme aramasının genel yapısını yükselttik ve yeniden şekillendirdik Şekil 1, bilgi grafiklerine dayalı inceleme aramasıyla oluşturulan beş katmanlı arama mimarisini göstermektedir. Bu makale, temel olarak 5 katmanlı inceleme arama mimarisindeki çekirdek sıralama katmanının gelişimini tanıtan "Meituan Brain" serisinin ikincisidir (serinin ilk makalesi için lütfen "Meituan Catering and Entertainment Knowledge Atlas-Meituan Brain Revealed" bölümüne bakın) Süreç, makale esas olarak aşağıdaki 3 bölüme ayrılmıştır:
Şekil 1 Bilgi grafiğine dayalı beş katmanlı inceleme araması mimarisi
2. Sıralama Modelinin Keşfi ve Uygulaması
Arama sıralama probleminin makine öğrenimi alanında ayrı bir dalı vardır: Sıralamayı Öğrenme (L2R). Ana kategoriler aşağıdaki gibidir:
Sıralama modeli açısından, inceleme araştırması da endüstride nispeten yaygın bir yineleme sürecinden geçmiştir: erken doğrusal model LR'den otomatik ikinci dereceden geçiş özellikleri FM ve FFM'nin tanıtımına, doğrusal olmayan ağaç modeli GBDT ve GBDT + LR'ye ve son kapsamlı Büyük ölçekli bir derin öğrenme sıralama modeline geçin. Aşağıda, önce kısaca geleneksel makine öğrenimi modellerinin (LR, FM, GBDT) uygulamaları ile avantajları ve dezavantajları tanıtılmakta ve ardından derin modellerin araştırılması ve uygulama süreci ayrıntılı olarak tanıtılmaktadır.
Geleneksel makine öğrenimi modeli
Şekil 2 Birkaç geleneksel makine öğrenimi modeli yapısı
Derin sinir ağı modeli
İşletmenin gelişmesiyle birlikte geleneksel modellerde hedef getiri elde etmek giderek zorlaştı. Aynı zamanda, işin karmaşıklığı, kesin ve kişiselleştirilmiş sıralama elde etmek için büyük miktarda kullanıcı geçmiş verilerini, ultra büyük ölçekli bilgi grafiği özelliklerini ve diğer çok boyutlu bilgi kaynaklarını sunmamızı gerektirir. Bu nedenle, 2018'in ikinci yarısından başlayarak, L2 çekirdek sıralama katmanının ana modelinin derin öğrenme sıralama modeline geçişini tamamen destekleyeceğiz. Derin modelin avantajları aşağıdaki yönlere yansır:
Aşağıdaki şekil, Google tarafından önerilen WideDeep modeline dayanarak oluşturduğumuz ağ yapısıdır. Geniş bölümün girişi, genellikle LR ve GBDT aşamalarında kullanılan bazı ince taneli istatistiksel özelliklerdir. Daha uzun bir süre boyunca sayılan yüksek frekanslı davranış özellikleri, iyi bellek yetenekleri sağlayabilir. Derin kısım, Düşük Sıralı, yüksek boyutlu seyrek Kategorik özellikleri derin bir sinir ağı aracılığıyla öğrenir, örneğin uzun kuyruk kısmına sığar, yeni özellik kombinasyonlarını keşfeder ve modelin genelleme yeteneğini geliştirir. Aynı zamanda, metin ve başlık görüntüleri gibi geleneksel makine öğrenimi modelleriyle tanımlanması zor olan özellikler için, ifadeyi uçtan uca yöntemle önceden işlemek için karşılık gelen alt ağ modelini kullanabilir ve ardından füzyon öğrenimi gerçekleştirebiliriz.
Şekil 3 DeepWide model yapı diyagramı
3. Arama derinliği sıralama modelinin özellik mühendisliği uygulaması
Derin öğrenmenin ortaya çıkışı, algoritma mühendislerini birçok manuel madencilik ve özellik kombinasyonundan kurtarmıştır. Özellik mühendisliğinde uzmanlaşan algoritma mühendislerinin işsizlik riskiyle karşı karşıya kalabileceğine dair bir tartışma bile var. Bununla birlikte, derin öğrenmenin otomatik özellik öğrenmesi şu anda esas olarak CV alanına yansıtılmaktadır. CV alanındaki özellik verileri, resim yoğun düşük seviyeli özelliklerin pikselleridir.Derin öğrenme, evrişimli katmanın güçlü aracı aracılığıyla otomatik olarak düşük seviyeli özellikleri gerçekleştirebilir. Birleştirme ve dönüştürme, etki açısından, daha önce manuel olarak tanımlanan görüntü özelliklerinden gerçekten daha önemlidir. NLP alanında, Transformer'in ortaya çıkması nedeniyle, otomatik özellik madenciliğinde de önemli ilerleme olmuştur.BERT, çoklu NLP Görevlerinde Son Teknoloji efektleri elde etmek için Transformer'ı kullanır.
Bununla birlikte, CTR tahmini ve sıralama öğrenme alanı için, derin öğrenme, otomatik özellik madenciliğinde manuel özellik mühendisliğini ezme eğilimi henüz oluşturmamıştır, bu nedenle manuel özellik mühendisliği hala çok önemlidir. Tabii ki, özellik mühendisliğinde derin öğrenme ile geleneksel model özellik mühendisliği arasında bazı farklılıklar vardır.Çalışmalarımız esas olarak aşağıdaki hususlara odaklanmaktadır.
3.1 Özellik ön işleme
3.2 Her şey Gömülebilir
Derin öğrenmenin en büyük cazibesi, güçlü özellik temsil yeteneklerinde yatmaktadır.İnceleme arama senaryosunda, Meituan Brain tarafından sağlanan çok boyutlu kullanıcı davranışı verilerine, zengin satıcı UGC bilgilerine ve çok boyutlu ayrıntılı etiket verilerine sahibiz. Bu bilgileri birden çok vektör alanına yerleştirmek için derin öğrenmeyi ve kullanıcıların kişiselleştirilmiş tercihlerini ve tüccarların doğru portrelerini karakterize etmek için Gömme'yi kullanıyoruz. Aynı zamanda, vektörleştirilmiş Gömme, derinlik modelinin daha fazla genelleştirilmesi, kombinasyonu ve benzerlik hesaplaması için de uygundur.
3.2.1 Kullanıcı davranışı sırasının yerleştirilmesi
Kullanıcı davranışı dizisi (arama sözcüğü dizisi, tıklama satıcı sırası, tarama davranışı dizisi) zengin kullanıcı tercih bilgilerini içerir. Örneğin, bir kullanıcı "mesafe önceliği" ni seçtiğinde, mevcut kullanıcının muhtemelen anlık bir tüketim sahnesi olduğunu ve mesafeye daha duyarlı olduğunu bilebiliriz. Davranış sırası özelliklerinin genellikle aşağıdaki şekilde gösterildiği gibi üç erişim yöntemi vardır:
- Havuzlama : Seri Gömme işleminden sonra Toplam / Ortalama Havuzlama katmanına erişim. Bu yöntemin erişim maliyeti düşüktür, ancak davranışın zamanlama ilişkisini göz ardı eder.
- RNN : Toplama için döngüsel ağ kullanan LSTM / GRU erişimi. Bu yöntem, davranış dizisinin zamanlama ilişkisini dikkate alabilir; fiyat, artan model karmaşıklığıdır ve çevrimiçi tahmin performansını etkiler.
- Dikkat : Dikkat mekanizması, ağırlıklı Toplam Havuzlama olarak ifade edilen Gömme dizisinden sonra getirilir; LSTM / GRU ile karşılaştırıldığında hesaplama ek yükü daha düşüktür.
Şekil 4 Davranış sırası özelliklerine erişmenin çeşitli yöntemleri
Aynı zamanda, kullanıcıların uzun vadeli ve kısa vadeli tercihlerinin sıralama üzerindeki farklı etkilerini vurgulamak için, davranış sırasını zaman boyutuna göre ayırdık: Oturum, yarım saat, bir gün, bir hafta ve diğer ayrıntılar, bunlar da çevrimiçi avantajlar elde etti.
3.2.2 Kullanıcı kimliğinin yerleştirilmesi
Kullanıcı tercihlerini tanımlamanın daha yaygın bir yolu, kullanıcı kimliğini gömme işleminden sonra bir özellik olarak modele doğrudan entegre etmektir, ancak nihai çevrimiçi etki tatmin edici değildir. Kullanıcı davranışı verilerini analiz ederek, kullanıcı kimliği davranış verilerinin önemli bir kısmının nispeten seyrek olduğunu ve bunun da kullanıcı kimliği gömme işleminin yetersiz yakınsamasına ve kullanıcı tercih bilgilerinin yeterince açıklanamamasına neden olduğunu bulduk.
Airbnb'nin KDD 2018 hakkındaki makalesi, kullanıcı temel portrelerini ve davranış verilerini kullanarak bu sorun kümeleme kullanıcı kimliklerine bir çözüm sağlar. Airbnb'nin ana senaryosu, seyahat kullanıcıları için kısa süreli kiralama hizmetleri sunmaktır.Genel olarak kullanıcılar yılda 1-2 kez seyahat eder.Bu nedenle, Airbnb'nin kullanıcı davranışı verileri inceleme aramasından daha seyrek.
Şekil 5 Kullanıcı portresine ve davranış bilgilerine göre kümeleme
Yukarıdaki şekilde gösterildiği gibi, kullanıcı portre özellikleri ve davranış özellikleri ayrı ayrı bölümlere ayrılmıştır ve küme kimliğini elde etmek için özellik adları ve grup numaraları birbirine eklenir: US_lt1_pn3_pg3_r3_5s4_c2_b1_bd2_bt2_nu3.
Ayrıca Airbnb'ye benzer bir plan uyguladık, seyreklik sorunu çok iyi çözüldü ve bu da bazı ek faydalar sağladı. Dianping'de yerelleştirilmiş bir yaşam bilgisi hizmet platformu olarak, kullanıcıların davranışlarının çoğu ikamet ettikleri yerlerde yoğunlaşıyor ve bu da kullanıcılar yeni bir yere vardıklarında kişiselleştirilmiş sıralama eksikliğine yol açıyor. Bu kümeleme yöntemi sayesinde, aynı davranışa sahip kullanıcıları farklı yerlerde bir araya getirmek, siteler arası kişiselleştirme sorununun bir bölümünü de çözebilir.
3.2.3 Satıcı Bilgilerinin Yerleştirilmesi
Satıcı Gömme, satıcı kimliğini doğrudan modele ekleyebilir, Meituan Brain ayrıca çok sayıda UGC madenciliği yapmak için derin öğrenme teknolojisini kullanır, aşağıdaki şekilde gösterildiği gibi "iyi" gibi tüccarların zevkleri ve özellikleri gibi ince taneli duyguları tam olarak karakterize eder. "Otopark", "enfes yemekler" ve "tekrar ziyaret etmeye istekli" gibi etiketler.
Şekil 6 Meituan Brain tarafından tüccarlar için sağlanan ayrıntılı duygusal etiketler
Basit işletme yıldız derecelendirmesi ve yorum sayısı ile karşılaştırıldığında, bu bilgiler daha fazla açıya ve daha ince ayrıntıya sahiptir. Bu etiketleri yerleştirip modele giriyoruz:
3.2.4 Gömme özelliklerinin yakınsamasını hızlandırın
Derin öğrenme sıralama modelimizde Gömme özelliğine ek olarak, Query, Shop ve kullanıcı boyutlarının hızlı bir şekilde birleşebilen çok sayıda güçlü bellek özelliği de bulunmaktadır. Gömme özelliği daha seyrek zayıf bir özelliktir ve yakınsama hızı yavaştır. Gömme özelliğinin yakınsamasını hızlandırmak için aşağıdaki çözümleri denedik:
Şekil 7 Çoklu Görev Gömme özelliği yakınsamasını hızlandırır
3.3 Resim özellikleri
Resimler, arama sonuçları sayfasında geniş bir görüntüleme alanı kaplar. Görselin kalitesi, kullanıcı deneyimini ve tıklamalarını doğrudan etkiler. Yorum yapılan bir satıcının ilk resmi, satıcılar ve kullanıcılar tarafından yüklenen resimlerden gelir ve kalite değişir. Bu nedenle resim özellikleri de sıralama modelinde önemli bir kategoridir. Mevcut inceleme araması esas olarak aşağıdaki görüntü özellikleri türlerini kullanır:
Şekil 8 Resim özelliğine erişim
4. Derin öğrenme Arama senaryolarına uygun Liste şeklinde sıralama algoritması: LambdaDNN
4.1 İşletme göstergeleri ve model optimizasyon hedefleri için Arama Boşluğu
Genel olarak, modelin tahmin hedeflerinde ve iş göstergelerinde her zaman bazı boşluklar olacaktır. Modelin tahmin hedefi iş hedefine daha yakınsa, modelin optimize edilmesini ve iş göstergelerinin de buna göre iyileştirilebilmesini o kadar iyi sağlayabilir; aksi takdirde model çevrimdışı göstergeler artacak, ancak çevrimiçi temel iş göstergeleri önemli ölçüde artmayacak, hatta olumsuz sorun. Endüstrideki derin öğrenme sıralamalarının çoğu, arama işi endeksi ile daha büyük bir boşluğa sahip olan kayıp işlevi olarak Pointwise's Log Loss'u kullanır. Aşağıdaki iki yönden yansıtıldı:
Şekil 9 Pointwise ve Listwise optimizasyon hedefleri arasındaki fark
Yukarıdaki nedenlere dayanarak, derin öğrenme modelinin kayıp işlevini optimize ettik.
4.2 Optimizasyon hedefi iyileştirmesi: Günlük Kaybından NDCG'ye
Sıralama modelinin optimizasyon hedefini arama iş endeksine olabildiğince yakın hale getirmek için kaybın Sorguya göre hesaplanması ve farklı lokasyonlardaki örneklerin farklı ağırlıkları olması gerekir. Günlük Kaybı ile karşılaştırıldığında, arama sistemlerinde yaygın olarak kullanılan NDCG endeksi (Normalize İndirimli Kümülatif Kazanç), arama işinin gereksinimlerine açıkça daha yakındır.NDCG'nin hesaplama formülü aşağıdaki gibidir:
Kümülatif kısım, pozisyona göre gelir kaybını temsil eden DCG'dir (İndirgenmiş Kümülatif Kazanç). Sorgu altındaki sonuç listesi l için, G fonksiyonu, genellikle üstel bir fonksiyon olan, karşılık gelen Doc'un korelasyon puanını temsil eder, yani G (lj) = 2lj-1 (Lj, {0, 1, 2} gibi korelasyon düzeyini temsil eder); işlevi konum kaybıdır, genellikle (j) = 1 / log (j + 1), Doc ve Query arasındaki korelasyon ne kadar yüksekse Konum ne kadar yüksekse, DCG değeri o kadar büyük olur. Ek olarak, genellikle sıralı liste sayfasının yalnızca ilk k bitlerinin etkisine dikkat ederiz, Zk, DCG @ k'nın maksimum olası değerini temsil eder ve normalleştirilmiş sonuç NDCG @ k'dır.
Sorun, NDCG'nin her yerde sorunsuz olmayan bir işlev olmasıdır ve hedef işlev olarak doğrudan onunla optimize etmek mümkün değildir. LambdaRank bir düşünme yolu sağlar: amaç işlevinin kendisini atlamak, doğrudan özel bir eğim oluşturmak, model parametrelerini eğimin yönüne göre düzeltmek ve son olarak NDCG'yi yerleştirme yöntemine ulaşmak. Bu nedenle, gradyanı derin ağ üzerinden geri yayabilirsek, NDCG'yi optimize eden derin bir ağ eğitebiliriz. Bu gradyan Lambda gradyanı ve bu gradyanla oluşturulan derin öğrenme ağına LambdaDNN denir.
Lambda gradyanını anlamak için LambdaRank'in tanıtılması gerekiyor. LambdaRank modeli Pairwise tarafından oluşturulmuştur.Genellikle aynı Sorgu altındaki tıklama örnekleri ve tıklama olmayan örnekler bir örnek çifti halinde oluşturulur. Modelin temel varsayımı aşağıdaki formülde gösterilmektedir, Pij'in aynı Sorgu altındaki Docj'den daha alakalı olmasına izin verin, burada si ve sj sırasıyla Doci ve Docj model puanlarıdır:
Kayıp fonksiyonu olarak çapraz entropiyi kullanarak, Sij örnek Çiftinin gerçek işaretini temsil etsin.Doci, Docj'den daha alakalı olduğunda (yani, Doci kullanıcı tarafından tıklanır, ancak Docj'ye tıklanmaz), Sij = 1, aksi takdirde -1; İşlev şu şekilde ifade edilebilir:
Örnek Çifti oluştururken, i'yi her zaman daha alakalı bir belge yapabiliriz. Şu anda, her zaman Sij1 vardır. Yukarıdaki denklemi değiştirip türevi türetmek, kayıp fonksiyonunun gradyanı:
Şimdiye kadar, numunelerin konum bilgileri, kayıp fonksiyonunun hesaplanmasında dikkate alınmamıştır. Bu nedenle, gradyan, Doci ve Docj konumlarını değiştirdiğinde NDCG değerindeki değişiklik dikkate alınarak daha da değiştirilir, aşağıdaki formül yukarıda bahsedilen Lambda gradyanıdır. Bu şekilde oluşturulan gradyanın yinelemeli olarak güncellendiği ve NDCG'yi optimize etme amacına nihayet ulaşılabileceği kanıtlanabilir.
Lambda gradyanının fiziksel anlamı aşağıdaki şekilde gösterilmektedir. Bunlar arasında mavi, daha alakalı (kullanıcı tarafından tıklanan) belgeleri temsil eder ve Lambda gradyanı, daha büyük bir iyileştirme elde etmek için (kırmızı okla gösterildiği gibi) daha yüksek Doc'a daha meyillidir. Lambda gradyan hesaplama yöntemi ile eğitimde, aynı sorgu altında Doc skorunu tahmin etmek için derin ağı kullanırız, Lambda gradyanını kullanıcının Dokümandaki gerçek tıklamasına göre hesaplar ve derin ağa geri yayarız, ardından NDCG'yi doğrudan tahmin eden derin bir ağ elde edebiliriz .
Şekil 10 Lambda gradyanının fiziksel anlamı
4.3 LambdaDNN'nin mühendislik uygulaması
LambdaDNN modelini eğitmek için TensorFlow dağıtılmış çerçevesini kullanıyoruz. Daha önce belirtildiği gibi, Lambda gradyanının aynı Sorgu altındaki örnekler üzerinde hesaplanması gerekir, ancak normal şartlar altında tüm örnekler her bir Çalışana rastgele karıştırılır. Bu nedenle, numuneyi önceden işlememiz gerekiyor:
Şekil 11 Lambda gradyanının dağıtılmış uygulaması
Eğitim verimliliğini artırmak için, bir dizi optimizasyon işlemini keşfetmek ve doğrulamak için temel araştırma ve geliştirme platformu veri platformu merkeziyle yakın bir şekilde çalıştık:
Genel olarak, yaklaşık 3 milyar örnek boyutu ve yüz milyonlarca özellik boyutları için, bir tur yineleme yaklaşık yarım saatte tamamlanır. Paralel bilgi işlem kaynaklarını uygun şekilde artırmak, dakika düzeyinde eğitim görevlerini gerçekleştirebilir.
4.4 Optimizasyon hedeflerini daha da iyileştirme
NDCG'nin hesaplama formülünde, kaybın ağırlığı konuma göre üssel olarak değişir. Ancak, pozisyonlu gerçek pozlama tıklama oranı eğrisi ile NDCG'nin teorik kayıp değeri arasında büyük bir fark vardır.
Mobil sahne için, kullanıcı aşağı açılır kayan listeye göz attığında, kayan ekran ve sayfa çevirme ile görsel odak değişecektir. Örneğin, kullanıcılar ikinci sayfaya döndüklerinde genellikle yeniden odaklanırlar.Bu nedenle, ikinci sayfanın başındaki gösterim tıklama oranının aslında ilk sayfanın sonundakinden daha yüksek olduğunu göreceklerdir. NDCG'deki dizin konumu kaybına ince ayar yapmak için iki çözüm denedik:
Şekil 12 Gerçek pozisyon kaybı ile teorik kayıp arasındaki fark
NDCG hesaplamasının yukarıda belirtilen dönüşümü yoluyla eğitilen LambdaDNN modeli, Base tree modeli ve Pointwise DNN modeline kıyasla iş göstergelerinde çok önemli bir iyileşmeye sahiptir.
Şekil 13 LambdaDNN çevrimdışı NDCG göstergeleri ile çevrimiçi PvCtr etkisinin karşılaştırması
4.5 Lambda Derin Sıralama Çerçevesi
Lambda gradyanını DNN ağı ile birleştirmeye ek olarak, aslında en yaygın ağ yapılarıyla birleştirilebilir. Daha fazla çapraz özellik öğrenmek için LambdaDeepFM ve LambdaDCN ağlarını LambdaDNN temelinde denedik; bunların arasında DCN ağı, Cross ile paralel bir ağ yapısıdır ve çapraz ağın her katmanının çıkış özellikleri ilk katmanınkilerle aynıdır. Orijinal giriş özellikleri, katmanlar arasındaki kalıntıları sığdırmak için her öğrenme özelliği çaprazlama katmanının eşleştirilmesine eşdeğer olan, çiftler halinde açıkça çaprazlanır.
Şekil 14 DCN model yapısı
Çevrimdışı karşılaştırma deneyleri, Lambda gradyanı ve DCN ağı kombinasyonunun, DCN ağının özelliklerine tam anlamıyla hakim olduğunu ve basit polinom çapraz tasarımın, modelin eğitim etkisini etkili bir şekilde iyileştirdiğini göstermektedir. NDCG göstergelerinin karşılaştırma etkisi aşağıdaki şekilde gösterilmektedir:
Şekil 15 Lambda Kaybı ve DCN ağ sonuçlarının etkisi
5. Derin öğrenme sıralama teşhis sistemi
Derin öğrenme sıralama modeli iş göstergelerini büyük ölçüde iyileştirmiş olsa da, derin öğrenme modelinin "kara kutu özelliği" çok büyük açıklama maliyetlerine neden oldu ve ayrıca arama işine bazı sorunlar getirdi:
Bu sorunlar potansiyel olarak kullanıcıların anlayamayacağı bazı sıralama sonuçları getirecektir. Derinlik sıralaması modelini açıkça teşhis etmemiz ve açıklamamız gerekir.
Makine öğrenimi modellerinin yorumlanabilirlik araştırmasıyla ilgili olarak, endüstri şimdiden bazı keşifler yaptı. Kireç (Yerel Yorumlanabilir Model-Agnostik Açıklamalar), aşağıdaki şekilde gösterildiği gibi bunlardan biridir: Tek bir numunenin özelliklerinde bozulmalar oluşturarak komşu numuneler oluşturun ve modelin tahmin davranışını gözlemleyin. Bozulan bu veri noktalarının orijinal verilere olan uzaklığına göre ağırlıklar atanır ve öğrenmelerine göre yorumlanabilir bir model ve tahmin sonucu elde edilir. Örneğin, bir duygu sınıflandırma modelinin "Bu filmden nefret ediyorum" u olumsuz bir duygu olarak nasıl öngördüğünü açıklamamız gerekirse, duyguyu tahmin etmek için bazı kelimeleri çıkarır veya bazı örnekler oluştururuz. Sonunda "Bu filmden nefret ediyorum" a karar verdiğimizi göreceğiz. "Filmler", "nefret" kelimesinden kaynaklanan olumsuz duygulardır.
Şekil 16 Lime tercümanın çalışma prensibi
Lime yorumlayıcı fikrine dayanarak, bir dizi derin model yorumlayıcı aracı geliştirdik - Athena sistemi. Şu anda Athena sistemi, Pairwise ve Listwise olmak üzere iki çalışma modunu desteklemektedir:
Şekil 17 Derin öğrenme sıralama teşhis sistemi: Athena
6. Özet ve Görünüm
2018'in ikinci yarısında, Yorum Arama, bir ağaç modelinden büyük ölçekli bir derin öğrenme sıralama modeline kapsamlı bir yükseltmeyi tamamladı. Ekip, derin öğrenme özelliği mühendisliği, model yapısı, optimizasyon hedefleri ve mühendislik uygulamasında bazı keşifler yaptı ve temel göstergelerde önemli kazanımlar elde etti. Elbette gelecekte keşfedilebilecek birçok nokta var.
Özellik düzeyinde, çok sayıda bilgi grafiği tarafından sağlanan etiket bilgileri tam olarak araştırılmamıştır. Kullanım açısından bakıldığında metin etiketleri şeklindeki basit erişim bilgi grafiğinin yapısal bilgisini kaybetmektedir, bu nedenle Grafik Gömme ileride denenecek bir yöndür. Ekip aynı zamanda Sorgu ve tüccar metninin derin anlamsal ifadesi üzerinde bazı çalışmalar yapmak için BERT'i de kullanacak.
Model yapısı düzeyinde, mevcut çevrimiçi yapı hala tam olarak bağlı DNN ağ yapısı tarafından hakimdir, ancak DNN ağ yapısı, düşük seviyeli verilerin öğrenilmesinde DeepFM ve DCN kadar iyi değildir. Şu anda, LambdaDeepFM ve LambdaDCN çevrimdışı avantajlar elde etti ve ağ yapısı gelecekte daha da optimize edilecek.
Model optimizasyon hedefleri açısından, Lambda Loss kaybı hesaplarken yalnızca tıklama içeren ve sorgu içinde tıklama içermeyen örnek çiftleri dikkate alır. Çok sayıda tıklamasız sorgu atılır.Aynı zamanda aynı kullanıcının farklı sorgular altında kısa sürede davranışı da dahil edilir. Bazı bilgiler kullanılabilir. Bu nedenle, ekip şu anda Log Loss ve Lambda Loss'u kapsamlı bir şekilde ele alan ve modelin Multi-Task ve Shuffle örnekleriyle farklı boyutlara göre tam olarak öğrenmesine olanak tanıyan bir modeli araştırmaktadır. Şu anda, bazı faydaları çevrimdışı olarak elde ettik.
Son olarak, Google'ın açık kaynak TF Ranking tarafından yakın zamanda önerilen Groupwise modeli de bize biraz ilham verdi. Şu anda Listwise yönteminin çoğu sadece model eğitim aşamasında yansıtılmaktadır.Puanlama tahmin aşamasında hala Pointwise yani sadece mevcut üye işyerinin özellikleri dikkate alınacak ve liste bağlamının sonuçları dikkate alınmayacaktır.Gelecekte de bu yönde olacağız. Biraz keşif yapın.
Referans