g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Alimama: E-ticaret tahmin modellerinin gelişimi ve zorlukları

Bu paylaşım içeriği özeti :

E-ticaret verilerinin kişiselleştirilmiş tahmininin özellikleri
Alimama modeli yineleme yolu
Nereye gitmeli

1. E-ticaret verilerinin kişiselleştirilmiş tahmininin özellikleri

İlk olarak bazı temel arka plan bilgilerini tanıtın.Ekran öğelerine göre, Ali'nin görüntülü reklamları temel olarak iki türe ayrılır: Banner reklamlar ve tek ürün reklamları.Tüm reklam içeriği üç bölümden oluşur: id, grafikler ve metin. Görüntülü reklamlar kullanıcıların arama dışı davranışlarına göre tasarlandığından, kullanıcılar platforma net bir niyet girmeyecek ve kullanıcının niyetini tahmin etmemiz gerekiyor. Reklamların kişiselleştirilmiş tahmin problemi, temel olarak kullanıcının geçmiş verilerine dayanarak bir reklam ürününü tıklama, toplama veya satın alma olasılığını tahmin etmektir. Facebook ve diğer sosyal medya sitelerinde fotoğraf, beğeni vb. Yükleyerek çok unsurlu reklamlar öneren diğer sosyal medya siteleri ile karşılaştırıldığında, e-ticaret senaryosunda önemli bir özellik vardır.Tahmin edilen aday düğüm içeriği, kullanıcının geçmiş davranış düğüm içeriği ile homojendir. , Tüm mallar.

Üç ana boyutla tanımlanabilir:

Müstehcen içerik: görsel, metin, incelemeler ve diğer içerik bilgileri
Hesap sistemi açıklaması: öğe, mağaza, cate ve diğer kimlik bilgileri
Son geri bildirim: satın alın, favori, kedi ve diğer davranışsal bilgiler

2. Alimama modeli yineleme yolu

Tarihin gelişmesiyle birlikte, 2012'den bu yana, Alimamanın tahmin modeli sürekli olarak yinelenmiş ve yenilenmiştir. Gelişim rotası şekilde gösterilmiştir:

MLR

Büyük ölçekli özelliklerin ve lojistik regresyon modelinin kombinasyonu, tıklama oranı tahmin modelinin geleneksel klasik yöntemidir. Büyük ölçekli kimlik ve özellikler aracılığıyla daha yüksek çözünürlüklü bir örnek açıklama elde edilebilir. Bu yönteme göre, model yapısı nispeten sabittir ve optimizasyon yöntemi de sistem verimliliğine daha fazla önem verir. Etki açısından, çalışmanın odak noktası çok sayıda özellik projesidir.Özelliklerin yapay deneyim yoluyla birleştirilmesi ve hesaplanması, LR'nin doğrusal olmayan ilişkileri ifade edemediği sorunu çözer. Bununla birlikte, böyle bir yinelemeli model, bir bütün olarak insan yetenekleriyle sınırlıdır ve yeterince akıllı değildir.

MLR (Dilimlenmiş Doğrusal Öğrenme) algoritması, bu tür sorunları çözmek için doğrusal olmayan bir algoritmadır.Ana fikri, bir düzlemde doğrusal olarak ayrılmaz olan verileri birden çok parçaya bölmek ve doğrusal ayrılabilirliği sağlamak için bunları farklı yüksek boyutlu düzlemlere yansıtmaktır. Bu tür problemleri çözmek için benzer yaygın yöntemler, GBDT + LR kombinasyonudur.

İlk nesil derin TO modelleri

Donanımın geliştirilmesi ve bilgi işlem gücünün ve veri hacminin daha da iyileştirilmesiyle derin öğrenme, görüntü, NLP ve ses gibi birçok alanda çığır açan bir ilerleme kaydetmiştir. 2015'teki bir dizi keşiften sonra, Alimama 2016'da ilk nesil derin öğrenme algoritmasını denedi. Ağ yapısı nispeten basittir, esas olarak katmanı + MLP'yi gömmek, ancak etki MLR'ye kıyasla önemli ölçüde iyileştirilmiştir. Analizin ana nedeni, geleneksel algoritmaların hesaplama ve veri sorunları nedeniyle sınırlı model kapasitesine sahip olması ve sınırlı kapasite altında verimli modeller tasarlamak için büyük ölçüde önceki insan bilgisine güvenmesidir. Hesaplama gücündeki ve veri kullanımındaki artıştan sonra, derin öğrenme yoluyla modelin kapasitesi büyük ölçüde arttı ve uygulama yeteneği önemli ölçüde geliştirildi.

Alimama, geleneksel Ar-Ge modelleriyle karşılaştırıldığında, derin öğrenmenin, model tasarımı ve optimizasyon sorunlarını birbirinden ayıran ve daha karmaşık modellerin daha hızlı tasarımını ve doğrulanmasını sağlayan model tasarımını bileşen haline getiren evrensel bir optimize ediciye sahip olduğuna inanıyor.

Ancak, karmaşıklık son nokta değildir. Hesaplama gücü ve verilerinde üst sınırlar vardır. Derin öğrenmenin daha ileri gitmesi gerekir. Model yapısı ile veri dağıtımının eşleştirilmesi araştırma yönü olacaktır. Örneğin, CNN görüntü verileri için ve RNN'ler ses ve metin verileri içindir. Hepsi iyi uyarlanabilirliğe sahiptir. Peki e-ticaret verilerine uygun model yapısı nedir? Bu sorun, derin ilgi ağının doğuşunun kaynağı oldu.

Derin İlgi Ağı (DIN)

E-ticaret kullanıcılarının menfaatleri çeşitlilik özelliği taşımaktadır, yani bir tüketici aynı zamanda çeşitli menfaatlere sahip olacaktır, paltodan hoşlanırken kupayı da sevebilir ve aynı zamanda elektronik ürünlerin hayranı olabilir. Birinci nesil derin öğrenme ağında, kullanıcının tarihsel davranışını sabit bir vektöre kodluyoruz Aslında, bu farklı hobiyi sabit bir vektör aracılığıyla doğrudan ifade etmek çok zor. Bu vektörün boyutunu genişleterek ifade yeteneğini geliştirebiliriz, ancak bu, artan hesaplama karmaşıklığı ve aşırı uyum gibi sorunları beraberinde getirecektir.

Şu anda, kullanıcıların bir dizi tarihsel davranışının genellikle yalnızca birkaçının bir hedef ürünle ilgili olduğunu fark ettik. Belirli bir ürünle ilgili kullanıcı geçmiş davranışlarını seçmek için dikkat (Aktivasyon Birimi) benzer bir mekanizma benimseyerek, DIN modelinin temel içeriği olan kullanıcıların çeşitli ilgi alanlarını temsil etmek için sabit uzunlukta bir vektör dinamik olarak kullanılabilir. Yukarıda bahsedilen kullanıcı davranışı ve ürünlerin homojenliği bu modeli daha etkili kılmaktadır.

Spesifik ağ yapısı aşağıdaki şekilde gösterildiği gibidir. Aktivasyon birimi, esas olarak endüstrinin gecikmelerinin ve diğer gereksinimlerin sınırlamaları nedeniyle nispeten basit olacak şekilde tasarlanmıştır:

DIN modeli, Alimama reklamlarının TO'sunu (tıklama oranı)% 10, CVR'yi (dönüşüm oranı)% 3,3 ve GPM'yi (bin kullanıcı başına işlem değeri)% 12,6 artırdı.

CrossMedia ağı

Ağ yapısının ayarlanması sona erdikten sonra, Alimama modele özellikler olarak grafik verileri eklemeye kararlıdır. Bunun ana nedeni, resimlerin ve metinlerin doğrudan kullanıcılar tarafından alınan sinyaller olmasıdır. Ek olarak, bir grafiğin sorgulama bilgisi ID özelliğinden farklıdır ID özelliğinin tüm bilgileri, örnek ve etiketteki birlikte oluşum bilgisinin geri bildiriminden gelir ve metnin kendisi fiziksel bir anlama sahiptir, bu nedenle daha iyi bir genellemeye sahiptir.

Bu süreçteki ana zorluk, görüntü verilerinin çok büyük olmasıdır. Bir kullanıcının binden fazla tarihsel davranışı varsa ve ürünle birleştirildikten sonra 10 milyar örnek varsa, ilgili görüntü verileri yüzlerce T'ye ulaşacak ve bu da depolama ve G / Ç üzerinde büyük bir baskıya neden olacaktır.

Nihai çözüm, resim verilerini uzak sunucuda depolamak ve resmi sunucuda düşük boyutlu bir vektör olarak çıkarmak, resmi örnekte kimlik olarak saklamak ve hesaplama sırasında sıkıştırılmış resim vektörünü elde etmek için iletişim kurmak için sinir ağını kullanmaktır. , Etki ve verimlilik arasında bir değiş tokuş sağlamak.

Derin İlgi Gelişimi

DIN araştırması sırasında Alimama, RNN'lerin zamanlama ağının e-ticaret tahmin senaryosunda iyi performans gösteremediğini buldu. Bunun nedeni, kullanıcının geçmiş davranışının, birçok ilgi alanına sahip birçok örnekleme noktasının kapsamlı bir dizisi olarak kabul edilebilmesi ve içinde birçok rastgele sıçrama olmasıdır. Örneğin, bir kullanıcının tarihsel bir davranış dizisini resmileştirmek için:

onların arasında,

İlgi alanında iki farklı menfaati temsil eder.

Aynı zamanda, mevcut modeller, kullanıcının tarihsel davranışının gömülmesini doğrudan bir ilgi alanı olarak ele alır ve soyutlama ve genelleme yeteneklerinden yoksundur. Aslında davranış, soyut ilginin somut bir tezahürüdür. Her bir kullanıcının davranışının sonucu yalnızca ilgili bir seçimdir. Tıklanan her bir ürün, kullanıcının ilgisini yalnızca kısmen tatmin edebilir, bu ürünün tüm özellikleri temsil etmez Kullanıcı ilgisi. Ve çoklu ilgi alanları için farklı evrim yolları vardır. Alimama, modeli faiz çıkarma katmanı ve faiz evrimi katmanı aracılığıyla optimize eder.

Faiz çıkarma katmanı

Bu katmanın amacı, kullanıcının davranışın arkasındaki soyut ilgisinin ifadesini ortaya çıkarmaktır.

Gömülü öğrenme yoluyla kullanıcı davranışı hakkında daha fazla anlamsal bilgi öğrendikten sonra, soyut ilgiyi ifade etmek için GRU gizli katman durumunu kullanın; t zamanında ctr son tıklama sinyali-kullanıcı ilgisi yerine yardımcı kayıp elde etmek için denetimli tıklama dizisi modelini kullanın H (t) ve t + 1 ifadesi, kullanıcının tıklama eylemi e (t + 1) ve tıklama olmayan negatif örnek e (t + 1) 'eylemi denetimli bir kayıp gerçekleştirerek h (t)' yi gizli bir katman haline getirir Yalnızca nihai çıktı üzerindeki etkisini ifade etmekle kalmaz, aynı zamanda kullanıcının ilgi alanlarını daha iyi ifade edebilen ve uzun dizi gradyan yayılım sorununu etkili bir şekilde çözebilen kullanıcının sonraki davranışını da tahmin edebilir.

Faiz değişimi katmanı

İlgi, yalnızca davranışın bir soyutlaması değildir, belirli bir ilgiye özgüdür ve zamanla kademeli olarak gelişecektir. İlgi evriminin davranış üzerindeki etkisi, kullanıcıların belirli bir süre çeşitli kitaplarla ilgilenmesi ve başka bir süre için kıyafetlere ihtiyaç duymasıdır. İlgi alanları birbirini etkileyebilse de, her bir ilgi kendi gelişim sürecine sahiptir, örneğin kitapların ve kıyafetlerin geliştirme süreci neredeyse bağımsızdır. Yalnızca hedef ürünle ilgili ilgi gelişimi sürecini önemsiyoruz.

Alimama, ilgi çekme katmanında Dikkat Birimi GRU'yu ekledi.Geleneksel GRU'dan farkı, güncelleme kapısına bir dikkat puanı eklenmesi ve kapıyı sıfırlamasıdır. İlk olarak, kullanıcının geçmiş davranışı üzerinden bir dikkat değeri hesaplanır ve bu, gelecekteki tahmin edilen hedefle bir korelasyon ağırlığını yansıtır.Çarparak, hedefle ilgili olmayan davranış GRU sonucunu etkilemez. GRU sonuçlarının taşınmasına neden olur.

Sonuç olarak, ilgili çıkarlar karmaşık ve kapsamlı diziden çıkarılır ve reklamın davranışı ne kadar alakalı olursa, o kadar gizli durum vektörleri güncellenir ve mevcut reklamla ilgili ilgi alanları doğru bir şekilde yakalanır.

Model etkisi

Herkese açık veri kümesi performansı

Çevrimdışı veri doğrulama etkisi

Çevrimiçi A / B testi test sonuçları

Roket Fırlatma

Modelin karmaşıklığı arttıkça, çevrimiçi tahminin gecikmesi ve tps'lerinin karşılanması gittikçe zorlaşır. Çevrimdışı modeller için, model performansını takip etmek için yeterince karmaşık olabilir; ancak çevrimiçi tahmine dayalı modeller için, efektler ve performans arasında bir denge sağlamak için modelin karmaşıklığının kontrol edilmesi gerekir.

Bu amaçla Alimama, modelin hesaplama karmaşıklığını azaltmak için model damıtmaya benzer bir öğretmen-öğrenci çözümü önerdi. Çevrimdışıyken karmaşık bir öğretmen modeli eğitin ve aynı zamanda çok basit bir öğrenci modeli eğitin, öğrenciyi öğretmenin hedefin yumuşak tahmin sonuçları aracılığıyla denetleyin ve ayrıca öğrenciyi denetlemek için gerçek etiketi kullanın.

Genel model damıtmadan farklı üç nokta şunlardır:

İşbirliğine dayalı eğitimde öğretmen ve öğrenci birlikte eğitim görür. Ayrıntılı toplu veriler sayesinde, öğrencinin öğrendiği şey artık optimal bir öğretmen çözümü değil, öğretmen modelinin öğrenme yörüngesidir;
Parametre paylaşımı Model genellikle bir ifade katmanına ve bir karar katmanına bölünmüştür.Öğretmen ifade katmanı eğitiminin sonuçlarını parametre paylaşımı yoluyla elde edebilir;
Gradyan bloğu, öğretmenin belirli bir kayıp öğesi aracılığıyla öğrenciden öğrenmesini engeller.

Üç, Nereye Gidilir

Doğrusaldan doğrusal olmayana ve derin öğrenmenin sürekli evrimine kadar Alimama'nın modelinin evrim yoluna bakıldığında, modelin yapısı değişiyor, ancak Temsil teknolojisinde bariz bir ilerleme olmadı.Gelecekteki gelişme yönünde iki ana nokta vardır:

Temsilciliğin araştırmasına göre, bazı eğitim öncesi ve NLP benzeri çözümlerin şu anda senaryolarımızda iyi sonuçları yok. NLP gibi e-ticaret veri ürünleri arasında kelime ve kelimeler arasında bağımlılık, kelime oyunları ve eşanlamlı bir ilişki olmadığı söylenebilir, ancak ürünler arasındaki yapısal ilişki doğal hesap sistemi, mağaza, kategori, marka vb. Tarafından belirlenmiştir. Özellikler iyi ifade edilmiştir. Ancak ilerlemeye devam edeceğiz ve daha sonra Çözülmüş Temsil'i deneyeceğiz, e-ticaret alanında soyut ifadeler öğreneceğiz, etkili Kavramlar çıkaracağız ve temsilimizin her bir boyutunun anlamsal bilgisinin ne olduğunu daha iyi açıklayacağız;

Kara kutu modeli, platformu kullanıcılardan / tüccarlardan daha uzak ve uzak kılar ve platformun kendisi modelin mekanizmasını tam olarak anlayamaz. Daha fazla beyaz kutu modeli oluşturmayı, kullanıcı kararlarını etkileyen Konsepti bilmeyi ve buna göre kullanıcılar ve ürünlerle iletişim kurmayı umuyorum. Üründe tavsiyenin sebebini şeffaf bir şekilde iletebilir ve kullanıcı ile daha fazla etkileşim kurabiliriz.Ticari pazarlamada tüccarın kendi satış noktasını birleştirebiliriz, böylece tüccar pazarlama taleplerini daha doğru gerçekleştirebilir.

yazar hakkında:

Zhou Guorui, Alibaba algoritma uzmanı. Pekin Posta ve Telekomünikasyon Üniversitesi Yüksek Lisansı. Araştırma alanları arasında büyük ölçekli makine öğrenimi, doğal dil işleme, hesaplamalı reklamcılık, öneri sistemleri vb. Yer alır. Şimdi, hedeflenen reklam tahmin yönü modelinin algoritmasının araştırma ve geliştirmesinden sorumludur ve aynı zamanda Alibaba'nın kendi geliştirdiği derin öğrenme çerçevesi XDL'nin çekirdek geliştiricisidir. Araştırma sonuçları KDD / AAAI / CIKM ve diğer konferanslarda yayınlandı ve araştırma çalışmaları gerçek sistemlere dayanıyor.

Bu makale DataFun topluluğundan geliyor

Bu makale, herkese açık DataFunTalk hesabından (ID: datafuntalk) çoğaltılmıştır. .

Orijinal bağlantı :

https://mp.weixin.qq.com/s/ivN3gvPTypYwx7Y3xkKW0w

Çince kelime segmentasyon teknolojisi derin öğrenme makaleleri

Kuaishou Druid'in hassas veri tekilleştirmesinin tasarımı ve uygulaması