Taobao araması, Double 11'de CPU kullanımını nasıl% 45 azalttı ve GMV'yi% 1 artırdı

Bu makale, Alibaba tarafından hazırlanan bir makalenin giriş ve sunumudur. Bu makale, 2017 Uluslararası Bilgi Keşfi ve Veri Madenciliği Konferansı'na (KDD), özellikle emtia akıllı ayırma alanında dahil edildi.

Bu makale esas olarak, geçen yıl Double 11 sırasında Taobao aramasının nasıl daha iyi sıralama sonuçları elde edebileceğinden, kullanıcıların arama deneyimini nasıl sağlayabileceğinden ve tıklamalar, işlem hacmi ve işlem hacmi gibi hedefleri sınırlı bilgi işlem kaynakları koşulu altında nasıl tamamlayabileceğinden bahsediyor.

Gerçek sonuç, geçen yıl Double 11'de, Taobao arama motorunun yükünün en yüksek zirvede% 70'i geçmediği, CPU kullanımının yaklaşık% 45 azaldığı, ortalama arama gecikmesinin yaklaşık% 30 düştüğü ve GMV'nin aynı anda artmasıdır. Yaklaşık% 1.

Aşağıda bu yazının ayrıntılı bir girişi yer almaktadır.

"Büyük Ölçekli E-ticaret Sıralama Sisteminde Çok Katmanlı Kademeli Öğrenmenin Uygulanması (Operasyonel E-ticaret Araması için Kademeli Sıralama)"

Yazarlar: Liushi Chen, Xiao Fei, Owen Wu, Bay Lo

Bu makale, basamaklı bir e-ticaret arama yöntemi tasarlar ve uygular: ana fikri, bir sıralamayı birden çok aşamalı aşamaya bölmektir ve her aşama, kademeli olarak doğru sonuçlar elde etmek için kademeli olarak karmaşık özellikler kullanır. Erken aşamadaki basit özellikleri, açıkça tatmin edici olmayan sonuçları filtrelemek için kullanın ve daha sonraki aşamada, ayırt edilmesi zor olan sonuçları belirlemek için karmaşık özellikleri kullanın. Ek olarak, algoritma, kullanıcının arama deneyimini sağlamak için motorun yanıt süresini ve iade edilen ürünlerin sayısını kesin olarak sınırlamak için e-ticaret sahnesinin özelliğini birleştirir.

Hem çevrimdışı hem de çevrimiçi deneyler, algoritmanın doğruluğunu ve etkinliğini doğrulamıştır.Geleneksel yöntemlerle karşılaştırıldığında, doğruluk oranını artırabilir ve hesaplama performansını büyük ölçüde artırabilir; Geçen yılki Double 11'de, çok sayıda doğru ve zaman alıcı hesaplama özelliği eklendi ( Takviye öğrenme ve derin öğrenme özelliklerinin dahil edilmesi durumunda), algoritma motorun verimliliğini büyük ölçüde garanti eder, motor üzerindeki basıncı% 40 azaltır ve aynı zamanda ayırma etkisini büyük ölçüde iyileştirir.

karşılaştığımız sorun

Taobao'nun arama sistemi şüphesiz dünyanın en büyük e-ticaret arama sistemidir. Buradaki "Maksimum", ürün hacmini, kullanıcı hacmini, rehberli ciroyu, tıklama hacmini, ayrıca motor ziyaretlerini ve QPS ziyaretlerini içerir ... Böyle bir arama motoru, özellikle " "Double Eleven" gibi büyük promosyon senaryolarında, baskı normalden birkaç kat daha yüksektir.

Buna ek olarak, genel arama motorlarının amacı esas olarak tıklamaları yönlendirmek iken, e-ticarette, sıralanan sonuçların hacmi ve ciroyu yönlendirmesi daha çok umulmaktadır.

Bu nedenle, arama sistemimiz ve sıralama şemamız çeşitli pratik konuları dikkate almalıdır. Birincisi, sınırlı bilgi işlem kaynakları durumunda nasıl daha iyi sıralama sonuçları elde edileceğidir; ikincisi, sonuçların geri dönüş süresi, iade edilen malların miktarı vb. Dahil olmak üzere kullanıcının arama deneyiminin nasıl sağlanacağıdır; sonuncusu, e-ticaret senaryosunda birden çok hedefin nasıl sağlanacağıdır. Tıklamalar, hacim ve ciro.

Mevcut yöntemlerin eksiklikleri

Akademi ve endüstride yer almayı öğrenmeye ilişkin çok sayıda araştırma var ve hepsi makine öğreniminin kullanıcılara daha iyi sıralama sonuçları sağlayabileceğini umuyor. Bununla birlikte, ilgili çalışmaların çoğu, ayırma kalitesinin nasıl iyileştirilebileceğine odaklanır, ancak bu, ayırmanın verimliliğiyle ilgili değildir ve çok verimsiz bir sınıflandırma şeması, gerçek endüstriyel çevrimiçi uygulamalarda genellikle kabul edilemez.

Taobao arama ve diğer benzer uygulamaların benimsediği ana çözüm, "iki turlu sıralama şeması" kullanmaktır: ilk turda, küçük bir aday seti elde etmek için çok basit özellikleri kullanın; ikinci turda, küçük setlerde karmaşık olanları yapın. Çeşit. Bununla birlikte, bu sezgisel şema, performans ve etki arasındaki optimum dengeyi garanti etmez. Yukarıdaki hususlara dayanarak, verimlilik ve performansı daha makul bir şekilde dengeleyebilen yeni, endüstriyel olarak mevcut bir ayıklama şemasına ihtiyacımız var.

Sıralama algoritmasını KAPATIN, performans ile verimliliği dengeleyin ve kullanıcı deneyimini garanti edin

Resimlerdeki hızlı hedef algılama algoritmasından esinlenen kağıt, motordaki her ürünün hesaplama ve sıralamaya katılmak için tüm özelliklerin gerekli olmadığını ortaya çıkardı - bazı temel özellikler çoğu ürünü filtrelemeye yardımcı olabilir; kademeli olarak karmaşık özellik filtrelemeyi ayırt etmek giderek zordur. Kötü mallar; kalan tüm mallar özelliklere göre sıralanır.

Bu fikre dayanarak, makale, bir Büyük Ölçekli Operasyonel E-ticaret Arama uygulamasında (CLOES) çok yönlü bir kademeli sıralama yöntemi olan Cascade modeli önermektedir.

CLOES temel olarak, sıralamayı birden çok hesaplama turuna bölen, sıralama efektini ve CPU'nun hesaplama miktarını optimizasyon hedefleri olarak alan ve birlikte bir matematiksel model oluşturup aynı zamanda optimize eden bir olasılık tabanlı kademeli öğrenme yöntemi kullanır.

Algoritma, performans ve verimliliği göz önünde bulundurmanın yanı sıra, kullanıcının herhangi bir sorguyu girdikten sonra sınırlı bir süre içinde yeterli dönüş sonucu almasını sağlamak için kullanıcının arama deneyimini de dikkate alır. Son olarak CLOES, birden çok hedefin dengelenmesini ve ayarlanmasını sağlamak için e-ticaret sahnesinin özgünlüğünü de değerlendirir.

Etkililik ve Verimlilik Arasında Sorguya Bağlı Takas (Etkinlik ve Verimlilik Arasında Sorguya Bağlı Takas)

Makalenin en önemli kısmı, bir sıralama algoritmasının performans ve verimliliğinin nasıl dengeleneceğidir.Daha sonra kullandığımız ana yöntem, bir sıralamayı birden çok aşamalı aşamaya ayırmak olan kademeli öğrenmedir ve her aşama, kademeli olarak karmaşık olanları seçer. Emtia koleksiyonunu filtrelemek için özellikler. Aynı zamanda, sıralama problemini ikili bir sınıflandırma problemine dönüştürmek ve her bir ürünün tıklama oranını tahmin etmek için sıralama ayarını öğrenmeyi kullanırız.

Şekilde gösterildiği gibi, bir emtia x'in (k boyutlu bir vektör olarak temsil edilir), q Sorgusu altındaki j'inci aşamayı geçme olasılığının şu olduğunu hatırlıyoruz:

,onların arasında

Sigmoid işlevini temsil eder. O halde bir ürünün tıklanabilme olasılığı, tüm aşamalardan geçme olasılıklarının ürünüdür:

Örneğe uyması için maksimum olasılık tahminini kullanırız ve kayıp fonksiyonunu temsil etmek için negatif log olasılığını kullanırız, ardından temel kayıp fonksiyonu şu şekilde ifade edilebilir:

.

Odak noktası, sıralamanın doğruluğu üzerinedir:

Soldaki terim, modelin doğruluğunu etkileyen olasılık fonksiyonunu temsil eder; sağdaki terim

Normal terimi temsil eder. Bir yandan aşırı uyumu önler, diğer yandan özellik korelasyonundan kaynaklanan kötü durum sorunlarını önleyebilir.

Gerçek arama ve sıralamada etkinin yanı sıra performans da dikkat etmemiz gereken kısım olduğu için sistemin performansını hedefe eklememiz gerekiyor. Toplam CPU tüketiminin, her aşamadaki performans tüketiminin toplamına eşit olduğunu bulabiliriz:

. onların arasında

Her aşamada hesaplanması gereken mal miktarına ilişkin beklentileri belirtir,

X ürününün j. Aşamaya girme olasılığını belirtir,

J. Aşamada özellik üzerinde bir hesaplama yapmak için geçen toplam süreyi temsil eder. Sonra yeni bir kayıp alırız

,

Sıralamanın etkisinin yanı sıra, modelin hesaplama miktarını da hesaba katar:

Ayar yoluyla

Sistemin performansını ve verimliliğini ayarlayabiliriz.

Değer ne kadar büyükse, sistem yükü o kadar düşüktür, ancak sıralama sonucu o kadar kötüdür;

Değer ne kadar küçükse, sıralama sonucu o kadar iyidir, ancak sistem ek yükü o kadar yüksek olur.

Kullanıcı Deneyimi Garantisi (Kullanıcı Deneyiminin Çoklu Faktörleri)

Yukarıdaki modeli doğrudan kullanırsanız, gerçekten doğrudan motorun yükünü azaltabilirsiniz, ancak yine de iki kullanıcı deneyimi sorunu vardır: 1, bazı sorgular için (özellikle sıcak sorgular) hesaplama gecikmesi yine de çok yüksek olabilir; 2 birazdır Sorgu altında (genellikle uzun kuyruklu bir sorgu), kullanıcıya çok az sonuç döndürülür. Bu nedenle, bu iki sorunu çözmek için, ayrıca iki kısıtlama ekledik: tek bir sorgu altındaki gecikme 100 (örneğin, mutlaka 100) ms'yi aşamaz; kullanıcıya döndürülen sonuç sayısı 200'den az olamaz. Doğal olarak, SVM'ye benzer bir kayıp formu kullanmayı düşüneceğiz:

Yukarıdaki formül sezgisel olarak, sorgu altındaki gecikme 100 ms'den az olduğunda (N değeri), kayıp 0 olduğunda anlaşılabilir; 100 ms'den büyük olduğunda, kayıp (gecikme-100) 'ün doğrusal bir katıdır; döndürülen sonuçların sayısı benzerdir. Bununla birlikte, bu işlev dışbükey değildir ve türetilemez, bu da sorunun çözümüne yardımcı olmaz. Bu nedenle, çözümün rahatlığı için, SVM kaybına yaklaşmak için lojistik kaybı modifiye edilmiş bir dışbükey yaklaşım fonksiyonu kullanıyoruz.Kayıp ve menteşe kaybının neredeyse aynı olduğu kanıtlanabilir.

ne zaman:

Özetle, iki kullanıcı deneyimi dikkate alındıktan sonra, nihai amaç işlevi aşağıdaki şekilde yazılabilir:

onların arasında

Kullanıcıya döndürülmesi beklenen minimum sonuç sayısını gösterir (örneğin, 200),

İstenen maksimum gecikmeyi temsil eder (örneğin, 100 ms). Küçülterek

, Yalnızca sınırlı bilgi işlem kaynakları altında daha iyi sıralama sonuçları elde etmekle kalmıyor, aynı zamanda kullanıcının arama deneyimini de hesaba katıyoruz.

Emtia Senaryosundaki Çok Amaçlar (E-ticaret Aramasının Önem Faktörleri)

E-ticaret araması ile web araması veya reklamcılık arasında büyük bir fark var: Sadece tıklamalarla değil, işlem hacmi ve ciro gibi göstergelerle de ilgileniyoruz. Bununla birlikte, tüm pozitif örnekleri (tıklamalar ve işlemler) aynı şekilde ele alırsak, tıklama örneklem boyutu işlem örneğinden çok daha büyük olduğundan, o zaman daha çok bir CTR görevini öğrenmeye benziyoruz; daha yüksek ciro veya GMV elde etmek istediğimizde bu mantıksızdır. . Bu nedenle, farklı tip ve fiyatlardaki pozitif numuneler için farklı ağırlıklar belirledik. Daha spesifik olmak gerekirse, örnek ürünlerin günlüğünü (fiyatı), tıklamalarını ve işlemlerini ayırt edeceğiz, bu nedenle doğru olasılık öğelerini ifade etmek için aşağıdaki düzeltmeleri yapacağız:

Yukarıdaki formülde,

Ağırlık ne kadar büyükse, işlem numunesinin ağırlığı o kadar yüksek olur;

Değer ne kadar büyükse, fiyat faktörlerinin etkisi o kadar büyük olur. Ağırlıkların rolü, esas olarak optimizasyon sürecinin gradyan çözümüne yansır.

Çevrimdışı ve çevrimiçi doğrulama

Algoritmanın etkinliğini doğrulamak için çapraz doğrulama için çevrimiçi günlükleri rastgele bir gün boyunca örnekledik. Veriler Ekim 2016'nın sonundan itibaren alınmıştır. İncelediğimiz iki ana gösterge vardır: Test setindeki AUC ve toplam performans tüketimi. Karşılaştırılacak algoritmalar şunlardır: 1. Bir sıralama yapmak için tüm özellikleri kullanın; 2. Bir sıralama yapmak için basit özellikleri kullanın; 3. Çevrimiçi olarak kullanılan 2 aşamalı yöntem; 4. CLOES algoritması,

; 5, CLOES algoritması

.

Deneysel sonuçlar aşağıdaki gibidir. Tablodan, tüm özellikleri kullanmanın doğruluğunun şüphesiz en yüksek olduğunu ve ardından hesaplama tüketiminin de en yüksek olduğunu görebiliyorum; çevrimiçi olarak kullanılan 2 aşamalı yöntem, hesaplama verimliliği sorununu önemli ölçüde azaltabilir, yöntem 1'in yalnızca% 30'u, ancak AUC ayrıca 0,76'ya düşürülür. Esas olarak karşılaştırdığımız şey, şu anda çevrimiçi olarak kullanılan 3-2 aşamalı yaklaşımdır, CLOES kullanılarak, AUC neredeyse aynı hesaplama maliyeti altında 0,76'dan 0,80'e yükseltilebilir; neredeyse aynı AUC altında, hesaplama maliyeti 30'dan artırılabilir % Daha da% 18'e düştü.

Çevrimdışı algoritmanın etkisini doğruladıktan sonra, motorun hesaplama basıncını azaltmak için algoritmayı Double 11'in arifesinde başlattık. Çevrimiçi dönemde motor CPU kullanım oranı ve ortalama arama gecikmesi değişikliği şu şekildedir: CPU kullanım oranının% 32'den% 18'e düştüğünü, ortalama arama gecikmesinin 33 ms'den 24 ms'ye düştüğünü görebilirsiniz. Şekilde, motorun performansını temsil eden 2 eğri bulunmaktadır. 2 küme.

Motor basıncında büyük bir düşüş olması durumunda, CTR ve GMV dahil olmak üzere çevrimiçi sıralama göstergelerinin biraz arttığı unutulmamalıdır.

CLOES'ten yararlanarak, Double 11 gününde motor yükü zirvede% 70'i geçmedi, CPU kullanım oranı yaklaşık% 45 azaldı, ortalama arama gecikmesi yaklaşık% 30 azaldı ve CLOES'in getirdiği GMV arttı. Yaklaşık% 1. Performans iyileştirmeleri (gerçek zamanlı özellikler ve RNN özellikleri vb. Dahil) nedeniyle başlatılabilecek diğer özellikler dikkate alındığında, sıralı TO% 10 -% 20 oranında artırıldı ve işlem hacmi ve GMV gibi göstergeler de büyük ölçüde iyileştirildi (standart A / B'ye dayalı endeks karşılaştırması Ölçek).

Diğer deneysel sonuçlar ve algoritma ayrıntıları için lütfen orijinal metne bakın.

sonuç olarak

Arama, e-ticaret şirketleri için en büyük trafik portalıdır ve arama sıralamasının kalitesi, kullanıcı deneyimi, iş geliri ve platform verimliliğinde hayati bir rol oynar. Gelecekte, arama, kullanıcının arama deneyimini ana hedef olarak almaya devam edecek ve kullanıcıların bireysel ihtiyaçlarını daha iyi karşılayabilecek sıralı sonuçlar sunacaktır.

Teknik olarak, çeşitli makine öğrenimi teknolojileri arama sıralamasıyla ilgilidir.Örneğin, kullanıcıların uzun vadeli deneyimlerini göz önünde bulundurarak, pekiştirmeli öğrenme teknolojisine ihtiyacımız var; tutarsız veri dağıtımı, karşı-olgusal öğrenme teknolojisi gibi konuları göz önünde bulundurarak; daha iyi kişiselleştirilmiş deneyimi göz önünde bulundurarak , Temsili öğrenme ile ilgili teknolojiye ihtiyacımız var; daha etkileşimli aramayı düşündüğümüzde, doğal dil işleme, bilgi grafiği ve diğer teknolojilere ihtiyacımız var ... Taobao arama, kullanıcının alışveriş deneyimini optimize etmeye devam edecek ve daha mükemmel algoritmalara ve çözümlere katkıda bulunmayı umuyoruz Endüstriyel uygulamalar ve akademik araştırmalar için.

Kağıt indirme

https://arxiv.org/pdf/1706.02093.pdf

LAFESTA Dünya Prömiyeri Beijing Hyundai, Üç "Yeni Kuvvet" ile Akıllı ve Yeni Bir Yaşam Sürüyor
önceki
TEDA farklı bir yaşam tarzı mı? Stillik akraba bıraktı + 2 silah! Chelsea orta saha oyuncusu sıradaki evinde buluyor
Sonraki
OMG PlayerUnknown's Battlegrounds PGI şampiyonluğunu kazandı, Çinli oyuncular güldü! Sadece o ağladı, canlı akış baş aşağı falan
Batı sıralaması bölünmüş, ilk 4 açık ve sonraki 4 kaotik, Savaşçılar en üst noktayı sabitledi ve Roketler üçüncü sırada kalamıyor
Gururlu! Fiyat 16.88-25.18 milyon lüks otomobil deneyiminin keyfini çıkarın
Giyinme tercihlerinizi erkek arkadaşınızdan daha iyi bilin, bu model kıyafet seçiminizde size eşlik edebilir Tez
Milli futbol takımı yumuşak bir hurma arıyor ve Luneng U23 beraberlik yapacak, Lippi yüzünü nereye koyacak? Taraftarların toplu olarak ayrılması
PlayerUnknown's Battlegrounds PGI: OMG'nin yabancıları fethetme gücü? Extranetin ardından "China NO 1" parladı
Başka bir çaylak yanıyor, 36 dakikada maç başına ortalama 4,6 blok, 33 yılın en güçlü engelleyicisi!
Lifan Motors, "yeni" bir araç daha ekledi, yeni enerji modeli 650EV, Pekin Otomobil Fuarı'nda görücüye çıktı
Ulusal bir e-spor takımı var! Spor Genel İdaresi, 890.000 ödüllü ulusal bir e-sporu açtı!
FIFA hayırsever mi? Milli Futbol Takımının Dünya Kupası üzerindeki etkisi güzel haberi memnuniyetle karşılıyor! Lippi gittikten sonra, Hiddink en güvenilir olanıydı!
Ligin 1 No'lu çatışması takımdan ayrılma haberini verdi ve Lakers'a geldikten 43 gün sonra ayrılmak istedi.
Tamamen yeni Changan CS7599.800'den Pekin Otomobil Fuarı'nda tanıtıldı
To Top