Kuru ürünler | Netflix öneri sistemi modelinin hızlı çevrimiçi değerlendirme yöntemi-Serpiştirme

Bu makale WeChat genel hesabından yeniden üretilmiştir: Wang Zhe'nin makine öğrenimi notları (ID: wangzhenotes), yazar, Silikon Vadisi'nde kıdemli bir mühendis olan Wang Zhe, sütuna dikkat etmekten memnuniyet duyar: https://zhuanlan.zhihu.com/wangzhenotes

burada "Wang Zhe'nin makine öğrenimi notları" On sekizinci makalede, bugün model değerlendirme ve çevrimiçi testlere odaklanıyoruz. Deneyimli algoritma mühendisleri, bir modelin geliştirme döngüsünde, iş yükünün çoğunluğunun aslında özellik mühendisliği ve model değerlendirme ve başlatma süreci olduğu konusunda çok net olmalıdır. Artık makine öğrenimi platformu çok olgunlaştığına göre, model yapısının gerçekleştirilmesi ve ayarlanması yalnızca birkaç satır kod meselesidir. ve bu yüzden Model değerlendirme ve çevrimiçi AB Testinin verimliliği artırılabilirse, algoritma mühendislerinin verimliliğini büyük ölçüde serbest bırakmalıdır. .

Bugünün makalesinde, medya akışı devi Netflix-Interleaving'in "özel çevrimiçi değerlendirme sırrını" tanıtacağız.

Zhou'nun da bildiği gibi Netflix, Amerika Birleşik Devletleri'nde yayın yapan bir medya devidir. Yaygın olarak bilinmesinin nedeni, yalnızca çok sayıda tanınmış orijinal dramaları ve yüksek piyasa değerinden kaynaklanmıyor.Önerme teknolojisi alanında, Netflix de sektörün ön saflarında yer aldı. Öyleyse, Netflix'i öneri sisteminin hızlı yinelemeli yeniliğini gerçekleştirmeye iten önemli teknoloji, bugün tanıtacağımız hızlı çevrimiçi değerlendirme yöntemidir - Interleaving.

Netflix öneri sistemi sorunu arka planı

Neredeyse tüm Netflix sayfaları öneri algoritmaları tarafından yönlendirilir ve her algoritma farklı öneri senaryoları için optimize edilmiştir. Şekil 1'de gösterildiği gibi, ana sayfadaki "En Çok Kullanılanlar satırı" videonun kişiselleştirilmiş sıralamasına dayalı öneriler sağlarken "Şimdi Trend Olanlar satırı" son moda trendlerini içerir. Bu kişiselleştirilmiş hatlar, birlikte Netflix'in yaklaşık 100 milyon üyesinin kişiselleştirilmiş ana sayfasını oluşturuyor.

Şekil 1: Kişiselleştirilmiş bir Netflix ana sayfası örneği. Her satır önerilen bir kategoridir ve belirli bir satır için, soldan sağa video sıralaması belirli bir sıralama algoritması tarafından belirlenir.

Güçlü algoritma odaklı Netflix için, yinelemeli algoritma yeniliği elbette önemlidir. Netflix'in iş hedeflerini algoritmalar aracılığıyla en üst düzeye çıkarmak için (bu iş ölçütleri, aylık Kullanıcı abonelikleri, toplam izlenme süresi Vb), yeni algoritmanın bu temel ürün göstergelerini etkili bir şekilde iyileştirip iyileştiremeyeceğini doğrulamak için çok sayıda AB testi gereklidir.

Bu bir çelişki yaratır ki Algoritma mühendislerinin AB Testi için artan talep ile çevrimiçi AB Testi kaynaklarının ciddi kıtlığı arasındaki çelişki . Çevrimiçi AB Testi kaçınılmaz olarak değerli çevrimiçi trafik kaynaklarını işgal edeceğinden ve kullanıcı deneyimine zarar verebileceğinden, ancak çevrimiçi trafik kaynakları açıkça sınırlıdır ve AB Testi için yalnızca küçük bir kısmı kullanılabilir; ve algoritma geliştirme tarafı Algoritma odaklı kullanım senaryoları artmaya devam ediyor ve çok sayıda aday algoritmanın tek tek test edilmesi gerekiyor. İkisi arasındaki çelişki şiddetlenmek zorundadır. Bunun acilen hızlı bir çevrimiçi değerlendirme yöntemi tasarlaması gerekiyor.

Bu amaçla Netflix, iki aşamalı bir çevrimiçi test süreci tasarladı (Şekil 2).

1. İlk aşamada, aday algoritmaları hızlı bir şekilde taramak için Interleaving adı verilen bir test yöntemi kullanılır ve çok sayıda ilk fikir arasından az sayıda "mükemmel" Sıralama algoritması seçilir.

2. İkinci aşama, kullanıcı davranışı üzerindeki uzun vadeli etkilerini ölçmek için azaltılmış bir dizi algoritma üzerinde geleneksel bir AB Testi gerçekleştirmektir.

Geleneksel AB Testi yöntemine zaten aşina olmalısınız, bu nedenle bu makale Netflix'in Interleaving yöntemiyle nasıl hızlı çevrimiçi test yaptığına odaklanmaktadır.

Şekil 2: Hızlı çevrimiçi test için Inter çıkışı kullanın. Aday algoritmaları temsil etmek için ampulleri kullanın. Bunlar arasında, optimum kazanan algoritma kırmızı ile gösterilir. Serpiştirme, ilk aday algoritma kümesini hızla azaltabilir ve optimum algoritmayı geleneksel AB Testinden daha hızlı belirleyebilir.

Geleneksel AB Testi ile ilgili sorunlar

Geleneksel AB Testindeki verimlilik problemlerine ek olarak, bazı istatistiksel olarak önemli farklılıklar da vardır. Aşağıda, açıklanması gereken çok tipik bir AB Testi problemi verilmiştir.

Burada, kullanıcı topluluğunun "Coca-Cola" ve "Pepsi" ye yönelik bir tat eğiliminin olup olmadığını doğrulamak için bir AB Testi tasarlanmıştır. Dolayısıyla geleneksel yaklaşıma göre, test popülasyonunu rastgele iki gruba ayıracağız ve ardından bir "kör test" yani Coke markasını söylemeden test yapacağız. İlk grup sadece Coca-Cola veriyor, ikinci grup ise sadece Pepsi veriyor ve sonra belli bir süre içinde herkesin Coca-Cola tüketimine göre insanların "Coca-Cola" veya "Pepsi" yi tercih edip etmediklerini gözlemlemek için.

Bu deney gerçekten genel anlamda etkilidir ve birçok durumda bunu yapıyoruz. Ancak bazı olası sorunlar var:

1. Genel test popülasyonunda, Coca-Cola'nın tüketim alışkanlıkları, neredeyse hiç koladan, her gün çok fazla kola içenlere kadar kesinlikle farklıdır.

2. Ağır kola tüketicileri kesinlikle toplam test popülasyonunun sadece küçük bir bölümünü oluşturur, ancak genel soda tüketiminin daha büyük bir kısmını oluşturabilirler.

Bu iki sorun neden oldu AB grupları arasındaki ağır kola tüketicilerinin hafif dengesizliği de sonuç üzerinde orantısız bir etkiye sahip olabilir. .

İnternet senaryosunda bu sorun da mevcuttur. Örneğin, Netflix senaryosunda çok aktif kullanıcı sayısı az bir sayıdır, ancak izleme süresine katkıları daha büyük bir orandır.Bu nedenle, Netflix AB Testinde daha aktif kullanıcılar A grubu veya B grubu olarak sınıflandırılır. Sonuçlar üzerinde daha büyük bir etkiye sahip olun, böylece modelin gerçek etkisini maskeleyin.

Peki bu problem nasıl çözülür? Yöntemlerden biri, test popülasyonunu gruplamak değil, tüm test uzmanlarının Pepsi ve Coca-Cola'yı özgürce seçmelerine izin vermektir (test sırasında hala marka etiketi yoktur, ancak iki farklı kola ayırt edilebilir). Deneyin sonunda, her kişi için Coca-Cola ve Pepsi tüketim oranını sayın ve ardından genel tüketim oranını elde etmek için tüketim oranının ortalamasını alın.

Bu test şemasının avantajları şunlardır:

1. AB grubunda kendi özelliklerinin eşit olmayan dağılımı sorununu ortadan kaldırın;

2. Herkese aynı ağırlığı vererek, ağır tüketicilerin sonuçlar üzerindeki aşırı etkisini azaltır.

Bu test fikri, Interleaving olan Netflix senaryosuna uygulanır.

Netflix'in hızlı çevrimiçi değerlendirme yöntemi-Harmanlama

Şekil 3, AB Testi ile Araya Ekleme arasındaki farkı göstermektedir.

Geleneksel AB Testinde, Netflix iki grup abone seçecektir: bir grup, Sıralama algoritması A'nın öneri sonucunu kabul eder ve diğer grup, Sıralama algoritması B'nin öneri sonucunu kabul eder.

Interleaving testinde yalnızca bir grup abone vardır ve bu aboneler hibrit algoritma A ve B'nin sıralamasıyla oluşturulan alternatif sıralamaları alacaklardır.

Bu, kullanıcının A ve B algoritmalarının öneri sonuçlarını aynı anda arka arkaya görmesini sağlar (kullanıcı bir öğenin A algoritması veya B algoritması tarafından önerilip önerilmediğini ayırt edemez). Ayrıca, izleme süresi gibi göstergeleri hesaplayarak Algoritma A'nın mı yoksa Algoritma B'nin mi daha iyi olduğunu ölçmek mümkündür.

Şekil 3: Geleneksel AB Testi ve Serpiştirme Geleneksel AB Testinde, test kullanıcıları iki gruba ayrılır, bir grup sıralama algoritması A'ya, diğer grup B algoritmasına maruz bırakılır ve izleme süresi gibi temel değerlendirme göstergeleri iki grup arasında karşılaştırılır. . Öte yandan, Interleaving tüm test kullanıcılarını A ve B algoritmalarının karışık sıralamasına maruz bırakır ve ardından algoritmaların karşılık gelen öğe göstergelerini karşılaştırır.

Elbette, Interleaving yöntemiyle test ederken, Algoritma A'daki videonun her zaman ilk sırada yer almasını önlemek için konum sapmasının varlığı dikkate alınmalıdır. Bu nedenle, algoritma A ve algoritma B'nin dönüşümlü olarak eşit olasılıkla öncülük etmesi gerekir. Bu, iki kaptanın bir saha sahasında oynarken önce para atarak ve ardından sırayla oyuncuları seçerek kimi seçeceğine karar verdiği sürece benzer.

Şekil 4: İki sıralama algoritmasını karıştırmak için "kaptan seçimi" yöntemini kullanan video. Sıralama algoritmaları A ve B sırasıyla önerilen video listelerini oluşturur. Rastgele bir yazı tura atışı, sıralama algoritması A veya B'nin ilk videoya katkıda bulunup bulunmadığını belirler. Ardından, sırayla A ve B algoritmasından en yüksekten en alta doğru videoyu seçin.

Serpiştirme yöntemini anladıktan sonra, bu değerlendirme yönteminin geleneksel AB Testinin yerini alıp alamayacağını ve yanlış sonuçlara varıp çıkamayacağını doğrulamak gerekir. Netflix, biri Interleaving'in "hassasiyeti", diğeri ise Interleaving'in "doğruluğu" olmak üzere iki açıdan doğruladı.

Interleaving ve geleneksel AB Testi arasındaki hassasiyetin karşılaştırılması

Netflix tarafından yapılan bu deneyler dizisi, geleneksel AB Testi ile karşılaştırıldığında Interleaving yönteminin, Algoritma A ve Algoritma B'nin artılarını ve eksilerini doğrulamak için mümkün olduğunca çok örnek gerektirdiğini doğrulamayı umuyor. Çevrimiçi test kaynaklarının eksikliğini defalarca vurguladık, bu nedenle burada doğal olarak Interleaving'in daha az çevrimiçi kaynak kullanabileceğini ve değerlendirme sorununu daha az test kullanıcısıyla çözebileceğini umuyorum. Bu sözde "duyarlılık karşılaştırması" dır.

Şekil 5, deneyin sonuçlarını göstermektedir.Yatay eksen, deneye katılan örneklerin sayısıdır ve dikey eksen Netflix çok doğru bir açıklama yapmamıştır, ancak bunu, Algoritma A'nın Algoritma B'den daha iyi olup olmadığını belirleme olasılığı olarak anlayabiliriz. Serpiştirme yönteminin A algoritmasının B'den daha iyi olup olmadığını belirlemek için 10 ^ 3 örnek kullandığı, AB testinin ise hata oranını% 5'in altına düşürmek için 10 ^ 5 örnek gerektirdiği görülmektedir. Bu, bir dizi AB Testi kaynağı kullanarak 100 takım Araya Girme deneyi yapabileceğimiz anlamına gelir. Bu, şüphesiz çevrimiçi test etme yeteneğini büyük ölçüde güçlendirir.

Şekil 5: Serpiştirmeye Duyarlılık ve geleneksel AB Testi göstergeleri. En hassas AB Test göstergesi ile karşılaştırıldığında, Interleaving, kullanıcının hangi algoritmayı tercih ettiğini belirlemek için abone örneğinin yalnızca 1 / 100'üne ihtiyaç duyar.

Serpiştirme göstergesi ile AB Testi göstergesi arasındaki ilişki

Interleaving'in değerlendirme sonuçlarının AB Testi ile tutarlı olup olmadığı, algoritmaları küçük örneklerle hızlı bir şekilde değerlendirme yeteneğine ek olarak, Interleaving'in çevrimiçi değerlendirmenin ilk aşamasında AB Testinin yerini alıp alamayacağını doğrulamanın anahtarıdır.

Şekil 6, Interleaving'deki deneysel göstergeler ile AB Testi göstergeleri arasındaki korelasyonu göstermektedir. Her veri noktası bir Sıralama algoritmasını temsil eder. Interleaving indeksi ile AB Testi değerlendirme indeksi arasında çok güçlü bir korelasyon olduğunu bulduk, bu da Interleaving deneyinde kazanan algoritmanın sonraki AB Testinde de kazanma olasılığının yüksek olduğunu doğruluyor.

Şekil 6: Serpiştirme göstergesi ile AB Testi göstergesi arasındaki korelasyon. Her nokta, bir Sıralama algoritmasının deneysel sonucunu temsil eder. Serpiştirme göstergesi, AB Testi göstergesiyle güçlü bir korelasyona sahiptir

sonuç olarak

Deneyler sayesinde Interleaving'in, Netflix'in çeşitli Sıralama algoritmalarının yinelemeli yeniliğini hızlandıran güçlü ve hızlı bir algoritma doğrulama yöntemi olduğunu biliyoruz.

Ancak, Araya Girme yönteminin de temel olarak aşağıdaki iki nokta olmak üzere belirli sınırlamaları olduğunu bilmeliyiz:

1. Proje gerçekleştirme çerçevesi, geleneksel AB Testinden daha karmaşıktır. Interleaving deneyinin mantığı iş mantığı ile karıştığı için iş mantığı bozulabilir. Ayrıca, Interleaving'i gerçekleştirmek için, mühendislik gerçekleştirmenin zorluğu olan tüm veri hattına çok sayıda yardımcı veri etiketinin eklenmesi gerekir;

2. Sonuçta, Interleaving, kullanıcının algoritma önerilerinin sonuçları için tercihinin göreceli bir ölçümüdür ve bir algoritmanın tam performansını elde edemez. Örneğin, A algoritmasının kullanıcının toplam izleme süresini ne kadar artırabileceğini bilmek istiyoruz, Interleaving'i kullanarak böyle bir sonuç çıkarmak imkansız. Bu nedenle Netflix, tüm çevrimiçi test çerçevesini iyileştirmek için Interleaving + AB Test iki seviyeli deneysel yapıyı tasarladı.

Makalenin sonunda her zamanki gibi birkaç konuyu sizlerle tartışacağım.Umarım görüşlerinizi paylaşabilir ve gerçeği tartışabilirsiniz:

1. Makaledeki duyarlılık testi nedir? Dikey eksen P değeri mi? (Makalenin sonundaki orijinal bağlantıya başvurabilirsiniz)

2. AB Testi ve Interleaving'e ek olarak, işinizde hangi çevrimiçi test yöntemlerini kullandınız?

3. Yazarın görüşüne göre, sonunda ortaya konan iki eksikliğin yanı sıra, Interleaving'in başka potansiyel sorunları da var: Sizce başka ne var?

Son olarak, bana dikkat etmeleri için herkese hoş geldiniz WeChat genel hesabı: Wang Zhe'nin makine öğrenimi notları (wangzhenotes) , Bilgisayar reklamcılığı ve öneri sistemleri gibi makine öğrenimi alanlarının sınırlarını izleme.

Daha fazla iletişim kurmak isteyen öğrenciler, teknik konuları resmi hesap ve WeChat'im aracılığıyla da tartışabilirler.

Not: Makalelerin çoğu, etkili ekler içeren Netflix'in resmi teknik blogunun (https://medium.com/netflix-techblog/interleaving-in-online-experiments-at-netflix-a04ee392ec55) orijinal çevirisine dayanmaktadır.

-SON-

2019 Küresel Yapay Zeka ve Robotik Zirvesi

12-14 Temmuz 2019 , Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen ve Shenzhen Yapay Zeka ve Robotik Enstitüsü tarafından ortaklaşa düzenlenen Çin Bilgisayar Federasyonu (CCF) sponsorluğunda 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019 olarak kısaltılmıştır) Shenzhen'de resmen açılacak.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Tıklamak Orijinali okuyun , Görünüm: Github proje önerisi-RecQ-Python öneri sistem çerçevesi

"YÜZDE DOKUZ" "Paylaş" 190614 Bugünün Süper Yakışıklı bir adam havalimanındaki yemek atışını vurdu, küpeler zengin adam Zhengge dünyada yeniden ortaya çıkıyor
önceki
"GOT7" "Paylaş" 190614 Tanrı'nın en genç insanları bir anlığına özgür olamaz! Dog line: Ben buna alıştım ~
Sonraki
Haberler | 12 HCP Lab ödevi, dünyanın en iyi bilgisayarla görme konferansı CVPR 2019 seçildi
Yabancı medyada Galaxy Note 10+ çizimleri ortaya çıktı
Apple, iOS 12.4 Beta 6'yı zorluyor; Huaweinin ilk 5G telefonu Ağustos ayında piyasaya sürülebilir; Sony yeni yankı galerisi ve plak çaları 24 saat piyasaya sürüyor
190614 Zhu Zhengting'in siyah görünümü havaalanında belirdi ve küpeler nihayet güneşte güneşlenmek için çıkarıldı.
JD Internet of Things'in girişi Jingyu AI Speaker C1 ile başlıyor
CVPR 2019 | Liangfengtai, dünyanın en büyük tek hedef takip veri seti LaSOT'u piyasaya sürdü
Apple'ın ilk tasarım ve geliştirme hızlandırıcısı Şangay'da resmi olarak piyasaya sürüldü
Nintendo Switch Lite resmi olarak duyuruldu: 20 Eylül'de satışta
Aşkın tadı, akıllı omuz ve boyun masajının deneme deneyimi
Academia | Berkeley AI Araştırma Enstitüsü, Google Brain'in AutoAugment'ından daha güçlü olan yeni bir veri büyütme algoritması öneriyor! | ICML 2019
618'i takip edin, bir araya gelelim
Hong Kong: Her yer arasında bir boş zaman anı bulun | Bir gün
To Top