Özel LinkedIn kişiselleştirilmiş öneri modelini ve modelleme ilkelerini anlamak için bir makale

Daha fazla heyecan için lütfen Tsinghua-Qingdao Veri Bilimi Enstitüsü "Data Pie THU" nun resmi kamu WeChat platformunu takip edin

Orijinal başlık: HowLinkedIn, Photon-ML Makine Öğrenimi aracıyla Kişiselleştirilmiş Öneriler Yapıyor

Yazar: Yiming Ma, Deepak Agarwal

Çeviri: Zhang Yuan

Redaksiyon: Ding Nanya

Bu makalenin uzunluğu 2500 kelime , Okumanız tavsiye edilir 8 dakika

Bu makale, kişiselleştirilmiş öneri modeline odaklanacak ve modelleme ilkelerini ve buna Photon-ML aracılığıyla nasıl ulaşılacağını açıklayacak, böylece yüz milyonlarca kullanıcıya fayda sağlayabilir.

Giriş

Öneri sistemi, kullanıcıları farklı içeriğe göre eşleştirebilen otomatik bir bilgisayar uygulamasıdır. Bu sistemin uygulaması oldukça yaygındır ve günlük hayatımızın vazgeçilmez bir parçası haline gelmiştir. Yaygın örnekler, Amazon'un kullanıcılara ürün önerdiği, Yahoo'nun siteyi ziyaret eden kullanıcılara içerik önerdiği, Netflix'in kullanıcılara film önerdiği, LinkedIn'in kullanıcılara iş önerdiği ve benzerleridir. Kullanıcı tercihlerindeki bariz farklılıklar göz önüne alındığında, kişiselleştirilmiş öneriler sunmak bu sistemin başarısının anahtarı haline gelir.

Bu hedefe ulaşmak için, makine öğrenimi modelleri aracılığıyla toplanan geri bildirim bilgilerinden kullanıcı tercihlerini tahmin etmek önemlidir. Bu modeller, kullanıcı geçmiş etkileşim bilgilerinden elde edilen büyük miktarda yüksek frekanslı veriye dayanılarak oluşturulmuştur. Özünde, sıralı karar verme süreci, yüksek boyutlu verilerin etkileşimli modellemesi ve ölçeklenebilir istatistiksel yöntemlerin geliştirilmesi gibi birçok zorluğun üstesinden gelmesi gereken istatistiksel modellerdir. Bu alanda, yeni metodolojilerin doğuşu, bilgisayar bilimcileri, makine öğrenimi uzmanları, istatistikçiler, optimizasyon uzmanları, sistem uzmanları ve alan uzmanları dahil olmak üzere tüm yönlerden yakın işbirliği gerektirir. Bu, büyük veri endüstrisindeki en heyecan verici uygulamalardan biridir.

LinkedIn'in birçok ürünü öneri sistemlerini uygulamıştır.Bu sistemlerin temel bileşeni, üretkenliğimizi, çevikliğimizi ve geliştirici mutluluğumuzu artırmanın anahtarı olan Photon-ML adlı esnek bir makine öğrenimi kitaplığıdır. Şu anda, Photon-ML tarafından kullanılan algoritmaların çoğunu açık kaynaklı hale getirdik. Bu yazıda, kişiselleştirilmiş öneri modeline odaklanacağız ve modelleme ilkelerini ve yüz milyonlarca kullanıcıya fayda sağlamak için Foton-ML ile nasıl başarılacağını açıklayacağız.

Photon-ML'nin kişiselleştirilmiş model yapımı

Photon-ML uygulaması sayesinde LinkedIn, birçok ürün için kullanıcı katılımını ve iş göstergelerini önemli ölçüde geliştirdi. Aşağıdaki örnekler, kişiselleştirilmiş iş önerisi için genelleştirilmiş eklenmiş karma efektler modelinin (GAME) nasıl kullanılacağını göstermektedir. Çevrimiçi kontrollü deneyimizde, model iş arayanlara normalden% 20 ila% 40 daha yüksek iş başvuru fırsatları sunuyor.

LinkedIn, dünyanın en büyük profesyonel sosyal ağı olarak, 500 milyondan fazla kullanıcısına benzersiz bir değer teklifi sunarak kariyer gelişimleri için çeşitli fırsatlar sunmaktadır. Sağladığımız en önemli ürünlerden biri, iyi bir işe başvurmak isteyen kullanıcılar için bir hizmet merkezi olan "İş Arama Ana Sayfası" dır.

Şekil 1 LinkedIn'in iş arama ana sayfasının anlık görüntüsü

Şekil 1'deki sayfanın ana işlevsel modüllerinden biri "İlginizi çekebilecek işler" dir. Bu sayfa, kullanıcılara genel bilgileri ve geçmiş faaliyet kayıtlarına dayalı olarak ilgili iş profillerini önerecektir. Kullanıcı önerilen işle ilgileniyorsa, işin konumu, tanımı, sorumlulukları, gerekli beceriler ve nitelikler hakkında daha fazla bilgi edinmek için iş ayrıntıları sayfasına tıklayarak tıklayabilir. İş ayrıntıları sayfasında, kullanıcıların bu işe LinkedIn veya şirketin işe alım web sitesi aracılığıyla tek tıklamayla başvurmasına olanak tanıyan bir "Başvur" düğmesi de yer alacaktır. LinkedIn iş başarısının temel göstergelerinden biri, iş başvurularındaki toplam tıklama sayısıdır (yani, "Uygula" düğmesine tıklanma sayısı).

Modelimizin amacı, sistem tarafından önerilen bir işe başvuran bir kullanıcının olasılığını doğru bir şekilde tahmin etmektir. Sezgisel olarak, model üç bileşenden / alt modelden oluşur:

  • İş başvurusunda bulunan kullanıcıların normal davranışlarını yakalayan küresel bir model;

  • Parametreleri (verilerden öğrenilen), geleneksel davranışlardan sapan bireysel davranışları yakalamak için belirli kullanıcıları hedefleyen özel bir kullanıcı modeli;

  • Düzenli işten sapan benzersiz davranışını yakalamak için parametreleri (verilerden öğrenilen) belirli bir mesleğe özgü olan belirli bir meslek modeli.

Birçok öneri sistemi uygulaması gibi, çok sayıda kullanıcı veya mesleki veride birçok farklılık gözlemliyoruz. İş arama web sitesinde, hem katılan yeni kullanıcılar var (bu nedenle neredeyse hiç ilgili veri yok) hem de güçlü iş niyetleri olan ve geçmişte birçok kez iş başvurusunda bulunmuş kullanıcılar var. Benzer şekilde, farklı iş türlerini karşılaştırırken, hem popüler hem de daha az popüler olanları vardır. Çok fazla iş başvurusu verisi olan kullanıcılar için, hesaplamak için belirli bir kullanıcı modeli uygulamayı umuyoruz. Öte yandan, kullanıcının çok fazla geçmiş verisi yoksa, kullanıcının normal davranışını yakalamak için global bir model seçeceğiz.

Daha sonra, bu genelleştirilmiş katkı maddesi karma efekt modelinin (GAME) yukarıda belirtilen duruma göre kişiselleştirilmiş tavsiyeleri nasıl elde ettiğine daha yakından bakalım.

İlk olarak, bağlam içeriğinin genellikle çalışma zamanını ve konumunu içerdiği t bağlamı koşulu altında m kullanıcısının j işi için geçerli olup olmadığının ikili sonucunu temsil etmek için ymjt kullanın. Kullanıcının iş pozisyonu, iş işlevi, eğitim geçmişi, endüstri vb. Gibi kullanıcının kamuya açık bilgilerinden elde edilen özellik bilgilerini içeren m kullanıcısının özellik vektörünü temsil etmek için qm kullanıyoruz. İş unvanı, gerekli beceriler ve iş deneyimi gibi iş özelliği bilgilerini içeren iş j'nin özellik vektörünü temsil etmek için sj kullanıyoruz.

Daha sonra xmjt, qm ve sj özelliklerinin ana etkisi dahil olmak üzere üç boyutlu değişkenlerin (m, j, t) genel özellik vektörünü temsil etmek için kullanılır ve qm ve sj'nin dış çarpımı, kullanıcıların özelliklerini, çalışma özelliklerini ve bağlamı temsil etmek için kullanılır. Xmjt'nin kullanıcı kimliği ve proje kimliği içermediği durumlarda, bu kimlikler geleneksel özelliklerden farklı şekilde ele alınacaktır. J işine başvuran m kullanıcısının olasılığını tahmin etmek için lojistik regresyon kullanan GAME modeli aşağıdaki gibidir:

onların arasında

Korelasyon işlevi mi, b küresel katsayı vektörüdür (istatistiksel literatürde sabit etki katsayıları olarak da adlandırılır), m ve j, m kullanıcısına ve iş j'ye özgü katsayı vektörleridir, aynı zamanda rastgele etki katsayıları olarak da adlandırılır ve m kullanıcısının farklı olduğunu belirtmek için kullanılır Proje tercihleri ve iş farklı kullanıcılara hitap ediyor. Geçmişte birçok pozisyon için başvuran bir kullanıcı için, kişisel katsayı vektörü m'yi doğru bir şekilde tahmin edebilir ve kişiselleştirilmiş tahminler sağlayabiliriz. Öte yandan, m kullanıcısının geçmişte hiç uygulama kaydı yoksa, m'nin arka ortalaması 0'a yakın olacaktır ve kullanıcı m için model küresel sabit etki x'mjtb'ye geri dönecektir.Aynı prensip iş katsayısı vektörü j için de geçerlidir.

Photon-ML: Kişiselleştirilmiş öneri modelleri oluşturmak için ölçeklenebilir bir platform

Modeli Hadoop kümesinde eğitmek için büyük miktarda veri kullanmak amacıyla Apache Spark'ın üzerine Photon-ML'yi geliştirdik. Ölçeklenebilir bir algoritma tasarlamanın ana zorluklarından biri, verilerden çok sayıda model parametresi (on milyarlarca gibi) öğrenmektir. Modeli eğitmek için yalnızca standart makine öğrenimi yöntemlerini kullanırsak (Spark tarafından sağlanan MLlib gibi), daha sonra çok sayıda parametre bandını güncelleyin Gelen ağ iletişiminin maliyeti, gerçek hesaplamalarda mümkün olamayacak kadar yüksek. Çok sayıda parametre esas olarak belirli bir kullanıcı modelinden ve belirli bir meslek modelinden gelir Bu nedenle, algoritmayı ölçeklenebilir hale getirmenin anahtarı, yukarıdaki modeldeki kümeye çok sayıda parametrenin iletilmesinden veya yayınlanmasından kaçınmaktır.

Büyük ölçekli model eğitim problemini çözmek için paralel blok koordinat alçalma yöntemini (PBCD) kullanıyoruz.Bu yöntemde, küresel model, özel kullanıcı modeli ve özel iş modeli nihayet yinelemeli bir yöntemle birleştirilir. Bunların arasında, küresel modeli eğitmek için standart dağıtılmış gradyan iniş yöntemi kullanılır.Belirli kullanıcı modelleri ve belirli meslek modelleri için, yukarıdaki modellerdeki parametrelerin kümedeki makineler aracılığıyla iletişim kurmasına gerek kalmaması için bir model parametre güncelleme şeması tasarladık. Bununla birlikte, her bir eğitim örneğinin puanlamasının bir kısmı makineler arasındaki iletişim yoluyla yapılır ve bu da iletişim maliyetlerini büyük ölçüde azaltır. Aynı zamanda PBCD, farklı tipte alt modellere sahip modellere de kolaylıkla uygulanabilir.

Sonuç ve geleceğe bakış

Bu makalede, kişiselleştirilmiş öneriler elde etmek için Photon-ML'nin nasıl kullanılacağını kısaca tanıtıyoruz. Alan sınırlamaları nedeniyle, birçok ilginç optimizasyon ve uygulama detayı ihmal edildi.Okuyucuların Photon-ML açık kaynak kodunu kontrol etmeleri şiddetle tavsiye edilir. LinkedIn'de, en gelişmiş öneri sistemini oluşturmaya kararlıyız ve ayrıca Photon-ML için heyecan verici bir plan yaptık. Yakın gelecekte, Photon-ML'ye ağaç benzeri de dahil olmak üzere daha fazla modelleme işlevi eklemeyi planlıyoruz. Doğrusal olmayan ve daha derin temsil yapıları oluşturmak için modeller ve farklı derin öğrenme algoritmaları.

Orijinal adres:

https://www.kdnuggets.com/2017/10/linkedin-personalized-recommendations-photon-ml.html

Editör: Huang Jiyan

Zhang Yuan , Bir bulut bilişim şirketinde hizmet mühendisi. Yağmurlu günler gibi, yavaş kitap okumak, teknik hücrelerin eksikliği, tutumu ve bakış açısına sahip insanları takdir etmek ve beğenmek, romantizmi sevmek, ritüel duyuya dikkat etmek ve kayıt yapmayı sevmek gibi. Son dileğim, kendi yuvama sahip olmak ve özlediğime bir mektup yazmak.

Daha fazla heyecan için lütfen Tsinghua-Qingdao Veri Bilimi Enstitüsü "Data Pie THU" nun resmi kamu WeChat platformunu takip edin

Gölge kuklaları yaratmak, seramik panda bahçesi yapmak ... 32 uluslararası öğretmen ve öğrenci Tianfu kültürünü deneyimlemek için Chengdu'ya geldi
önceki
Yüzlerce Şampiyonlar Ligi maçında "kilometre hüznü" hoş karşılanıyor! 32 yaşındaki eski dünyanın 1 numaralı kalecisi, oyunun en kötüsü oldu!
Sonraki
Özel İntiharı önleme, büyük veri de hayat kurtarmak için çalışıyor
Fox Business News: 2017 için en iyi 10 teknoloji tahmini
İnovasyon söz konusu olduğunda büyük şirketler neden her zaman girişimlere kapılıyor?
Sichuan'daki bazı kolejler ve üniversiteler için kış tatili takvimi yayınlandı ve şu anda en uzun 49 günlük tatil
İngiliz hükümeti bir kuantum raporu yayınladı: insanlık ikinci kuantum devriminin arifesinde
Çin oyunu-Lewand şut, eşitlemek için Iwobi geri sayımı, penaltı atışları Arsenal, Bayern'i 4-3 yendi
Kış için en iyi duruşu size öğretmek için "Soğuk Kışın Çalışan İnsanların Hayatta Kalma Durumu Raporu" yayınlandı
Derinlemesine iletişim ve entegre geliştirme - Veri Bilimi Enstitüsü'nün çeşitli alanlarında yıllık iş değişimi toplantısı
Manchester City, Şampiyonlar Ligi oranlarında başı çekmesine rağmen, bu tarihsel tesadüf, Barcelona'nın sonunda kazanacağı anlamına mı geliyor?
Yapay zeka geliştirme ortamını nasıl oluşturacağınızı öğretin! (Kod ve indirme adresiyle)
Yumuşak ayak yengeci mi? Bayern forvet oyuncusu, Şampiyonlar Ligi nakavt maçında 7 ardışık maçta 0 gol attı ve Dünya Kupası da bir felaket
Veri Jiangtang JOIN hızlı yabancı anahtar işaretçi türetme
To Top