g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

İçeriğe dayalı algoritma

temel kavram

İçerik tabanlı filtreleme algoritması, kullanıcının favori öğelerine benzer öğeler önerecektir. Ancak, işbirliğine dayalı filtreleme algoritmalarından farklı olarak, bu algoritma benzerlik derecesini insanların öğeleri kullanma biçimine değil içeriğe (başlık, yıl, açıklama gibi) göre özetler. Örneğin, bir kullanıcı "Yüzüklerin Efendisi" filminin birinci ve ikinci bölümlerini beğenirse, öneri sistemi başlık anahtar sözcükleri aracılığıyla kullanıcıya "Yüzüklerin Efendisi" nin üçüncü bölümünü önerecektir. İçerik bazlı filtreleme algoritmasında, her bir öğenin özellik vektörü (y) (başlık, yıl, açıklama gibi) olarak kullanılmak üzere yeterli açıklama bilgisine sahip olduğu varsayılır ve bu özellik vektörleri bir kullanıcı tercih modeli oluşturmak için kullanılacaktır. Yaygın olarak kullanılanlar, karar ağaçları, sinir ağları ve vektör tabanlı temsil yöntemleridir.

Özellikleri

1. İçeriğe dayalı kullanıcı bilgileri, kullanıcı geçmiş verilerini gerektirir

2. Kullanıcı profili modeli, kullanıcının tercihleri değiştikçe değişebilir

prensip

Bazı kullanıcıların belirli kitapları tercih ettiklerini varsayalım.Bir kitabı ne kadar çok seviyorlarsa, o kitabın derecelendirmesi o kadar yüksek olur (derecelendirme aralığı 1 ila 5 puandır). Ardından, kullanıcıları temsil eden satırlar ve kitapları temsil eden sütunlar ile bu tercihi bir matriste yeniden oluşturabilirler.

Resim 1: Kullanıcı kitabı tercihi

Şekil 1'deki tüm tercihler, 5 en yüksek (yani, favori) olmak üzere 1 ile 5 arasında değişir. İlk kullanıcı (1. satır) ilk kitaba (1. sütun) 4 puan verdi. Bir hücre boşsa, bu, kullanıcının kitabı derecelendirmediği anlamına gelir.

İçerik tabanlı işbirliğine dayalı filtreleme algoritmasında yapılacak ilk şey, içeriğe göre kitaplar arasındaki benzerliği hesaplamaktır. Bu örnekte, kitap başlığındaki (Şekil 2) sadece basitleştirme amaçlı anahtar kelimeler kullanılmıştır. Pratikte daha fazla nitelik kullanılabilir.

Şekil 2: Kullanıcıların incelediği kitapların başlıkları

Her şeyden önce, durdurma sözcükleri (gramer sözcükleri, çok yaygın sözcükler gibi) genellikle içerikten silinir ve daha sonra kitabı temsil etmek için bu sözcükleri temsil eden bir vektör (veya dizi) kullanılır (Şekil 3) Bu sözde vektör uzayı gösterimidir.

Şekil üç

Şekil 3'te başlıkta kullanılan kelimenin başlığında bu kelime varsa 1 ile işaretlenir, aksi takdirde boştur.

Bu tabloyla, kitapları doğrudan karşılaştırmak için çeşitli benzer göstergeler kullanabilirsiniz. Bu örnekte, kosinüs benzerlik noktası kullanılmıştır. İlk kitabı kullanırken, ilk kitabın diğer kitaplara ne kadar benzediğini görmek için diğer beş kitapla karşılaştırın (Şekil 4). Çoğu benzerlik göstergesi gibi, vektörler arasındaki benzerlik ne kadar yüksekse, birbirlerine o kadar benzerler. Bu örnekte, ilk kitap iki ortak kelime hazinesiyle (tavsiye ve sistem) diğer üç kitaba çok benziyor. Başlık ne kadar kısa olursa, iki kitap arasındaki benzerlik o kadar yüksek olur ki bu mantıklıdır çünkü bu şekilde daha az farklı kelime vardır. Ortak bir kelime dağarcığı olmadığı göz önüne alındığında, ilk kitabın diğer iki kitapla hiçbir benzerliği yoktur.

Şekil 4

Şekil 4'te görüldüğü gibi iki kitap arasındaki kosinüs benzerliği ile ilk kitapla diğer kitaplar arasındaki benzerlik tek boyutta çizilebilir.

Ayrıca tüm kitaplar arasındaki benzerlik derecesi benzerlik matrisinde gösterilebilir (Şekil 5). Hücrenin arka plan rengi kullanıcılar arasındaki benzerlik derecesini gösterir.Kırmızı ne kadar koyu ise benzerlik o kadar yüksek olur.

Şekil 5

Şekil 5'te, kitaplar arasındaki benzerlik matrisi, her benzerlik noktası, kitap vektör gösterimleri arasındaki kosinüs benzerliğine dayanmaktadır.

Artık her kitabın birbirine ne kadar benzediğini bildiğimize göre, kullanıcılar için öneriler üretebiliriz. Öğe tabanlı işbirliğine dayalı filtreleme yöntemine benzer şekilde, öneri sistemi, kullanıcının daha önce değerlendirdiği kitaplara göre diğer kitaplar arasında en çok benzerini önerecektir. Aradaki fark, benzerliğin kitabın içeriğine, kesin olarak kullanım verilerine değil başlığa dayanmasıdır. Bu örnekte, sistem ilk kullanıcıya altıncı kitabı ve ardından dördüncü kitabı önerecektir (Şekil 6). Benzer şekilde, yalnızca kullanıcının daha önce incelediği kitaplara en çok benzeyen iki kitabı seçin.

Şekil 6

Şekil 6, bir kullanıcı için oluşturulmuş bir öneri sonucudur Kullanıcının daha önce incelediği kitap kataloğunu seçin, her kitaba en çok benzeyen iki kitabı bulun ve ardından kullanıcının incelemediği kitapları önerin.

Avantaj ve dezavantajların analizi

1. Avantajlar

(1) Alışılmış veri gerekmez

(2) Nadir özelliklere sahip ürünler, özel hobileri olan kullanıcılar için önerilebilir.

(3) Kullanıcı içeriği özellikleri, tavsiye edilen açıklamaları sağlamak için yüksek derecede inançla kullanılabilir

(4) Çok büyük bir kullanıcı grubuna veya derecelendirme kaydına gerek yoktur, yalnızca bir kullanıcı bir öneri listesi oluşturabilir

(5) Popülerlik önyargısı yoktur, yeni veya çok popüler olmayan projeler önerebilir ve yeni proje sorunu yoktur.

2. Dezavantajlar

(1) Projenin içeriği makine tarafından okunabilir ve anlamlı olmalıdır

(2) Arşivlemesi kolay kullanıcılar

(3) Sürpriz yaşamak zor, önerilen sonuçların yeniliği sorunu var, benzerlik çok yüksek ve sürpriz yeterli değil

(4) Birden çok projenin özelliklerini birleştirmek zordur

(5) Aşırı uzmanlaşmanın varlığı

(6) Sığ içerik analizi, projenin analizi yeterince kapsamlı değil

1. En yakın komşu yöntemi (k-En Yakın Komşu, kısaca kNN)

Yeni bir öğe için, en yakın komşu yöntemi ilk olarak U kullanıcısının hâlihazırda değerlendirdiği ve yeni öğeye en çok benzeyen K öğesini bulur ve ardından kullanıcının K öğeleri için Unun tercihine göre yeni öğe tercihini değerlendirir. . Bu yaklaşım, KF'deki madde bazlı kNN'ye benzer. Aradaki fark, buradaki madde benzerliğinin maddenin öznitelik vektörüne dayalı olarak hesaplanması, CF'nin ise tüm kullanıcıların derecelendirmelerine göre hesaplanmasıdır.

Bu yöntem için anahtar, öğe öznitelik vektörü aracılığıyla öğeler arasındaki ikili benzerliğin nasıl hesaplanacağı olabilir. Yukarıdaki öneri, yapılandırılmış veriler için, benzerlik hesaplamasının Öklid mesafesini kullandığı ve öğeyi temsil etmek için vektör uzayı modeli (VSM) kullanılıyorsa, benzerlik hesaplamasının kosinüsü kullanabilir.

2. Rocchio algoritması

Rocchio algoritması, bilgi erişiminde Uygunluk Geri Bildirimini işlemek için bilinen bir algoritmadır. Örneğin, bir arama motorunda "elma" araması yaptığınızda, kelimeyi ilk aradığınızda, arama motoru yenilebilir bir meyve mi yoksa yenmez bir elma mı istediğinizi bilmez, bu nedenle size genellikle her şeyi göstermeye çalışır. sonuç. Bu sonuçları gördüğünüzde, alakalı olduğunu düşündüğünüz bazı sonuçlara tıklayacaksınız (buna ilgili geri bildirim denir). Ardından, sonuçları ikinci sayfada görüntülemek için sayfayı çevirirseniz, arama motoru, verdiğiniz ilgili geri bildirime göre sorgu vektörü değerinizi değiştirebilir, web sayfası puanını yeniden hesaplayabilir ve sonuçları, tıkladığınız sonuçlara benzer şekilde sıralayabilir.

Örneğin, "elma" kelimesini ilk aradığınızda, karşılık gelen sorgu vektörü

. Mac ve iPhone ile ilgili bazı sonuçlara tıkladığınızda, arama motoru sorgu vektörünüzü

, Bu yeni sorgu vektörü sayesinde, arama motorları aradığınız şeyin yenemez bir elma olduğunu daha net anlayabilir. Rocchio algoritmasının işlevi, sorgu vektörünüzü değiştirmektir:

CB'de, Rocchio algoritması benzer şekilde U kullanıcısının profilini elde etmek için kullanılabilir.

onların arasında

J öğesinin özelliklerini temsil eder,

karşı

Bilinen kullanıcı U'nun sevdiği ve beğenmediği öğeler kümesini sırasıyla temsil eder ve

karşı

Olumlu ve olumsuz geri bildirimlerin ağırlığıdır ve değerleri sistem tarafından verilir.

Başlarken

Daha sonra, belirli bir j öğesi için kullanabilirsiniz

karşı

Benzerlik derecesi, kullanıcı Unun j tercihini temsil eder.

Rocchio algoritmasının bir avantajı,

Kullanıcı geri bildirimlerine göre gerçek zamanlı olarak güncellenebilir ve güncelleme maliyeti düşüktür.

Bu bölümün başında belirtildiği gibi, bu bölümün çözeceği şey tipik bir denetimli sınıflandırma problemidir, bu nedenle çeşitli etkili sınıflandırma makine öğrenme algoritmaları burada kullanılabilir.

3. Karar Ağacı Algoritması (Karar Ağacı, kısaca DT)

Öğenin daha az özelliği olduğunda ve yapılandırılmış bir özellik olduğunda, karar ağacı iyi bir seçim olacaktır. Bu durumda, karar ağacı basit, sezgisel ve anlaşılması kolay sonuçlar üretebilir. Ve U kullanıcısına karar ağacının karar verme sürecini göstererek, bu öğelerin neden önerildiğini anlatabilirsiniz. Ancak, öğenin birçok özelliği varsa ve tümü yapılandırılmamış verilerden geliyorsa (örneğin, öğe bir makaleyse), karar ağacının etkisi çok iyi olmayabilir.

4. Doğrusal Sınıflandırma Algoritması (Doğrusal Sınıflandırıcı, kısaca LC)

Buradaki ikinci sınıf problem için, doğrusal sınıflandırıcı (LC), yüksek boyutlu uzayda bir düzlem bulmaya çalışır, böylece düzlem, iki tür noktayı mümkün olduğunca ayırır. Başka bir deyişle, uçağın bir tarafında mümkün olduğu kadar bir nokta türü ve düzlemin diğer tarafında da başka bir nokta türü olabildiğince uzundur.

Yine de örnek olarak öğrenen kullanıcı U'nun sınıflandırma modelini ele alalım.

J öğesinin öznitelik vektörünü temsil eder, ardından LC şunu dener:

Uzayda bir uçak bulun

U kullanıcısının beğendiği ve beğenmediği öğeleri ayırmak için bu uçağı olabildiğince uzağa yapın.

Öğrenilmesi gereken parametredir. En sık kullanılan öğrenme

Yöntem, gradyan iniş yöntemidir ve güncelleme süreci aşağıdaki gibidir:

Üst simge t, t. Yinelemeyi temsil eder,

U kullanıcısının j öğesindeki puanını gösterir (örneğin, beğenirse değer 1, beğenmezse -1 olur).

Sistem tarafından verilen her yinelemede ne kadar değişiklik yapıldığını kontrol eden öğrenme oranıdır.

Rocchio algoritması gibi, yukarıdaki güncelleme formülünün avantajı, küçük bir maliyetle gerçek zamanlı olarak güncellenebilmesi ve U kullanıcısının karşılık gelen değerinin gerçek zamanlı olarak ayarlanabilmesidir.

Bundan bahsetmişken, birçok öğrenci bazı iyi bilinen doğrusal sınıflandırıcılar düşünebilir: Lojistik Regresyon ve Doğrusal SVM, vb. Burada kesinlikle sınıflandırma görevi için uygundurlar.

Öğe özelliği

Her bileşeni 0/1 ise (örneğin, öğe bir makaleyse,

1'in K'inci bileşeni, sözlükteki K'inci kelimenin j öğesinde olduğu ve 0'ın k'inci kelimenin j) öğesinde olmadığı anlamına gelir, bu durumda çok ilginç bir buluşsal güncelleme var

Algoritma: Winnow algoritması.

5. Naive Bayes algoritması (Naive Bayes, kısaca NB)

NB genellikle metin sınıflandırması için kullanılır.Bir makaledeki her kelimenin oluşma olasılığının belirli bir kategoriden sonra birbirinden bağımsız olduğunu varsayar. Varsayımları çok güvenilmez olmasına rağmen, sonuçları genellikle şaşırtıcı derecede iyidir. Ek olarak, NB'nin kod uygulaması nispeten basittir, bu nedenle çoğu sınıflandırma probleminde denenecek ilk algoritmadır. Mevcut profil öğrenme problemi iki kategori içerir: U kullanıcısının sevdiği öğeler ve beğenmediği öğeler. Bir öğenin kategorisi verildiğinde, niteliklerinin değer olasılıkları birbirinden bağımsızdır. NB, U kullanıcısının geçmiş tercih verileri kullanılarak eğitilebilir ve daha sonra eğitimli NB, verilen öğeyi sınıflandırmak için kullanılabilir.

Han Han Restaurant'a ödenmemiş maaş davası açıldı, Mengfei noodle restoranı gözetimsiz kaldı, ünlüler ikramlara yatırım yaptı

MINI, retro İngiliz stilini miras alan 60. yıl dönümü anma baskısını piyasaya sürdü