什麼是協同過濾?
協同過濾是一種基於記憶的推理方法,特別適用於支援個性化推薦的應用。協同過濾系統從使用者偏好歷史開始。距離函式決定相似性取決於偏好的重疊,喜歡相同事物的人彼此靠近。
此外,投票權重由距離決定,因此較近鄰居的投票對認可的影響更大。換句話說,它是一種透過使用同行群體(選擇具有相同品味的群體)的判斷來發現適合特定使用者當前偏好的音樂、書籍、葡萄酒或其他事物的方法。這種方法被稱為社會資訊過濾。
協同過濾自動化了利用口碑來確定他們是否可能喜歡某件事的流程。知道有幾個人喜歡某件事是不夠的。每個人對某些推薦的重視程度都高於其他推薦。一位親密朋友的推薦(其之前的推薦一直都很準確)足以讓您去看一部新電影,即使它屬於您通常不喜歡的型別。
使用自動協同過濾系統為新使用者準備推薦包含三個步驟,如下所示:
可以透過讓新客戶對包括電影、歌曲或餐廳在內的一系列專案進行評分來構建使用者畫像。
可以使用某種相似性度量將新使用者的畫像與其他使用者的畫像進行比較。
可以使用具有相同畫像的使用者評分的某種組合來預測新使用者可能對尚未評分的專案的評分。
協同過濾的一個挑戰是,需要評分的專案數量遠遠超過一個人可能完成或願意評分的數量。也就是說,畫像通常是稀疏的,這意味著使用者之間在偏好方面幾乎沒有重疊,從而難以建立推薦。可以將使用者畫像視為一個向量,每個向量元件對應於要評分的元素宇宙中的一個專案。向量的每個元素都定義了畫像所有者對相應元素的評分,評分範圍為 -5 到 5,其中 0 表示中立,空值表示沒有意見。
如果向量中有數千個元件,並且每個使用者都決定要評分哪些元件,那麼任何兩個使用者畫像都可能最終出現一些重疊。換句話說,強制使用者對特定子集進行評分可能會錯過有趣的資料,因為更模糊元素的評分可能比一般元素的評分更能說明使用者的情況。
廣告