什麼是網頁排名演算法在網頁挖掘中?


PageRank 是一種客觀且機械地對網頁進行評分的方法,關注人類興趣。網頁搜尋引擎必須與缺乏經驗的客戶端和操縱傳統排名服務的頁面進行組織。一些計算網頁可複製性質的評估方法對操縱免疫力不足。

任務是利用 Web 的超連結結構來生成每個網頁的全域性重要性排名。此排名稱為 PageRank。

Web 的機制依賴於一個具有大約 1.5 億個節點(網頁)和 17 億條邊(超連結)的圖。如果網頁 A 和 B 連結到網頁 C,則 A 和 B 被稱為 C 的反向連結。通常,連結較多的頁面更重要。因此,它們擁有更多反向連結,而重要的反向連結數量較少。

例如,具有來自雅虎的單個反向連結的網頁必須比具有來自未知或私人網站的多個反向連結的網頁排名更高。如果其反向連結的總排名過大,則網頁的排名很高。

以下是 PageRank 的簡化版本:令 u、v 為網頁。因此,令 Bu 為指向 u 的頁面組。此外,令 Nv 為來自 v 的多個連結。令 c < 1 為歸一化因子。它可以描述一個簡單的排名 R,它是 PageRank 的簡化解釋 -

$$\mathrm{R(u)\:=\:c\displaystyle\sum\limits_{u\in{Bu}}\frac{R(v)}{N_v}}$$

頁面的排名在其前向連線之間平均分配,以提供給它們標記的頁面的排名。該方程是遞迴的,但此簡化函式存在問題。

如果兩個網頁相互指向但沒有其他頁面,而其他一些網頁指向其中一個,則在迭代期間將生成一個迴圈。此迴圈將彙集排名,但永遠不會共享任何排名。此圖中由迴圈形成的、沒有出邊的陷阱稱為排名匯。

Page Rank 演算法首先將資料庫中的每個 URL 轉換為一個數字。下一階段是使用整數 ID 在資料庫中儲存每個超連結以識別網頁。在按父 ID 對連結結構進行排序並刪除懸空連結後,啟動迭代。

必須選擇最佳的初始分配以加快收斂速度。當前時間步長的權重儲存在記憶體中,前一個權重以線性時間訪問磁碟。在權重收斂後,將懸空連線插入回並重新計算排名。計算執行良好,但可以透過放寬收斂標準和使用更有效的最佳化方法來使其更快。

更新於: 2022 年 2 月 16 日

5K+ 次瀏覽

啟動您的 職業生涯

透過完成課程獲得認證

開始
廣告