如何利用中心頁面查詢權威頁面?
中心頁面是一組網頁,它支援指向權威頁面的連結集。中心頁面可能並不突出,或者可能存在指向它們的某些連結;但是,它們支援指向某個一般主題上的一組突出網站的連結。
此類頁面可以是單個主頁上推薦連線的列表,包括課程主頁上推薦的參考網站,或商業網站上專業整理的資源文件。中心頁面在隱式地賦予目標主題權威性方面發揮著重要作用。
一般來說,一個好的中心頁面是指向幾個好的權威頁面的頁面;一個好的權威頁面是指向它的幾個好的中心頁面所指示的頁面。中心頁面和權威頁面之間這種相互增強的關係支援挖掘權威網頁並自動發現高質量的網頁架構和資源。
一種利用中心頁面的演算法,稱為HITS(超連結誘導主題搜尋),其產生過程如下。首先,HITS需要查詢詞來從基於索引的搜尋引擎中收集一組起始頁面,例如200個頁面。這些頁面構成核心集。
由於許多頁面可能與搜尋主題相關,因此其中一些頁面應該包含指向大多數突出權威頁面的連結。因此,可以透過包含核心集頁面連結到的某些頁面以及連結到核心集中的頁面的某些頁面來將核心集擴充套件到基礎集,直到達到指定的截止大小,包括1000到5000個頁面(包含在基礎集中)。
其次,啟動權重傳播過程。這個迭代階段決定了中心頁面和權威頁面權重的統計估計。兩個具有相同Web域(即在它們的URL中傳送相同的第一個級別)的頁面之間的連結充當導航服務,因此不會賦予權威性。此類連結未經權重傳播分析授權。
谷歌的PageRank演算法依賴於相同的原理。透過探索Web連結和文字上下文資料,已經證明,與AltaVista等術語索引引擎建立的那些以及Yahoo!等人工本體論生成的那些相比,此類系統可以獲得更高質量的搜尋結果。
連結分析演算法依賴於以下兩個假設。首先,連結傳送人類認可。如果從頁面A到頁面B存在連結,並且這兩個頁面是由幾個人創作的,則該連結表示頁面A的作者發現頁面B很有價值。因此,頁面的重要性可以提高到它連結到的那些頁面。其次,特定頁面共同引用的頁面很可能與同一主題相關。