什麼是網路搜尋引擎?


網路搜尋引擎是一種專門的計算機伺服器,用於搜尋網路上的資料。使用者查詢的搜尋結果會以列表形式顯示(稱為命中結果)。命中結果可能包括網頁、影像和各種型別的檔案。

各種搜尋引擎還可以搜尋和返回公共資料庫或開放目錄中可用的資料。搜尋引擎與網路目錄的區別在於,網路目錄由人工編輯維護,而搜尋引擎則透過演算法或演算法與人工輸入相結合的方式運作。

網路搜尋引擎是大規模資料探勘應用程式。所有搜尋引擎的各個組成部分都使用了多種資料探勘技術,從抓取(例如,決定哪些頁面需要抓取以及抓取頻率)到索引(例如,選擇要索引的頁面以及確定索引的構建程度),再到搜尋(例如,決定如何對頁面進行排名,新增哪些廣告以及如何自定義搜尋結果或建立“上下文感知”)。

搜尋引擎給資料探勘帶來了巨大的挑戰。首先,它們必須管理海量且不斷增長的資料。通常,這些資料無法使用幾臺機器進行處理。相反,搜尋引擎需要使用雲計算,這包括數千甚至數十萬臺協同挖掘海量資訊的計算機。在雲計算和高度分散式資料集上擴充套件資料探勘方法是一個研究應用方向。

其次,網路搜尋引擎必須處理線上記錄。搜尋引擎無法在大型資料集上離線構建模型。它可以建立一個查詢分類器,根據查詢主題將搜尋查詢對映到預定義的元素。無論模型是否離線構建,模型的線上軟體都應該能夠快速即時地解決使用者查詢。

另一個挑戰是支援和增量重新整理快速增長的資料流上的模型。例如,查詢分類器需要持續地進行增量維護,因為新的查詢不斷增加,預定義的元素和資料分佈也會發生變化。一些當前的模型訓練方法是離線和靜態的,因此在這種方法中無法使用。

第三,網路搜尋引擎必須處理僅被少量查詢請求查詢的情況。假設搜尋引擎需要支援上下文感知的查詢指令。當用戶提出查詢時,搜尋引擎會嘗試使用客戶資料及其查詢歷史記錄來推斷查詢的上下文,以便在極短的時間內返回更個性化的答案。

更新於:2022年2月17日

749 次瀏覽

開啟你的職業生涯

完成課程,獲得認證

開始學習
廣告
© . All rights reserved.