資料探勘的轉換是什麼?


資料探勘是從儲存在儲存庫中的大量資料中提取有用的新關聯、模式和趨勢的過程,使用包括統計和數學技術的模式識別技術。它是對事實資料集的分析,以發現意想不到的關係,並以對資料所有者來說既合乎邏輯又有所幫助的新穎方法彙總記錄。

資料探勘有各種轉換,如下所示:

標記正常、異常、超出範圍或不可能的事實 - 用特殊標記標記測量的事實可能完全有益。一些測量的事實可能是正確的,但非常不尋常。也許這些事實是基於小樣本或特定情況建立的。

其他事實可能存在於資料中,但必須被視為不可能或無法解釋的。對於每種情況,最好用狀態標記標記資料,以便可以將其約束到分析中或從分析中排除,而不是從表中刪除異常值。

處理這些情況的一個好方法是為事實記錄建立一個特殊的資料狀態維度。它可能需要此維度作為約束並定義每個事實的狀態。

從上下文中識別隨機值或噪聲值並遮蔽 - 前一個轉換的一個特例是識別遺留系統何時提供了一個隨機數而不是一個真實的事實。當遺留系統不打算傳遞任何值時,可能會發生這種情況,但緩衝區中剩餘的數字已被傳遞到資料倉庫。當識別出這種情況時,應使用空值恢復隨機數。

對空值應用統一處理 - 資料探勘工具對“不存在”和“存在但未知”之間的區別很敏感。在第二種情況下,一些資料探勘專業人員分配最可能的值或中值,以便事實表記錄的其餘部分可以參與分析。

這可以在原始資料中透過用估計值覆蓋空值來完成,或者可以透過知道如何使用各種分析選項處理空資料的複雜資料探勘工具來處理。

標記狀態已更改的事實記錄 - 一個有用的資料轉換是在事實表記錄中新增一個特殊的狀態指示器,以顯示該帳戶(或客戶或產品或位置)的狀態剛剛更改或即將更改。狀態指示器在星形連線設計中實現為狀態維度。

更新於: 2022年2月10日

360 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告