異常值是如何計算的?


有三種度量被用作異常指標,以支援識別資料異常。這些度量表示單元格中數量的影響程度,相對於其預期值。

這些度量被計算並與每個單元格關聯,用於所有聚合級別。它們如下所示,包括 SelfExp、InExp 和 PathExp 度量基於數值方法進行表格分析。

單元格值被視為異常取決於它與預期值的差異程度,其中其預期值由統計模型決定。給定單元格值與其預期值之間的差異稱為殘差。

直觀地,殘差越高,提供的單元格值越可能是異常。殘差值的比較要求我們根據與殘差相關的預期標準偏差對值進行縮放。因此,如果單元格值的縮放殘差值超過預先指定的閾值,則將其視為異常。

SelfExp、InExp 和 PathExp 度量基於此縮放殘差。給定單元格的預期值是提供單元格的更高級別分組的函式。例如,給定一個具有三個維度 A、B 和 C 的多維資料集,在 A 的第 i 個位置、B 的第 j 個位置和 C 的第 k 個位置的單元格的預期值是 γ、γAi、γBj、γCk、γABij、γACik 和 γBCjk 的函式,它們是所用數值模型的係數。

這些係數遵循更高級別上值的差異方式,這取決於透過檢視更高級別聚合形成的廣義印象。在這種方法中,單元格值的異常質量取決於其後值的異常。因此,在檢視異常時,使用者必須透過向下鑽取來分析異常。

此計算包括三個階段,如下所示 -

  • 第一步包括計算定義多維資料集的聚合值,包括總和或計數,在此基礎上將發現異常。

  • 第二階段包括模型擬合,其中確定係數並用於計算標準化殘差。此階段可以與第一階段重疊,因為計算相同。

  • 第三階段根據標準化殘差計算 SelfExp、InExp 和 PathExp 值。此階段在計算上等效於階段 1。因此,可以有效地完成用於發現驅動探索的資料多維資料集的計算。

更新於: 2022年2月16日

206 次瀏覽

啟動你的 職業生涯

透過完成課程獲得認證

開始
廣告