使用四分位距檢測資料中的異常值


簡介

資料分析在不同領域發揮著重要作用,包括商業、銀行、醫療保健和研究。資料分析中一個常見的挑戰是異常值的存在,異常值是指與資料總體模式顯著偏離的資料點。這些異常值可能會扭曲統計量並影響我們分析的準確性。因此,正確識別和處理異常值變得至關重要。在本文中,使用者將瞭解IQR的概念及其在識別資料中異常值方面的應用。

Python 程式來檢測異常值

演算法

步驟 1:計算資料集的均值和標準差。

步驟 2:透過查詢每個資料點偏離均值的標準差數來計算每個資料點的 Z 分數。

步驟 3:定義一個閾值來識別異常值。

步驟 4:識別 Z 分數大於閾值的資料點;這些被認為是異常值。

步驟 5:返回已識別異常值的索引或值,以便進行進一步分析或操作。

示例

#import the required module
import numpy as np

def detect_outliers(data, threshold=3):
    
    data = np.array(data)
    mean = np.mean(data)
    std_dev = np.std(data)
    z_scores = abs((data - mean) / std_dev)
    outliers = np.where(z_scores > threshold)[0]
    return outliers.tolist()

# Example usage:
if __name__ == "__main__":
    # Replace this example dataset with your predefined input
    dataset = [10, 12, 11, 15, 13, 18, 20, 14, 13, 200]
    outliers_indices = detect_outliers(dataset)

    if len(outliers_indices) > 0:
        print("Outliers detected at indices:", outliers_indices)
        print("Outlier values:", [dataset[i] for i in outliers_indices])
    else:
        print("No outliers detected in the dataset.")

輸出

 No outliers detected in the dataset.

使用IQR進行異常值檢測的優勢

  • 穩健性:四分位距是一種穩健的度量,這意味著與其他度量相比,它受極端值的影響較小。這使得它成為檢測異常值的可靠方法,尤其是在具有高變異性的資料集中。

  • 非引數:IQR 方法不依賴於資料的分佈假設,使其適用於偏斜和對稱資料集。當處理非正態資料時,它尤其有用,因為其他方法可能會失效。

  • 簡單直觀:IQR 的計算和異常值邊界的確定是直接且易於理解的。這使得該方法對各種使用者開放,即使是那些沒有高階統計知識的使用者。

侷限性和注意事項

雖然IQR方法是異常值檢測的重要工具,但它並非沒有侷限性。以下是一些需要考慮的因素

  • 對常數因子的敏感性:用於定義異常值範圍的常數因子的選擇會影響識別出的異常值數量。較小的常數(如 1.5)可能會識別出較少的異常值,而較大的常數(如 3)可能會捕獲更多極端值。常數的選擇應基於資料集的具體特徵和分析的背景。

  • 處理偏斜資料:IQR 方法在檢測高度偏斜資料集中的異常值方面可能效率不高。偏斜會導致四分位數受極端值影響,可能導致異常值的錯誤分類。在這種情況下,替代方法,例如轉換資料或使用專門的異常值檢測演算法,可能更合適。

  • 相關背景:不應在沒有進行適當分析的情況下自動丟棄或將異常值視為錯誤。擁有領域知識和特定於上下文的理解對於確定異常值是否為有效資料點或資料輸入錯誤、測量問題或其他相關因素的結果至關重要。分析異常值可以提供對資料中獨特模式、不一致或罕見事件的重要見解。

結論

四分位距是檢測資料中異常值的有價值的度量。透過考慮資料集的分佈並使用常數因子,IQR 方法提供了一種穩健且直觀的方法來識別潛在的異常值。但是,務必考慮該方法的侷限性併合理地應用它,同時考慮資料集的特徵和分析的特定環境。與領域知識和其他異常值檢測方法結合使用,IQR 方法可以顯著提高資料分析過程的準確性和可靠性。

更新於: 2023年7月28日

156 次檢視

啟動你的 職業生涯

透過完成課程獲得認證

開始
廣告

© . All rights reserved.