Python 時間序列分析：預測和異常檢測

Python 已經成為資料科學家和分析師的首選語言，它提供了全面的庫和工具來進行資料分析。特別是，Python 在時間序列分析中表現突出，在預測和異常檢測方面表現卓越。憑藉其簡單性、多功能性和對統計和機器學習技術的強大支援，Python 為從時間相關資料中提取有價值的見解提供了理想的平臺。

本文探討了 Python 在時間序列分析中的卓越能力，重點關注預測和異常檢測。透過深入研究這些任務的實際方面，我們重點介紹了 Python 的庫和工具如何實現精確預測以及識別時間序列資料中的異常。透過現實世界的例子和演示輸出，我們展示了 Python 在解決時間序列分析挑戰方面的效率和實用性。加入我們，一起探索 Python 在時間序列分析中的應用，並揭示我們時間相關資料中的隱藏寶藏。

使用 Python 進行預測

預測使我們能夠根據過去的觀察結果對未來的值進行預測。Python 提供了幾個強大的庫，例如 NumPy、pandas 和 scikit-learn，它們有助於時間序列預測。此外，像 statsmodels 和 Prophet 這樣的專門庫提供了更高階的預測功能。

在預測零售店下個月的銷售額的任務中，我們首先將時間序列資料載入到 pandas DataFrame 中並進行必要的準備。資料準備就緒後，我們可以探索各種預測方法，如移動平均、指數平滑和 ARIMA 模型，來分析和進行預測。

示例

這是一個示例程式碼

import pandas as pd
import statsmodels.api as sm

# Load and preprocess the time series data
sales_data = pd.read_csv('sales_data.csv', parse_dates=['Date'])
sales_data.set_index('Date', inplace=True)

# Fit the ARIMA model
model = sm.tsa.ARIMA(sales_data, order=(1, 1, 1))
model_fit = model.fit(disp=0)

# Make predictions
predictions = model_fit.predict(start='2023-07-01', end='2023-08-01', dynamic=False)

在這個例子中，我們從 CSV 檔案載入銷售資料，將日期列設定為索引，並對資料擬合 ARIMA(1, 1, 1) 模型。最後，我們對下個月進行預測。

使用 Python 進行異常檢測

異常檢測涉及識別時間序列資料中的異常模式。Python 提供了幾種有效異常檢測的技術和庫，包括一種基於移動平均和標準差的流行方法。

假設我們有一個感測器資料集，其中包含每小時的溫度讀數。我們正在尋找異常，例如溫度快速升高或降低。這是一個使用移動平均和標準差策略的程式碼示例

示例

import pandas as pd

# Load the time series data
sensor_data = pd.read_csv('sensor_data.csv', parse_dates=['Timestamp'])
sensor_data.set_index('Timestamp', inplace=True)

# Calculate moving averages and standard deviations
window_size = 6
rolling_mean = sensor_data['Temperature'].rolling(window=window_size).mean()
rolling_std = sensor_data['Temperature'].rolling(window=window_size).std()

# Detect anomalies
anomalies = sensor_data[(sensor_data['Temperature'] > rolling_mean + 2 * rolling_std) |
                        (sensor_data['Temperature'] < rolling_mean - 2 * rolling_std)]

在這個例子中，我們使用 6 小時的視窗大小來計算溫度測量的移動平均和標準差。然後，透過找到與移動平均值顯著偏離的資料點，我們能夠發現異常。

Python 時間序列分析的視覺化

Python 提供了強大的視覺化庫，這些庫可以增強我們對時間序列資料的理解，超越預測和異常檢測。視覺化有助於直觀地識別模式、趨勢和異常，從而獲得更好的見解和明智的決策。

讓我們擴充套件我們之前的例子，並結合 Python 的視覺化功能，以更深入地瞭解資料。

預測視覺化

使用 ARIMA 模型進行銷售預測後，我們可以將預期銷售額與實際銷售資料一起顯示。使用此視覺化可以輕鬆比較預期值和實際值。

示例

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.plot(sales_data.index, sales_data['Sales'], label='Actual Sales')
plt.plot(predictions.index, predictions, color='red', linestyle='--', label='Predicted Sales')
plt.title('Sales Forecasting')
plt.xlabel('Date')
plt.ylabel('Sales')
plt.legend()
plt.show()

在這個例子中，matplotlib 庫用於生成線圖，直觀地表示實際銷售資料和預測銷售資料。這種圖形表示使我們能夠評估預測模型的準確性，並識別預測值和觀察值之間的任何差異。

異常檢測視覺化

異常檢測視覺化涉及建立圖表，顯示時間序列資料、計算出的移動平均值和檢測到的異常。這種視覺表示允許清晰地識別和分析異常資料點。這是一個例子

示例

import pandas as pd
import matplotlib.pyplot as plt

sensor_data = pd.read_csv('sensor_data.csv', parse_dates=['Timestamp'])
sensor_data.set_index('Timestamp', inplace=True)

window_size = 6
rolling_mean = sensor_data['Temperature'].rolling(window=window_size).mean()
rolling_std = sensor_data['Temperature'].rolling(window=window_size).std()

anomalies = sensor_data[(sensor_data['Temperature'] > rolling_mean + 2 * rolling_std) |
                        (sensor_data['Temperature'] < rolling_mean - 2 * rolling_std)]

plt.figure(figsize=(10, 6))
plt.plot(sensor_data.index, sensor_data['Temperature'], label='Temperature')
plt.plot(sensor_data.index, rolling_mean, color='red', linestyle='--', label='Moving Average')
plt.scatter(anomalies.index, anomalies['Temperature'], color='orange', label='Anomalies')
plt.title('Anomaly Detection: Temperature Sensor')
plt.xlabel('Timestamp')
plt.ylabel('Temperature')
plt.legend()
plt.show()

程式碼示例從 CSV 檔案載入時間序列資料，並將時間戳列設定為索引。然後，它使用特定的視窗大小計算溫度讀數的移動平均值和標準差。透過將溫度值與計算出的移動平均值和標準差進行比較，可以檢測到異常。

結論

總之，Python 被證明是時間序列分析中一項寶貴的工具，尤其是在預測和異常檢測領域。它廣泛的庫，包括 statsmodels、pandas 和 scikit-learn，提供了一個強大的生態系統，專門用於處理時間序列資料。透過利用這些庫的力量，可以構建精確的預測模型（如 ARIMA），並可以使用移動平均和標準差等技術識別異常。此外，Python 的視覺化庫（如 matplotlib）使使用者能夠建立視覺上引人注目的圖表，從而加深他們對時間序列資料的理解。無論專業水平如何，Python 都為初學者和經驗豐富的資料科學家提供了必要的資源，以便在時間序列資料集中發現趨勢、做出精確預測和識別異常。

Prince Yadav

更新於： 2023-07-28

365 次瀏覽

開啟您的職業生涯

透過完成課程獲得認證

開始學習