使用 R 進行時間序列分析指南

簡介

時間序列分析是一種強大的統計技術，用於分析在特定時間段內以固定間隔收集的資料點。它使我們能夠發現數據中的模式、趨勢和依賴關係，使其成為預測和理解時間資料的重要工具。在本指南中，我們將使用 R 程式語言探索時間序列分析的基礎知識，R 程式語言是資料科學家和統計學家中流行的選擇。

理解時間序列資料

A. 時間序列資料的定義和特徵

時間序列資料是指按時間順序以固定間隔收集的一系列觀測值。它可以用單個變數或多個變量表示。
時間序列資料的組成部分包括−

趨勢 − 它表示資料的長期運動或方向。趨勢可以是向上的（增加）、向下的（減少）或平穩的（沒有顯著變化）。
季節性 − 它指的是在特定時間間隔內出現的規律模式或波動，例如每日、每週或每年的週期。
噪聲 − 它表示資料中存在的隨機變化或不規則性，這些變化或不規則性不能歸因於趨勢或季節性。

B. 時間序列模式的型別

趨勢 − 時間序列資料可以呈現不同型別的趨勢。向上趨勢表示隨著時間的推移持續增加，向下趨勢表示持續減少，平穩趨勢表示沒有顯著變化。
季節性 − 時間序列資料可能包含在固定間隔內重複出現的規律模式，稱為季節性。它可以是規律的（例如，節日期間銷售額增加）或不規律的（例如，需求的零星峰值）。
週期性模式 − 除了季節性之外，時間序列資料也可能表現出週期性模式。週期性模式是較長期的波動，沒有固定的週期，例如經濟週期。

C. 時間序列資料視覺化

時間序列資料的視覺化有助於理解其潛在的模式和趨勢。在 R 中，ts() 函式通常用於建立時間序列物件。
透過繪製時間序列資料，可以直觀地檢查趨勢和季節性。常見的視覺化技術包括折線圖、散點圖和季節性分解圖。

在 R 中準備時間序列資料

A. 匯入和載入時間序列資料

R 提供了各種函式來從不同的檔案格式匯入時間序列資料，例如 read.csv() 用於 CSV 檔案和 read_excel() 用於 Excel 檔案。
匯入資料後，需要將其轉換為 R 中的時間序列物件。這可以透過使用諸如 ts() 之類的函式或 xts 或 zoo 之類的專用包來完成。

B. 處理缺失值

時間序列資料通常包含缺失值，這可能會干擾分析和建模過程。識別和處理缺失值至關重要。
處理時間序列資料中缺失值的技術包括插補方法，例如線性插值、季節性分解或狀態空間建模等高階方法。

C. 重取樣和聚合

重取樣涉及更改資料的時序解析度，可以透過上取樣（增加頻率）或下采樣（減少頻率）來實現。
聚合是指在特定時間間隔內彙總資料。例如，將每日資料轉換為每月或每年的聚合資料。

時間序列的探索性資料分析 (EDA)

A. 分解

時間序列資料的分解有助於理解其組成部分：趨勢、季節性和殘差（或誤差）。
加法和乘法模型通常用於分解，其中組成部分要麼相加要麼相乘。
分解使我們能夠分離趨勢和季節性，從而更容易分析和建模資料。

B. 自相關和偏自相關分析

自相關測量時間序列與其滯後值之間的相關性。它有助於識別資料中的模式和依賴關係。
偏自相關測量時間序列與其滯後值之間的相關性，同時消除了中間滯後的影響。它有助於確定時間序列建模中自迴歸 (AR) 和移動平均 (MA) 分量的階數。

時間序列預測技術

A. 平滑技術

移動平均和加權移動平均是簡單的平滑技術，可以提供原始時間序列的平滑版本。
指數平滑方法，例如簡單指數平滑、雙指數平滑和三指數平滑（Holt-Winters 方法），結合了過去觀測值的加權平均值來預測未來值。

B. 自迴歸積分移動平均 (ARIMA)

ARIMA 模型廣泛用於時間序列預測。它們結合了自迴歸 (AR)、差分 (I) 和移動平均 (MA) 分量。
識別合適的 ARIMA 引數階數 (p、d、q) 至關重要。差分階數 (d) 決定了資料的平穩性，而 AR 和 MA 階數 (p 和 q) 捕獲了依賴關係。

C. 季節性 ARIMA (SARIMA)

SARIMA 模型擴充套件了 ARIMA 框架，以將時間序列資料中的季節性納入其中。
除了 ARIMA 引數之外，SARIMA 模型還包括季節性階數 (P、D、Q、s)，其中 P 和 Q 表示季節性自迴歸和移動平均分量，D 表示季節性差分，s 表示季節性週期的長度。

D. Prophet

Prophet 是 Facebook 開發的一個預測包，它結合了時間序列分解和基於迴歸的建模。
它以靈活且自動化的方式處理趨勢變化、季節性和節假日效應，使其適用於預測任務。

評估和驗證時間序列模型

A. 訓練-測試拆分

為了評估時間序列模型的效能，資料被分成訓練集和測試集。
訓練集用於構建模型，而測試集用於評估其準確性和泛化能力。
適當的拆分比例取決於時間序列的長度和預測範圍。

B. 預測評估指標

平均絕對誤差 (MAE)、均方根誤差 (RMSE) 和平均絕對百分比誤差 (MAPE) 是常用的評估預測準確性的指標。
MAE 和 RMSE 測量預測值和實際值之間的平均差異，而 MAPE 提供相對於實際值的百分比誤差。

C. 交叉驗證

交叉驗證有助於評估時間序列模型的穩健性和泛化能力。
K 折交叉驗證適用於時間序列資料，它涉及將資料分成多個摺疊，同時保留時間順序。

時間序列分析的高階主題

A. 時間序列的季節性分解 (STL)

STL 是一種將時間序列分解成趨勢、季節性和殘差分量的技術。
它處理不規則的季節性，並且可以適應隨著時間的推移而變化的趨勢模式。

B. 長短期記憶 (LSTM) 網路

LSTM 網路是一種迴圈神經網路 (RNN)，擅長捕獲時間序列資料中的長期依賴關係。
當處理複雜和非線性的時間模式時，它們特別有用。
在 R 中實現 LSTM 網路涉及使用 Keras 和 TensorFlow 等深度學習框架。

時間序列異常檢測

A. 識別時間序列資料中的異常

異常是指與時間序列資料中預期模式顯著偏離的觀測值。
點異常是突出的單個數據點，上下文異常發生在特定上下文中，而集體異常涉及相關觀測值的組。

B. R 中的時間序列異常檢測

R 提供了各種時間序列異常檢測技術。
統計方法，例如 Z 分數和 Grubbs 檢驗，可以應用於根據與均值或其他統計量的偏差來識別異常。
基於機器學習的方法，例如隔離森林和自動編碼器，可以透過學習資料中的正常模式來檢測異常。

時間序列異常檢測的各種技術

統計方法，例如 Z 分數和 Grubbs 檢驗，可以應用於根據與均值或其他統計量的偏差來識別異常。
基於機器學習的方法，例如隔離森林和自動編碼器，可以透過學習資料中的正常模式來檢測異常。

時間序列視覺化和交流

A. 繪製時間序列資料

R 透過 ggplot2 和 plotly 等包提供了多功能的繪圖功能。
時間序列資料可以使用線圖、散點圖或自定義圖來視覺化，以突出趨勢、季節性和異常值。
新增標籤、標題和圖例可以增強視覺化的可解釋性和可傳達性。

B. 互動式儀表板和報表

R Shiny是一個強大的框架，用於構建互動式儀表板，允許使用者以視覺化的方式探索和互動時間序列資料。
R Markdown支援建立動態報表和簡報，其中包含程式碼、視覺化和解釋性文字。

結論

在本綜合指南中，我們探討了使用R進行時間序列分析的基礎知識。

我們涵蓋了時間序列資料的定義和特徵、模式型別、資料準備技術、EDA方法、預測技術（包括平滑、ARIMA、SARIMA和Prophet模型）、模型評估和驗證、高階主題（如STL分解和LSTM網路）、異常檢測技術以及時間序列的視覺化和傳達。

透過利用R及其廣泛的軟體包的功能，您可以從時間序列資料中獲得有價值的見解，進行準確的預測，檢測異常值，並有效地傳達您的發現。

Swatantraveer Arya

更新於： 2023年8月30日

260 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

立即開始