時間序列資料集的正確交叉驗證技術


介紹

在處理時間序列資料時,採用考慮資料時間順序的交叉驗證方法至關重要。這是因為時間序列資料顯示出自相關性,這意味著資料點的值與其先前值相關。因此,與許多其他機器學習應用不同,資料不能被認為是獨立同分布 (iid) 的。

標準的k折交叉驗證技術,它將資料隨機分成k折,在k-1折上訓練模型,然後在剩餘的一折上進行測試,對於時間序列資料來說是不充分的。這是因為忽略了資料的時序性,可能導致過擬合。現在我們將介紹一些可以應用於時間序列資料集的交叉驗證策略。

什麼是時間序列資料集?

時間序列是按時間順序排列的一系列觀測資料。它用於根據特定時間間隔收集的資料點來評估資料模式、趨勢和關係。時間序列資料用於經濟學、股票市場研究、天氣預報和金融等領域。時間序列資料的例子包括每小時的溫度讀數、每日的股票價格和每月的銷售額。時間序列分析技術用於根據時間趨勢分析和預測資料。

什麼是交叉驗證?

交叉驗證是一種機器學習技術,用於評估模型在多個數據集上的效能。它包括將資料集分成訓練集和測試集,然後使用訓練集訓練模型。然後使用結果來預測模型在新資料上的效能。然後使用測試集來評估模型的效能。交叉驗證是必要的,以確保模型能很好地泛化到新資料,並可用於評估不同模型的有效性。

時間序列資料集交叉驗證步驟

  • 訓練/測試分割

    使用訓練/測試分割,將資料分成訓練集和測試集,是最基本的方法。訓練集用於訓練模型,而測試集用於測試模型。但是,由於時間序列資料具有時間順序,因此必須相應地分割資料。

    實現此目的的一種方法是根據指定的時間點將資料分成兩半。例如,如果我們有每小時的資料,我們可以將其分成訓練集(資料的前80%)和測試集(資料的後20%)。這確保了模型使用較早的時間點進行訓練,並使用較晚的時間點進行評估。

  • 滾動視窗交叉驗證

    這是一種考慮資料時間順序的策略。它包括在訓練資料的一個子集上訓練模型,然後在下一批資料點上測試模型。然後將視窗向前移動預定義數量的資料點,並重復該過程。

    假設我們有每小時的資料,並希望使用24小時的滾動視窗(即,我們在24小時的資料上訓練模型,並在接下來的1小時資料上進行測試)。我們可以從在資料的前24小時上訓練模型並在第25小時的資料上進行測試開始。然後,我們將視窗向前移動一小時並重復該過程,在第2-25小時的資料上訓練模型並在第26小時的資料上進行測試。重複此方法,直到資料用完。

    滾動視窗交叉驗證的優點是它尊重資料的時序,並允許評估模型對未來和類似資料的效能。

  • 分塊時間序列交叉驗證

    分塊時間序列交叉驗證是一種將資料分成塊,並使用每個塊作為測試集,而其餘資料作為訓練集的技術。

    假設我們有每週的資料,並希望使用分塊時間序列交叉驗證的兩個塊。我們可以將資料分成前50周和後50周。然後,模型將在前50周進行訓練,並在後50周進行測試。然後反轉該過程,模型在後50周進行訓練,在前50周進行測試。

    分塊時間序列交叉驗證的一個優點是,可以評估模型在更遙遠未來的資料上的效能。這對於預測任務非常有用。

  • 分組時間序列交叉驗證

    分組時間序列交叉驗證是一種根據某些標準(例如,地理位置、客戶細分)將資料分組,並使用每個組作為測試集,而其餘資料作為訓練集的策略。

    如果我們有多個地點的每日資料,並希望應用分組時間序列交叉驗證。我們可以根據地理位置將資料分組,每個組包含來自特定區域的資料。然後,模型將在除一個區域外的所有區域的資料上進行訓練,並在該區域的資料上進行測試。然後對每個區域重複此方法。

    在處理資料在不同組中表現出不同模式或行為的專案時,分組時間序列交叉驗證是有利的,因為它允許我們獨立地評估模型在每個組的資料上的效能。

  • 淨化時間序列交叉驗證

    在處理金融時間序列資料時,淨化時間序列交叉驗證是一種有價值的方法。金融時間序列資料通常包含可能導致模型效能評估偏差的事件(例如,股票分割、股息)。

    淨化時間序列交叉驗證是指消除事件發生後特定時間範圍(例如,5天)內發生的所有資料點。這確保了測試集中不包含受事件影響的資料點。

    假設我們有每日股票資料,並希望使用淨化時間序列交叉驗證。如果股票分割發生在第10天,我們將消除未來5天內發生的所有資料點。然後,模型將在剩餘的資料上進行訓練,並在時間視窗之外的資料上進行測試。

    淨化時間序列交叉驗證的好處是,它允許我們評估模型的效能,而不會受到資料事件的影響。

結論

總之,在處理時間序列資料時,採用考慮資料時間順序的交叉驗證方法至關重要。本文討論的方法(訓練/測試分割、滾動視窗交叉驗證、分塊時間序列交叉驗證、分組時間序列交叉驗證和淨化時間序列交叉驗證)都適用於時間序列資料,可以根據手頭的任務使用。應使用適當的交叉驗證方法評估模型的效能,以驗證模型能夠有效地泛化到未來資料。

更新於:2023年7月24日

440 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告