敏捷資料科學 - 預測的作用



在本章中,我們將瞭解預測在敏捷資料科學中的作用。互動式報表揭示了資料的不同方面。預測構成敏捷衝刺的第四層。

Fourth Layer

在進行預測時,我們總是參考過去的資料並將其用作未來迭代的推論。在這個完整過程中,我們將資料從歷史資料的批次處理過渡到關於未來的即時資料。

預測的作用包括以下內容 -

  • 預測有助於預測。一些預測基於統計推斷。一些預測基於專家的意見。

  • 統計推斷涉及各種預測。

  • 有時預測是準確的,有時預測是不準確的。

預測分析

預測分析包括來自預測建模、機器學習和資料探勘的各種統計技術,這些技術分析當前和歷史事實以預測未來和未知事件。

預測分析需要訓練資料。訓練資料包括自變數和因變數。因變數是使用者試圖預測的值。自變數是描述我們想要根據因變數預測的事物的特徵。

對特徵的研究稱為特徵工程;這對於進行預測至關重要。資料視覺化和探索性資料分析是特徵工程的一部分;這些構成了敏捷資料科學的核心。

Feature Engineering

進行預測

在敏捷資料科學中,有兩種進行預測的方法 -

  • 迴歸

  • 分類

構建迴歸或分類完全取決於業務需求及其分析。連續變數的預測導致迴歸模型,而分類變數的預測導致分類模型。

迴歸

迴歸考慮包含特徵的示例,從而產生數值輸出。

分類

分類獲取輸入併產生分類分類。

注意 - 定義統計預測輸入並使機器能夠學習的示例資料集稱為“訓練資料”。

廣告