預測分析 - 統計方法與機器學習技術



預測建模是預測分析的基礎。預測分析和機器學習密切相關,因為預測模型最廣泛地用於機器學習演算法。這些模型會隨著時間的推移而進行訓練,以適應新的資料或值,並預測業務所需的見解。

有兩種型別的預測模型。分類模型預測類別成員,而迴歸模型預測數字。然後,這些模型由演算法組成。這些演算法進行資料探勘和統計分析,識別資料中的趨勢和模式。預測分析技術使用內建演算法,這些演算法可用於生成預測模型。這些演算法被稱為“分類器”,它們確定資料項對映到的類別。

在預測分析中應用的一些最常用的統計方法如下:

1. 迴歸分析

迴歸是一種統計分析技術,用於確定因變數和自變數之間的關係。迴歸對於識別大型資料集中的趨勢和確定輸入之間的相關性非常有效。它在具有已知分佈的連續資料上表現最佳。迴歸經常用於確定一個或多個自變數如何相互影響,例如價格上漲如何影響產品銷售。

迴歸分析主要分為兩類:

線性迴歸

線性迴歸分析主要使用線性方程來尋找因變數和一個或多個自變數之間的關係。它廣泛用於預測連續結果,例如銷售額或價格。

線性迴歸方程表示如下:

Y = a + bX

X 是沿 x 軸繪製的自變數,而 Y 是沿 y 軸繪製的因變數。

Lasso 和 Ridge 迴歸

這些是線性迴歸模型,它們使用懲罰(正則化)來防止過擬合,方法是減少不太重要的變數的係數。它最常用於涉及多個預測變數的場景——例如,使用多個變數預測房價。

邏輯迴歸

邏輯迴歸是迴歸分析的另一類;當因變數是分類變數(通常是二元類別,如成功/失敗、是/否)時,使用此模型。它確定事件發生的機率。

邏輯函式通常用於統計模型中,以對二元因變數進行建模。邏輯函式也稱為 S 型函式,其定義如下:

Sigmoid Function

此函式有助於邏輯迴歸模型將值從 (-k, k) 壓縮到 (0, 1)。邏輯迴歸主要用於二元分類任務,但也可以用於多類分類。

2. 分類模型

分類模型是預測分析中非常流行的一種統計模型。它們允許您根據其特徵識別或分類觀察結果。分類模型根據歷史資料對資料進行分類。分類模型使用訓練資料集,其中每個資料項都已標記。分類演算法確定資料和標籤之間的關係,並對新資料進行分類。決策樹、隨機森林和文字分析是一些最常見的分類建模。

Classification Models - 1

分類模型在不同行業中被廣泛使用,因為它們易於使用新資料重新訓練。銀行經常使用分類模型來檢測欺詐性交易。系統可以評估數百萬筆歷史交易以預測潛在的欺詐活動,並在使用者的帳戶行為看起來可疑時通知使用者。

支援向量機 (SVM)

SVM 是一種分類技術,它使用超平面來分離不同型別的資料。它在高維區域中執行良好,可用於分類和迴歸問題。例如:基於畫素資料的影像分類。

Support Vector Machines (SVM)
  • 超平面 - 多條線/決策邊界可用於在 n 維空間中分離類別,但我們必須確定哪個決策邊界適合對資料點進行分類。最佳邊界稱為 SVM 超平面。
  • 支援向量 - 支援向量是最靠近超平面的資料點或向量,並且會影響其位置。由於這些向量支撐超平面,因此它們被稱為支援向量。

貝葉斯方法

在統計學中,樸素貝葉斯也被稱為機率分類器,它使用貝葉斯定理對資料進行分類。該定理基於給定事實和先驗資訊的情況下,假設的機率。樸素貝葉斯分類器意味著輸入資料中的所有特徵彼此獨立,但這很少是實際情況。儘管有這個簡化的假設,但由於其效率和在現實世界中不同應用中的高效能,樸素貝葉斯分類器被廣泛使用。

貝葉斯推理使用貝葉斯定理來更新當有新資料可用時假設的機率。其最常見的應用是在機率推理和分類中。示例:根據指定術語的存在等特徵來預測垃圾郵件。

樸素貝葉斯

樸素貝葉斯是一種分類技術,它使用貝葉斯定理並假設特徵之間存在獨立性。它最常用於文字分類和推薦系統。例如 - 垃圾郵件分類。

主成分分析 (PCA)

PCA 是一種降維方法,它將資料轉換為一組稱為主成分的不相關變數。它最常用於特徵約簡,同時保留重要的資料可變性。例如,考慮減少大型資料集的複雜性以進行預測建模。

3. 聚類模型

聚類模型根據可比特徵組織資料。聚類模型使用資料矩陣,該矩陣將每個資料項與其相關特徵關聯起來。使用此矩陣,演算法將對具有相似屬性的專案進行聚類,從而識別資料中的模式。

Clustering Models - 1

組織可以使用聚類模型對客戶進行分組並制定更量身定製的營銷策略。例如,餐廳可能會按位置對客戶進行分組,並且只向居住在其最新地點指定行駛距離內的客戶傳送傳單。

K 近鄰

聚類演算法(例如 k 均值)用於根據其特徵將相似資料點劃分為聚類。它最常用於客戶細分。例如,為了預測未來的行動,將相似的客戶行為模式組合在一起。

K 近鄰 (k-NN) 是一種非引數方法,用於根據其最近鄰的大多數類別對物件進行分類。它最常用於分類,但也可以應用於迴歸。例如,可以根據客戶的購買行為將客戶分類到不同的組中。

決策樹

決策樹是分類模型,它根據不同的變數將資料分配到多個類別。總的來說,決策樹類似於流程圖,每個內部節點代表對特徵的“決策”,每個分支代表結果,每個葉子代表類標籤。它最常用於分類和迴歸問題。

在嘗試理解個人的決策時,該模型最適合。該模型類似於一棵樹,每個分支表示一個可能的選項,葉子表示決策的結果。決策樹通常易於理解,並且在資料集具有多個缺失變數時表現良好。示例:根據使用模式預測客戶流失。

隨機森林

隨機森林是一種整合方法,它使用許多決策樹並聚合它們的輸出以提高預測準確性。它最常用於分類和迴歸問題。示例:根據多個患者因素預測疾病診斷。這是決策樹的擴充套件,它建立了一個決策樹網路以提高準確性並減少過擬合。

梯度提升

梯度提升模型按順序建立樹,每棵樹都糾正前一棵樹的錯誤(例如,XGBoost)。梯度提升是一種整合方法,用於按順序構建模型,每個新模型都糾正前一個模型的錯誤。它最常用於分類和迴歸中的結構化/表格資料。示例:預測客戶生命週期價值。

4. 時間序列模型

時間序列模型收集關於時間的資料點。在現實世界中,大多數合適的示例可以將資料表示為時間序列,時間是預測分析中最常用的自變數之一。ARIMA(自迴歸積分移動平均)和指數平滑等時間序列分析方法用於對時間序列資料進行建模。它最常用於根據歷史趨勢預測未來值。例如 - 股票價格預測和需求預測。

Time-series Models - 1

這是一種非常典型的模型,它可能利用去年的資料來預測未來幾周的統計資料。Power BI 和 Tableau 等高階商業分析工具使組織能夠預測和分析不同的場景,而不會浪費時間和資源。由於時間是一個頻繁出現的變數,企業會將時間序列資料用於具有不同目的的不同應用。該模型的實際應用在於季節性分析(預測資產如何受到一年中特定時間的影響)和趨勢分析(識別資產隨時間的變化)。一些實際應用包括預測下一季度的收入、預測商店的訪客數量以及許多其他相關的應用。

5. 神經網路

神經網路是一種機器學習技術,在預測分析中發揮著至關重要的作用,可以發現複雜的關係。本質上,它們是模式識別演算法。神經網路是受人腦啟發的計算模型,由多層互連節點(“神經元”)組成。深度學習是具有多層的神經網路的一個子類。它主要用於影像分類和自然語言處理等複雜任務。例如:預測電子商務中的產品推薦。

Neural Networks

神經網路非常適合確定資料集中非線性相關性,尤其是在沒有已知的數學技術來分析資料的情況下。神經網路可以用來驗證決策樹和迴歸模型的輸出。

廣告
© . All rights reserved.