什麼是廣義線性模型?


廣義線性模型定義了線性迴歸可用於對分類響應變數建模的理論依據。在廣義線性模型中,響應變數 y 的方差是 y 的平均值的函式,這與線性迴歸不同,線上性迴歸中,y 的方差是常數。

廣義線性模型 (GLM) 是傳統線性模型的擴充套件。該演算法透過最大化對數似然函式將廣義線性模型擬合到資料中。彈性網路懲罰可用於引數正則化。模型擬合計算是並行的,非常快,並且對於具有固定數量的具有非零係數的預測變數的模型完全擴充套件。

廣義線性模型有兩種型別,例如邏輯迴歸和泊松迴歸。邏輯迴歸將各種事件出現的機率建模為一組預測變數的線性函式。計數資料通常表現出泊松分佈,並且通常使用泊松迴歸進行建模。

對數線性模型精確地表示離散多維機率分佈。它們可以用來計算與資料立方體單元相關的機率值。例如,假設給定屬性城市、專案、年份和銷售額的資料。在對數線性方法中,所有屬性都應該是分類的,因此連續值屬性(如銷售額)應該離散化。

該方法可用於計算給定屬性的 4D 基本立方體中每個單元的機率,這取決於城市和專案、城市和年份、城市和銷售額的 2D 立方體,以及專案、年份和銷售額的 3D 立方體。在這種方法中,可以使用迭代方法從低階立方體生成高階資料立方體。

該方法可以很好地擴充套件到多個維度。除了預測之外,對數線性模型還有利於資料壓縮(因為較低階的立方體通常比基本立方體佔用更少的空間)和資料平滑(因為較低階立方體中的單元格計算比基本立方體中的單元格計算受抽樣變化的影響較小)。

決策樹歸納可以適合於預測連續(有序)值,而不是類標籤。有兩種型別的預測樹:迴歸樹和模型樹。迴歸樹被提議作為 CART 學習系統的一部分。

每個迴歸樹葉儲存一個連續值預測,它是到達該葉的訓練元組的預測屬性的平均值。相反,在模型樹中,每個葉節點影響一個迴歸模型,以及預測屬性的多元線性方程。當資料不能很好地由簡單的線性模型定義時,迴歸樹和模型樹往往比線性迴歸更有效。

更新於: 2022-02-16

932 次瀏覽

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告