資料探勘 - 貝葉斯分類



貝葉斯分類基於貝葉斯定理。貝葉斯分類器是統計分類器。貝葉斯分類器可以預測類成員機率,例如給定元組屬於特定類的機率。

貝葉斯定理

貝葉斯定理以托馬斯·貝葉斯命名。有兩種型別的機率:

  • 後驗機率 [P(H/X)]
  • 先驗機率 [P(H)]

其中X是資料元組,H是一些假設。

根據貝葉斯定理:

P(H/X)= P(X/H)P(H) / P(X)

貝葉斯信念網路

貝葉斯信念網路指定聯合條件機率分佈。它們也稱為信念網路、貝葉斯網路或機率網路。

  • 信念網路允許在變數子集之間定義類條件獨立性。

  • 它提供因果關係的圖形模型,可以在其上進行學習。

  • 我們可以使用訓練好的貝葉斯網路進行分類。

定義貝葉斯信念網路的兩個組成部分:

  • 有向無環圖
  • 一組條件機率表

有向無環圖

  • 有向無環圖中的每個節點表示一個隨機變數。
  • 這些變數可以是離散值或連續值。
  • 這些變數可能對應於資料中給出的實際屬性。

有向無環圖表示

下圖顯示了六個布林變數的有向無環圖。

Acyclic Graph

圖中的弧允許表示因果知識。例如,肺癌受一個人家族肺癌病史以及這個人是否吸菸的影響。值得注意的是,給定我們知道病人患有肺癌,變數“陽性X光”與病人是否有家族肺癌病史或病人是否吸菸無關。

條件機率表

變數LungCancer (LC) 的值的條件機率表顯示其父節點FamilyHistory (FH)和Smoker (S) 的值的每種可能組合,如下所示:

Probability Table
廣告