為什麼樸素貝葉斯分類器被稱為“樸素” (Pǔsù)?


貝葉斯分類器是統計分類器。它們可以預測類成員機率,例如給定樣本屬於特定類的機率。貝葉斯分類器應用於大型資料庫時也表現出很高的準確性和速度。

一旦定義了類別,系統應該推斷控制分類的規則,因此係統應該能夠找到每個類別的描述。描述應該只參考訓練集的預測屬性,以便只有正例應該滿足描述,而不是反例。如果規則的描述涵蓋所有正例並且沒有涵蓋任何反例,則該規則被認為是正確的。

它假設所有屬性的貢獻都是獨立的,並且每個屬性對分類問題貢獻相同,這是一種稱為樸素貝葉斯分類的簡單分類方案。透過分析每個“獨立”屬性的貢獻,可以確定條件機率。透過組合不同屬性對要進行的預測的影響來進行分類。

樸素貝葉斯分類之所以被稱為樸素,是因為它假設類條件獨立性。屬性值對給定類別的影響獨立於其他屬性的值。做出這個假設是為了降低計算成本,因此它被認為是“樸素”的。

貝葉斯定理 − 令 X 為資料元組。在貝葉斯術語中,X 被認為是“證據”。令 H 為某種假設,例如資料元組 X 屬於指定的類 C。確定機率 P(H|X) 來對資料進行分類。此機率 P(H|X) 是在給定“證據”或觀察到的資料元組 X 的情況下假設 H 成立的機率。

P(H|X) 是以 X 為條件的 H 的後驗機率。例如,假設資料元組的世界僅限於分別由屬性年齡和收入描述的客戶,並且 X 是 30 歲的客戶,收入為 20,000 元。假設 H 是客戶將購買電腦的假設。然後 P(H|X) 反映了已知客戶的年齡和收入的情況下,客戶 X 將購買電腦的機率。

P(H) 是 H 的先驗機率。例如,這是任何給定客戶購買電腦的機率,而不管年齡、收入或任何其他資訊。後驗機率 P(H|X) 基於比先驗機率 P(H) 更多的資訊,先驗機率 P(H) 與 X 無關。

類似地,P(X|H) 是以 H 為條件的 X 的後驗機率。它是客戶 X 年齡為 30 歲且收入為 20,000 元的機率。

P(H)、P(X|H) 和 P(X) 可以從給定資料中估計。貝葉斯定理提供了一種從 P(H)、P(X|H) 和 P(X) 計算後驗機率 P(H|X) 的方法。它由下式給出

$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$

更新於: 2021年11月23日

3K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.