- 熱門分類
資料結構 (Shùjù jiégòu)
網路 (Wǎngluò)
關係資料庫管理系統 (Guānxi dànshùjù guǎnlǐ xìtǒng, RDBMS)
作業系統 (Càozùo xìtǒng)
Java
MS Excel
iOS
HTML
CSS
Android
Python
C語言程式設計 (C yǔyán biānchéng)
C++
C#
MongoDB
MySQL
Javascript
PHP物理學 (Wùlǐxué)
化學 (Huàxué)
生物學 (Shēngwùxué)
數學 (Shùxué)
英語 (Yīngyǔ)
經濟學 (Jīngjìxué)
心理學 (Xīnlǐxué)
社會學 (Shèhuìxué)
服裝設計 (Fúzhuāng shèjì)
法學 (Fǎxué)
為什麼樸素貝葉斯分類器被稱為“樸素” (Pǔsù)?
貝葉斯分類器是統計分類器。它們可以預測類成員機率,例如給定樣本屬於特定類的機率。貝葉斯分類器應用於大型資料庫時也表現出很高的準確性和速度。
一旦定義了類別,系統應該推斷控制分類的規則,因此係統應該能夠找到每個類別的描述。描述應該只參考訓練集的預測屬性,以便只有正例應該滿足描述,而不是反例。如果規則的描述涵蓋所有正例並且沒有涵蓋任何反例,則該規則被認為是正確的。
它假設所有屬性的貢獻都是獨立的,並且每個屬性對分類問題貢獻相同,這是一種稱為樸素貝葉斯分類的簡單分類方案。透過分析每個“獨立”屬性的貢獻,可以確定條件機率。透過組合不同屬性對要進行的預測的影響來進行分類。
樸素貝葉斯分類之所以被稱為樸素,是因為它假設類條件獨立性。屬性值對給定類別的影響獨立於其他屬性的值。做出這個假設是為了降低計算成本,因此它被認為是“樸素”的。
貝葉斯定理 − 令 X 為資料元組。在貝葉斯術語中,X 被認為是“證據”。令 H 為某種假設,例如資料元組 X 屬於指定的類 C。確定機率 P(H|X) 來對資料進行分類。此機率 P(H|X) 是在給定“證據”或觀察到的資料元組 X 的情況下假設 H 成立的機率。
P(H|X) 是以 X 為條件的 H 的後驗機率。例如,假設資料元組的世界僅限於分別由屬性年齡和收入描述的客戶,並且 X 是 30 歲的客戶,收入為 20,000 元。假設 H 是客戶將購買電腦的假設。然後 P(H|X) 反映了已知客戶的年齡和收入的情況下,客戶 X 將購買電腦的機率。
P(H) 是 H 的先驗機率。例如,這是任何給定客戶購買電腦的機率,而不管年齡、收入或任何其他資訊。後驗機率 P(H|X) 基於比先驗機率 P(H) 更多的資訊,先驗機率 P(H) 與 X 無關。
類似地,P(X|H) 是以 H 為條件的 X 的後驗機率。它是客戶 X 年齡為 30 歲且收入為 20,000 元的機率。
P(H)、P(X|H) 和 P(X) 可以從給定資料中估計。貝葉斯定理提供了一種從 P(H)、P(X|H) 和 P(X) 計算後驗機率 P(H|X) 的方法。它由下式給出
$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$