什麼是基於熵的離散化?
基於熵的離散化是一種監督的、自頂向下的分割方法。它在計算和保留分割點(用於分離屬性範圍的資料值)時,會探索類分佈資料。它可以離散化一個統計屬性 A,該方法選擇熵最小的 A 值作為分割點,並遞迴地劃分結果區間以出現在分層離散化中。
特定的離散化形成了 A 的概念層次結構。假設 D 包含由一組屬性和一個類標籤屬性描述的資料元組。類標籤屬性支援每個元組的類資料。基於熵的屬性 A 在集合內部的離散化的基本方法如下:
A 的每個值都可以被視為一個潛在的區間邊界或分割點(指示分割點)來劃分 A 的範圍。也就是說,A 的分割點可以將 D 中的元組劃分為兩個子集,分別滿足 A ≤ 分割點和 A > 分割點條件,從而形成二元離散化。
基於熵的離散化使用有關元組類標籤的資料。它可以定義基於熵的離散化的直覺,它應該對分類有一個瞭解。假設需要透過對屬性 A 和一些分割點進行分割槽來定義 D 中的元組。
例如,如果我們有兩個類,可以希望一些元組(例如,類 C1)會下降到一個分割槽中,而一些類 C2 的元組會下降到另一個分割槽中。但這不太可能。例如,第一個分割槽可以包含幾個 C1 的元組,但也包含一些 C2 的元組。此數量稱為基於 A 進行分割槽時,定義 D 中元組的預期資料需求。它由下式給出:
$$\mathrm{Info_A(D)\:=\:\frac{\mid\:D_1\:\mid}{\mid\:D\:\mid}Entrophy(D_1)\:+\:\frac{\mid\:D_2\:\mid}{\mid\:D\:\mid}Entrophy(D_2)}$$
其中 D1 和 D2 分別對應於 D 中滿足條件 A ≤ 分割點和 A > 分割點 的元組;|D| 是 D 中元組的數量,等等。給定集合的熵值是根據集合中元組的類分佈計算的。
例如,給定 m 個類,C1、C2…Cm,D1 的熵為:
$$\mathrm{Entrophy(D_1)}\:=\:-\displaystyle\sum\limits_{i=1}^m P_i{\log_{2}(P_i)}$$
確定分割點的階段遞迴地應用於獲得的每個分割槽,直到滿足某些停止條件,包括當所有學生分割點的最小資料需求小於一個小閾值 ε,或者當區間數量大於閾值 max_interval 時。