資料探勘 - 分類與預測



有兩種形式的資料分析可用於提取描述重要類別或預測未來資料趨勢的模型。這兩種形式如下:

  • 分類
  • 預測

分類模型預測類別類標籤;預測模型預測連續值函式。例如,我們可以構建一個分類模型來將銀行貸款申請分類為安全或有風險,或者構建一個預測模型來預測潛在客戶在計算機裝置上的支出(美元),給定他們的收入和職業。

什麼是分類?

以下是資料分析任務為分類的示例:

  • 銀行貸款員希望分析資料,以瞭解哪些客戶(貸款申請人)是有風險的,哪些是安全的。

  • 公司的一位市場經理需要分析具有給定個人資料的客戶,這些人會購買新電腦。

在以上兩個例子中,都構建了一個模型或分類器來預測類別標籤。這些標籤對於貸款申請資料是“有風險”或“安全”,對於市場資料是“是”或“否”。

什麼是預測?

以下是資料分析任務為預測的示例:

假設市場經理需要預測給定客戶在其公司促銷期間將花費多少錢。在這個例子中,我們關心的是預測一個數值。因此,資料分析任務是數值預測的一個例子。在這種情況下,將構建一個模型或預測器來預測一個連續值函式或有序值。

注意 - 迴歸分析是一種最常用於數值預測的統計方法。

分類是如何工作的?

藉助我們上面討論的銀行貸款申請,讓我們瞭解分類的工作原理。資料分類過程包括兩個步驟:

  • 構建分類器或模型
  • 使用分類器進行分類

構建分類器或模型

  • 此步驟是學習步驟或學習階段。

  • 在此步驟中,分類演算法構建分類器。

  • 分類器是由訓練集構建的,訓練集由資料庫元組及其相關的類標籤組成。

  • 構成訓練集的每個元組都被稱為類別或類。這些元組也可以被稱為樣本、物件或資料點。

Building the Classifier or Model

使用分類器進行分類

在此步驟中,分類器用於分類。這裡使用測試資料來估計分類規則的準確性。如果準確性被認為是可以接受的,則可以將分類規則應用於新的資料元組。

Using the Classifier

分類和預測問題

主要問題是準備用於分類和預測的資料。準備資料涉及以下活動:

  • 資料清洗 - 資料清洗包括去除噪聲和處理缺失值。透過應用平滑技術去除噪聲,並透過用該屬性中最常出現的值替換缺失值來解決缺失值問題。

  • 相關性分析 - 資料庫也可能包含不相關的屬性。相關性分析用於瞭解任何兩個給定屬性是否相關。

  • 資料轉換和約簡 - 資料可以透過以下任何方法進行轉換。

    • 歸一化 - 使用歸一化轉換資料。歸一化涉及縮放給定屬性的所有值,以使它們落在一個小指定的範圍內。當在學習步驟中使用神經網路或涉及測量的方法時,使用歸一化。

    • 泛化 - 資料也可以透過將其泛化到更高的概念來轉換。為此,我們可以使用概念層次結構。

注意 - 資料也可以透過其他一些方法進行約簡,例如小波變換、分箱、直方圖分析和聚類。

分類和預測方法的比較

以下是比較分類和預測方法的標準:

  • 準確性 - 分類器的準確性是指分類器的能力。它正確預測類標籤,預測器的準確性是指給定預測器能夠多好地猜測新資料的預測屬性的值。

  • 速度 - 這指的是生成和使用分類器或預測器的計算成本。

  • 穩健性 - 它指的是分類器或預測器從給定噪聲資料中進行正確預測的能力。

  • 可擴充套件性 - 可擴充套件性是指有效構建分類器或預測器的能力;給定大量資料。

  • 可解釋性 - 它指的是分類器或預測器在多大程度上易於理解。

廣告