機器學習 - 降維



機器學習中的降維是指在保留儘可能多的原始資訊的同時,減少資料集中的特徵或變數數量的過程。換句話說,它是一種透過降低資料複雜性來簡化資料的方法。

當資料集具有大量特徵或變數時,就會出現降維的必要性。擁有過多的特徵會導致過擬合併增加模型的複雜性。它還會使資料視覺化變得困難,並會減慢訓練過程。

降維主要有兩種方法:

特徵選擇

這涉及根據某些標準(例如它們的重要性或與目標變數的相關性)選擇原始特徵的子集。

以下是一些常用的特徵選擇技術:

  • 過濾方法
  • 包裝方法
  • 嵌入方法

特徵提取

特徵提取是將原始資料轉換為可用於機器學習模型的一組有意義的特徵的過程。它涉及透過選擇、組合或轉換特徵來降低輸入資料的維數,以建立一組對機器學習模型更有用的新特徵。

降維可以提高機器學習模型的準確性和速度,減少過擬合,並簡化資料視覺化。

廣告

© . All rights reserved.