機器學習中的特徵工程


特徵工程是指為了提高機器學習模型的效能而對資料進行修改的過程。它是機器學習過程中的一個關鍵組成部分,因為它確保了對機器學習模型有重大影響的特徵的質量。精通特徵工程的機器學習專家更有可能構建出更優秀的模型。本文將介紹機器學習中資料特徵工程的多種方法。

特徵工程方法

資料型別多種多樣,根據資料型別,我們會選擇不同的特徵工程方法。以下列出了一些特徵工程技術:

1. 特徵縮放

  • 此方法涉及將特徵的值縮放到一個共同的範圍。為了確保它在模型中具有相同的權重,範圍可能是 0 到 1 或 -1 到 1。

  • 以下列出了特徵縮放的技術:

    • 最小-最大縮放涉及將特徵的值縮放到 0 到 1 之間的範圍,計算公式為:X__scaled = (X - X__min) / (X__max - X__min)。

    • 標準化是指將特徵的值縮放到平均值為 0 且標準差為 1 的過程,計算公式為:(X - X均值) / X標準差 = X縮放

    • 對數轉換 - 這涉及使用對數函式來轉換特徵的值,這有助於降低異常值的影響並改善資料分佈。

2. 特徵提取

  • 它是一個從我們的舊資料中提取新特徵的過程。

  • 以下是從資料中提取特徵的不同方法:

    • PCA - PCA 的全稱為主成分分析。它是一個透過捕獲資料中的重要模式和相關性來降低資料維度的過程。

    • 獨立成分分析 (ICA) 是檢測資料中獨立變化源並將其分解為封裝資料不同方面的不同特徵的過程。

    • 小波變換 - 這涉及在不同尺度和頻率下分析資料,並提取捕獲每個尺度上的模式和關係的新特徵。

    • 傅立葉變換 - 這涉及在頻域中分析資料並提取捕獲資料頻率分量的新特徵。

    • 卷積神經網路 (CNN) - 這涉及使用深度學習技術來自動從高維和複雜資料(如影像和音訊)中提取特徵。

3. 特徵選擇

  • 如果您選擇

  • 這涉及選擇最相關特徵的子集,以減少資料維度並提高模型效能。

  • 有多種方法可以選擇特徵,包括:

    • 過濾方法涉及根據某些統計度量(如相關性或互資訊)對特徵進行評分,並選擇排名最高的特徵。

    • 包裝方法涉及使用機器學習演算法來評估特徵的多個子集的效能,並選擇效能最佳的子集。

    • 嵌入方法包括在機器學習演算法的訓練階段選擇最相關的特徵,例如透過正則化或基於決策樹的演算法。

    • 降維方法涉及將原始特徵轉換為低維表示,例如主成分分析 (PCA) 或奇異值分解 (SVD)。

  • 使用的特徵選擇方法取決於資料的性質和模型的需求。通常,過濾方法更快且效率更高,但可能無法捕獲資料的全部複雜性,而包裝方法和嵌入方法更準確,但計算量可能很大。

4. 獨熱編碼

  • 將分類變數轉換為數值特徵涉及為每個類別構建一個二元指示變數。

  • 獨熱編碼方法用於將分類變量表示為可饋入機器學習演算法的數值資料。在獨熱編碼中,每個類別都由一個二元向量表示,該向量的長度與類別的數量相同,並且在對應於該類別的位置處具有值 1,而在所有其他位置處具有值 0。

  • 由於許多機器學習演算法無法直接處理分類資料,因此需要獨熱編碼。透過將分類變數轉換為數值資料,我們可以將其用作演算法的輸入。由於每個類別都由相同長度的二元向量表示,因此獨熱編碼確保每個類別都具有相同的權重。

5. 分箱

  • 這涉及將數值資料分類到離散的箱中,以降低異常值的影響並提高模型的魯棒性。

  • 分箱可以透過多種方式完成,包括:

    • 等寬分箱是指將值的範圍劃分為寬度相等的箱。例如,如果我們有一個特徵,其值範圍從 0 到 100,並且我們希望建立 5 個箱,則每個箱將具有 20 個單位的範圍(0-20、21-40、41-60、61-80、81-100)。

    • 等頻分箱涉及將資料劃分為每個箱中資料點數量大致相同的箱。當資料分佈傾斜時,此方法可能很有用。

    • 在自定義分箱中,箱的邊界是根據領域專業知識或其他標準手動確定的。

  • 當特徵與目標變數之間的關係不是線性的,或者特徵的唯一值過多以至於無法在機器學習技術中有效使用時,分箱可能會有所幫助。但是,它可能會導致資料丟失,並且並不總是提高效能。在使用分箱之前,評估它對模型效能的影響至關重要。

6. 文字處理

  • 文字處理是對文字材料進行修改和分析,通常是為了提取有用的資訊。這可能包括從基本操作(如刪除標點符號或將文字轉換為小寫)到更復雜的任務(如識別命名實體或根據內容對文字進行分類)的各種任務。

  • 常用的文字處理方法包括:

    • 分詞是指將一段文字分成單獨的單詞或標記的過程。

    • 停用詞去除是指刪除對分析沒有幫助的常用詞,例如“the”、“and”或“in”。

    • 詞幹提取和詞形還原是用於提高分析的策略,包括將單詞縮減到其詞根形式(例如,“running”變為“ran”)。

    • 詞性標註是指用其語法功能(如“名詞”或“動詞”)標記文件中的每個單詞。

    • 命名實體識別是指識別和分類文字中的實體(如人員、組織和地點)的過程。

    • 情感分析是指評估文字以發現整體情感或情緒基調的過程。

結論

總之,特徵工程是機器學習中的一個重要階段,它涉及選擇、修改和建立特徵以提高模型效能。它需要領域專業知識、創造力和實驗。雖然正在開發自動特徵工程方法,但仍然需要人類的技能來生成相關的特徵,以捕獲資料中的潛在模式。

更新於: 2023年4月13日

375 次瀏覽

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.