什麼是變數轉換？

變數轉換定義了一種用於變數某些值的轉換。換句話說，對於每個物件，都使用該轉換來改變該物件的變數值。例如，如果只需要變數的絕對值，則可以透過取絕對值來改變變數的值。

變數轉換有兩種型別：簡單的函式轉換和標準化。

簡單函式

一個簡單的數學函式獨立地應用於每個值。如果r是一個變數，則此類轉換的示例包括x^k,logx, e^x,$\sqrt{x}$,$\frac{1}{x}$,sinx或 |x|。在統計學中，變數轉換，特別是sqrt、log和1/x，用於將不具有高斯（正態）分佈的記錄轉換為具有高斯分佈的資訊。雖然這可能很重要，但在資料探勘中其他一些原因可能優先。

假設感興趣的變數是會話中的資料位元組數，位元組數範圍從1到10億。這是一個很大的範圍，使用log10轉換壓縮它可能更有利。在這種情況下，傳輸10⁸和10⁹位元組的會話比傳輸10和1000位元組的會話更相似（9 - 8 = 1 與 3 - 1 = 2）。

應謹慎應用變數轉換，因為它們會改變資料的性質。如果轉換的特性沒有得到完全尊重，則可能會出現問題。例如，轉換1/x會降低大於等於1的值的顯著性，但會增加0到1之間值的顯著性。

標準化或歸一化

另一種常見的變數轉換是變數的標準化或歸一化。標準化或歸一化的目的是建立一組具有特定屬性的值。一個常見的例子是統計學中的“標準化變數”。如果x^’是屬性值的平均值，s_x是它們的標準差，則轉換x^’ = (x –x^’)/ s_x) 建立一個新的變數，其平均值為0，標準差為1。

如果要以某種方式組合不同的變數，則這種轉換通常是必要的，以避免具有較大值的變數支配計算結果。

平均值和標準差受異常值的影響很大，因此上述轉換通常會進行修改。首先，平均值被中位數（即中間值）替換。其次，標準差被絕對標準差替換。具體來說，如果r是一個變數，則r的絕對標準差由$\mathrm{\sigma_{A}=\displaystyle\sum\limits_{i=1}^m |X_{i}-\mu|}$給出，其中x_i是變數的第i個值，m是物件的個數，μ是平均值或中位數。

Ginni

更新於： 2022年2月11日

4K+ 瀏覽量

開啟你的職業生涯

透過完成課程獲得認證

開始學習