什麼是變數轉換?


變數轉換定義了一種用於變數某些值的轉換。換句話說,對於每個物件,都使用該轉換來改變該物件的變數值。例如,如果只需要變數的絕對值,則可以透過取絕對值來改變變數的值。

變數轉換有兩種型別:簡單的函式轉換和標準化。

簡單函式

一個簡單的數學函式獨立地應用於每個值。如果r是一個變數,則此類轉換的示例包括xk,logx, ex,$\sqrt{x}$,$\frac{1}{x}$,sinx或 |x|。在統計學中,變數轉換,特別是sqrt、log和1/x,用於將不具有高斯(正態)分佈的記錄轉換為具有高斯分佈的資訊。雖然這可能很重要,但在資料探勘中其他一些原因可能優先。

假設感興趣的變數是會話中的資料位元組數,位元組數範圍從1到10億。這是一個很大的範圍,使用log10轉換壓縮它可能更有利。在這種情況下,傳輸108和109位元組的會話比傳輸10和1000位元組的會話更相似(9 - 8 = 1 與 3 - 1 = 2)。

應謹慎應用變數轉換,因為它們會改變資料的性質。如果轉換的特性沒有得到完全尊重,則可能會出現問題。例如,轉換1/x會降低大於等於1的值的顯著性,但會增加0到1之間值的顯著性。

標準化或歸一化

另一種常見的變數轉換是變數的標準化或歸一化。標準化或歸一化的目的是建立一組具有特定屬性的值。一個常見的例子是統計學中的“標準化變數”。如果x是屬性值的平均值,sx是它們的標準差,則轉換x = (x –x)/ sx) 建立一個新的變數,其平均值為0,標準差為1。

如果要以某種方式組合不同的變數,則這種轉換通常是必要的,以避免具有較大值的變數支配計算結果。

平均值和標準差受異常值的影響很大,因此上述轉換通常會進行修改。首先,平均值被中位數(即中間值)替換。其次,標準差被絕對標準差替換。具體來說,如果r是一個變數,則r的絕對標準差由$\mathrm{\sigma_{A}=\displaystyle\sum\limits_{i=1}^m |X_{i}-\mu|}$給出,其中xi是變數的第i個值,m是物件的個數,μ是平均值或中位數。

更新於: 2022年2月11日

4K+ 瀏覽量

開啟你的職業生涯

透過完成課程獲得認證

開始學習
廣告
© . All rights reserved.