什麼是變數轉換?
變數轉換定義了一種用於變數某些值的轉換。換句話說,對於每個物件,都使用該轉換來改變該物件的變數值。例如,如果只需要變數的絕對值,則可以透過取絕對值來改變變數的值。
變數轉換有兩種型別:簡單的函式轉換和標準化。
簡單函式
一個簡單的數學函式獨立地應用於每個值。如果r是一個變數,則此類轉換的示例包括xk,logx, ex,$\sqrt{x}$,$\frac{1}{x}$,sinx或 |x|。在統計學中,變數轉換,特別是sqrt、log和1/x,用於將不具有高斯(正態)分佈的記錄轉換為具有高斯分佈的資訊。雖然這可能很重要,但在資料探勘中其他一些原因可能優先。
假設感興趣的變數是會話中的資料位元組數,位元組數範圍從1到10億。這是一個很大的範圍,使用log10轉換壓縮它可能更有利。在這種情況下,傳輸108和109位元組的會話比傳輸10和1000位元組的會話更相似(9 - 8 = 1 與 3 - 1 = 2)。
應謹慎應用變數轉換,因為它們會改變資料的性質。如果轉換的特性沒有得到完全尊重,則可能會出現問題。例如,轉換1/x會降低大於等於1的值的顯著性,但會增加0到1之間值的顯著性。
標準化或歸一化
另一種常見的變數轉換是變數的標準化或歸一化。標準化或歸一化的目的是建立一組具有特定屬性的值。一個常見的例子是統計學中的“標準化變數”。如果x’是屬性值的平均值,sx是它們的標準差,則轉換x’ = (x –x’)/ sx) 建立一個新的變數,其平均值為0,標準差為1。
如果要以某種方式組合不同的變數,則這種轉換通常是必要的,以避免具有較大值的變數支配計算結果。
平均值和標準差受異常值的影響很大,因此上述轉換通常會進行修改。首先,平均值被中位數(即中間值)替換。其次,標準差被絕對標準差替換。具體來說,如果r是一個變數,則r的絕對標準差由$\mathrm{\sigma_{A}=\displaystyle\sum\limits_{i=1}^m |X_{i}-\mu|}$給出,其中xi是變數的第i個值,m是物件的個數,μ是平均值或中位數。
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP