分類變數和連續變數之間的相關性


介紹

在機器學習中,資料及其行為的相關知識是在處理任何型別資料時都必不可少的東西。在機器學習中,不可能獲得具有相同引數和行為的相同資料,因此進行一些預訓練階段至關重要,這意味著在訓練模型之前需要對資料有一些瞭解。

相關性是每個資料科學家或資料分析師都希望瞭解資料的東西,因為它揭示了關於資料的關鍵資訊,這可以幫助一個人執行特徵工程技術。本文將討論分類變數和連續變數之間的相關性以及計算相關性的方法。

什麼是相關性?

機器學習中的相關性是一種統計度量,它表示特定變數在更改某些其他變數的值時的行為,這意味著它讓我們瞭解當我們波動或更改資料中某些其他變數的值時,一個變數將如何表現或變化。

相關性在進行一些特徵工程和特徵選擇技術方面非常有幫助,因為我們可以快速瞭解與目標列相關的特徵,並且可以從資料中刪除次要相關的變數。

已知多種進行相關性檢驗的技術,其中一些是 Pearson 和 Spearman 相關性。但是,這些技術無助於在連續變數和分類變數之間進行相關性檢驗。

指導在何種條件下使用哪種檢驗的表格

因變數

分類

連續

自變數

分類

卡方檢驗

方差分析檢驗

連續

邏輯迴歸

線性迴歸

在上圖中,我們可以看到列出了一些針對不同變數情況的相關性計算方法。這裡,卡方方法可用於查詢分類變數之間的相關性,線性迴歸可用於計算連續變數之間的相關性,因為線性迴歸計算最佳擬合線的斜率和截距。

現在,如果您想計算分類變數和連續變數之間的相關性,則可以使用方差分析檢驗來進行計算。此外,如果目標列是分類的,則邏輯迴歸方法更適合計算相關性。除此之外,點二列方法也可用於計算分類變數和連續變數之間的相關性。

方差分析檢驗

方差分析或方差分析檢驗主要用於使用變數的方差來計算變數之間的相關性。方差分析檢驗也是一種引數檢驗,具有一定的假設 -

  • 資料需要正態分佈。

  • 資料以相等的方差分佈。

  • 資料中沒有明顯的異常值。

  • 各組相互獨立。

如果資料正態分佈,則可以使用對數和平方根變換輕鬆將其轉換為正態分佈。如果資料右偏,可以使用對數變換;如果資料左偏,可以使用平方根變換。

示例

import pingouin as pg import pandas as pd import numpy as np # create DataFrame df = pd.DataFrame({'values'': [1,2,5,6,89,67,54,34], 'groups': np.repeat(['cat1','cat2','cat3'], repeats=5)}) # perform Welch's ANOVA pg.welch_anova(dv='values', between='groups', data=df)

在上面的程式碼中,我們可以看到我們傳遞了我們擁有的所有不同類別以及我們想要計算相關性的值的類別。上面的程式碼將輸出一個表格,其中包含 f 值和 p 值。

如果從上述程式碼獲得的 p 值小於 0.05,則意味著它拒絕了零假設,並且所有類別的所有方差或均值對於特定值都是相同的。更改類別不會影響值。

點二列檢驗

點二列檢驗也用於計算資料集中分類變數和連續變數之間的相關性。此方法也是一種統計引數方法,具有一定的假設。

  • 資料正態分佈。

  • 資料中沒有明顯的異常值。

  • 資料中存在相等的方差。

從點二列檢驗獲得的值介於 -1 到 1 之間,其中值為 1 表示強正相關,反之亦然。值為 0 表示不存在相關性。

示例

import numpy as np from scipy import stats a = np.array([1,1,1,2,2,2]) b = np.arange(6) stats.pointbiserialr(a, b) np.corrcoef(a, b)

我們可以使用 scipy.stats 庫來計算此類變數之間的點二列相關性。np.corrcoef 將返回一個表格型別輸出,表示變數之間的相關性範圍從 -1 到 1。

關鍵要點

  • 方差分析和點二列檢驗可用於計算分類變數和連續變數之間的相關性。

  • 資料應正態分佈且方差相等是這兩種方法的主要假設。

  • 點二列方法返回 -1 到 1 之間的相關性值,其中 0 表示變數之間沒有相關性。

結論

在本文中,我們討論了連續變數和分類變數之間的相關性、其核心直覺以及使用程式碼示例計算相關性的方法。這將幫助人們更好地理解這個概念並有效地進行此類案例。

更新於:2023 年 1 月 16 日

24K+ 次檢視

啟動你的 職業生涯

透過完成課程獲得認證

開始
廣告

© . All rights reserved.