資料集獲取最小值、最大值、中位數和平均值的命令


在處理資料集時,瞭解資料的特徵非常重要。資料集最基本方面之一是其集中趨勢——資料傾向於聚集的點。這可以透過多種方式量化,包括最小值、最大值、中位數和平均值。

在本文中,我們將探討這些不同的集中趨勢度量,並向您展示如何使用各種程式語言來計算它們。

什麼是資料集的最小值?

資料集的最小值是集合中最小的值。此值對於理解資料的下限很有用,並且可以幫助識別低於典型值範圍的異常值。

示例

要計算資料集的最小值,您可以在大多數程式語言中使用內建函式。例如,在 Python 中,您可以像這樣使用 min() 函式:

dataset = [1, 2, 3, 4, 5]
minimum = min(dataset)
print(minimum)

此程式碼將輸出 1,這是資料集中最小值。

什麼是資料集的最大值?

資料集的最大值是集合中最大的值。與最小值一樣,此值對於理解資料的上限很有用,並且可以幫助識別高於典型值範圍的異常值。

示例

要計算資料集的最大值,您可以在大多數程式語言中使用 max() 函式。以下是用 Python 的示例:

dataset = [1, 2, 3, 4, 5]
maximum = max(dataset)
print(maximum)

此程式碼將輸出 5,這是資料集中最大值。

什麼是資料集的中位數?

資料集的中位數是在資料按順序排列時中間的值。它對於理解資料的集中趨勢很有用,並且可能比平均值更能抵禦異常值的影響。

示例

要計算資料集的中位數,您首先需要對資料進行排序。然後,您可以找到中間值(如果資料集具有偶數個元素,則為兩個中間值的平均值)。以下是用 Python 的示例:

dataset = [1, 2, 3, 4, 5]
sorted_dataset = sorted(dataset)
length = len(dataset)
if length % 2 == 0:
   # Average of middle two values
   median = (sorted_dataset[length // 2 - 1] + sorted_dataset[length // 2]) / 2
else:
   median = sorted_dataset[length // 2]

print(median)

此程式碼將輸出 3,這是資料集中中位數。

什麼是資料集的平均值?

資料集的平均值是所有資料點的平均值。它對於理解資料的集中趨勢很有用,並且是最常用的集中趨勢度量。

示例

要計算資料集的平均值,您可以將所有資料點加起來,然後除以點數。以下是用 Python 的示例:

dataset = [1, 2, 3, 4, 5]
mean = sum(dataset) / len(dataset)
print(mean)

此程式碼將輸出 3,這是資料集中平均值。

其他集中趨勢度量

雖然最小值、最大值、中位數和平均值是最常見的集中趨勢度量,但在您的資料分析工作中,您可能會遇到其他一些度量。以下是一些示例:

  • 眾數 - 眾數是資料集中最常見的值。它可以用於識別頻繁出現的值或識別分佈中的峰值。在 Python 中,您可以使用 statistics 模組中的 mode() 函式來計算資料集的眾數。

示例

import statistics

dataset = [1, 2, 2, 3, 4, 4, 4, 5]
mode = statistics.mode(dataset)
print(mode)

此程式碼將輸出 4,這是資料集中眾數。

  • 幾何平均數 - 幾何平均數是一種平均數,用於計算與乘法相關的值的集中趨勢。例如,幾何平均數通常用於金融領域來計算投資的平均收益率。在 Python 中,您可以使用 statistics 模組中的 fmean() 函式來計算資料集的幾何平均數。

示例

import statistics

dataset = [1, 2, 3, 4, 5]
geometric_mean = statistics.fmean(dataset)
print(geometric_mean)

此程式碼將輸出 2.605,這是資料集中幾何平均數。

  • 調和平均數 - 調和平均數是另一種平均數,用於計算與倒數相關的值的集中趨勢。例如,調和平均數通常用於物理學中來計算以不同速度運動的物體的平均速度。在 Python 中,您可以使用 statistics 模組中的 harmonic_mean() 函式來計算資料集的調和平均數。

示例

import statistics

dataset = [1, 2, 3, 4, 5]
harmonic_mean = statistics.harmonic_mean(dataset)
print(harmonic_mean)

此程式碼將輸出 2.189,這是資料集中調和平均數。

何時使用每種度量

每種集中趨勢度量都有其自身的優缺點,您選擇使用的度量將取決於資料的特徵以及您試圖回答的問題。以下是一些關於何時使用每種度量的通用指南:

  • 最小值和最大值 - 使用最小值和最大值來了解資料集中值的範圍並識別異常值。

  • 中位數 - 當資料傾斜或包含影響平均值的異常值時,使用中位數來了解資料的集中趨勢。

  • 平均值 - 當資料大致對稱且沒有極端異常值時,使用平均值作為集中趨勢的預設度量。

  • 眾數 - 使用眾數來識別資料集中最常見的值或識別分佈中的峰值。

  • 幾何平均數 - 計算與乘法相關的值的平均值時,使用幾何平均數。

  • 調和平均數 - 計算與倒數相關的值的平均值時,使用調和平均數。

總結

總之,最小值、最大值、中位數和平均值都是資料集中有用的集中趨勢度量。通過了解資料的這些特徵,您可以深入瞭解資料集中值的範圍、集中趨勢和潛在的異常值。這些度量可以使用大多數程式語言中的內建函式輕鬆計算,從而可以輕鬆地將它們納入您的資料分析工作流程中。

更新於: 2023年3月23日

1K+ 閱讀量

開啟您的 職業生涯

透過完成課程獲得認證

立即開始
廣告