箱線圖
介紹
箱線圖可以用於顯示和分析資料。有時需要更詳細地瞭解各種分佈或資料集中的資訊,而平均數、中位數和眾數等集中趨勢的度量可能無法滿足要求。資料的變異性或離散性需要一個更具體的依據。箱線圖可以滿足這一需求。
箱線圖是一種使用區間尺度估計資料集的方法。它也被稱為盒形圖。這些主要用於解釋資料。它是一種圖形方法,顯示資料集內資料的變化。
在本教程中,我們將討論箱線圖。
定義
箱線圖是一種圖表,它使我們能夠更清楚地瞭解資料中的值應該如何分佈。箱線圖從箱體延伸出線條,這些線條通常被稱為須線。
須線用於表示上四分位數和下四分位數之外的變化。箱線圖的一個特點是它是非引數的。而箱線圖的這一特性實際上有助於在樣本中顯示統計總體變化,在這些樣本中沒有對潛在的統計分佈做出任何假設。
箱體中的間隙表示資料中的離散程度(擴充套件)和偏度,以及異常值的存在。
箱線圖可以水平或垂直繪製。箱線圖是探索性資料分析中常用的圖表。
如何繪製
箱線圖可以透過五個簡單的步驟繪製。要建立箱線圖,我們必須首先確定 -
步驟 1 - 最小值是資料中最小的值。
步驟 2 - 第一四分位數定義為小於資料集中較低 25% 的值。
步驟 3 - 從提供的資料集中確定中位數。
步驟 4 - 第三四分位數的值大於較低 25% 的值。
步驟 5 - 最大值是給定資料集的最大值。
型別
箱線圖(或箱形圖)是一種簡單的方法,用於繪製資料在四分位數上的分佈。這是一種基於最低、第一、中間、第三和最高值的統計資料的圖形表示。

讓我們檢查這五個箱線圖元件。
中位數
按升序或降序排列的一系列值中間的值或數量。如果集合有奇數個值,則中位數位於正中間。如果值的個數為偶數,則中位數是透過計算最接近中心的兩個值的平均值來計算的。
下四分位數
下四分位數(也稱為第一四分位數)將資料分成底部 25%。四分位數是三個資料點,將資訊記錄分成四個相等的部分。每個部分代表整個資料集的四分之一。下四分位數是中間下半部分的值。
上四分位數
上四分位數的另一個名稱是第三四分位數。將資料分成底部 75%(或頂部 25%)。它也是上半部分的平均值。
四分位距
表示下四分位數和上四分位數之間的差值。IQR 通常被認為比範圍更好的離散度量,因為它不受異常值(最高-最低)的影響。
最高值
此箱線圖點表示生成箱線圖的資料分佈中最高的非異常值。與資料集的最大值不匹配。
最低值
此箱線圖點不是異常值,因為它表示用於建立箱線圖的資料分佈(分佈的最小四分位距)的最小值。不再與資料集的最小值匹配。
已解決示例
1) 假設一家電腦公司有兩個地點。每個月,公司都會跟蹤每個商店的銷售數量。我們在過去 12 個月中售出了以下數量的電腦。
第一家店 − 350、460、20、160、580、250、210、120、200、510、290、380。
第二家店 − 520、180、260、380、80、500、630、420、210、70、440、140。
答案 - 建立兩個箱線圖,一個用於商店 1,一個用於商店 2,以比較兩家商店的銷售業績。
首先,按升序排列資料點。
20, 120 , 160 , 200, 210, 290 , 350 , 380 , 460 , 510, 580.
現在我們必須計算中位數。另一方面,這是一個平衡的資料集。中間沒有單個點。在我們的例子中,第六個和第七個資料點 250 和 290 表示中間。
在偶數資料集裡,中位數計算如下 -
$$\mathrm{Median\:=\:\frac{250\:+\:290}{2}\:=\:270}$$
考慮一下在偶數資料集中使用下四分位數和上四分位數時會發生什麼:六個數小於中位數 - 20、120、160、200、210 和 250。
這六個專案的平均值是下四分位數,所以 $\mathrm{=\:\frac{(160\:+\:200)}{2}\:=\:180}$
還有六個數大於中位數 - 290、350、380、460、510、580。
這六個資料點的平均值是上四分位數=420
最後,商店 1 的銷售額由五個數字概括 - 20、180、270、420 和 580。
商店 2 的五數概括是使用相同的計算得出的。70、160、320、470 和 630
我們幾乎完成了比較箱線圖 -

結果:商店 2 的四分位距更大。這些結果表明商店 2 的銷售額始終高於商店 1。
結論
在本教程中,我們學習了箱線圖、它們的屬性和重要性。箱線圖可以用於顯示和分析資料。它們包含許多必須進一步研究的關鍵引數。此外。可以在同一圖表中表示多個數據集。
常見問題解答
1. 箱線圖是什麼意思?
箱線圖是一種圖表,它提供給定資料集的五個數字的概述。最小值、下四分位數、中位數、上四分位數和最大值
2. 箱線圖的五數概括是什麼?
箱線圖的五數概括是最小值、最大值、中位數、第一四分位數和第三四分位數。
3. 什麼時候說箱線圖是對稱的?
如果中位數到最小值和最大值的距離相等,則稱箱線圖是對稱的。
4. 使用箱線圖的缺點是什麼?
箱線圖的缺點是隱藏了多峰性和其他分佈特徵。平均值難以定位,可能會讓檢視者感到困惑。
5. 箱線圖中的異常值到底是什麼?
異常值是在數值上與資料集中其餘資料不同的資料點,並且位於箱線圖之外。