密度圖或 KDE 圖的目的是什麼?


密度圖

密度圖,也稱為核密度估計 (KDE) 圖,是一種圖形顯示資料的方式,它顯示了資料的機率密度函式 (PDF)。它用於視覺化資料的分佈並識別資料中的模式和趨勢。

密度圖的目的是為您提供資料底層分佈的視覺表示。它可以幫助您理解資料的形狀和分佈,並識別任何異常值或離群值。它還可以用於比較多個變數或組的分佈。

由於它們不受箱數的影響,因此密度圖比直方圖更具優勢,因為它們更擅長識別分佈的形狀。例如,密度圖包括正態分佈曲線。

應用與解釋

應用與解釋:假設我們有一個包含 1000 位信用卡使用者年齡的資料集。我們對年齡分佈是如何分佈感興趣。

我們可以看到,下圖中的峰值略高於 45。如果(桶的寬度為五年),我們將在直方圖中發現值的集中在 45-50 範圍內。但是,此密度圖為我們提供了更精確的位置。還提供了連續分佈的檢視。

如何解讀密度曲線

藉助密度曲線,可以快速直觀地瞭解特定資料集中值的分佈,這些曲線存在於各種大小和形式中。它們在幫助我們視覺化以下方面特別有用:

峰值數量

透過使用密度曲線,我們可以快速確定特定分佈中“峰值”的數量。因為以上案例中的每個分佈只有一個峰值,所以我們將這些分佈歸類為單峰分佈。

但是,某些分佈(稱為雙峰分佈)可以有兩個峰值。此外,有時可能存在具有兩個或多個峰值的多峰分佈。我們可以透過繪製資料集的密度曲線來快速確定分佈中的峰值數量。

偏度

偏度是一個用於定義分佈對稱性的術語。我們可以從密度曲線中立即確定圖形是左偏、右偏還是沒有偏度。

均值和中位數的位置

根據密度曲線的偏度,我們可以快速確定特定分佈中均值或中位數哪個更大。更具體地說

  • 當密度曲線左偏時,均值小於中位數。

  • 當密度曲線右偏時,均值大於中位數。

  • 當密度曲線沒有偏度時,均值和中位數相同。

密度曲線的特性

密度曲線的特性如下:

  • 每次曲線下的面積加起來都等於 100%。

  • 曲線永遠不會偏離 x 軸。

  • 當您為各種分佈生成或評估密度曲線時,請記住這兩個事實。

Kde 圖

密度圖,也稱為核密度估計 (KDE) 圖,是一種圖形顯示資料的方式,它顯示了資料的機率密度函式 (PDF)。它用於視覺化資料的分佈並識別資料中的模式和趨勢。

密度圖的目的是為您提供資料底層分佈的視覺表示。它可以幫助您理解資料的形狀和分佈,並識別任何異常值或離群值。它還可以用於比較多個變數或組的分佈。

無論選擇什麼間隔長度,直方圖(一疊矩形)總是看起來波浪起伏(再次想想磚塊)。我們有時希望計算更平滑的估計,因為它可能更準確。我們可以稍微改變我們的策略來解決這個問題。

直方圖技術將每個資料點轉換為具有定義面積的矩形,然後將其放置在對應資料點的“附近”。如果我們可以在每個資料點上“倒一堆沙子”,然後觀察沙子的堆積方式,而不是使用矩形,會怎麼樣呢?

結論

總之,密度圖或 KDE 圖是一種圖形顯示資料的方式,它顯示了資料的機率密度函式。它用於視覺化資料的分佈並識別資料中的模式和趨勢。密度圖的目的是為您提供資料底層分佈的視覺表示,並幫助您理解資料的形狀和分佈。它可以用於比較多個變數或組的分佈,以及識別資料中的任何異常值或離群值。

更新於:2023 年 5 月 5 日

2K+ 次檢視

開啟您的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.