探索性資料分析 (EDA) - 型別和工具
介紹
探索性資料分析 (EDA) 是透過分析資料集來總結資料集的過程。它用於調查資料集並確定其特徵。EDA 是許多資料科學或分析任務中的一個基本過程。
探索性資料分析的不同型別
EDA 主要分為兩類
單變數探索性資料分析 – 在單變數資料分析中,我們使用一個變數或特徵來確定資料集的特徵。我們推匯出僅關於一個特徵或變數的資料關係和分佈。在此類別中,我們可以自由使用原始資料或遵循圖形方法。
在單變數原始資料方法或非圖形方法中,我們根據一個變數確定資料的分佈並研究來自總體的一個樣本。此外,我們還可以包括異常值去除,這是此過程的一部分。
集中趨勢的度量 - 集中趨勢試圖藉助表示中心值的單個值來總結整個總體或資料集。
平均值 - 它是所有觀測值的平均值。即所有觀測值的總和除以觀測值的個數。
中位數 - 在將觀測值或分佈按升序或降序排列後,它是觀測值的中值。
眾數 - 它是出現頻率最高的觀測值。
讓我們瞭解一些非圖形方法。
三種度量是平均值、中位數和眾數。
方差 - 它表示資料圍繞中間值或平均值的分佈。它幫助我們收集有關中心趨勢(如平均值)的觀測資訊。它計算為所有觀測值平方和的平均值。
偏度 - 它衡量觀測值的對稱性。分佈可以是左偏或右偏,在任一情況下都形成一條長尾。
峰度 - 它衡量特定分佈相對於正態分佈的尾部程度。中等峰度稱為正態分佈,低峰度稱為低峰分佈。
在單變數圖形方法中,我們可以使用任何繪相簿生成直方圖、箱線圖、分位數-分位數圖、小提琴圖等圖形進行視覺化。資料科學家經常使用視覺化來發現異常值和模式。圖形方法是一種更主觀的方法來進行 EDA。這些是一些用於執行單變數分析的圖形工具。
直方圖 - 它們表示特定值範圍的實際計數。它以矩形的形式顯示資料的頻率,也稱為條形圖表示,可以是垂直的或水平的。
箱線圖 - 也稱為箱須圖。它們使用線條和框來顯示來自一個或多個組的資料分佈。中心線表示中值。擴充套件線捕獲其餘資料。它們之所以有用,是因為它們可以用來比較資料組和比較對稱性。
Q-Q 圖 - 要確定兩個資料集是否來自相同或不同的分佈,可以使用 Q-Q 圖。
多變數探索性資料分析 - 在多變數分析中,我們使用多個變數來顯示關係和視覺化。它用於顯示不同欄位之間的互動。
多變數非圖形(原始資料) - 例如對兩個以上變數進行列表。ANOVA 測試也可以發揮重要作用。
多變數圖形 - 在多變數統計的視覺化分析中,可以使用以下圖形。
散點圖 - 它透過將資料繪製為點來顯示兩個變數之間的關係。此外,可以智慧地使用顏色編碼來根據第三個特徵顯示兩個特徵中組。
熱力圖 - 在這種視覺化技術中,值用顏色表示,圖例顯示不同級別值的顏色。它是一個二維圖形。
氣泡圖 - 在此圖中,圓圈用於顯示不同的值。圖表上圓圈的半徑與資料點的值成正比。
EDA 中使用的程式語言工具
R 和 Python 語言都可以用於執行 EDA。這些語言對於 EDA 非常強大,並提供了一些開箱即用的最佳工具。讓我們看看這些語言的一些實用程式。
R 語言 - R 語言由 Ross Ihaka 和 Robert Gentleman 開發。R 是一種模組化程式語言,支援函式。它可以與用 C/C++ 編寫的過程整合。R 有一些非常強大的資料分析和繪圖工具,通常被研究人員、資料科學家、分析師等使用。
Python 語言 - Python 是一種高階語言。它可讀且使用縮排分隔程式碼塊。它支援多種功能,例如結構化和麵向物件的程式設計、函式和正規化。它是一種非常簡單的語言,與其他程式語言相比,使用更少的程式碼行來執行特定任務。Python 有許多用於探索性資料分析和視覺化的工具,例如 pandas、matplotlib、seaborn、dask 等。
結論
探索性資料分析是任何資料分析或資料科學任務的支柱。它提供了對資料特徵的洞察,並使我們能夠對資料做出有用且明智的決策。由於一些出色工具的可用性,如今 EDA 已不再是一項繁瑣的任務,而是一個平滑的過程。
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP