資料科學 - 什麼是資料?



資料科學中的資料是什麼?

資料是資料科學的基礎。資料是指對特定字元、數量或符號進行系統記錄,計算機對其進行操作,可以儲存和傳輸。它是為了特定目的(例如調查或分析)而收集的資料的彙編。當資料被結構化時,可以將其稱為資訊。資料來源(原始資料、次級資料)也是一個重要的考慮因素。

資料有多種形狀和形式,但通常可以認為是某些隨機實驗的結果——一個無法預先確定結果的實驗,但其運作仍然可以進行分析。隨機實驗產生的資料通常儲存在表格或電子表格中。表示變數的統計約定通常稱為特徵或列,而單個專案(或單位)稱為行。

資料型別

資料主要分為兩種型別,它們是:

定性資料

定性資料包含無法計數、量化或簡單地用數字表示的資訊。它是從文字、音訊和圖片中收集的,並使用資料視覺化工具進行分發,包括詞雲、概念圖、圖資料庫、時間線和資訊圖表。

定性資料分析的目的是回答有關個人活動和動機的問題。收集和分析此類資料可能非常耗時。處理定性資料的研究人員或分析師被稱為定性研究人員或分析師。

定性資料可以為任何行業、使用者群體或產品提供重要的統計資料。

定性資料的型別

定性資料主要分為兩種型別,它們是:

名義資料

在統計學中,名義資料(也稱為名義尺度)用於指定變數,而不賦予數值。它是測量尺度的最基本型別。與順序資料相反,名義資料無法排序或量化。

例如,人的姓名、頭髮的顏色、國籍等。假設一個名叫Aby的女孩,她的頭髮是棕色的,她來自美國。

名義資料可以是定性的,也可以是定量的。但是,與定量標籤(例如識別號)沒有關聯的數值或連結。相反,幾個定性資料類別可以用名義形式表示。這些可能包括單詞、字母和符號。個人姓名、性別和國籍是一些最常見的名義資料示例。

分析名義資料

可以使用分組方法分析名義資料。變數可以被分成組,並且可以確定每個類別的頻率或百分比。資料也可以以圖形方式顯示,例如使用餅圖。

Analyze Nominal Data

儘管名義資料不能使用數學運算子進行處理,但仍然可以使用統計技術對其進行研究。假設檢驗是一種評估和分析資料的常用方法。

對於名義資料,可以使用卡方檢驗等非引數檢驗來檢驗假設。卡方檢驗的目的是評估預測頻率與給定值的實際頻率之間是否存在統計學上的顯著差異。

順序資料

順序資料是統計學中的一種資料型別,其中值具有自然順序。關於順序資料最重要的事情之一是,您無法判斷資料值之間的差異是什麼。大多數情況下,資料類別的寬度與基礎屬性的增量不匹配。

在某些情況下,可以透過對資料值進行分組來發現區間資料或比率資料的特徵。例如,收入範圍是順序資料,而實際收入是比率資料。

順序資料不能像區間資料或比率資料那樣使用數學運算子進行更改。因此,中位數是確定順序資料集中間位置的唯一方法。

此資料型別廣泛存在於金融和經濟領域。考慮一項經濟研究,該研究考察了不同國家的 GDP 水平。如果報告根據各國的 GDP 對其進行排名,則排名是順序統計資料。

分析順序資料

使用視覺化工具評估順序資料是最簡單的方法。例如,資料可以顯示在表格中,其中每一行代表一個單獨的類別。此外,它們可以使用不同的圖表以圖形方式表示。條形圖是用於顯示此類資料的最流行的圖形樣式。

Analyzing Ordinal Data

順序資料也可以使用複雜的統計分析方法(如假設檢驗)進行研究。請注意,t 檢驗和 ANOVA 等引數程式不能用於這些資料集。只有非引數檢驗,例如 Mann-Whitney U 檢驗或 Wilcoxon 配對檢驗,才能用於評估關於資料的零假設。

定性資料收集方法

以下是一些收集定性資料的方法和收集方法:

  • 資料記錄 - 利用已經存在的資料作為資料來源是進行定性研究的最佳方法之一。類似於訪問圖書館,您可以檢視書籍和其他參考材料以獲取可用於研究的資料。

  • 訪談 - 個人訪談是獲取定性研究演繹資料最常用的方法之一。訪談可以是隨意的,沒有固定的計劃。它通常類似於對話。訪談者或研究人員直接從被訪談者那裡獲取資訊。

  • 焦點小組 - 焦點小組由 6 到 10 人組成,他們相互交談。主持人負責監控對話並根據焦點問題引導對話。

  • 案例研究 - 案例研究是對個人或群體的深入分析,重點關注發展特徵與環境之間的關係。

  • 觀察 - 這是一種研究人員觀察物件並記錄文字記錄以發現內在反應和反應(無需提示)的技術。

定量資料

定量資料由數值組成,具有數值特徵,並且可以對這種型別的資料執行數學運算,例如加法。由於其定量特徵,定量資料在數學上是可驗證和可評估的。

其數學推導的簡單性使得能夠控制不同引數的測量。通常,它是透過對人口子集進行的調查、民意調查或問卷調查來收集的,用於統計分析。研究人員能夠將收集到的發現應用於整個人群。

定量資料的型別

定量資料主要分為兩種型別,它們是:

離散資料

與範圍相反,這些資料只能取某些值。例如,關於人口的血型或性別的資訊被認為是離散資料。

離散定量資料的示例可能是您網站的訪問者數量;您可能一天有 150 次訪問,但不會有 150.6 次訪問。通常,使用計數圖、條形圖和餅圖來表示離散資料。

離散資料的特徵

由於離散資料易於總結和計算,因此它通常用於基本統計分析。讓我們檢查離散資料的一些其他重要特徵:

  • 離散資料由離散變數組成,這些變數是有限的、可測量的、可計數的,並且不能為負數(5、10、15 等)。

  • 簡單的統計方法,如條形圖、折線圖和餅圖,使顯示和解釋離散資料變得容易。

  • 資料也可以是分類的,這意味著它具有固定數量的資料值,例如人的性別。

  • 既受時間約束又受空間約束的資料以隨機方式分佈。離散分佈使檢視離散值變得更容易。

連續資料

這些資料可以在某個範圍內取值,包括最大值和最小值。最大值和最小值之間的差稱為資料範圍。例如,您學校孩子的身高和體重。這被認為是連續資料。連續資料的表格表示稱為頻率分佈。這些可以用直方圖以視覺方式描繪。

連續資料的特徵

另一方面,連續資料可以是數字,也可以是隨時間和日期分佈。此資料型別使用高階統計分析方法,因為存在無限數量的可能值。關於連續資料的重要特徵是:

  • 連續資料會隨時間變化,並且在不同的時間點,它可以具有不同的值。

  • 可能或不可能是整數的隨機變數構成連續資料。

  • 折線圖、偏度等資料分析工具用於測量連續資料。

  • 一種經常使用的連續資料分析型別是迴歸分析。

定量資料收集方法

以下是一些收集定量資料的方法和收集方法:

  • 調查問卷 − 這些型別的研究非常適合從使用者和客戶那裡獲取詳細的反饋,尤其是在瞭解人們對產品、服務或體驗的感受方面。

  • 開源資料集 − 線上可以找到許多公共資料集,並且可以免費進行分析。研究人員有時會檢視已經收集的資料,並嘗試以適合他們自己研究專案的方式弄清楚這些資料意味著什麼。

  • 實驗 − 一種常見的方法是實驗,通常包括一個對照組和一個實驗組。實驗的設定是為了能夠進行控制,並根據需要更改條件。

  • 抽樣 − 當資料點很多時,可能無法調查每個人或每個資料點。在這種情況下,定量研究是在抽樣的幫助下進行的。抽樣是從整個資料中選擇一個代表性樣本的過程。抽樣分為兩種型別:隨機抽樣(也稱為機率抽樣)和非隨機抽樣。

資料收集型別

根據來源,資料收集可以分為兩種型別 -

  • 原始資料 − 這些資料是研究人員為了特定目的首次獲取的資料。原始資料在某種意義上是“純淨的”,因為它們尚未經過任何統計處理,並且是真實的。原始資料的示例包括印度人口普查。

  • 次級資料 − 這些資料最初是由某個實體收集的。這意味著此類資料已由研究人員或調查人員收集,並且以已釋出或未釋出的形式可用。此資料是不純淨的,因為可能已經對其進行了統計計算。例如,在印度政府或財政部網站或其他檔案、書籍、期刊等上可以獲取的資訊。

大資料

大資料被定義為資料量更大,需要克服處理它們的物流挑戰。大資料指的是更大、更復雜的資料集,特別是來自新資料來源的資料集。某些資料集非常龐大,以至於傳統的資料處理軟體無法處理它們。但是,這些海量資料可以用來解決以前無法解決的業務挑戰。

資料科學是對如何分析海量資料並從中獲取資訊的研究。您可以將大資料和資料科學比作原油和煉油廠。資料科學和大資料來源於統計學和傳統的管理資料方法,但現在它們被視為獨立的領域。

人們經常使用三個V來描述大資料的特徵 -

  • 量(Volume) − 有多少資訊?

  • 種類(Variety) − 不同型別的資料有多大差異?

  • 速度(Velocity) − 新資訊片段產生的速度有多快?

如何在資料科學中使用資料?

每個資料都必須進行預處理。這是一系列必不可少的流程,將原始資料轉換為更易於理解且更有價值的格式,以便進行進一步處理。常見流程包括 -

  • 收集和儲存資料集

  • 資料清洗

    • 處理缺失資料

    • 噪聲資料

  • 資料整合

  • 資料轉換

    • 泛化

    • 歸一化

    • 屬性選擇

    • 聚合

我們將在後續章節中詳細討論這些流程。

廣告

© . All rights reserved.