資料探勘:資料屬性和質量


資料探勘

從海量資料集中提取可用於分析和為組織帶來益處的資料的過程。此過程有助於識別模式並管理資料之間的關係,以預測業務問題。

資料屬性

屬性可以定義為物件的特徵或屬性。物件由屬性集描述,並被稱為實體的記錄。實體由資料的一部分(即屬性)描述。

例如:在學生資料庫中。(姓名、ID、學號、分數)是提供的資料庫中的屬性。

屬性型別

名義屬性

它僅提供足以區分物件的屬性。例如,姓名、學號、地址都是資料集中使用的不同物件。

有序屬性

它是一個屬性,其可能的值提供足夠的資訊來對物件進行有意義的排序。例如,薪資範圍、教育水平、排名等。

二元屬性

二元屬性為 0 和 1。0 表示缺少任何特徵,1 表示新增特定特徵。

數值屬性

它本質上是定量的,即數量可以測量並以整數或實數值的形式表示。

它分為兩種型別:

  • 區間標度屬性

    使用此屬性測量大小相等的單位的尺度。它使我們能夠進行比較,例如攝氏或華氏溫度。

  • 比率標度屬性

    對於比率,差異和比率都具有意義。例如,年齡、體重、薪資等。

資料質量

資料質量是指實施技術以使資料適合提供組織所需特定資訊的實施。滿足需求的資料被認為是高質量資料,並且對於組織中的決策制定非常準確。確保資料質量以獲得更好護理的六個主要因素:

準確性

資料必須反映現實世界場景。由於許多原因(例如人為錯誤或計算機錯誤)可能存在不準確的日期。

完整性

完整性意味著可用的資料必須有效地交付。不完整的資料可能會根據感興趣的屬性而出現。

一致性

它指的是跨網路使用的資料的規律性。在不同位置儲存的類似資料之間不應有任何衝突。不正確的資料也可能導致不一致。

及時性

資料在需要時可用。資料即時更新,以便使用者可以訪問。它有時會透過未更新或使用者未進行更正和調整而影響資料質量。

可信度

它指的是使用者對資料的信任程度。存在的資料被認為是準確和正確的,以便進行未來的分析。

可解釋性

它指的是使用者理解資料的流暢程度。資料用於執行諸如分析之類的任務,但要成功執行這些任務,資料必須具有可解釋性,使用者可以使用它在提供的資料上順利地執行任務。

結論

本文包含資料探勘中資料屬性和質量。

資料屬性指的是物件的屬性,以及它們的型別,即名義、有序、二元和數值屬性。名義屬性區分物件,有序屬性為物件提供有意義的順序,二元屬性分別表示 0 和 1,分別表示缺少特徵和新增特定特徵,數值屬性本質上是定量的。資料質量是指組織中用於決策制定的資料質量。使用的因素包括準確性、完整性、一致性。

及時性、可信度和可解釋性。

更新於:2023年8月22日

4K+ 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告