資料探勘:資料屬性和質量
資料探勘
從海量資料集中提取可用於分析和為組織帶來益處的資料的過程。此過程有助於識別模式並管理資料之間的關係,以預測業務問題。
資料屬性
屬性可以定義為物件的特徵或屬性。物件由屬性集描述,並被稱為實體的記錄。實體由資料的一部分(即屬性)描述。
例如:在學生資料庫中。(姓名、ID、學號、分數)是提供的資料庫中的屬性。
屬性型別
名義屬性
它僅提供足以區分物件的屬性。例如,姓名、學號、地址都是資料集中使用的不同物件。
有序屬性
它是一個屬性,其可能的值提供足夠的資訊來對物件進行有意義的排序。例如,薪資範圍、教育水平、排名等。
二元屬性
二元屬性為 0 和 1。0 表示缺少任何特徵,1 表示新增特定特徵。
數值屬性
它本質上是定量的,即數量可以測量並以整數或實數值的形式表示。
它分為兩種型別:
區間標度屬性:
使用此屬性測量大小相等的單位的尺度。它使我們能夠進行比較,例如攝氏或華氏溫度。
比率標度屬性:
對於比率,差異和比率都具有意義。例如,年齡、體重、薪資等。
資料質量
資料質量是指實施技術以使資料適合提供組織所需特定資訊的實施。滿足需求的資料被認為是高質量資料,並且對於組織中的決策制定非常準確。確保資料質量以獲得更好護理的六個主要因素:
準確性
資料必須反映現實世界場景。由於許多原因(例如人為錯誤或計算機錯誤)可能存在不準確的日期。
完整性
完整性意味著可用的資料必須有效地交付。不完整的資料可能會根據感興趣的屬性而出現。
一致性
它指的是跨網路使用的資料的規律性。在不同位置儲存的類似資料之間不應有任何衝突。不正確的資料也可能導致不一致。
及時性
資料在需要時可用。資料即時更新,以便使用者可以訪問。它有時會透過未更新或使用者未進行更正和調整而影響資料質量。
可信度
它指的是使用者對資料的信任程度。存在的資料被認為是準確和正確的,以便進行未來的分析。
可解釋性
它指的是使用者理解資料的流暢程度。資料用於執行諸如分析之類的任務,但要成功執行這些任務,資料必須具有可解釋性,使用者可以使用它在提供的資料上順利地執行任務。
結論
本文包含資料探勘中資料屬性和質量。
資料屬性指的是物件的屬性,以及它們的型別,即名義、有序、二元和數值屬性。名義屬性區分物件,有序屬性為物件提供有意義的順序,二元屬性分別表示 0 和 1,分別表示缺少特徵和新增特定特徵,數值屬性本質上是定量的。資料質量是指組織中用於決策制定的資料質量。使用的因素包括準確性、完整性、一致性。
及時性、可信度和可解釋性。