什麼是資料整合?


資料整合是從多個不同來源組合資料的過程。在實施資料整合時,應處理資料冗餘、不一致、重複等問題。在資料探勘中,資料整合是一種資料預處理技術,它將來自多個異構資料來源的資料合併成一致的資料,以保留和支援對資訊的整合視角。

它將來自各種來源的資料組合到一個一致的資料儲存中,包括資料倉庫。這些來源可能包括多個數據庫、資料立方體或平面檔案等。在資料整合過程中,需要考慮多個問題。

  • 模式整合和物件匹配可能很複雜。例如,匹配實體標識(在一個數據庫中為emp_id,在另一個數據庫中為emp_no),可以使用元資料來防止此類問題。

  • 冗餘是另一個問題。例如,一個包含年度收入的屬性,如果可以從另一個屬性或一組屬性推匯出來,則可能是冗餘的。屬性或維度名稱的不一致也會在出現的資料集中產生冗餘。

  • 一些冗餘可以透過相關性分析來發現。給定兩個屬性,這種分析可以根據可用資料計算一個屬性對另一個屬性的暗示程度。對於數值屬性,可以透過計算相關係數(也稱為皮爾遜積矩相關係數,以其發明者卡爾·皮爾遜命名)來評估兩個屬性A和B之間的相關性。這是

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N\sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}}{N\sigma _{A}\sigma _{B}}$$

其中N是元組的數量,ai和bi分別是元組i中A和B的值,A和B分別是A和B的平均值,σA和σB分別是A和B的標準差,Σ(aibi)是AB叉積的和,即對於每個元組,A的值乘以該元組中B的值。

相關性並不意味著因果關係。也就是說,如果A和B相關,這並不一定意味著A導致B或B導致A。例如,在分析人口統計資料庫時,可以發現定義某個地區多個醫院和多次汽車盜竊的屬性是相關的。但這並不意味著兩者之間存在因果關係。兩者通常都與第三個屬性相關,例如人口。

資料整合中的第三個重要問題是檢測和解決資料值衝突。例如,對於同一個現實世界中的實體,來自多個來源的屬性值可能不同。這可能是由於表示、縮放或編碼方面的差異。

更新於:2021年11月19日

4K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告