資料探勘的理論基礎是什麼?
資料探勘的基礎有幾種理論,包括以下這些:
資料規約——在這個理論中,資料探勘的基礎是減少資料表示。為了快速獲得對海量資料庫查詢的近似答案,資料規約用速度換取確定性。
資料規約方法包括奇異值分解(主成分分析背後的驅動因素)、小波、迴歸、對數線性模型、直方圖、聚類、抽樣和索引樹的開發。
資料壓縮——根據這個理論,資料探勘的基礎是用位、關聯規則、決策樹、聚類等對給定資訊進行編碼壓縮。
模式發現——在這個理論中,資料探勘的基礎是在資料庫中查找出現的模式,包括關聯、分類模型、序列模式等。機器學習、神經網路、關聯挖掘、序列模式挖掘、聚類以及其他幾個不同的子領域都為這個理論做出了貢獻。
機率論——這是基於統計理論的。在這個理論中,資料探勘的基礎是尋找隨機變數的聯合機率分佈,例如貝葉斯信念網路或分層貝葉斯模型。
微觀經濟學視角——微觀經濟學視角將資料探勘視為發現模式的服務,這些模式只有在可以用於某些企業的決策過程(例如,關於營銷方法和生產計劃)時才具有吸引力。
這種觀點是一種服務,其中模式如果可以基於它們被認為是有趣的。企業被認為面臨最佳化問題,目標是最大化決策的服務或價值。在這個理論中,資料探勘成為一個非線性最佳化問題。
歸納資料庫——根據這個理論,資料庫模式包括儲存在資料庫中的資料和模式。資料探勘是在資料庫上實現歸納的問題,其功能是查詢資料庫的資訊和理論(即模式)。這種觀點在資料庫系統的一些研究人員中很流行。
這些理論並非相互排斥。例如,模式發現也可以被視為資料規約或資料壓縮的一種設計。理想情況下,一個理論框架必須能夠模擬典型的資料探勘任務(包括關聯、分類和聚類),具有機率特性,能夠管理多種形式的資料,並處理資料探勘的迭代和互動本質。此外,需要努力建立一個滿足這些要求的、定義明確的資料探勘結構。
廣告