資料探勘的特點是什麼?
資料探勘有各種各樣的特點,如下所示:
資料型別 - 行業中可訪問的大多數資料探勘系統都處理格式化、基於記錄的關係型資料,這些資料具有統計、分類和符號屬性。資料可以是 ASCII 文字、關係資料庫資料或資料倉庫資料形式。測試每個系統可以處理的精確格式至關重要。
某些型別的資料或應用程式可能需要專門的演算法來搜尋模式,因此它們的需 求無法由現成的通用資料探勘系統管理。相反,可以使用專門的資料探勘系 統,這些系統挖掘文字報告、地理空間資料、多媒體資料、流資料、時間序列資料、生物資料或 Web 資料,或者專用於特定應用程式(包括金融、零售業或電信)。
系統問題 - 給定的資料探勘系統只能在一個作業系統框架或多個作業系統框架上執行。託管資料探勘軟體的著名作業系統是 UNIX/Linux 和 Microsoft Windows。還有一些資料探勘系統可以在 Macintosh、OS/2 等上執行。大型面向市場的數
大型面向市場的資料探勘系統通常採用客戶端/伺服器體系結構,其中客戶端可以是個人計算機,伺服器可以是功能強大的平行計算機的集合。目前的趨勢是資料探勘系統支援基於 Web 的介面,並允許 XML 資料作為輸入和/或輸出。
資料來源 - 這定義了資料探勘系統將在其上執行的特定資料格式。一些系統僅在 ASCII 文字檔案上執行,而另一些系統則在關係資料或資料倉庫資料上執行,訪問多個關係資料來源。
資料探勘系統必須提供 ODBC 連線或用於 ODBC 連線的 OLE DB。這些提供了開放式資料庫連線,特別是能夠訪問任何關係資料(包括 IBM/DB2、Microsoft SQL Server、Microsoft Access、Oracle、Sybase 等中的資料)和格式化的 ASCII 文字資料。
資料探勘功能和方法 - 資料探勘功能構成了資料探勘系統的核心。一些資料探勘系統僅支援一種資料探勘功能,例如分類。其他系統可以幫助多種資料探勘功能,包括概念描述、發現驅動的 OLAP 分析、關聯挖掘、連結分析、統計分析、分類、預測、聚類、異常值分析、相似性搜尋、序列模式分析和視覺化資料探勘。
對於給定的資料探勘功能(包括分類),一些系統可能只提供一種方法,而另一些系統則可以提供各種方法(包括決策樹分析、貝葉斯網路、神經網路、支援向量機、基於規則的分類、k 最近鄰方法、遺傳演算法和基於案例的推理)。
提供多種資料探勘功能和每個功能多種方法的資料探勘系統為使用者提供了更高的靈活性和分析能力。某些問題可能需要使用者嘗試幾種不同的挖掘功能或將幾種功能結合在一起,並且不同的方法對於不同型別的資料可能比其他方法更有效。