1K+ 瀏覽量
在資料量縮減中,透過選擇一種替代的、更小的資料表示形式來減少資料量。這些技術可能是引數化的或非引數化的。對於引數化方法,使用模型來估計資料,因此只需要儲存資料引數,而不是實際資料,例如,對數線性模型。非引數化方法用於儲存資料的簡化表示,包括直方圖、聚類和抽樣。以下是資料量縮減的技術:迴歸和對數線性模型 - 這些模型可用於近似給定資料。在 ... 閱讀更多
2K+ 瀏覽量
在維度縮減中,應用資料編碼或轉換以獲得原始資料的簡化或“壓縮”表示。如果可以從壓縮資料中重建原始資料而沒有任何資訊丟失,則資料縮減稱為無損縮減。如果重建的資料只是原始資料的近似值,則資料縮減稱為有損縮減。以下是兩種有損縮減方法:小波變換 - 離散小波變換 (DWT) 是一種線性訊號處理技術,當應用於資料向量 X 時,將其轉換為數值不同的向量 X',... 閱讀更多
3K+ 瀏覽量
屬性子集選擇透過消除不相關或冗餘的屬性(或維度)來減少資料集的大小。屬性子集選擇旨在發現最小的屬性集,使得所得資料類的機率分佈儘可能接近使用所有屬性訪問的原始分佈。在減少的屬性集上進行資料探勘具有額外的優勢。它減少了發現的模式中出現的多個屬性,有助於使模式更易於理解。對於 n 個屬性,有 2n 個可能的子集。對屬性的最佳子集進行窮舉搜尋可能非常昂貴,... 閱讀更多
4K+ 瀏覽量
資料探勘應用於大型資料庫中的選定資料。當對大量資料進行資料分析和挖掘時,處理時間非常長,這使其變得不切實際且不可行。為了減少資料分析的處理時間,資料規約技術用於獲得資料集的簡化表示,其資料量要小得多,同時保持原始資料的完整性。透過減少資料,提高了資料探勘過程的效率,從而產生相同的分析結果。資料規約旨在定義 ... 閱讀更多
在資料轉換中,資料被轉換為或組合成適合挖掘的形式。資料轉換可能包括以下內容:平滑 - 它可以去除資料中的噪聲。此類方法包括分箱、迴歸和聚類。聚合 - 在聚合中,對資料應用匯總或聚合操作。例如,可以聚合每日銷售資料以計算每月和每年的總金額。此階段通常用於為在多個粒度級別分析資料建立資料立方體。泛化 - 在泛化中,將低階或“原始”(原始)資料還原為更高級別的概念 ... 閱讀更多
資料整合是將來自多個不同來源的資料組合在一起的階段。在實施資料整合時,它應該處理資料冗餘、不一致、重複等問題。在資料探勘中,資料整合是一種資料預處理技術,包括將來自多個異構資料來源的資料合併成連貫的資料,以保留和支援對資訊的統一視角。它將來自各種來源的資料組合到一個連貫的資料儲存中,包括資料倉庫。這些來源可能包括多個數據庫、資料立方體或平面檔案等。在資料整合期間,需要考慮多個問題。模式整合和物件匹配可能很複雜。對於 ... 閱讀更多
15K+ 瀏覽量
資料清洗定義為透過填充缺失值、平滑噪聲資料、分析和去除異常值以及消除資料中的不一致性來清理資料。有時,多個詳細級別的資料可能與所需的不同,例如,它可能需要 20-30、30-40、40-50 的年齡範圍,而匯入的資料包含出生日期。可以透過將資料拆分為適當的型別來清理資料。資料清洗型別以下是各種資料清洗型別:缺失值 - 缺失值用適當的值填充。以下是 ... 閱讀更多
5K+ 瀏覽量
資料探勘是透過共享儲存在儲存庫中的大量資料,使用包括統計和數學技術在內的模式識別技術,查詢有用的新關聯、模式和趨勢的過程。它是對事實資料集的分析,以發現意想不到的關係,並以對資料所有者而言既合乎邏輯又有幫助的新穎方式總結記錄。它是選擇、探索和建模大量資訊以查詢最初未知的規律或關係的過程,以獲得對資料庫所有者而言清晰且有益的結果。它不僅限於 ... 閱讀更多
8K+ 瀏覽量
資料探勘系統與資料庫或資料倉庫系統整合,以便它能夠在有效的環境中執行其任務。資料探勘系統在一個需要它與其他資料系統(如資料庫系統)通訊的環境中執行。以下是可以整合這些系統的可能的整合方案:無耦合 - 無耦合定義資料探勘系統將不使用資料庫或資料倉庫系統的任何功能。它可以從特定來源(包括檔案系統)檢索資料,使用一些資料 ... 閱讀更多
63K+ 瀏覽量
資料探勘功能用於表示必須在資料探勘任務中發現的模式型別。通常,資料探勘任務可以分為兩類,包括描述性和預測性。描述性挖掘任務定義資料庫中資料的共同特徵,而預測性挖掘任務則對當前資訊進行推理以開發預測。以下是各種資料探勘功能:資料特徵描述 - 它是資料類物件的總體特徵的總結。通常透過使用者指定的類對應的資料來收集 ... 閱讀更多