什麼是資料離散化?


資料離散化技術可用於透過將屬性的範圍劃分為區間來減少給定連續屬性的值的數量。可以使用區間標籤來恢復實際資料值。它可以將連續屬性的多個值用少量區間標籤恢復,從而減少並簡化原始資訊。

這導致了簡潔、易用、知識級別的挖掘結果表示。離散化技術可以根據離散化的實現方式進行分類,例如它是否使用類資料或其進行的方向(即自上而下與自下而上)。如果離散化過程使用類資料,則可以說它是監督離散化。因此,它是無監督的。

如果該過程首先透過發現一個或幾個點(稱為分割點或切割點)來分割整個屬性範圍,然後在所得區間上遞迴地繼續此過程,則稱為自上而下離散化或分割。

在自下而上離散化或合併中,它可以從將所有連續值視為潛在分割點開始,透過合併鄰域值形成區間來刪除一些值,然後將此過程遞迴地應用於所得區間。可以對屬性遞迴地實現離散化,以支援屬性值的層次或多解析度分割槽,稱為概念層次結構。

概念層次結構對於在多個抽象級別進行挖掘很有用。給定數值屬性的概念層次結構表示該屬性的離散化。概念層次結構可用於透過用更高級別概念(包括青年、中年或老年)收集和恢復低級別概念(包括屬性年齡的數值)來減少資料。儘管此類資料概括隱藏了細節,但概括後的資料可能更有意義且更易於執行。

這為多個挖掘任務中的資料探勘結果提供了前後一致的描述,這是一個常見的要求。此外,在縮減的資料集上挖掘所需的輸入/輸出操作更少,並且比在更高、未泛化的資料集上挖掘更有效。由於這些優點,離散化技術和概念層次結構通常用作資料探勘之前的預處理步驟,而不是在挖掘過程中。

可以使用多種離散化方法來自動生成或動態細化數值屬性的概念層次結構。此外,分類屬性的許多層次結構都隱含在資料庫設計中,並且可以在模式定義級別自動錶示。

更新於: 2021年11月19日

5K+ 瀏覽量

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.