找到 413 篇文章 關於資料探勘

這些統計資訊如何用於查詢解答?

Ginni
更新於 2022年2月17日 10:54:39

104 次檢視

統計引數可用於自上而下、基於網格的方法,如下所示。首先,確定層次結構中用於啟動查詢解答過程的層。此層通常包含少量單元格。對於當前層中的每個單元格,它可以計算置信區間(或機率的估計範圍),反映單元格與給定查詢的相關性。高層單元格的統計引數可以簡單地從低層單元格的引數計算得出。這些引數包含以下內容:屬性無關引數、計數和屬性相關引數、均值、標準差 (stdev)、最小值 (min)…… 閱讀更多

什麼是 STING?

Ginni
更新於 2022年2月16日 12:44:19

746 次檢視

STING 代表統計資訊網格 (Statistical Information Grid)。STING 是一種基於網格的多解析度聚類方法,其中空間區域被劃分為矩形單元格。有幾種這樣的矩形單元格方法相當於多種解析度方法,這些單元格形成一個層次結構,每一高層單元格都分離成下一低層中的幾個單元格。每個網格單元格中屬性的統計資料(包括均值、最大值和最小值)是預先計算和儲存的。高層單元格的統計引數可以簡單地從低層單元格的引數計算得出。這些引數包含以下內容…… 閱讀更多

什麼是 DENCLUE?

Ginni
更新於 2022年2月16日 12:38:40

4K+ 次檢視

聚類是知識發現的重要資料探勘方法。聚類是一種探索性資料分析方法,它將多個數據物件分類到相同的組中,例如聚類。DENCLUE 代表基於密度的聚類 (Density-based Clustering)。它是一種依賴於一組密度分佈函式的聚類方法。DENCLUE 演算法使用依賴於核密度估計的聚類模型。聚類由預測密度函式的區域性最大值表示。DENCLUE 不對具有均勻分佈的記錄進行操作。在高維空間中,由於維數災難,資料總是看起來像均勻分佈的。因此,DENCLUDE 在…… 閱讀更多

什麼是 DBSCAN?

Ginni
更新於 2022年2月16日 12:26:55

5K+ 次檢視

DBSCAN 代表基於密度的應用空間聚類帶有噪聲 (Density-Based Spatial Clustering of Applications with Noise)。它是一種基於密度的聚類演算法。該演算法將具有足夠高密度的區域增加到聚類中,並在具有噪聲的空間資料庫中找到任意結構的聚類。它將聚類表示為密度連線點的最大組。基於密度的聚類的概念包括許多新的定義,如下所示:給定物件的半徑 ε 內的鄰域稱為該物件的 ε 鄰域。如果物件的 ε 鄰域至少包含最小數量 MinPts 的物件,則該物件被稱為核心…… 閱讀更多

什麼是 ROCK?

Ginni
更新於 2022年2月16日 12:24:47

4K+ 次檢視

ROCK 代表使用連結的魯棒聚類 (Robust Clustering using links)。它是一種層次聚類演算法,分析具有分類屬性的資料的連結概念(兩個物件之間的公共鄰居數量)。它顯示這種距離資料在對分類資訊進行聚類時無法產生高質量的聚類。此外,大多數聚類演算法在聚類時只建立點之間的相似性,即在每一步中,將組合成單個聚類的點。這種“區域性”方法容易出現錯誤。例如,兩個不同的聚類可能有一些靠近的點或異常值;因此,依靠點之間的相似性來…… 閱讀更多

K-means 演算法是如何工作的?

Ginni
更新於 2022年2月16日 12:23:12

401 次檢視

K-means 演算法建立輸入引數 k,並將一組 n 個物件劃分為 k 個聚類,以便生成的類內相似性很大,但類間相似性很低。聚類相似性是根據聚類中物件的平均值計算的,這可以看作是聚類的質心或重心。K-means 演算法如下所示。首先,它可以隨機選擇 k 個物件,每個物件最初定義一個聚類均值或中心。對於其餘每個物件,建立一個物件到它所屬的聚類…… 閱讀更多

什麼是二元變數?

Ginni
更新於 2022年2月16日 12:18:00

2K+ 次檢視

二元變數只有兩種狀態,例如 0 或 1,其中 0 表示變數不存在,1 表示變數存在。例如,給定定義患者的變數吸菸者,1 表示患者吸菸,而 0 表示患者不吸菸。可以認為二元變數就像區間標度一樣,會導致誤導性的聚類結果。因此,定義為二元資料的方法對於計算差異至關重要。有一種方法涉及從給定的二元資料計算差異矩陣。如果某些二元變數被認為具有…… 閱讀更多

什麼是區間標度變數?

Ginni
更新於 2022年2月16日 12:01:16

2K+ 次檢視

區間標度變數是近似線性尺度的連續資料。例如重量和高度、經緯度座標(例如,在對房屋進行聚類時)和天氣溫度。使用的測量單位會影響聚類分析。例如,將高度的資料單位從米更改為英寸,或將重量的資料單位從千克更改為磅,會導致幾種聚類結構。一般來說,將變數定義為較小的單位會導致該變數的範圍更大,因此對最終的聚類結構的影響更大。它可以防止依賴於資料單位的選擇,資料必須是…… 閱讀更多

什麼是 ROC 曲線?

Ginni
更新於 2022年2月16日 11:53:36

1K+ 次檢視

ROC 代表受試者工作特徵 (Receiver Operating Characteristic)。ROC 曲線是分析兩種分類模型的便捷視覺化工具。ROC 曲線來自第二次世界大戰期間為搜尋雷達影像而產生的訊號檢測理論。ROC 曲線顯示了給定模型的真陽性率或靈敏度(識別出的陽性元組的比例)和假陽性率(錯誤地識別為陽性的陰性元組的比例)之間的權衡。給定一個兩類問題,它使我們能夠預測模型能夠準確識別“是”案例的比率與模型…… 閱讀更多

什麼是廣義線性模型?

Ginni
更新於 2022年2月16日 11:52:19

943 次檢視

廣義線性模型定義了線性迴歸可用於對分類響應變數建模的理論基礎。在廣義線性模型中,響應變數 y 的方差是 y 的均值的函式,這與線性迴歸不同,線上性迴歸中,y 的方差是常數。廣義線性模型 (GLM) 是傳統線性模型的擴充套件。該演算法透過最大化對數似然函式來擬合資訊中的廣義線性模型。彈性網路懲罰可用於引數正則化。模型擬合計算是並行的,非常快,並且對於具有……的模型來說非常有效地擴充套件 閱讀更多

廣告
© . All rights reserved.