在資料探勘中,派生模型是如何呈現的?
分類是發現一個模型的過程,該模型定義和分類資料類或概念。該模型基於對一組訓練資料(即已知類標籤的資料物件)的搜尋。該模型可以預測類標籤未知的物件的類標籤。
派生模型可以用多種形式表示,包括分類規則(即 IF-THEN 規則)、決策樹、數值公式或神經網路。決策樹是一種類似流程圖的樹狀結構,其中每個節點表示對屬性值的測試,每個分支定義測試的結果,樹葉描述類或類分佈。
決策樹可以轉換為分類規則。神經網路在用於分類時,通常是一組類似神經元的處理單元,這些單元之間具有加權連線。構建分類模型的方法有很多,包括樸素貝葉斯分類、支援向量機和 k 近鄰分類。
分類預測分類(離散、無序)標籤,迴歸模型預測連續值函式。迴歸可以預測缺失或不可用的統計資料值,而不是(離散)類標籤。
預測定義了數值預測和類標籤預測。迴歸分析是一種用於數值預測的統計方法,儘管也存在多種技術。迴歸還圍繞著根據可用資料識別分佈趨勢。
分類和迴歸可能需要在相關性分析之前進行,相關性分析試圖識別對分類和迴歸過程有顯著影響的屬性。這些屬性將被選擇用於分類和迴歸過程。有多個屬性是不相關的,可以不被考慮。
假設作為 AllElectronics 的銷售經理,需要根據對銷售活動的三種類型的響應(例如良好響應、溫和響應和無響應)來定義商店中的一大批商品。
它可以根據商品的描述性特徵(包括價格、品牌、產地、型別和類別)為這三個類別中的每一個派生一個模型。生成的分類應該最大限度地將每個類別與其他類別區分開來,呈現資料集的有組織影像。
決策樹可以識別價格作為最能區分這三個類別的單個因素。該樹可以揭示除了價格之外,有助於進一步區分每個類別的物件的特徵還包括品牌和產地。這樣的決策樹可以幫助我們瞭解給定銷售活動的影響,並在未來設計更有效的活動。
廣告
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP