為什麼資料探勘需要統計學?
統計學是關於從資料中學習的科學。它涵蓋了從計劃記錄集和後續資料管理到最終活動的一切,包括從稱為資料的數字事實中推斷和呈現結果。統計學關注的是人類最基本的需求:在創新和不確定性面前,需要更多地瞭解世界以及世界如何運作。
資訊是知識的交流。資料本身被稱為原始資料,並非知識。從資料到知識的順序如下:從資料到資訊(當資料與決策問題相關時,資料就變成了資訊);從資訊到事實(當資料可以支援它時,資訊就變成了事實);最後,從事實到知識(當事實用於成功完成決策過程時,事實就變成了知識)。
統計學源於將知識置於系統證據基礎上的需求。這需要研究機率規律、發展資料屬性和關係的計算等等。
統計學定義了數值記錄的分析和呈現,這是所有資料探勘演算法的基本要素。它支援處理海量資料的工具和分析方法。統計學涵蓋了規劃、設計、收集資訊、分析和報告研究結果。因為這些統計學不僅定義在數學中,而且商業分析師也使用統計學來解決商業問題。
推論統計用於根據樣本估計總體引數的值。它可以進行假設檢驗,以檢視兩個資料集是否相似或不同。它用於進行線性或多元迴歸分析以解釋因果關係。
假設檢驗可以對兩個資料集進行數值比較。例如,它可以認為(假設)這種銷售額與主要競爭對手的銷售額相似或更好。它可以使用假設檢驗來數學地證實或拒絕這種假設。
相關分析是一個簡單的工具,可以從大型資料集中經常觀察到的多個隨機變數中隔離感興趣的變數,以檢視哪些業務變數顯著影響所需的業務結果。
可以使用多種統計方法來準備質量控制圖表,包括Shewhart圖表和cusum圖表(兩者都顯示組彙總統計資料)。這些統計資料包含均值、標準差、範圍、計數、移動平均值、移動標準差和移動範圍。
廣告
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP