為什麼我們需要KDD?
將資料轉化為知識的傳統技術依賴於人工分析和解釋。例如,在醫療保健行業,專家每季度系統地分析醫療保健資料中的當前趨勢和變化是很常見的。
專家會向贊助的醫療保健組織提交一份詳細說明分析結果的報告;這份報告成為未來醫療保健管理決策和計劃的基礎。有幾種型別的應用,包括行星地質學家篩選行星和小行星的遙感影像,仔細定位和編目諸如撞擊坑等感興趣的地質物體。
這種對資料集進行人工探查的方式速度慢、成本高且高度主觀。隨著資料量的急劇增長,這種人工資料分析在許多領域變得完全不切實際。
在商業領域,主要的KDD應用領域包括市場營銷、金融(尤其是投資)、欺詐檢測、製造業、電信和網路代理。
市場營銷 - 在市場營銷中,基本應用是資料庫營銷系統,它分析客戶資料庫以識別不同的客戶群體並預測他們的行為。
投資 - 許多公司將資料探勘用於投資,但大多數公司沒有公開其系統。一個例外是LBS資本管理公司。它的系統使用專家系統、神經網路和遺傳演算法來管理總計6億美元的投資組合;自1993年成立以來,該系統一直跑贏大盤。
欺詐檢測 - HNC Falcon和Nestor PRISM系統用於檢查信用卡欺詐,監控數百萬個賬戶。美國財政部金融犯罪執法網路的FAIS系統可以識別可能表明洗錢活動的金融交易。
製造業 - CASSIOPEE故障排除系統是通用電氣和斯奈克瑪合資企業的一部分開發的。它被三家主要的歐洲航空公司用來診斷和預測波音737飛機的問題。
電信 - 電信警報序列分析器(TASA)是與電信裝置製造商和三個電話網路(Mannila、Toivonen和Verkamo 1995)合作開發的。該系統使用一種新穎的架構來從警報流中定位頻繁出現的警報事件,並將其顯示為規則。
存在大量可使用靈活的資料檢索工具進行探索的已發現規則,這些工具提供了互動性和迭代性。透過這種方法,TASA提供了修剪、分組和排序裝置來細化對規則進行基本蠻力搜尋的結果。
資料清洗 - MERGE-PURGE系統用於識別重複的福利申請(Hernandez和Stolfo 1995)。它被廣泛應用於華盛頓州福利部門的資料。