資料探勘序列資料的型別有哪些?


序列是有序事件列表。序列可以根據其定義的事件特徵分為三類,如下所示:

時間序列資料中的相似性搜尋

時間序列資料集包含在重複計算時間內獲取的整數序列值。這些值通常在相同的時間間隔內測量(例如每分鐘、每小時或每天)。

時間序列資料庫在多個應用程式中都很有名,包括股票市場分析、經濟和銷售預測、預算分析、效用研究、庫存研究、收入預測、工作負載預測以及流程和質量服務。它們有利於研究自然現象、數學和工程實驗以及藥物治療。

時間序列資料中的迴歸和趨勢分析

時間序列資料的迴歸分析在資料和訊號分析的應用中得到了實質性的設計。趨勢分析使用以下四個主要要素或運動構建一個整合模型來定義時間序列資料:

趨勢或長期運動 - 這些表示時間序列圖隨時間變化的總體方向,例如,使用加權移動平均線和最小二乘法找到趨勢曲線,包括虛線曲線。

迴圈運動 - 這些是圍繞趨勢線或曲線的長期振動。

季節性變化 - 這些是時間序列在連續年份的等效季節(包括假日購物季節)中遵循的非常相似的模式。為了進行有效的趨勢分析,需要根據自相關計算的季節性指數對資料進行“季節性調整”。

隨機運動 - 這些定義了由於偶然事件(包括勞資糾紛或組織內宣佈的人事變動)造成的零星變化。

符號序列中的順序模式挖掘

符號序列包含元素或事件的有序組,記錄時是否具有時間概念。有幾個應用程式包括符號序列資料,包括使用者購物序列、網頁點選流、程式實現序列、生物序列以及科學和工程以及自然和社會發展中的事件序列。

由於生物序列賦予複雜的語義含義並提出幾個具有挑戰性的研究問題,因此大多數研究都針對生物資訊學的應用。

生物序列比對

生物序列定義核苷酸或氨基酸的序列。生物序列分析比較、比對、索引和研究生物序列,因此在生物資訊學和現代生物學中發揮著至關重要的作用。

序列比對依賴於所有生物都與進化相關的事實。這表明在進化上彼此更接近的物種的核苷酸(DNA、RNA)和蛋白質序列必須表現出更高的相似性。比對是將序列排列以獲得最大同一性水平的過程,這也定義了序列之間相似性的程度。

更新於: 2022年2月18日

2K+ 瀏覽量

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.