找到 413 篇文章 關於資料探勘

什麼是網路使用挖掘?

Ginni
更新於 2022年2月17日 12:34:11

4K+ 次檢視

網路使用挖掘用於從 Web 日誌資料中提取有用的資料、資訊和知識,並有助於識別使用者對網頁的訪問模式。在挖掘中,Web 資源的管理人員會考慮網站訪問者的請求資料,這些資料構成 Web 伺服器日誌。網頁集的內容和機制遵循網頁作者的意圖,而單個請求則顯示使用者如何檢視這些網頁。網路使用挖掘可以揭示網頁設計者沒有預料到的關係。一個 Web 伺服器…… 閱讀更多

我們如何使用中心頁面查詢權威頁面?

Ginni
更新於 2022年2月17日 12:32:25

480 次檢視

中心頁面是一組支援指向權威頁面的連結的網頁。中心頁面可能並不突出,也可能存在指向它們的連結;但是,它們支援指向特定主題上的一組突出網站的連結。此類頁面可能是單個主頁上推薦連結的列表,包括課程主頁上推薦的參考網站,或商業網站上專業收集的資源文件。中心頁面在隱式地賦予目標主題權威性方面發揮著重要作用。一般來說,一個好的中心頁面是指向多個好的權威頁面的頁面;一個好的…… 閱讀更多

什麼是文件聚類分析?

Ginni
更新於 2022年2月17日 12:30:24

2K+ 次檢視

文件聚類是無監督方式組織檔案的重要技術。當文件表示為術語向量時,可以應用聚類方法。文件空間通常具有較大的維度,範圍從幾百到幾千不等。由於維數災難,首先將文件投影到低維子空間中是有意義的,在該子空間中,文件空間的語義結構變得清晰。在低維語義區域中,可以使用傳統的聚類演算法。文件聚類分析有幾種方法,如下所示:譜聚類 - 譜聚類方法首先執行譜…… 閱讀更多

如何進行自動文件分類?

Ginni
更新於 2022年2月17日 12:20:22

139 次檢視

自動文件分類是一項重要的文字挖掘服務,因為存在大量的線上檔案,能夠自動將這些記錄組織成類別以支援文件檢索和後續分析是無止境但又非常重要的。文件分類已用於自動主題標記(即,為文件分配標籤)、主題目錄構建以及識別文件寫作風格和定義與一組文件相關的超連結的目標。一般的過程如下:首先,一組預分類檔案作為訓練集。分析訓練集以…… 閱讀更多

使用統計技術進行空間資料探勘怎麼樣?

Ginni
更新於 2022年2月17日 11:55:56

371 次檢視

統計空間資料分析一直是探索空間資料和分析地理資料的一種著名技術。地統計學與連續地理區域相關,而空間統計學與離散空間相關。在一個管理非空間記錄的統計模型中,通常會考慮不同資料區域之間的統計獨立性。然而,與傳統資料集不同,空間分佈資料之間不存在這種獨立性,因為實際上,空間物件通常是相互關聯的,或者更準確地說是在空間上共存的,這意味著兩個物件的位置越接近,它們共享相同屬性的可能性就越大。例如,…… 閱讀更多

如何對這些資料進行泛化?

Ginni
更新於 2022年2月17日 11:53:37

474 次檢視

集合值屬性可以是同構或異構型別的。通常,集合值資訊可以透過以下方式進行泛化:將集合中每個值泛化到其等效的更高級別概念;推匯出集合的通常行為,包括集合中的多個元素、集合中的型別或值範圍、統計資料的加權平均值或集合形成的主要叢集。此外,可以使用多個泛化運算元來分析替代泛化路徑來實現泛化。在這種方法中,泛化的結果是異構集合。示例 - 假設一個人的愛好是一個集合值…… 閱讀更多

什麼是元組 ID 傳播?

Ginni
更新於 2022年2月17日 11:49:00

267 次檢視

元組 ID 傳播是一種實現虛擬連線的方法,它極大地提高了多關係分類的效率。它們不是物理地連線關係,而是透過將目標元組的 ID 連線到非目標關係中的元組來虛擬地組合它們。在這種方法中,可以計算謂詞,就好像實現了物理連線一樣。元組 ID 傳播靈活且有效,因為 ID 可以簡單地在兩個關係之間傳播,只需要少量的資料傳輸和更多的儲存空間。透過這樣做,可以計算多個關係中的謂詞,而冗餘計算很少。元組 ID 傳播必須與…… 閱讀更多

什麼是 BLAST 區域性比對演算法?

Ginni
更新於 2022年2月17日 11:47:02

447 次檢視

BLAST 演算法由 Altschul、Gish、Miller 大約在 1990 年在美國國家生物技術資訊中心 (NCBI) 開發。BLAST 用於推導序列之間的功能和進化關係,並有助於識別基因家族的成員。NCBI 網站包含多個常用的 BLAST 資料庫。根據其內容,它們被組合成核苷酸和蛋白質資料庫。NCBI 還支援專門的 BLAST 資料庫,包括載體篩選資料庫,有多個生物體的多個基因組資料庫,以及軌跡資料庫。BLAST 使用啟發式方法來發現查詢序列和資料庫之間最大的區域性比對。BLAST 增加了完整的…… 閱讀更多

比較和比對生物序列為什麼有用?

Ginni
更新於 2022年2月17日 11:45:18

93 次檢視

比對依賴於所有生物體都透過進化相關聯的事實。這利用了在進化中彼此更接近的物種的核苷酸(DNA、RNA)和蛋白質序列必須表現出更高的相似性。比對是將序列排列起來以獲得最大程度一致性的階段,這也定義了序列之間相似性的程度。如果兩個序列傳送共同祖先,則它們是同源的。透過序列比對獲得的相似性程度可以幫助確定兩個序列之間同源性的可能性。這種比對支援確定…… 閱讀更多

什麼是 GSP?

Ginni
更新於 2022年2月17日 11:42:10

691 次檢視

GSP 代表廣義順序模式。它是由 Srikant 和 Agrawal 於 1996 年提出的順序模式挖掘方法。它是他們對常用項集挖掘的開創性演算法(稱為 Apriori)的擴充套件。GSP 需要順序模式的自下而上的性質,並採用多遍的生成和測試方法。演算法如下。在資料庫的第一次掃描中,它可以發現一些頻繁項,即那些具有最小支援的項。每個專案都會產生一個包含該專案的 1-事件頻繁序列。每次後續傳遞都從順序模式的種子集和…… 閱讀更多

廣告
© . All rights reserved.