BLAST:基本區域性比對搜尋工具
關鍵詞
BLAST,生物資訊學,啟發式演算法,程式,生物序列,蛋白質,核苷酸,資料庫序列,最大片段對,比對,DNA 和 RNA 序列。
簡介
BLAST(基本區域性比對搜尋工具)在生物資訊學中,是一種用於比較主要生物序列資訊的演算法和程式,例如蛋白質的氨基酸序列或 DNA 和 RNA 序列的核苷酸。
BLAST 搜尋使研究人員能夠將目標蛋白質或核苷酸序列與序列庫或資料庫進行比較,並識別與上述字母表在一定閾值以上相似的資料庫序列。它使用的啟發式演算法比其他方法(例如計算最佳比對)快得多。BLAST 可在 NCBI 網站上透過網路使用。根據查詢序列和目標資料庫,可以使用不同型別的 BLAST。
流程
BLAST 透過查詢兩個序列之間的短匹配來查詢相似的序列。這種查詢相似序列的過程稱為種子生成。在第一次匹配之後,BLAST 開始進行區域性比對。BLAST 的啟發式演算法在感興趣的序列和來自資料庫的命中序列或序列之間定位所有常見的三個字母的詞。然後將此結果用於構建比對。
這些詞必須滿足一個要求,即在使用評分矩陣進行比較時,其得分至少為閾值 T。閾值得分 T 決定了特定詞是否將包含在比對中。如果此得分高於預定的 T,則比對將包含在 BLAST 給出的結果中。如果得分低於此預定的 T,則比對將停止擴充套件,防止將比對較差的區域包含在 BLAST 結果中。
演算法
BLAST 的主要思想是,在統計上顯著的比對中通常包含高分段對 (HSP)。BLAST 程式的速度和相對良好的準確性是 BLAST 程式的關鍵技術創新之一。BLAST 演算法(蛋白質到蛋白質搜尋)的概述如下。
去除查詢序列中的低複雜度區域或序列重複。
建立查詢序列的 k 字母詞列表。
列出可能的匹配詞。
將剩餘的高分片語織到一個有效的搜尋樹中。
對查詢序列中的每個 k 字母詞重複步驟 3 到 4。
掃描資料庫序列以查詢與剩餘的高分詞完全匹配。
將精確匹配擴充套件到高分段對 (HSP)。
列出資料庫中所有得分足夠高以被考慮的 HSP。
評估 HSP 得分的顯著性。
將兩個或多個 HSP 區域合併成更長的比對。
顯示查詢和每個匹配的資料庫序列的帶間隙的 Smith-Waterman 區域性比對。
報告預期得分低於閾值引數 E 的每個匹配。
程式
BLAST 是一系列程式,可以下載並作為命令列實用程式“blastall”執行,也可以透過網路免費訪問。現在有少量不同的 BLAST 程式可用。這些不同的程式在查詢序列輸入、搜尋的資料庫以及比較的內容方面有所不同。這些程式及其詳細資訊列在下面。在這些程式中,BLASTn 和 BLASTp 使用最為廣泛。
核苷酸-核苷酸 BLAST (blastn)
給定一個 DNA 查詢,返回使用者指定的 DNA 資料庫中最相似的 DNA 序列。
蛋白質-蛋白質 BLAST (blastp)
給定一個蛋白質查詢,返回使用者指定的蛋白質資料庫中最相似的蛋白質序列。
位置特異性迭代 BLAST (PSI-BLAST) (blastpgp)
此程式用於查詢蛋白質的遠親。與標準的蛋白質-蛋白質 BLAST 相比,PSI-BLAST 在拾取遠距離進化關係方面更加敏感。
核苷酸 6 幀翻譯-蛋白質 (blastx)
此程式將核苷酸查詢序列的六幀概念翻譯產物與蛋白質序列資料庫進行比較,以在基因組序列中找到蛋白質編碼基因,或檢視 cDNA 是否與已知蛋白質相對應。
核苷酸 6 幀翻譯-核苷酸 6 幀翻譯 (tblastx)
此程式是 BLAST 家族中最慢的程式。tblastx 的目的是查詢核苷酸序列之間非常遙遠的關係。
蛋白質-核苷酸 6 幀翻譯 (tblastn)
此程式將蛋白質查詢與核苷酸序列資料庫的所有六個閱讀框進行比較。它可用於將蛋白質對映到基因組 DNA。
大量查詢序列 (megablast)
當透過命令列 BLAST 比較大量輸入序列時,“megablast”比多次執行 BLAST 快得多。
BLAST 的用途
BLAST 可用於多種用途。其中包括識別物種、定位結構域、建立系統發育、DNA 測繪和比較。
識別物種
正確識別物種或查詢同源物種。這在處理來自未知物種的 DNA 序列時非常有用。
定位結構域
可以將蛋白質序列輸入 BLAST,以在感興趣的序列中定位已知的結構域。
建立系統發育
透過 BLAST 收到的結果,可以使用 BLAST 網頁建立系統發育樹。僅基於 BLAST 的系統發育樹可靠性較低。
DNA 測繪
在處理已知物種並希望在未知位置對基因進行測序時,BLAST 可以將感興趣的序列的染色體位置與資料庫中的相關序列進行比較。NCBI 為此目的構建了一個名為“Magic-BLAST”的工具,該工具基於 BLAST。
比較
在處理基因時,BLAST 可以定位兩個相關物種中的常見基因,並可用於將一個生物體的註釋對映到另一個生物體。
結論
BLAST 已成為生物學家的必不可少的工具。其速度和靈敏度使科學家能夠將核苷酸和蛋白質序列與單個序列和大型資料庫進行比較。最重要的是,BLAST 有助於使生物資訊學分析民主化,並使其能夠透過網際網路供任何研究人員使用。
BLAST 及其衍生應用程式使科學家能夠預測整個基因組中基因和蛋白質的功能,在計算機上回答實驗室或現場無法回答的問題。BLAST 方法允許構建用於資料庫搜尋的極快速程式,以進一步利用其易於進行數學分析的優勢。
資料結構
網路
RDBMS
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP