什麼是BLAST區域性比對演算法？

資料探勘資料庫資料結構

BLAST演算法由Altschul、Gish、Miller等人於1990年前後在美國國家生物技術資訊中心(NCBI)開發。BLAST用於推導序列之間的功能和進化關係，並幫助識別基因家族成員。

NCBI網站包含幾個常用的BLAST資料庫。根據其內容，它們被組合成核苷酸和蛋白質資料庫。NCBI還支援專門的BLAST資料庫，包括載體篩選資料庫，還有多個生物體的多個基因組資料庫和追蹤資料庫。

BLAST使用啟發式方法來發現查詢序列和資料庫之間最大的區域性比對。BLAST透過將待比較的序列分成片段序列（定義為詞）並首先尋找這些詞之間的匹配來提高搜尋的整體速度。

在BLAST中，詞被視為k-元組。對於DNA核苷酸，一個詞通常包含11個鹼基（核苷酸），而對於蛋白質，一個詞通常包含3個氨基酸。BLAST建立一個鄰域（即近似匹配）詞的雜湊表，而“接近”的閾值取決於統計資料。它從精確匹配到鄰域詞開始。

因為好的比對必須包含幾個接近的匹配，所以它可以使用統計資料來決定哪些匹配很重要。透過雜湊，它可以在O(n)（線性）時間內找到匹配。透過雙向查詢匹配，該方法可以發現高質量的比對，包括幾個高分段和最大段對。

BLAST演算法有幾個版本和擴充套件。例如，MEGABLAST、不連續MEGABLAST和BLASTN都可以用來識別核苷酸序列。MEGABLAST專門設計用於有效地查詢非常相似序列之間的長比對，因此它是查詢與查詢序列完全匹配的最佳工具。

指導BLAST搜尋靈敏度的重要引數之一是原始詞的長度，或詞大小。詞大小在BLASTN中是靈活的，可以從預設值降低到最低7以提高搜尋靈敏度。因此，BLASTN在發現來自不同生物體的相關核苷酸序列的比對方面優於MEGABLAST。

標準蛋白質-蛋白質BLAST (BLASTP) 用於識別查詢氨基酸序列和在蛋白質資料庫中發現相同序列。位置特異性迭代(PSI)-BLAST專為提高蛋白質相似性搜尋的靈敏度而建立。它有利於發現非常遠緣的蛋白質。

模式命中啟動(PHI)-BLAST可以進行有限的蛋白質模式搜尋。它被設計用來搜尋包含使用者定義的模式並且在模式附近與查詢序列相同的蛋白質。

Ginni

更新於：2022年2月17日

447 次瀏覽

啟動你的職業生涯

完成課程獲得認證

廣告

© . All rights reserved.