DNA註釋:基因註釋涉及的步驟和使用的工具
關鍵詞
DNA註釋,基因組註釋,遺傳物質,基因組位置,基因組資料庫,資料庫記錄,真核基因組,註釋工具,原核基因組。
簡介
DNA註釋或基因組註釋是識別基因組中基因和所有編碼區域的位置並確定這些基因功能的過程。註釋是透過解釋或評論新增的註釋。一旦基因組被測序,就需要對其進行註釋以理解其意義。
對於DNA註釋,先前未知的遺傳物質序列表示透過將基因組位置與內含子-外顯子邊界、調控序列、重複序列、基因名稱和蛋白質產物相關聯的資訊進行豐富。此註釋儲存在基因組資料庫中,例如小鼠基因組資訊學、果蠅資料庫和線蟲資料庫。
國家生物醫學本體論中心開發了基於這些記錄的文字描述自動註釋資料庫記錄的工具。真核基因組中的基因可以使用各種註釋工具(如FINDER)進行註釋。現代註釋管道可以支援使用者友好的Web介面和軟體容器化,例如MOSGA。原核基因組的現代註釋管道是Bakta、Prokka和PGAP。
基因註釋涉及的步驟
基因組註釋包括三個主要步驟。
- 識別基因組中不編碼蛋白質的部分。
- 識別基因組中的元素,這個過程稱為基因預測。
- 將生物資訊附加到這些元素。
自動註釋工具試圖透過計算機分析來執行這些步驟,而不是手動註釋(整理),手動註釋涉及人類專業知識。理想情況下,這些方法在同一個註釋管道中共存並相互補充。
一種簡單的基因註釋方法依賴於基於同源性的搜尋工具(如BLAST)來搜尋特定資料庫中的同源基因;然後使用所得資訊來註釋基因和基因組。然而,隨著資訊新增到註釋平臺,手動註釋者能夠分解賦予相同註釋的基因之間的差異。一些資料庫使用基因組上下文資訊、相似性評分、實驗資料和其他資源的整合來透過其子系統方法提供基因組註釋。其他資料庫(Ensembl)依賴於已整理的資料來源以及其自動化基因組註釋管道中的一系列不同的軟體工具。
DNA註釋有兩種型別
- 結構註釋包括基因組元件的識別。查詢ORF、編碼區域和調控基序的位置,以及確定基因結構,都是結構註釋的例子。
- 功能註釋包括透過確定其具有的生化和生物學功能、參與的調控和相互作用網路以及表達來將生物資訊附加到基因組元件。
這些步驟可能涉及生物實驗和計算機分析。基於蛋白質組學的方案利用來自表達蛋白質的資訊(通常來源於質譜)來改進基因組註釋。已經開發了各種軟體工具,允許科學家檢視和共享基因組註釋,例如MAKER。
基因組註釋是一個活躍的研究領域,涉及生命科學界中的幾個不同組織,這些組織將其努力的結果釋出在可公開獲取的生物資料庫中,這些資料庫可以透過網路和其他電子方式訪問。
基因註釋中使用的工具
首先,需要識別基因組中編碼蛋白質的結構。註釋的這一步稱為“結構註釋”。它包括識別和定位開放閱讀框(ORF)、識別基因結構和編碼區域以及調控基序的位置。Galaxy包含多個用於結構註釋的工具。基因預測工具有Augustus(用於真核生物和原核生物)和glimmer3(僅用於原核生物)。
Augustus用於基因預測。基因組序列用作FASTA檔案中的輸入,並透過選擇正確的模式生物,獲得gff(通用特徵格式)輸出。Augustus將提供三個輸出檔案:gff3、編碼序列(CDS)和蛋白質序列。
功能註釋:功能基因註釋是指蛋白質的生化和生物學功能的描述。例如,可以註釋基因的可能分析包括
- 相似性搜尋
- 次級代謝產物的基因簇預測
- 蛋白質序列中跨膜結構域的識別
- 查詢基因本體術語
- 通路資訊。
應用
疾病診斷
基因本體正在被研究人員用來建立疾病-基因關係,因為GO有助於識別新的基因,在不同條件下(例如患病與健康)識別其表達、分佈和功能的變化。
生物修復
一些細菌菌株中參與烴降解的各種分解代謝酶是由位於其可移動遺傳元件(MGE)中的基因編碼的。這些元件的研究在生物修復領域非常重要,因為最近已經尋求接種具有這些MGE的野生型或基因改造菌株以獲得這些烴降解能力。
結論
討論了基於同源性檢測的基因組註釋的傳統方法以及在基因組上下文分析的統稱下統一的新方法。儘管可以預測每個測序原核基因組中絕大多數基因的功能,但在一定精度水平上,但目前的註釋充滿了不準確性、不一致性和不完整性。
設計為基因組註釋工具的專業資料庫似乎能夠極大地改善這種情況,即使不能完全解決註釋問題。此類資料庫的原型已經存在,並且它們的功能及其廣泛的增長很快就會得到保證。