DNA測序的覆蓋度及其型別
關鍵詞
DNA測序,下一代測序,遺傳學,測序成本,研究設計,稀有變異,核苷酸。
介紹
覆蓋度是衡量DNA測序深度或完整性的幾個指標之一,在遺傳學中更具體地表達。覆蓋度描述了唯一對映到參考基因組並“覆蓋”已知基因組部分的測序讀數的數量。理想情況下,唯一比對的測序讀數均勻分佈在參考基因組中,從而提供均勻的覆蓋度。
對映到已知區域的測序讀數的數量也是覆蓋度的一個重要組成部分。覆蓋度並不均勻,由於各種因素,在感興趣的基因區域可能代表性不足。這些因素包括基因組本身很複雜,包含基因、非編碼DNA、重複序列和其他元素,這些元素可能使測序讀數難以比對到正確的基因組座標。
覆蓋度定義為與參考基因組中特定基因座比對的樣本核苷酸鹼基序列的數量。需要足夠的正確對映的讀數才能找到並正確識別基因突變。
透過高測序覆蓋度,研究人員可以找到“大海撈針”中的針,能夠識別低頻突變或發現異質樣本(如腫瘤活檢)中的突變。覆蓋度不足,無論是由於讀數不足還是測序讀數對映不正確,都會導致無法檢測到感興趣的變異。
覆蓋度的型別
1. 序列覆蓋度
序列覆蓋度(或深度)是指包含重建序列中給定核苷酸的唯一讀數的數量。深度測序指的是針對序列每個區域的大量唯一讀數這一普遍概念。
基本原理
即使每個單個核苷酸的測序精度非常高,但基因組中數量巨大的核苷酸意味著,如果只對單個基因組測序一次,將會有大量的測序錯誤。基因組中的許多位置包含稀有的單核苷酸多型性(SNP)。因此,為了區分測序錯誤和真實的SNP,需要透過多次測序單個基因組來進一步提高測序精度。
超深度測序
術語“超深度”有時也指更高的覆蓋度(>100倍),這允許檢測混合群體中的序列變異。
轉錄組測序
轉錄組的深度測序,也稱為RNA-Seq,提供了特定細胞型別、組織或器官中任何時間點存在的RNA分子的序列和頻率。計算由單個基因編碼的mRNA的數量,可以指示蛋白質編碼潛力,這是表型的主要貢獻者。改進RNA測序方法是實驗方法和計算方法方面積極的研究領域。
計算
整個基因組的平均覆蓋度可以根據原始基因組的長度(G)、讀數的數量(N)和平均讀長(L)計算為N × L/G。此引數還可以估算其他數量,例如基因組被讀數覆蓋的百分比(有時也稱為覆蓋寬度)。鳥槍法測序中需要高覆蓋度,因為它可以克服鹼基識別和組裝中的錯誤。DNA測序理論主題探討了此類數量之間的關係。
2. 物理覆蓋度
物理覆蓋度,讀數或讀數對的累積長度,表示為基因組大小的倍數。有時會區分序列覆蓋度和物理覆蓋度。其中序列覆蓋度是鹼基被讀取的平均次數,物理覆蓋度是鹼基被讀取或由配對讀數跨越的平均次數。
3. 基因組覆蓋度
基因組覆蓋度,基因組中所有鹼基對或基因座被測序覆蓋的百分比。就基因組覆蓋度和準確性而言,全基因組測序大致可以分為以下兩種:
草圖序列,以約99.9%的準確度覆蓋約90%的基因組。
完成序列,以約99.99%的準確度覆蓋超過95%的基因組。
根據此定義,產生真正高質量的完成序列非常昂貴。因此,大多數人類“全基因組測序”結果都是草圖序列。
結論
擁有足夠的覆蓋度對於確保能夠高置信度地研究感興趣的基因組區域顯然非常重要。對於覆蓋度很少或沒有覆蓋度的區域,研究人員經常增加其研究的測序通量。也就是說,獲得更多測序讀數和資料以透過蠻力方法增加基因區域的覆蓋度。
然而,這種方法效率低下,會增加成本,並且不會解決覆蓋度不足的根本原因。透過增加通量,具有足夠覆蓋度的基因組區域現在將被過度表示,讀數實際上是被浪費了。以前覆蓋度為零的區域可能僅僅透過測序更多樣本並不能獲得覆蓋度。解決覆蓋度的一種更有效的方法是使用靶向測序方法。這提供了確保足夠覆蓋度的優勢,包括以前可能無法訪問的基因組部分,同時降低測序成本。