DNA測序

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

DNA測序(英語:DNA sequencing)又稱DNA測序,是指分析特定DNA片段的鹼基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥嘌呤(G)的排列方式。快速的DNA測序方法的出現極大地推動了生物學和醫學的研究和發現。

在基礎生物學研究中,和在眾多的應用領域,如診斷,生物技術,法醫生物學,生物系統學中,DNA序列知識已成為不可缺少的知識。具有現代的DNA測序技術的快速測序速度已經有助於達到測序完整的DNA序列,或多種類型的基因組測序和生命物種,包括人類基因組和其他許多動物,植物和微生物物種的完整DNA序列。

RNA測序則通常將RNA提取後,反轉錄為DNA後使用DNA測序的方法進行測序。目前應用最廣泛的是由弗雷德里克·桑格發明的桑格測序[1]。新的測序方法,例如454生物科學的方法和焦磷酸測序法

自動化chain-termination DNA測序結果的一個例子。

應用

DNA測序可用於確定任何生物的單個基因的序列,較大的遺傳區域(即基因簇或操縱子的簇),完整的染色體或整個基因組。 DNA測序也是對RNA蛋白質進行測序的最有效方法(通過對開放閱讀框測序)。目前,DNA測序已成為生物學和其他科學領域(如醫學,法醫學或人類學等)的關鍵技術。

分子生物學

分子生物學中,DNA測序可被用於研究基因組及其編碼的蛋白質。利用測序獲得的信息,科研人員能夠識別基因的變化,基因與疾病和表型的關聯,並確定潛在的藥物靶點。

演化生物學

由於DNA是攜帶有遺傳信息的大分子,在演化生物學中,DNA測序被用於研究不同生物體之間的相關性以及它們是如何演化的。

宏基因組學(或元基因組學)

宏基因組學是一門直接取得環境中所有遺傳物質的研究。環境包括但不限於水體,污水,污垢,從空氣中過濾出的碎片或者從生物體採集的樣本。了解在特定環境中存在哪些生物體對於生態學流行病學微生物學和其他領域的研究至關重要。DNA測序使研究人員能夠確定微生物群中可能存在哪些類型的微生物

醫學

醫療人員可通過對患者基因(基因組)的測序結果確定該患者是否有攜帶遺傳性疾病的風險。需要注意的是,該方法屬於基因檢測,有些基因檢測不會用到DNA測序技術。

法醫學

DNA測序可以與DNA圖譜鑑定(基因指紋分析,英語:DNA profiling)一起用於法醫鑑定和親子鑑定。 DNA測試在過去的幾十年中發展迅猛,目前已能夠做到將DNA鑑定結果與被調查對象聯繫起來。指紋,唾液,毛囊等中的DNA特徵可以將不同的生物體進行區分。測試DNA是一種可以檢測DNA鏈中特定基因組並生成唯一的個性化DNA模型的技術。每一種有機體都有其DNA特徵,並可以通過DNA測試來確定。兩個人具有完全相同的DNA特徵是非常罕見的,因此保證了DNA測試的成功。

歷史

DNA結構與功能的發現

弗雷德里克·桑格,DNA測序的先驅者。桑格是少數獲得兩項諾貝爾獎的科學家之一,其中一項為蛋白質測序,另一項為DNA測序。

脫氧核糖核酸(DNA)最早在1869年由Friedrich Miescher發現並分離出來,但由於當時普遍認為遺傳信息保存於蛋白質而不是DNA中,因此在過去幾十年中DNA一直沒有得到充分研究。1944年,由於Oswald Avery,Colin MacLeod和Maclyn McCarty的一些實驗表明,純化的DNA可以將一種細菌變成另一種細菌,這種情況才發生了變化。這也是首次DNA顯示出改變細胞特性的能力。

1953年,James Watson和Francis Crick根據Rosalind Franklin研究的結晶X射線結構提出了他們的雙螺旋DNA模型。根據該模型,DNA由彼此纏繞的兩條核苷酸鏈組成,通過氫鍵連接在一起並以相反方向運行。每條鏈由四個互補的核苷酸組成:腺嘌呤(A),胞嘧啶(C),鳥嘌呤(G)和胸腺嘧啶(T),其中A與T配對,C與G配對。他們提出的這種結構,使得每條單鏈都可被用於重建另一條鏈,並且讓遺傳信息代代相傳。

對蛋白質進行測序的基礎首先由弗雷德里克·桑格(Frederick Sanger)的工作奠定,他於1955年完成了胰島素(胰腺分泌的一種蛋白質)中所有氨基酸序列的測序工作。這是首個確鑿的證據證明蛋白質是具有特定分子模式的化學實體,而不是懸浮在流體中的隨機混合物。桑格在胰島素測序方面的成功使得X射線晶體學家大為振奮,包括沃森和克里克,他們現在正試圖理解DNA如何指導細胞內蛋白質的形成。在1954年10月弗雷德里克·桑格出席一系列講座後不久,克里克開始發展一種理論,認為DNA中核苷酸的排列決定了蛋白質中氨基酸的序列,從而幫助確定蛋白質的功能。他於1958年發表了這一理論。

RNA測序

RNA測序是最早的核苷酸測序形式之一。 RNA測序的主要標誌是1972年和1976年Walter Fiers及其同事在根特大學(根特,比利時)確定並發表的第一個完整基因序列和噬菌體MS2的完整基因組。傳統的RNA測序方法需要創建一個用於測序的互補cDNA(Complementary DNA)分子。

早期的DNA測序方法

確定 DNA 序列的第一種方法涉及由康奈爾大學吳瑞於1970年建立的位置特異性引物延伸策略[2]。 DNA聚合酶催化和特定核苷酸標記,這兩者在當前的測序方案中都很重要,用於對λ噬菌體DNA的粘性末端進行測序[3][4][5]。在1970年至1973年間,吳瑞、R Padmanabhan及其同事證明,該方法可用於使用合成的位置特異性引物確定任何DNA序列[6][7][8]。隨後弗雷德里克·桑格(Frederick Sanger)採用這種引物延伸策略在英國劍橋英國醫學研究委員會(MRC)中心開發了更快速的DNA測序方法,並於1977年發表了「使用鏈終止抑制劑進行DNA測序」的方法。

全基因組測序

Φ-X174噬菌體英語Phi X 174的5,386 bp基因組。每個彩色塊代表一個基因。

第一個完整的DNA基因組測序是在1977年Φ-X174噬菌體英語Phi X 174(Phage Φ-X174)的測序工作。醫學研究委員會的科學家在1984年破譯了Epstein-Barr病毒的完整DNA序列,發現它含有172,282個核苷酸。 該序列的完成標誌着DNA測序的一個重要轉折點,它在沒有病毒基因譜知識的情況下實現了DNA測序。

20世紀80年代初,Pohl及其同事開發了一種在電泳時將測序反應混合物的DNA分子轉移到固定基質上的非放射性方法。隨後GATC Biotech公司的DNA測序儀「Direct-Blotting-Electrophoresis-System GATC 1500」商業化,該測序儀在EU基因組測序程序的框架以及酵母釀酒酵母染色體II的完整DNA序列中廣泛使用。加利福尼亞理工學院的Leroy E. Hood實驗室於1986年宣布了第一台半自動DNA測序機。隨後,Applied Biosystems在1987年推出了第一台全自動測序儀ABI 370。以及Dupont公司的Genesis 2000,該儀器使用了一種新的熒光標記技術,可在單一泳道中識別所有四個雙脫氧核苷酸。到1990年,美國國立衛生研究院(NIH)已開始對支原體,大腸桿菌,秀麗隱杆線蟲和釀酒酵母進行大規模測序實驗,費用為每個鹼基0.75美元。同時,人類cDNA序列的測序始於Craig Venter的實驗室,試圖獲取人類基因組的編碼部分。 1995年,Venter,Hamilton Smith及其基因組研究所(TIGR)的同事發表了第一個完整的自由生物體細菌流感嗜血桿菌(Haemophilus influenzae)的基因組。該環形染色體中含有1,830,137個鹼基,其在《科學》雜誌中的發表標誌着全基因組鳥槍法測序的首次公開使用,擺脫了初始繪製工作的需要。

高通量測序(HTS)方法

測序技術的歷史[9]

1990年代中後期開發了幾種新的DNA測序方法,並於 2000年在商業DNA測序儀中實施。這些方法統稱為「下一代」或「第二代」測序 (NGS) 方法,以便將它們與包括桑格測序在內的早期方法區分開來。 與第一代測序相比,NGS 技術的典型特徵是高度可擴展,允許一次對整個基因組進行測序。通常,這是通過將基因組片段化成小塊、隨機採樣片段並使用多種技術之一對其進行測序來實現的,例如下面描述的那些。 整個基因組測序是可能的,因為在一個自動化過程中同時對多個片段進行測序(命名為「大規模並行」測序)。

1990年10月26日,錢永健、Pepi Ross、Margaret Fahnestock 和 Allan J Johnston 提交了一項專利,描述了在 DNA 陣列(印跡和單個 DNA 分子)上使用可移除的 3' 阻斷劑進行逐步(「鹼基對鹼基」)測序[10]。 1996 年,斯德哥爾摩皇家理工學院波爾·尼倫英語Pål Nyrén(Pål Nyrén) 和他的學生穆斯塔法·羅納吉英語Mostafa Ronaghi(Mostafa Ronaghi)發表了他們的焦磷酸測序方法[11]

1997年4月1日,Pascal Mayer​(法語和Laurent Farinelli 向世界知識產權組織提交了描述DNA菌落測序的專利[12]。 本專利中描述的DNA樣品製備和隨機表面聚合酶鏈式反應 (PCR) 陣列方法,與錢永健等人的「鹼基對鹼基」測序方法相結合,現已在Illumina公司的Hi-Seq基因組測序儀中實施。

基本方法

Maxam-Gilbert測序法

馬克薩姆-吉爾伯特測序(英語:Maxam-Gilbert sequencing)是一項由阿倫·馬克薩姆英語Allan Maxam沃爾特·吉爾伯特於1976~1977年間開發的DNA測序方法。此項方法基於:對核鹼基特異性地進行局部化學改性,接下來在改性核苷酸毗鄰的位點處DNA骨架發生斷裂[13]

Sanger測序法

Sanger(桑格)雙脫氧鏈終止法弗雷德里克·桑格(Frederick Sanger)於1975年發明的。測序過程需要先做一個聚合酶連鎖反應(PCR)。PCR過程中,雙脫氧核苷酸可能隨機地被加入到正在合成中的DNA片段里。由於雙脫氧核糖核苷酸又少了一個原子,一旦它被加入到DNA鏈上,這個DNA鏈就不能繼續增加長度。最終的結果是獲得所有可能獲得的、不同長度的DNA片段。目前最普遍最先進的方法,是將雙脫氧核糖核苷酸進行不同熒光標記。將PCR反應獲得的總DNA通過毛細管電泳分離,跑到最末端的DNA就可以在激光的作用下發出熒光。由於ddATP, ddGTP, ddCTP, ddTTP(4種雙脫氧核糖核苷酸)熒光標記不同,計算機可以自動根據顏色判斷該位置上鹼基究竟是A,T,G,C中的哪一個[14]

高級方法和de novo測序法

霰彈槍定序法

霰彈槍定序法(Shotgun sequencing,又稱鳥槍法)是一種廣泛使用的為較長DNA測序的方法。它比傳統的定序法快速,但精確度較差。霰彈槍定序法曾經使用於塞雷拉基因組(Celera Genomics)公司所主持的人類基因組計劃

Bridge PCR

新一代測序

隨着人們對低成本測序的需求與日俱增,推動了高通量測序(high-throughput sequencing)的發展,此技術又稱為二代測序新一代測序次世代測序;這些技術對測序過程采多路復用,同時產生上千或上百萬條序列[15][16]。高通量測序技術的目的是降低DNA測序的成本,這個成本比同樣可實現測序的染料終止法來得低得多[17]。超高通量測序過程中可同時運行高達500,000次的邊合成邊測序[18][19][20]

新世代技術利用電腦科技,需要根據多個片段序列所重疊的區域,將它們全部組裝起來。
新一代測序方法的比較 [21][22]
方法 單分子實時測序(Pacific Bio) 離子半導體(Ion Torrent sequencing) 焦磷酸測序(454) 邊合成邊測序(Illumina) 邊連接邊測序(SOLiD sequencing) 鏈終止法(Sanger sequencing)
讀長 5,500 bp to 8,500 bp avg (10,000 bp N50); maximum read length >30,000 bases[23][24][25] up to 400 bp 700 bp 50 to 300 bp 50+35 or 50+50 bp 400 to 900 bp
精確度 99.999% consensus accuracy; 87% single-read accuracy[26] 98% 99.9% 98% 99.9% 99.9%
每次運行可獲取讀段數 50,000 per SMRT cell, or ~400 megabases[27][28] up to 80 million 1 million up to 3 billion 1.2 to 1.4 billion N/A
每次運行耗時 30 minutes to 2 hours [29] 2 hours 24 hours 1 to 10 days, depending upon sequencer and specified read length[30] 1 to 2 weeks 20 minutes to 3 hours
每百萬鹼基所耗成本(美元) $0.33-$1.00 $1 $10 $0.05 to $0.15 $0.13 $2400
優勢 Longest read length. Fast. Detects 4mC, 5mC, 6mA.[31] Less expensive equipment. Fast. Long read size. Fast. Potential for high sequence yield, depending upon sequencer model and desired application. Low cost per base. Long individual reads. Useful for many applications.
劣勢 Moderate throughput. Equipment can be very expensive. Homopolymer errors. Runs are expensive. Homopolymer errors. Equipment can be very expensive. Requires high concentrations of DNA. Slower than other methods. Have issue sequencing palindromic sequence.[32] More expensive and impractical for larger sequencing projects.

454生物科學和焦磷酸測序法

454測序法由454生物科學發明,是一個類似焦磷酸測序法的新方法。2003年向GenBank提交了一個腺病毒全序列[33],使得他們的技術成為Sanger測序法後第一個被用來測生物基因組全序列的新方法。454使用類似於焦磷酸測序的方法,有着相當高的讀取速度,大約為5小時可以測兩千萬鹼基對[33]

正在開發的測序法

納米孔DNA測序法

高通量測序

高通量測序能一次對幾十到幾百萬DNA分子進行序列測定。

參見

參考文獻

  1. ^ 存档副本. [2006-11-17]. (原始內容存檔於2006-11-11). 
  2. ^ Ray Wu Faculty Profile. Cornell University. (原始內容存檔於2009-03-04). 
  3. ^ Padmanabhan R, Jay E, Wu R. Chemical synthesis of a primer and its use in the sequence analysis of the lysozyme gene of bacteriophage T4. Proceedings of the National Academy of Sciences of the United States of America. June 1974, 71 (6): 2510–4. Bibcode:1974PNAS...71.2510P. PMC 388489可免費查閱. PMID 4526223. doi:10.1073/pnas.71.6.2510可免費查閱. 
  4. ^ Onaga LA. Ray Wu as Fifth Business: Demonstrating Collective Memory in the History of DNA Sequencing. Studies in the History and Philosophy of Science. Part C. June 2014, 46: 1–14. PMID 24565976. doi:10.1016/j.shpsc.2013.12.006. 
  5. ^ Wu R. Nucleotide sequence analysis of DNA. Nature New Biology. 1972, 236 (68): 198–200. PMID 4553110. doi:10.1038/newbio236198a0. 
  6. ^ Padmanabhan R, Wu R. Nucleotide sequence analysis of DNA. IX. Use of oligonucleotides of defined sequence as primers in DNA sequence analysis. Biochem. Biophys. Res. Commun. 1972, 48 (5): 1295–302. PMID 4560009. doi:10.1016/0006-291X(72)90852-2. 
  7. ^ Wu R, Tu CD, Padmanabhan R. Nucleotide sequence analysis of DNA. XII. The chemical synthesis and sequence analysis of a dodecadeoxynucleotide which binds to the endolysin gene of bacteriophage lambda. Biochem. Biophys. Res. Commun. 1973, 55 (4): 1092–99. PMID 4358929. doi:10.1016/S0006-291X(73)80007-5. 
  8. ^ Jay E, Bambara R, Padmanabhan R, Wu R. DNA sequence analysis: a general, simple and rapid method for sequencing large oligodeoxyribonucleotide fragments by mapping. Nucleic Acids Research. March 1974, 1 (3): 331–53. PMC 344020可免費查閱. PMID 10793670. doi:10.1093/nar/1.3.331. 
  9. ^ Yang, Aimin; Zhang, Wei; Wang, Jiahao; Yang, Ke; Han, Yang; Zhang, Limin. Review on the Application of Machine Learning Algorithms in the Sequence Data Mining of DNA. Frontiers in Bioengineering and Biotechnology. 2020, 8: 1032. PMC 7498545可免費查閱. PMID 33015010. doi:10.3389/fbioe.2020.01032可免費查閱. 
  10. ^ Espacenet – Bibliographic data. worldwide.espacenet.com. [2021-12-04]. (原始內容存檔於2022-01-10). 
  11. ^ Ronaghi M, Karamohamed S, Pettersson B, Uhlén M, Nyrén P. Real-time DNA sequencing using detection of pyrophosphate release. Analytical Biochemistry. 1996, 242 (1): 84–89. PMID 8923969. doi:10.1006/abio.1996.0432. 
  12. ^ Kawashima, Eric H.; Laurent Farinelli; Pascal Mayer​(法語. Patent: Method of nucleic acid amplification. 2005-05-12 [2012-12-22]. (原始內容存檔於22 February 2013). 
  13. ^ Maxam AM, Gilbert W. A new method for sequencing DNA. Proc. Natl. Acad. Sci. U.S.A. February 1977, 74 (2): 560–4. Bibcode:1977PNAS...74..560M. PMC 392330可免費查閱. PMID 265521. doi:10.1073/pnas.74.2.560. 
  14. ^ Sanger sequencing. 2020年3月20日 [2020年3月27日]. (原始內容存檔於2020年3月29日) –透過Wikipedia. 
  15. ^ Hall, Nell. Advanced sequencing technologies and their wider impact in microbiology. J. Exp. Biol. May 2007, 209 (Pt 9): 1518–1525. PMID 17449817. doi:10.1242/jeb.001370. 開放獲取
  16. ^ Church, George M. Genomes for all. Sci. Am. January 2006, 294 (1): 46–54. PMID 16468433. doi:10.1038/scientificamerican0106-46. 需付費查閱
  17. ^ Schuster SC. Next-generation sequencing transforms today's biology. Nat. Methods. January 2008, 5 (1): 16–18. PMID 18165802. S2CID 1465786. doi:10.1038/nmeth1156. 
  18. ^ Kalb, Gilbert; Moxley, Robert. Massively Parallel, Optical, and Neural Computing in the United States. IOS Press. 1992. ISBN 90-5199-097-9. [頁碼請求]
  19. ^ John R. ten Bosch, Wayne W. Grody. Keeping up with the next generation: massively parallel sequencing in clinical diagnostics. The Journal of molecular diagnostics: JMD. 2008-11, 10 (6): 484–492 [2019-02-12]. ISSN 1525-1578. PMC 2570630可免費查閱. PMID 18832462. doi:10.2353/jmoldx.2008.080027. (原始內容存檔於2019-06-12). 開放獲取
  20. ^ Tracy Tucker, Marco Marra, Jan M. Friedman. Massively parallel sequencing: the next big thing in genetic medicine. American Journal of Human Genetics. 2009-08, 85 (2): 142–154 [2019-02-12]. ISSN 1537-6605. PMC 2725244可免費查閱. PMID 19679224. doi:10.1016/j.ajhg.2009.06.022. (原始內容存檔於2019-06-06). 開放獲取
  21. ^ Quail, Michael; Smith, Miriam E; Coupland, Paul; et al. A tale of three next generation sequencing platforms: comparison of Ion torrent, pacific biosciences and illumina MiSeq sequencers. BMC Genomics. 1 January 2012, 13 (1): 341. PMC 3431227可免費查閱. PMID 22827831. doi:10.1186/1471-2164-13-341. 開放獲取
  22. ^ Liu, Lin; Li, Yinhu; Li, Siliang; et al. Comparison of Next-Generation Sequencing Systems. Journal of Biomedicine and Biotechnology (Hindawi Publishing Corporation). 1 January 2012, 2012: 1–11. doi:10.1155/2012/251364. 開放獲取
  23. ^ New Products: PacBio's RS II; Cufflinks. GenomeWeb. [2020-03-27]. (原始內容存檔於2020-03-27). 
  24. ^ After a Year of Testing, Two Early PacBio Customers Expect More Routine Use of RS Sequencer in 2012. GenomeWeb. 10 January 2012 [2014-02-08]. (原始內容存檔於2013-12-12). 需註冊
  25. ^ Inc, Pacific Biosciences of California. Pacific Biosciences Introduces New Chemistry With Longer Read Lengths to Detect Novel Features in DNA Sequence and Advance Genome Studies of Large Organisms. GlobeNewswire News Room. 2013年10月3日 [2020年3月27日]. (原始內容存檔於2020年3月27日). 
  26. ^ Chin, Chen-Shan; Alexander, David H.; Marks, Patrick; Klammer, Aaron A.; Drake, James; Heiner, Cheryl; Clum, Alicia; Copeland, Alex; Huddleston, John; Eichler, Evan E.; Turner, Stephen W.; Korlach, Jonas. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nature Methods. 2013年6月27日, 10 (6): 563–569 [2020年3月27日]. doi:10.1038/nmeth.2474. (原始內容存檔於2020年3月29日) –透過www.nature.com. 
  27. ^ De novo bacterial genome assembly: a solved problem?. 2013年7月5日 [2020年3月27日]. (原始內容存檔於2020年3月27日). 
  28. ^ Rasko, David A.; Webster, Dale R.; Sahl, Jason W.; et al. Origins of the Strain Causing an Outbreak of Hemolytic–Uremic Syndrome in Germany. N Engl J Med. 25 August 2011, 365 (8): 709–717. doi:10.1056/NEJMoa1106920. 開放獲取
  29. ^ Tran, Ben; Brown, Andrew M.K.; Bedard, Philippe L.; Winquist, Eric; Goss, Glenwood D.; Hotte, Sebastien J.; Welch, Stephen A.; Hirte, Hal W.; Zhang, Tong; Stein, Lincoln D.; Ferretti, Vincent; Watt, Stuart; Jiao, Wei; Ng, Karen; Ghai, Sangeet; Shaw, Patricia; Petrocelli, Teresa; Hudson, Thomas J.; Neel, Benjamin G.; et al. Feasibility of real time next generation sequencing of cancer genes linked to drug response: Results from a clinical trial. Int. J. Cancer. 1 January 2012: 1547–1555. doi:10.1002/ijc.27817. 需付費查閱
  30. ^ van Vliet, Arnoud H.M. Next generation sequencing of microbial transcriptomes: challenges and opportunities. FEMS Microbiology Letters. 1 January 2010, 302 (1): 1–7. doi:10.1111/j.1574-6968.2009.01767.x. 開放獲取
  31. ^ Murray I. A.; Clark, T. A.; Morgan, R. D.; Boitano, M.; Anton, B. P.; Luong, K.; Fomenkov, A.; Turner, S. W.; Korlach, J.; Roberts, R. J. The methylomes of six bacteria. Nucleic Acids Research. 2 October 2012, 40 (22): 11450–62. PMC 3526280可免費查閱. PMID 23034806. doi:10.1093/nar/gks891. 
  32. ^ Yu-Feng Huang, Sheng-Chung Chen, Yih-Shien Chiang, Tzu-Han Chen & Kuo-Ping Chiu. Palindromic sequence impedes sequencing-by-ligation mechanism. BMC systems biology. 2012,. 6 Suppl 2: S10. PMID 23281822. doi:10.1186/1752-0509-6-S2-S10. 
  33. ^ 33.0 33.1 About 454 - Overview. [2006-11-17]. (原始內容存檔於2006-10-29).