人类基因组
此条目需要补充更多来源。 (2015年2月28日) |
人类基因组(human genome)又称人类基因体,是一套完整的人类核酸序列,其被编码成“细胞核中23对染色体内的DNA”及“个别线粒体内的一条小DNA分子”;通常被分成核基因组和线粒体基因组两类探讨。人类基因组含有约30亿个DNA碱基对,碱基对是以氢键相结合的两个含氮碱基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)四种碱基排列成碱基序列,其中A与T之间由两个氢键连接,G与C之间由三个氢键连接,碱基对的排列在DNA中也只能是A对T,G对C。其中一部分的碱基对组成了大约20000到25000个蛋白质编码基因。
全世界的生物学与医学界在人类基因组计画中,调查人类基因组中的真染色质基因序列,发现人类的基因数量比原先预期的少得多,其中的外显子,也就是能够制造蛋白质的编码序列,只占总长度的1.5%[1]。
跟馒鱼最相似
组成
染色体
人类拥有23对不同的染色体,其中22对属于常染色体(体染色体),另外还有1对能够决定性别的性染色体,分别是2或1条X染色体与0或1条Y染色体。1号到22号染色体的编号顺序,大致符合他们由大到小的尺寸排列。最大的染色体约含有2亿5千万个碱基对,最小的则约有3800万个碱基对[2]。这些染色体通常以细丝状存于细胞核内,若将单一细胞内的染色体拉成直线,那么将大约有1.83公尺(6英尺)长[3](1英尺=30.48公分)。
在人类个体的体细胞中,通常含有来自亲代的1到22对体染色体,再加上来自母亲的X染色体,以及来自父亲的X或Y染色体,总共是46个(23对)染色体。科学家将这些染色体分为7组:1号到3号是A组;4号与5号是B组;X染色体以及6号到12号是C组;13号到15号是D组;16号到18号是E组;19号与20号是F组;21号、22号与Y染色体是G组[4]。对于一般人类来说,每个细胞核内只有两套染色体。
基因
人类与其他物种的基因组比较(大约)[5][4] | ||
---|---|---|
物种 | 碱基对数量 | 基因数量 |
Mycoplasma genitalium 霉浆菌(生殖器支原体) |
580,000 | 500 |
Streptococcus pneumoniae 肺炎双球菌 |
2,200,000 | 2,300 |
Haemophilus influenzae 流感嗜血杆菌 |
1,830,140 | 1,700 |
Escherichia coli 大肠杆菌 |
4,600,000 | 4,400 |
Saccharomyces cerevisiae 酿酒酵母 |
12,000,000 | 5,538 |
Caenorhabditis elegans 秀丽隐杆线虫 |
97,000,000 | 18,250 |
Arabidopsis thaliana 阿拉伯芥(拟南芥) |
125,000,000 | 25,500 |
Drosophila melanogaster 黑腹果蝇 |
180,000,000 | 13,350 |
Oryza sativa 亚洲稻 |
466,000,000 | 45,000-55,000 |
Mus musculus 小家鼠 |
2,500,000,000 | 29,000 |
Homo sapiens 人类 |
2,900,000,000 | 27,000 |
人体内估计约有20000到25000个蛋白质编码基因。原本这个估计的数目超过100000,在更好的基因组序列品质与基因识别技术出现之后,才逐渐向下修正为现在的数字。虽然人类的基因数量比起某些较为原始的生物(如线虫与果蝇)更少,但是在人类细胞中使用了大量的选择性剪接(alternative splicing;将穿插在内含子中的外显子以选择性的方式进行转录),这使得一个基因能够制造出多种不同的蛋白质,且人类的蛋白质组规模也较前述的两个物种更庞大。
大多数人类基因拥有许多的外显子,且人类的内含子比位在其两端的外显子更长。这些基因参差不齐地分布在染色体中,每一个染色体皆含有一些基因较多的区段与基因较少的区段。这些区段的差异,则与染色体带(chromosome bands)及GC含量相关。基因密度所显现的非随机模式之涵义与重要性尚未明了。
除了蛋白质编码基因之外,人类的基因组还包含了数千个RNA基因(制造非编码RNA),其中包括用来转录转运RNA(tRNA)、核糖体RNA(rRNA)与信使RNA(mRNA)的基因。其中转录rRNA的基因称为rDNA,分布在许多不同的染色体上。
调控序列
人类基因组含有许多不同的调控序列,并以此来控制基因表现。这些序列是典型的短序列,会出现在靠近基因的位置。由于高通量表达(high-throughput expression;指利用电脑与机器辅助以进行大量的序列分析)技术与比较基因组学研究的出现,人们开始系统性地了解这些调控序列,以及它们共同构成的基因调控网路(gene regulatory network)。
人们之所以能够出辨认哪些基因序列是调控序列,是因为生物在演化过程中对基因的保留。以大约7千万年前到9千万年前分支的人类与老鼠为例[6]:若以电脑比较两者的基因序列,并且将两者皆保有的非编码序列辨识出来,就可以知道哪些基因序列可能对于基因调控来说相当重要[7]。
人类所拥有的调控序列所在位置,可以利用河豚的基因定位出来。因为河豚与人类拥有相同的基因,同时也拥有和人类相同的调控序列,但是“垃圾”基因比人类更少。如此较为简洁的DNA序列,使得调控基因的位置较容易定位[8]。
其他DNA
蛋白质编码序列(也就是外显子)在人类基因组中少于1.5%[1]。在基因与调控序列之外,仍然有许多功能未知的广大区域。科学家估计这些区域在人类基因组中约占有97%,其中许多是属于重复序列(重复序列)、转位子(transposon)与伪基因(pseudogene)。除此之外,还有大量序列不属于上述的已知分类。
这些序列大多数可能是演化的产物,现在已经没有作用,也因此有时会被称作是“垃圾DNA”(junk DNA)[9]。不过有一些迹象显示,这些序列可能会经由某些仍然未知的方式产生作用。最近一些使用微阵列技术所作的实验发现,大量非基因DNA事实上会被转录成为RNA[10],这显示转录作用背后可能还存在一些未知的机制。此外,不同种类的哺乳动物在演化的过程中共同保留了这些序列,也显示基因组中还有很多作用未知的部分[11]。人类基因组内大量功能未知的序列,是目前科学研究的重点之一。
变异
大多数对于人类遗传变异的研究集中在单一核苷酸多型性(single nucleotide polymorphisms;SNPs),也就是DNA中的个别碱基变换。科学家分析估计,在人类的真染色质(富含基因的染色质)中,平均每100到1000个碱基会出现1个SNPs,不过密度并不均匀。由于SNPs的存在,如“所有人类的基因有99%都是相同的”一的说法并不精确。国际人类基因组单体型图计划(International HapMap Project),便是为了要将人类基因组中的SNP变异作编录,而组成的一个大规模合作计画。
基因组中有一些小型的重复序列,它们所拥有的基因座与基因长度,在不同的人类个体之间有很大的变异性。这也是DNA指纹(DNA fingerprinting)与亲子鉴定(paternity testing)技术得以应用的基础。异染色质(heterochromatin)是人类基因组的一些部分,总共包括有数百万个碱基对,这些碱基对在人类族群之中的变异性也相当大。而且由于异染色质的重复性很高而且长度很长,因此目前的技术仍然无法精确地解出它们的序列。此外异染色质不含基因,对于表现型也没有显著的作用。
配子细胞中大多数的基因组突变,可能会造成胚胎不正常发育,而人类的一些疾病也与大尺度的基因组异常有关。例如唐氏症、透纳氏症(Turner Syndrome),以及许多其他疾病,是染色体的不分离(nondisjunction)现象所造成。在癌细胞中的染色体,则是频繁地出现非整倍性(aneuploidy)现象,不过这种现象与癌症之间的关系仍然不明。
2006年一篇发表在《自然》的研究报告中[12],研究人员发现在人类与其他哺乳类DNA序列中的拷贝数变异(copy number variation;CNV),可能非常重要。拷贝数变异又称为拷贝数多型性(copy number polymorphisms;CNPs),是缺失(deletion)、插入(insertion)、复写(duplication),以及复杂多位置变异(complex multi-site variants)的合称,在所有人类以及其他已测试的哺乳动物中皆可发现。
遗传疾病
当一个或多个基因发生不正常表现时,便可能会使某个相对应的表型产生一些症状。遗传异常的原因包括了基因突变、染色体数目异常,或是三联体扩张重复突变(triplet expansion repeat mutations)。如果受损的基因会从亲代遗传到子代,那就会成为一种遗传性疾病。目前已知有大约4000种遗传疾病,囊肿性纤维化是其中最普遍的疾病之一。
科学家通常会以群体遗传学的方法进行遗传疾病的研究,对于疾病的治疗,则是由一些经过临床遗传学训练,且同时也是遗传学家的医生来进行。人类基因组计画的成果,使遗传检测技术能够更有效地检查出一些与基因有关的疾病,并且改进治疗方法。父母能够透过遗传谘询来侦询一些遗传症状的严重性、遗传的机率,以及如何避免或是改善这些症状。
基因剂量(Gene dosage)会对人类的表现型产生庞大的影响,对于染色体中造成疾病的复写、省略与分裂等现象的形成拥有一定的角色。例如唐氏症患者(21号染色体为三体)有较高的比率得到阿兹海默症,可能是因为与阿兹海默症有关的类淀粉前趋蛋白基因(位在21号染色体上)的过度表现所致[13]。而且相对而言,唐氏症患者中则有较低的比率得到乳癌,可能是因为肿瘤抑制基因(tumor-suppressor gene)的过度表现[14]。
演化
比较基因组学(Comparative genomics)对于哺乳类基因组的研究显示,人类与大约两亿年前就已经分化的各物种相比,有大约5%的比例在人类基因组中保留了下来,其中包含许多的基因与调控序列。而且人类与大多数已知的脊椎动物间,也享有了一些相同的基因。
黑猩猩的基因组与人类的基因组之间,有98.77%是相似的。而平均每一个属于人类的标准蛋白质编码基因,只与属于黑猩猩的同源基因相差两个氨基酸;并且有将近三分之一的人类基因与黑猩猩的同源基因,能够转译出相同的蛋白质。人类的2号染色体,是人类与黑猩猩基因组之间的主要差异,这一条染色体是由黑猩猩的染色体12号与13号融合而成[15]。
人类在晚近的演化过程中失去了嗅觉受器基因,这解释了为何人类比起其他的哺乳动物来说,拥有较差的嗅觉。演化上的证据显示,人类与某些灵长类所拥有的彩色视觉,降低了这些物种对于嗅觉能力的需求[16]。
粒线体基因组
大多数的基因是存在细胞核中,但是细胞中一个称为粒线体的胞器,也拥有自己的基因组。粒线体基因组在粒线体疾病(mitochondrial disease)中具有一定的重要性。而且这些基因也可以用来研究人类的演化,举例而言,若分析人类粒线体基因组的变异情况,将能够使科学家描绘出人类的共同祖先,称为“粒线体夏娃”(Mitochondrial Eve)。之所以称为夏娃,是因为粒线体是位于细胞质中,而人类的精子与卵子结合时,源自母亲(女性)的卵子提供了绝大多数的细胞质,因此人类细胞中的粒线体基因皆是来自母亲。
由于粒线体缺乏用来检查复制错误的能力,因此粒线体DNA(mDNA)的变异速率比细胞核DNA(一般所指的DNA)更快。粒线体的突变速率快了20倍,这使mDNA能够用来较为精确地追溯出母系祖先。研究族群中的mDNA,也能使人们得知此族群过去的迁移路径,例如来自西伯利亚的美洲原住民;以及来自东南亚的波里尼西亚人。更有甚者,mDNA研究显示在欧洲人的基因中并无参杂尼安德塔人的DNA[17]。
与每个细胞核皆只有两套染色体组成的核基因组不同,粒线体基因组在每个粒线体当中,皆有大约10个以环状DNA,整个细胞里则约有8000个。每个环DNA上有16569个碱基对,共组成37个基因,其中13个是蛋白质编码,22个是RNA基因[18]。这些基因大多与呼吸作用有关。
研究
人类基因组计画
雷纳托·杜尔贝科(Renato Dulbecco;主要研究基因与肿瘤的关系)是最早提出人类基因组定序的科学家之一。他认为如果能够知道所有人类基因的序列,对于癌症的研究将会很有帮助。不过以1986年的技术而言,若要将所有人类的DNA都定序完成,需要花上1500年。美国能源部(DOE)与美国国家卫生研究院(NIH),分别在1986年与1987年加入人类基因组计画。除了美国之外,日本在1981年就已经开始研究相关问题,但是并没有美国那样积极。
到了1988年,詹姆士·华生(DNA双螺旋结构发现者之一)成为NIH的基因组部门主管。1990年,开始国际合作。1996年,多个国家招开百慕达会议,以2005年完成定序为目标,分配了各国负责的工作,并且宣布研究结果将会即时公布,并完全免费。
1998年,克莱格·凡特的塞雷拉基因组公司成立,邀请具基因定序之父的陈奕雄博士担任首席科学家,开发出全世界第一台全自动定序仪,启动了全自动定序的时代来到;赛雷拉宣布将在2001年完成定序工作。随后,国际团队也将完成工作的期限提前。2000年6月26日,塞雷拉公司的代表凡特,以及国际合作团队的代表弗朗西斯·柯林斯(Francis Collins),在美国总统柯林顿的陪同下发表演说,宣布人类基因组的概要已经完成。2001年2月,国际团队与塞雷拉公司,分别将研究成果发表于《自然》与《科学》两份期刊[2]。
在基因组计画的研究过程中,陈奕雄博士使用的是霰弹枪定序法(shotgun sequencing),这种方法较为迅速,但是仍需以传统定序来分析细节[19]。
专利问题
23条染色体上的专利数目[20] | ||
---|---|---|
染色体编号 | 基因数目 | 专利数目 |
1号 | 2769 | 504 |
2号 | 1776 | 330 |
3号 | 1445 | 307 |
4号 | 1023 | 215 |
5号 | 1261 | 254 |
6号 | 1401 | 225 |
7号 | 1410 | 232 |
8号 | 952 | 208 |
9号 | 1086 | 233 |
10号 | 1042 | 170 |
11号 | 1626 | 312 |
12号 | 1347 | 252 |
13号 | 477 | 97 |
14号 | 821 | 155 |
15号 | 915 | 141 |
16号 | 1139 | 192 |
17号 | 1471 | 313 |
18号 | 408 | 74 |
19号 | 1715 | 270 |
20号 | 762 | 178 |
21号 | 357 | 66 |
22号 | 106 | 657 |
X | 1090 | 200 |
Y | 144 | 14 |
从1981年到1995年间,全世界共有1175件DNA序列的专利许可。早期的申请对象主要是机能已知的基因,后来原属于美国国家卫生研究院的克莱格·凡特,将2716件尚未了解功能的基因,反转录成cDNA型式,并且提交专利申请。这些申请受到了当时掌管NIH基因组部门的詹姆士·华生等许多科学家的反对,并且被专利局驳回[2]。
目前人们对于基因资讯是否应该登记专利仍有争议。由于学术研究并非营利性,因此通常不受这些专利所拘束。此外由于美国政府近年来将专利申请条件提高,因此与DNA有关的专利许可,在2001年之后已逐渐减少。到2005年4月为止,美国国家生计资讯中心所记载的基因资料中,有82%没有专利标示,另外有14%属于私人机构,3%属于公家单位[20]。
右表显示2006年时每条染色体上的基因数目与专利数目,由于有时候会有多个基因登记成一项专利;或者是一个基因拥有多项专利,因此表中的基因与专利不一定有一对一的关系[20]。
图谱
基因组图谱主要可以分成两种,一种是遗传图谱(genetic map),另一种则是物理图谱(physical map)。遗传图谱是利用基因的重组率来做分析,单位是分莫甘(centimorgan)。这种图谱表现出来的是基因或特定DNA片段之间的相对位置,而不是它们各自的绝对位置。物理图谱则是DNA两点的实际距离,是实际将DNA片段排序而得,单位是碱基的数目(如Kb;kilobase)。有时候物理图谱上相隔很远的基因,可能会因为发生互换的机率较少(虽然理论上相隔愈远互换率愈高),而在遗传图谱上显得较相近[21]。
参考文献
引用
- ^ 1.0 1.1 International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome.. Nature. 2001, 409 (6822): 860–921. PMID 11237011. [1] (页面存档备份,存于互联网档案馆)
- ^ 2.0 2.1 2.2 大石正道 著,林碧清 译:《图解人类基因组的构造》,世茂出版社,2002年12月。ISBN 957-776-432-0
- ^ Matt Ridley 著,蔡承志、许优优 译:《23对染色体》(Genome),商周出版,2000年。ISBN 957-667-678-9
- ^ 4.0 4.1 Daniel Hartl & Elizabath W. Jones. Genetic, 6th ed., Jones and Bartlett Publishers. ISBN 0-7637-1511-5
- ^ Watson, JD, Baker TA, Bell SP, Gann A, Levine M, Losick R. (2004). “Ch9-10”, Molecular Biology of the Gene, 5th ed., Peason Benjamin Cummings; CSHL Press.
- ^ Nei M, Xu P, Glazko G. Estimation of divergence times from multiprotein sequences for a few mammalian species and several distantly related organisms.. Proc Natl Acad Sci U S A. 2001, 98 (5): 2497–502 [2007-02-02]. PMID 11226267. (原始内容存档于2008-06-15).
- ^ Loots G, Locksley R, Blankespoor C, Wang Z, Miller W, Rubin E, Frazer K. Identification of a coordinate regulator of interleukins 4, 13, and 5 by cross-species sequence comparisons.. Science. 2000, 288 (5463): 136–40. PMID 10753117. Summary (页面存档备份,存于互联网档案馆)
- ^ Meunier, Monique. Genoscope and Whitehead announce a high sequence coverage of the Tetraodon nigroviridis genome. Genoscope. [2006-09-12]. (原始内容存档于2009-01-22) (英语).
- ^ 生命之鑰----人類基因體計畫. [2007-03-31]. (原始内容存档于2007-09-28).
- ^ "...a tiling array with 5-nucleotide resolution that mapped transcription activity along 10 human chromosomes revealed that an average of 10% of the genome (compared to the 1 to 2% represented by bona fide exons) corresponds to polyadenylated transcripts, of which more than half do not overlap with known gene locations.Claverie J. Fewer genes, more noncoding RNA.. Science. 2005, 309 (5740): 1529–30. PMID 16141064.
- ^ "...the proportion of small (50-100 bp) segments in the mammalian genome that is under (purifying) selection can be estimated to be about 5%. This proportion is much higher than can be explained by protein-coding sequences alone, implying that the genome contains many additional features (such as untranslated regions, regulatory elements, non-protein-coding genes, and chromosomal structural elements) under selection for biological function." Mouse Genome Sequencing Consortium. Initial sequencing and comparative analysis of the mouse genome.. Nature. 2002, 420 (6915): 520–62. PMID 12466850.
- ^ 存档副本. [2007-02-02]. (原始内容存档于2009-12-20).
- ^ Armstrong R, Cairns N, Myers D, Smith C, Lantos P, Rossor M. A comparison of beta-amyloid deposition in the medial temporal lobe in sporadic Alzheimer's disease, Down's syndrome and normal elderly brains.. Neurodegeneration. 1996, 5 (1): 35–41. PMID 8731380.
- ^ Kwak HI, Gustafson T, Metz RP, Laffin B, Schedin P, Porter WW. Inhibition of breast cancer growth and invasion by single-minded 2s.. Carcinogenesis. PMID 16840439.
- ^ "Human chromosome 2 resulted from a fusion of two ancestral chromosomes that remained separate in the chimpanzee lineage" The Chimpanzee Sequencing and Analysis Consortium. Initial sequence of the chimpanzee genome and comparison with the human genome.. Nature. 2005, 437 (7055): 69–87. PMID 16136131.
"Large-scale sequencing of the chimpanzee genome is now imminent."Olson M, Varki A. Sequencing the chimpanzee genome: insights into human evolution and disease.. Nat Rev Genet. 2003, 4 (1): 20–8. PMID 12509750. - ^ "Our findings suggest that the deterioration of the olfactory repertoire occurred concomitant with the acquisition of full trichromatic color vision in primates." Gilad Y, Wiebe V, Przeworski M, Lancet D, Pääbo S. Loss of olfactory receptor genes coincides with the acquisition of full trichromatic vision in primates.. PLoS Biol. 2004, 2 (1): E5. PMID 14737185.
- ^ Sykes, Bryan. Mitochondrial DNA and human history. The Human Genome. 2003-10-09 [2006-09-19]. (原始内容存档于2015-09-07) (英语).
- ^ NCBI - Homo sapiens mitochondrion, complete genome
- ^ Sciscape新聞報導 - 生物:人類基因組圖譜大修正——人類基因數大幅縮水!?. [2007-05-06]. (原始内容存档于2007-09-27).
- ^ 20.0 20.1 20.2 Gary Stix 著,涂可欣 译:《我的基因,你的专利?》,《科学人》繁体中文版,远流出版社,2006年3月。
- ^ 人类基因组计划(Human Genome Project,HGP). [2007-05-06]. (原始内容存档于2012-07-16).
来源
- 期刊文章
- Lindblad-Toh K; et al. Genome sequence, comparative analysis and haplotype structure of the domestic dog.. Nature. 2005, 438 (7069): 803–19. PMID 16341006.
外部链接
- (英文)The National Human Genome Research Institute(页面存档备份,存于互联网档案馆)
- (英文)National Library of Medicine human genome viewer (页面存档备份,存于互联网档案馆).
- (英文)UCSC Genome Browser(页面存档备份,存于互联网档案馆).
- (英文)Human Genome Project.
- (英文)The National Office of Public Health Genomics (页面存档备份,存于互联网档案馆)