基因本体
基因本体论(Gene ontology ,GO)是一种系统地对物种基因及其产物属性进行注释的方法和过程[1]。它的目标是:1)维护和发展有限的基因及其产物属性描述的词汇;2)注释基因及其产物,同化和传播注释数据;3)提供方便的工具访问数据;4)实现在实验数据的基础上,使用GO进行程式解析,例如基因富集组分分析。它主要包括三个分支:細胞組件、分子功能和生物過程。
基因本体论也是一个更大的系统分类项目的一部分,这个项目是开放生物医学系统注释(Open Biomedical Ontologies (OBO))[2]。
与基因命名法不同,除了维护和控制发展基因及其产物性质描述的词汇,基因本体论也致力于使用机器学习可以理解的标记语言来进行基因标注,这样统一所有物种的基因注释(而基因命名法注释会根据不同的生物系统分类而有不同的注释)。
随着生物技术的发展越来越快,人们得到的数据越来越多。需要寻找一种方法来组织整理这些信息。基因本体论提供了一个省时省力的解决方案,基因产物在数据库中被赋上GO的词条,进而科学家们可以到数据库中去查询这些生物学的相关信息。基因本体是一个有向无环图(DAG)型的本体。目前,GO中使用了is_a、part_of和regulates三种关系。
概念
实际上,本体论是指对所知知识加以阐述的方法,对可勘察到的事物及其相互联系进行描述。在生物信息领域, 搜寻信息的一个主要的瓶颈就是, 生物学及相关学科的不同领域使用不同的术语,不仅让信息查找变得困难,也使数据的交流和分享更加困难。例如在一些不同的医疗数据库中,可能会存在很多不一致的描述,给数据的挖掘和分享带来很多麻烦。基因本体论提供了统一定义的条目来表示基因产物的属性。
基因本体的注释主要立足于以下三个角度:
- 細胞組件(cellular component),细胞的每个部分和细胞胞外环境。
- 分子功能(molecular function),基因产物在分子级别的主要活动,比如结合以及酶催化。
- 生物過程(biological process),分子事件的过程或集合,可以定义开始和结束的事件或行动,在集成的活的单位中发生,例如,细胞,组织,器官,和生物中。
在基因注释中的每个每个条目(GO term)会有
- 一个条目名称,通常是一个词或着一串词
- 一个唯一的ID,通常由字母和数字组成
- 一个引用源的定义
- 一个命名域来指示所属的域。
每个条目也会有同义名(synonyms),同义名所指示内容与该条目完全等同,能够连接到其它相关数据库。每个条目会有条目涵义以及使用的注释。基因本体是一个有向无环图(DAG)型的本体,每个条目都与其它的同域或者不同域的条目定义了关系。GO被设计成种属中立的语言,能够使用在包括原核生物、真核生物、单细胞生物和多细胞生物上。
GO不是静止不变的,它是由一些研究和注释社区以及与GO项目直接相关人士提出建议或请求来进行的添加、修正或改动的。例如,一个注释者可能要求用某一个条目来表示一个代谢通路,或者在社区专家的帮助下可以修改注释的某个部分。建议的修改通过GO的编辑评审后,会被整合到合适的地方。
GO注释文件可以在GO官网[3]免费下载到,也可以使用GO browser AmiGO[4]网站来进行访问使用。GO注释文件有多种不同的格式。GO项目也提供向其它分类系统连接的图的下载。
示例条目
- id: GO:0000016
- name: lactase activity
- namespace: molecular_function
- def: "Catalysis of the reaction: lactose + H2O=D-glucose + D-galactose." [EC:3.2.1.108]
- synonym: "lactase-phlorizin hydrolase activity" BROAD [EC:3.2.1.108]
- synonym: "lactose galactohydrolase activity" EXACT [EC:3.2.1.108]
- xref: EC:3.2.1.108
- xref: MetaCyc:LACTASE-RXN
- xref: Reactome:20536
- is_a: GO:0004553 ! hydrolase activity, hydrolyzing O-glycosyl compounds
- 数据来源[5]
参见
参考文献
- ^ The Gene Ontology project in 2008. Nucleic Acids Research. 2008-1, 36 (Database issue): D440–D444 [2018-08-06]. ISSN 0305-1048. PMC 2238979 . PMID 17984083. doi:10.1093/nar/gkm883. (原始内容存档于2022-03-24).
- ^ Smith, Barry; Ashburner, Michael; Rosse, Cornelius; Bard, Jonathan; Bug, William; Ceusters, Werner; Goldberg, Louis J; Eilbeck, Karen; Ireland, Amelia. The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration. Nature biotechnology. 2007-11, 25 (11): 1251 [2018-08-06]. ISSN 1087-0156. PMC 2814061 . PMID 17989687. doi:10.1038/nbt1346. (原始内容存档于2020-06-23).
- ^ Gene Ontology Consortium | Gene Ontology Consortium. www.geneontology.org. [2018-08-06]. (原始内容存档于2014-11-26) (英语).
- ^ Consortium, Gene Ontology. AmiGO 2: Welcome. amigo.geneontology.org. [2018-08-06]. (原始内容存档于2020-12-18) (英语).
- ^ 示例条目. (原始内容存档于2015-10-06).