(一)简 介
定义:基因富集分析(Gene Set Enrichment Analysis,GSEA)通常是使用来自功能注释或先前实验的结果已经预定义的基因集,将其中的基因按照在两类样本中的差异表达程度进行排序,然后检验预先设定的基因集合是否在这个排序表的顶端或底端富集。基因富集分析检测的是基因集合,而不是单个基因的表达变化,它可包含一些细微的表达变化,能得到更为理想的结果。
GSEA分析的三个特点:分析的是基因集合而不是单个基因;将基因与预定义的基因集进行比较;富集分析。
GSEA富集过程包括三步骤:计算富集分数(Enrichment Score);估计富集分数的显著性水平;矫正多重假设检验。
RNA-seq或芯片分析中最常见的方法是GO(Gene Ontology)和KEGG Pathway分析,这与GASE分析有些相似但又不同,GO和Pathway侧重比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,容易遗漏部分差异表达不显著却有重要生物学意义的基因,如忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有用信息。而GSEA的算法会根据实际数据的整体趋势,为研究者们提供合理解决目前芯片分析的瓶颈问题的方法,即使没有经验,研究者也能在表达谱整体层次上对数条基因进行分析,在数理统计角度把表达谱芯片数据与生物学意义很好地衔接起来,使研究者们能够更轻松、更合理地解读芯片结果。
目前,市面上绝大多数公司在求得差异基因列表后,都会在此之上提供给客户Pathway以及GO富集分析,毕竟给予成百上千的差异表达基因以简洁明了的生物学功能概括,才是进行高通量生物学表达谱实验的主要目的。然而,在实际应用生物学高通量数据时,这些数据都有一个重大的缺陷:它们对于差异基因检出的阈值异常敏感,客户需要给出差异基因的一个明确的定义(阈值),例如,abs(FC)≧2.0&p≦0.05。这样的阈值,对于发现真正的生物学效应大多是一种障碍,因为实际通过芯片观测到的RNA表达变化,往往是层层的负反馈调控后的结果,并且不同组织对于表达差异的敏感度不同,在神经递质系统内,一个较小的表达差异即可产生极其显著的效应。
GSEA的具体原理就不展开了,可参看PNAS文章Gene Set Enrichment Analysis:A Knowledge-Based Approach for Interpreting Genome-Wide Expression Profiles.Proc Natl Acad Sci U S A.2005 Oct 25;102(43):15545-50.Epub 2005 Sep 30.
(二)DAVID数据库
数据库网址:david.ncifcrf.gov/
指南:david.ncifcrf.gov/content.jsp?file=FAQs.html#25
DAVID数据库提供一套全面的基因功能注释工具,供研究人员了解大量基因背后的生物学意义。对给定的基因列表,DAVID工具具有确定丰富的生物学主题,特别是GO术语;可以发现丰富的功能相关基因组,群集冗余注释术语;还可以在BioCarta和KEGG途径图上实现基因可视化等功能。
图3-56
使用方法:
例:输入基因列表(或上传文件),选择合适的 “Identifier”,勾选列表类型为 “gene list”,然后点击 “submit list”,等待分析完毕。选择相应物种(图3-57 A)则可在右侧(图3-57 B)查看相应分析结果。
图3-57
单击蓝柱子查看单个基因结果(图3-58 A);单击chart查看综合结果(图3-58 B),这些结果支持文件下载。我们后续可根据需要选取合适的软件或在线分析网址分析,在此不再赘述。
图3-58
(三)Gene Ontology(GO数据库)
数据库网址:geneontology.org/
指南:geneontology.org/docs/introduction-to-go-resource/
GO数据库是世界上最大的基因功能信息源,它是生物医学研究中大规模分子生物学和遗传学实验计算分析的基础。其功能是给每个分子贴上标签,方便快速寻找到目标分子。
GO用一套统一的词汇表来描述生物学中的分子功能、生物过程和细胞成分。GO中最基本的概念是 “标签”(term)。用某些词汇来描述一个基因产品(蛋白质或RNA)的功能、在细胞中的位置又或是参与的生物过程,这些词汇即GO的 “标签”,如 “cell”“fibroblast growth factor receptorbinding”“signal transduction”等。这些标签可分为三个类别。
细胞组分(Cellular Component,CC):一般用来描述基因作用的位置,如高尔基体,核糖体等。
生物学过程(Biological Process,BP):描述的是细胞中不同的活动现象,如蛋白质磷酸化,细胞粘附等。
分子功能(Molecular Function,MF):描述为分子水平的活性,如催化或结合活性等,描述的是分子具体的作用职能。
通过查询GO数据库,可形成描述如分子HOTAIR出没于胞核(CC),参与了组蛋白甲基化调控引发癌基因沉默(BP),具体是结合PRC2复合物以及LSD1(MF)。(www.xing528.com)
(四)KEGG数据库
数据库网址:https://www.kegg.jp/
指南:https://www.kegg.jp/kegg/kegg1a.html
KEGG数据库通过基因组和分子水平信息了解生物系统(如细胞、有机体和生态系统)的高级功能和效用。它是生物系统的计算机表示,由基因和蛋白质的分子构建块(基因组信息)和化学物质(化学信息)组成,它们与相互作用、反应和关系网络的分子接线图(系统信息)相结合。它还包含疾病和药物等对生物系统的扰动信息。
与GO的作用类似,但KEGG里面最知名的是代谢通路(pathway)的注释,它是用于查询差异基因参与信号通路的权威数据库。KEGG的Pathway可以对差异基因进行pathway分析,让研究者可以了解实验条件下显著改变的代谢通路,这在机制研究中非常重要。
GO分析好比是将基因分门别类放入一个个功能类群的篮子里,而pathway则是将一个个基因具体放到代谢网络中的指定位置。
(五)Reactome Pathway Database
数据库网址:https://www.reactome.org/
指南:https://reactome.org/userguide
Reactome是一个免费数据库,为通路知识可视化、解释和分析提供直观的生物信息学的分析工具,它支持基础研究、基因组分析、建模、系统生物学和教育。Reactome数据库偏重于生化反应,也包括各种通路,在文章中出现频率较高。
图3-59
这里介绍 “Pathway Browser”的简单使用办法。
图3-60
例:检索阿尔茨海默症(AD)相关的通路或者分子。
分别点击通路总览页面左侧的 “Disease—Neurodegenerative Diseases—Deregulated CDK……in Alzheimer's disease models”选项(图3-61 A),右侧即出现通路图(图3-61 B),单击左下角的 “Molecules”可见具体分子(图3-61 C)。
图3-61
(六)QuickGO
数据库网址:https://www.ebi.ac.uk/QuickGO/
指南:https://www.ebi.ac.uk/QuickGO/help
图3-62
该数据库可直接检索单一GO的具体功能;也可选择 “Explore biology—Input your own”输入多个GO进行互作关系分析。
图3-63
分析结果如图3-64,点开后可看到各GO间的相关性。根据相互关系即可确定其中的核心通路。
图3-64
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。