数据库网址:www.ncbi.nlm.nih.gov
指南:https://www.ncbi.nlm.nih.gov/books/NBK3837/
NCBI(National Center for Biotechnology Information)即美国国立生物技术信息中心,其使命是开发新的信息技术,帮助人们理解控制健康和疾病的基本分子及其遗传过程。NCBI具有存储和分析分子生物学、生物化学和遗传学知识的自动系统;提供使用方便的医学研究相关数据库和软件;协调收集国内外生物技术信息;提供生物信息学分析分子结构和功能的先进研究办法。
NCBI下属多个子数据库,这里选取生物信息学分析常用的几个数据库进行讲解。
(一)PubMed
数据库网址:http://pubmed.ncbi.nlm.nih.gov
指南:www.ncbi.nlm.nih.gov/books/NBK3827/
该数据库提供网络访问路径,可以访问超过一千万条生物医学期刊文献的引文、摘要和索引条款,还包含全文期刊链接。PubMed的文献检索的功能相信大家已经熟悉,下面我们介绍一下PubMed在生物信息学分析中的常见用法。
生物信息学分析常需选择合适的数据库检索相关信息。但数据库种类繁多,每个数据库都具有各自的优点和不足,个人在做选择时具有一定的难度。那么如何在没有系统了解数据库功能结构及生物信息专业知识基础的情况下,找到合适且可信度高的数据库呢?不妨直接在PubMed中以 “自己所需领域及database”为关键词进行检索,从而高效筛选出所需数据库。例如,需要心脏相关数据库,则在PubMed中输入 “heart database”进行检索,就可得出相关数据库信息,进行阅读后可较快选择出自己所需数据库。另外,正如前文所提,利用生物信息学分析也可以发表较好的文章,通过PubMed检索了解这类文章可以帮助大家对生物信息学有更深更好的理解,同时,重现跟做文章展示的生物信息学分析方法也不失为一种了解数据分析流程和思想的办法。
附:疾病相关数据库简介
①阿尔茨海默症数据库——AlzBase(http://alz.big.ac.cn/alzBase/home)
该数据库收录了阿尔茨海默病相关的14145个基因,并建立了这些基因之间的网络关系,该数据库是了解阿尔茨海默病的良好途径之一。在这里不再详细展开说明,感兴趣的可自行查看学习(图3-4)。
图3-4
②综合性数据库——RGD Disease(http://rgd.mcw.edu/wg/portals/)
该数据库信息包括肿瘤、血液病、心血管、糖尿病、神经系统、免疫等各个分支。除了疾病外,RGD还有多种功能,这里不再详细展开(图3-5)。
图3-5
注意:接下来介绍的数据库使用语言多为英文,在大量浏览信息时必然会造成一定的不便,这时可以使用谷歌浏览器或选择恰当的翻译软件,对网页进行翻译,虽然翻译结果会有一定的偏差,但也基本可以支持信息的浏览。
(二)Gene
数据库网址:www.ncbi.nlm.nih.gov/gene
指南:www.ncbi.nlm.nih.gov/books/NBK3841/
Gene是一个可搜索的基因数据库,它专注于已经完全测序的基因组,并且有相应的研究团体提供基因特异性数据。Gene记录的信息包括命名法、染色体定位、基因产物及其属性(如蛋白质相互作用),相关标记、表型、相互作用以及引文,序列、变异细节、图谱、表达报告、同源物、蛋白质结构域内容和外部数据库。
例:在NCBI中勾选Gene数据库,搜索 “pain”,便可以得到相关基因,在右侧可以选择物种(图3-6)。
图3-6
把相关的基因都复制粘贴出来,在EXCEL里用vlookup函数和生物信息学分析的结果取交集,就可以完成注释。注释完成后,用R语言ggplot2包画图或使用在线工具Easy-Chart(http://www.ehbio.com/ImageGP/index.php/Home/Index/index.html)来绘制热图(图3-7)获取信息。例如,有哪些疾病关联基因的差异表达比较明显;还可以通过聚类分析寻找哪些基因之间存在联系,从中挑选出合适的目标基因。热图主要用于考察样本,基因/检测因子分类情况。根据横坐标的分布集中状态,我们可考察实验分组间是否存在明确差异。而根据纵坐标,我们可以考察基因/检测因子间的分布情况。颜色一致性高代表基因/检测因子间相关性高。同一基因/检测因子在不同样本组中颜色差异大,说明该基因/检测因子具有良好的区分度,是后期研究应该重点关注的。
图3-7
(三)OMIM
数据库网址:www.ncbi.nlm.nih.gov/omim
OMIM站点:www.omim.org
指南:omim.org/help/search
OMIM(Online Mendelian Inheritance in Man)是人类孟德尔遗传病数据库,它含有大量条基因和遗传病记录的网络目录。其记录由独立的OMIM站点托管和提供,NCBI则提供搜索功能。OMIM细胞遗传学和致病图谱显示文献记载的基因在细胞遗传图谱中的定位,提供按字母顺序排列在OMIM中描述的所有疾病列表;还提供相关文献参考、序列记录相关数据库的链接。
例:搜索 “parkinson”,搜索结果中PARK12是表型名称,右侧还可以查看序列标记位点(UniSTS)及单核苷酸多态性(dbSNP)。
图3-8
那么形如 “%300557”这样的代号有何含义?表3-1介绍了一些常见的符号意义。
表3-1
OMIM中每一条记录都有一个自己的6位数字代码,其意义如表3-2:(www.xing528.com)
表3-2
所以 “%300557”表示的是这条信息记录了X染色体关联的基因位点,已经得到证实,但是潜在的分子基础还有待研究。这样我们通过代码就可以较为详细地了解到基因的相关信息。
更加详细的信息可以点开该条目查看(如图3-9),包括了关联基因,基因位点等等。
图3-9
(四)GEO DataSets
数据库网址:www.ncbi.nlm.nih.gov/gds
数据库网址:www.ncbi.nlm.nih.gov/geo(GSE号检索)
指南:www.ncbi.nlm.nih.gov/geo/info/datasets.html
GEO DataSets是一个功能强大的数据库,它包括各个疾病、各个实验条件下的数据,如mRNA表达、蛋白表达、非编码RNA表达的结果及单核苷酸多态性(SNP)、DNA甲基化的结果及数据都被收录其中;GEO DataSets存储NCBI从微阵列数据的Gene Expression Omnibus(GEO)存储库组装的策划基因表达和分子丰度数据集。其包含的研究类型有:
图3-10
1.数据检索
例:检索结肠癌测序数据包,首先将搜索范围限定为 “GEO DataSets”,并在检索框输入关键词,检索即可得相关数据(如图3-11)。若所得数据太多,可在左侧选择适当限制条件缩小范围。
图3-11
选择合适数据集,点击题目进入,则可见该数据详细介绍(图3-12A)。将滚动条拉到最下面可见(图3-12B),“GEO2R”是GEO自带的一个分析工具,点击进入可根据需要对样本分组并进行差异基因分析;“SOFT formatted family file”是GEO作过处理后的测序数据,可以直接下载,作为进一步分析的基础;“GSE32323_RAW”则是原始数据。我们可以根据需要选择数据下载开展后续分析。
图3-12
2.GEO2R使用办法
例:根据需要,检索得出GSE85841数据集(如图3-13)。
图3-13
点击进入数据集,在页面的下方点击 “GEO2R”。弹出的界面里可以选择分组和样本,首先输入 “normal”,然后输入 “肺癌LC”,并选择对应样本。选好后在最下面选择“top250”(或直接点击 “save all results”),等待系统完成分析(如图3-14)。
图3-14
选择 “Save all results”,可以看到结果如下(如图3-15),也可粘贴到Excel中展示。
图3-15
这里显示的就是差异表达的结果了,但是还需要进一步把GB_ACC转换为基因名,可以使用DAVID进行转换,具体不再详述。
注意:先勾选 “Top 250”进行分析可以得到基因的注释信息,如名称等,待分析完毕后再勾选 “Save all results”下载数据也将包含注释内容;而直接选择 “Save all results”分析则可能只会给出芯片ID,需要再进一步做注释转化。因此,推荐先勾选 “Top 250”,再点击 “Save all results”进行分析。
另外,由于课题背景和不同GSE数据集的差异,我们应在分析过程中灵活分组,抓住问题的关键,以寻找最优解,切不可因小失大。例如,以 “抑郁症对不同脑区的影响”为课题,就可以检索筛选与抑郁症及脑区相关的数据集,数据集中包含实验组(抑郁患者/动物模型等)和对照组的脑组织分析数据,而脑组织又包含多个区域(如海马、杏仁核等),同时还有其他变量(如年龄、性别、种族等)。既然是对照分析,肯定要控制研究因素外的其他因素尽可能相同,否则分组就会受到物种、人种、不同脑区,甚至年龄、性别等因素影响,导致分组过多过细,造成巨大的工作量。这时我们需要简化分组指标,但也要保证分组的科学性。例如,我们可以先从物种出发,将其分类为人和其他物种,然后划分不同脑区,最后对不同脑区的正常和异常进行分析,这样不仅简化了分组,而且抓住了问题关键,减少了工作量,所得结果也具有一定的科学意义。
3.GEO DataSets自带结果查看
例:根据需要检索得出数据集(如图3-16)。
图3-16
这个研究非小细胞肺癌顺铂耐药的结果在右侧会显示热图,可以直接单击题目进入即可(如图3-17)。
图3-17
本界面下,“Platform”处可见平台号,右侧 “Cluster Analysis”处可以直接单击,显示热图(如图3-18A),选择部分结果展示(如图3-18B)。
图3-18
也可以在 “Find gene name or symbol”处直接搜索基因名,查看基因表达结果(图3-19A),单击右侧红框后可看到ABCA1在顺铂耐药细胞中高表达(如图3-19B)。
图3-19
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。