(一)GeneCards数据库
数据库网址:www.genecards.org
指南:www.genecards.org/GuideGeneCards
GeneCards数据库是人类基因的综合数据库,它包括基因组学、蛋白质组学和转录组学信息,以及直系同源、疾病关系、SNP、基因表达、基因功能以及有序分析和抗体的链接。其搜索引擎对大量的信息进行了排序,并向用户提供详细的相关信息。想要全面详细地了解人类某一个基因可选GeneCards数据库,但其局限性也在于只包含了人类的基因数据。
图3-20
1.功能简介
GeneCards数据库收录的信息包括:基因的别名(Aliases)、相关的疾病(Disorders)、结构域(Domains)、药物(Drugs)、表达(Expression)、功能(Function)、基因组学信息(Genomics)、定位(Localization)等;GeneCards还提供合作数据库链接,方便人们了解相关的信息。下面以stat3基因为例,介绍GeneCards数据库基本功能。
例:stat3基因检索及信息简介
首先在检索框输入 “stat3”,进行检索,在出现的列表中选择stat3(如图3-21):
图3-21
页面会显示stat3的相关内容(如图3-22):
图3-22
具体信息如下:
基因别名(Aliases)(如图3-23):
stat3的别名包括APRF、ADMIO、HIES等。应注意同一个基因有多个命名,应重复检索,避免出现信息遗漏。
图3-23
蛋白(Protein)(如图3-24):
这里包含关于stat3蛋白的信息,包括:分子量、序列、结构、翻译后修饰(比如泛素化位点)。我们注意到,基因名往往和该基因负责编码的蛋白质同名,因此有时我们进行的蛋白质分析也可以直接使用基因名进行,但需要注意的是,我们应该灵活根据情景进行判断,区分清楚该情境下具体所做的是基因分析还是蛋白分析,但也不能太过死板。
图3-24
疾病(Disorders)(如图3-25):
这部分展示stat3基因相关疾病。点击 “see all”展开,就可以看到该基因相关的所有疾病及PubMed检索链接。疾病列表中疾病的排列顺序一般是根据与该基因的联系强度,由强到弱,依次进行,但排列在后不一定代表该疾病与该基因联系不大,也可能是由于目前研究较少。疾病的支持数据库为人类疾病数据库MalaCards(http://www.malacards.org/)。
图3-25
结构域(Domains):
结构域的信息对于研究基因的分子机制,特别是分子之间的直接相互作用有着重要的参考意义。stat3基因的结构域信息(如图3-26A);通过 “Graphical View of Domain Structure for InterPro Entry P40763”选项,可以看到更多信息(如图3-26B)。这里的信息支持数据库为InterPro数据库(http://www.ebi.ac.uk/interpro/)。
图3-26
药物(Drugs):
这部分信息包括影响到Stat3的药物或者化合物及其作用机制、临床试验信息(如图3-27)。
图3-27
表达(Expression):
mRNA:三列实验方法(图3-28A)分别是芯片、RNA-seq和SAGE,纵轴是组织信息,颜色表示组织类型如神经、肌肉等等(图3-28B)。我们应该将列表信息综合联系以得出更加全面的结论。
图3-28
蛋白:这里显示了stat3蛋白在组织表达的预测(图3-29 A),还给出了391个与stat3在组中呈共表达关系的分子(图3-29 B)。
图3-29
功能(Function):
这里介绍的是stat3的功能,包括生物学过程、分子功能等,已报到的stat3分子的上下游分子(图3-30 A),还有microRNA、转录因子、结合motif的信息(图3-30 B)。再结合microRNA的信息、蛋白共表达网络关系的信息,可得一条通路:microRNA 26b(或其它microRNA)/stat3/(391共表达基因经过stat3的DNA结合motif分析后得到的基因)。
图3-30
基因组信息(Genomics):
图3-31
定位(Localization)(如图3-32):
我们要研究分子发挥功能的方式需要清楚分子在细胞中的定位,在图3-32中,绿色越深,表示定位越多。stat3在胞浆、胞核、胞膜中都有,我们需要注意的是图中并没有提到这些定位分别是在何种背景下出现的。
图3-32
物种同源性(Orthologs):
这里展示的是stat3在不同物种中的同源性从高到低的排序(如图3-33)。
图3-33
分子类似性(Paralogs)(如图3-34):
图3-34
通路与作用(Pathway):(www.xing528.com)
这部分包括stat3参与的信号通路(图3-35 A),各种网站有关stat3的信号通路图(图3-35 B),与stat3相互作用的分子(图3-35 C)。
图3-35
文章(Publication):
这里的文章与PubMed的文章有时间间隔,有不符的可在PubMed中检索(如图3-36)。
图3-36
转录本(Transcripts):
这里提供的信息有基因的转录本(图3-37 A),可变剪接数据库信息(图3-37 B)。
图3-37
变异体(Variants)(如图3-38):
包括SNP、CNV等信息,在此不再展开。
图3-38
总结(Summary)(如图3-39):
在对其他方面研究较少,又急需基因相关信息时,可以优先从GeneCards数据库获取对该基因的综合介绍。
图3-39
2.基因数据下载
在检索框中输入关键词检索可按照基因与疾病的关联程度排序得出的基因列表,点击“Export”选择合适格式下载即可。特别注意:GenCards数据库的数据需要注册成为网站会员后才可下载数据;我们检索时应注意关键词的同近义词,避免遗漏信息;我们应随机抽取基因检查数据准确性。
例:在检索抑郁症相关基因时,我们不仅要使用 “depression”作为关键词,还应该扩展该词的同近义词,如产后抑郁症、重度抑郁症、情绪低落等等,以扩大检索范围,增强数据的全面性。同时,这样检索必然会增大信息的偏倚,因此,我们还需要抽取随机的页码和随机的基因,查看该基因的 “disorder”板块下是否包含检索关键词或与其相关的其他疾病。
图3-40
(二)其他基因、蛋白信息数据库
1.BIOGPS
数据库网址:http://biogps.org/#goto=welcome
指南:http://biogps.org/help/
BIOGPS是一个便捷的基因信息查询工具,它可完成基因注释门户,并且拥有学习基因和蛋白质功能的完整资源。想要快速了解某个基因信息时,通常会选择这个网站。
图3-41
例:搜索TP53。
左边显示了包括 “TP53”这个关键字所包含的信息列表,右边则显示了这一列表中的基因在不同物种中的情况。在中间表格中选中相应物种及 “TP53”,即可查询TP53的详细信息(如图3-42)。
图3-42
基因的详细信息:第一部分(图3-43 A)包括信息来源数据库(可更改)、探针名、基因简介;第二部分(图3-43 B)显示的是不同组织中的表达量;第三部分(图3-43 C)显示了基因命名信息(包括简称、全称、别称以及不同数据库的识别号)、染色体定位和基因功能(GO)、转录本信息、编码蛋白信息以及相关蛋白名称。
图3-43
另外在该界面右上角 “current layout”板块下,可以更换为维基百科、KEGG、外显子信息等等,以根据需要查看、调整第二部分(图3-43B)的显示内容。
图3-44
2.UniProt
数据库网址:https://www.uniprot.org/
指南:https://www.uniprot.org/help/
UniProt是一个通过基因名,了解蛋白质的查询工具(如图3-45)。
例:搜索TP53。
图3-45
点击第一行 “Entry”号(图3-46A)进入,即可看到对该蛋白的详细介绍(图3-46B),左边的标签可以看到大量的蛋白质信息,包括蛋白功能、命名分类、细胞亚定位、二级结构、相互作用关系、变异情况等。
图3-46
UniProt还包含一些其他小工具,如BLAST序列比对功能、多肽序列查询比对功能,我们可以好好利用这些功能,在此不再赘述。
图3-47
3.The Human Protein Atlas
数据库网址:http://www.proteinatlas.org/
指南:https://www.proteinatlas.org/about/help
图3-48
这个数据库收录了的信息包括蛋白在组织、细胞和肿瘤里面的表达情况,更好用的是它有各种免疫组化、免疫荧光以及肿瘤表达的结果;在病理结果中,这个数据库更新了基于TCGA的数据库与肿瘤患者愈后的关系。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。