首页 理论教育 药物基因组学相关生物数据库

药物基因组学相关生物数据库

时间:2024-01-08 理论教育 版权反馈
【摘要】:其最终的目标是将遗传药理学和药物基因组学知识应用于日常临床工作,并针对患者个体制定安全有效的治疗方案。PharmGKB的一项基本任务就是从各研究机构收录与药物基因组学相关的原始基因型,表型数据。PharmGKB的检索策略基于药物基因组学所关注的5个主要内容:基因、变异、药物、药物通路以及疾病。

药物基因组学相关生物数据库

一、PharmGKB:药物基因组学知识数据库

PharmGKB全称Pharmacogenomics Knowledge Base,是目前最完善最权威的药物基因组学数据库。美国国家卫生研究所(NIH)于2000年正式组建遗传药理学研究网络(pharmacogenetics Research Network,PGRN)。该网络致力于综合多学科力量来解决遗传药理学和药物基因组学所提出的各种科学问题(如:从遗传学角度出发解释个体药物反应的差异)并建立相关的公共知识库,即PharmGKB。PGRN的各项工作由美国国家医学研究院(national institute of general medical sciences,NIGMS)领导,并由多个NIH的研究机构共同参与,包括NHLBI、NIDA、NCI、NIEHS、NHGRI、NIMH、NLM以及ORWH。PGRN以五年为一工作周期,并于2005年发布了第二个五年计划。其最终的目标是将遗传药理学和药物基因组学知识应用于日常临床工作,并针对患者个体制定安全有效的治疗方案。

PharmGKB的一项基本任务就是从各研究机构收录与药物基因组学相关的原始基因型,表型数据。目前,已有超过500种药物,500种疾病,700个基因被收录其中,这包括53个药物相关的药代和药动通路(表3-2),42个VIP基因(表3-3)以及超过2 500条注解。根据基因与一个或多个药物的药代,药效学关系,PharmGKB挑选出了42个对于药物基因组学非常重要的药物相关基因(very important pharmcogene,VIP)。对这些VIP基因的注解包括基因简介,具有功能意义的重要突变,单体型和剪切突变等。所有的注解都有相关的文献支持以及相关的药物和表型数据。

此外,在检测变量的较小效应时,为了得到更高的统计效能,常常需要通过增大患者的样本数来达到这一目的。因此,PharmGKB试图鼓励研究者将数据汇集起来(尤其是临床数据),以建立用以研究和分享的大型数据。继而,各个研究项目的研究人员可与PharmGKB的研究员一起来解答一些特定的药物基因组学问题。如国际华法林遗传药理学联合会(the international warfarin pharmacogenetics consortium,IWPC)就是第一个尝试这种合作的国际组织。通过这一合作,一种针对华法林剂量计算的新方法被开发出来,并已被证实要优于传统的临床经验式用药和固定剂量用药。IWPC的这一成功典范,使PharmGKB开始尝试与其他的科研组织继续开展合作,如国际他莫昔芬药物基因组学联合会(international tamoxifen pharmacogenomics consortium,ITPC)等。因此,目前PharmGKB的数据主要来自3个方面,独立研究者或研究机构,PGRN内的研究所以及各种国际科研组织。这些数据汇总后,由PharmGKB的药物基因组学专家验证,注解后再通过互联网对公众发布。

表3-2 PharmGKB中的主要药物和基因通路

(续  表)

表3-3 PharmGKB中的VIP基因和变异

(续  表)

(续  表)

(续  表)

PharmGKB的用户策略包括两个关键点:①为具有药物基因组学背景知识的专业研究人员,药物研发企业以及临床医务人员提供可链接至药物基因组学数据和知识的检索目录;②为普通民众提供普及遗传药理学知识的平台,这包括在其主页上可以找到的各种简介,教程以及可下载的资源。PharmGKB的检索策略基于药物基因组学所关注的5个主要内容:基因、变异、药物、药物通路以及疾病。具体的检索方法可参考其主页上提供的教程(pharmGKB tutorials)或参考这篇文献PharmGKB:An Integrated Resource of Pharmacogenomic Data and Knowledge.Li Gong et al.Curr.Protoc. Bioinform2008,23:14.7.1-14.7.17.PharmaGKB根据数据的种类将收录的信息划分为5大类:临床结果(clinical outcome,CO),药效学(pharmacodynamics,PD),药动学(pharmacokinetics,PK),分子及细胞功能分析(molecular and cellular functional assays,FA)以及基因型(genotype,GN)。例如,研究人员在PharmGKB主页的基因检索框中输入CYP2D6(图3-1),即可获得对该基因的简介,是否为VIP基因,所有已知的重要变异,对这些变异的注释,该基因相关的药物代谢通路,该基因与各种药物,疾病的关系以及相关的支持文献等一系列重要信息。

图3-1 PharmGKB数据库

大量的研究已经提供了许多关于单一基因与药物相互作用的数据,但要了解药物在体内的完整生物转化过程则需要同时分析多遗传变异对药物分布、起效、代谢消除等过程的影响。提供药物体内转化通路信息是PharmGKB的一大特色。这些通路以药物为中心,涵盖所有相关基因的信息和原始数据(PK和PD)。目前,用于抗肿瘤的化疗药物影响中枢神经系统、感觉器官、心血管系统、呼吸系统、造血与凝血系统、代谢与消化系统功能的药物,以及抗病毒药物的代谢通路信息都能在PharmGKB中检索到(表3-2)。点击这些代谢通路图中的各个基因或药物,则可以链接至相关信息页面和参考文献。PK通路描述了那些参与药物代谢、转运、消除的基因并列出了活性和去活性的代谢产物。重点内容以星号标注(图3-2A)。PD通路则总结了药物作用的生理过程的信号级联反应(图3-2B)。所有这些信息都至少每两年更新一次。

简而言之,PharmGKB通过在药理学,遗传学以及临床治疗之间交换信息和数据,为不同的研究者提供药物基因组学研究结果和发现。VIP基因介绍,药物通路图,对变异的注解,对文献的注解等都为设计新的研究提供了高质量的知识资源和数据支持。同时,针对普通民众或刚进入基础或临床科学研究的学生,PharmGKB又是一接触和学习药物基因组学的重要平台。此外,PharmGKB还是各研究机构之间,分享数据,共同解决科学问题的独立中间人。这一新使命使得PharmGKB在将来的多中心国际合作研究中将扮演更为重要的角色。

图3-2A 雌激素通路-他莫昔芬(PK)

图3-2B 雌激素通路-他莫昔芬(PD)

二、HapMap:国际单体型图项目

(一)简介

2002年10月,人类基因组单体型图计划(international hapMap project)正式启动。预计进行3年,由美国、日本英国、加拿大、中国和尼日利亚的科学家合作完成。该计划旨在开发一个面向公众的,人类全基因组遗传变异数据库。该数据库的信息将用来指导各种遗传研究以及临床表型相关的研究,包括:①提供人类基因组序列;②常见SNP数据库,根据该数据库可以开发相关的基因分型方法;③人类基因连锁不平衡信息;④开发高通量,高精度,低花费的SNP检测方法;⑤提供基于互联网的数据共享,存储工具;⑥探讨相关伦理文化问题的研究框架。HapMap计划I期的主要任务是在270位来自不同地域,不同种族的个体中进行常染色体基因分型,分型数量为每5kb序列中至少分析一个SNP。用于构建单体型图计划的270份DNA样品,分别来自90个尼日利亚Ibadan的Yoruba人(30个父母加一个后代组成的三体家系),命名为YRI;90个居住在美国尤他州的北欧和西欧的后裔(30个三体家系),命名为CEU;45个东京的日本人(无关个体),命名为JPT;以及45个北京的汉族人(无关个体),命名为CHB。这些DNA来自这些样本提供的人类淋巴母细胞系(lymphoblastoid cell lines,LCLs),而这些细胞系通过爱泼斯坦-巴尔病毒(epstein barr virus,EBV)转染而永生化后,储存在Coriell细胞库供研究人员订购使用。HapMap 细胞系和相关家系资料都能从Coriell biobank获得。

(二)HapMap项目Ⅰ~Ⅲ期数据

在HapMap计划Ⅰ期中,共分析了130万个SNP,这部分数据于2003年11月正式对公众开放,其内容介绍于2005年发表于Nature杂志上。随后,HapMap Ⅱ期计划在相同样品中进一步分析了310万个SNP,分析密度达到了每1kb序列中分析1个SNP。这大概覆盖了900万到1 000万个常见SNP中的25%~35%。2008年9月,HapMap计划正式发布了Ⅲ期数据。这一期数据扩展到了11个不同人群的1 115个样本,并使用Affymetrix 6.0和Illumina 1M基因芯片,分析了除Ⅰ,Ⅱ期之外的120万~156万个遗传变异(不同人群,分析数量略有不同)。可供使用的数据包括,变异测定方法,等位基因频率,基因型原始数据,拷贝数变异(CNVs),基因表达数据(gene wxpression omnibus,GEO)以及包括SNP与单体型间配对连锁不平衡分析在内的众多分析结果。目前,这些数据都可以在HapMap主页上免费获得(http://hapmap. ncbi.nlm.nih.gov/)。此外,众多实验室都使用HapMap细胞系作为模型来研究药物和药物代谢酶的表型差异对细胞生长,抑制或凋亡的影响。这些表现数据均可在如PharmGKB这样的数据库获得。

(三)HapMap数据库在药物基因组学研究中的作用

药物基因组学的一个重要任务就是在患者中找出那些影响药物疗效和毒性反应的遗传变异。如Jones等的研究发现,使用HapMap数据库中硫代嘌呤甲基转移酶(thiopurine methyltransferase,TPMT)的5个SNPs和4个单体型能很好地预测TPMT表型,并提示当目标基因已知的情况下,HapMap细胞系和HapMap遗传变异数据库是进行药物基因组学研究的有力工具。除开这种传统的目标基因研究方法,HapMap数据库和基因分析技术使研究人员能够使用无差别全基因组检测方法来发现那些能决定药物疗效和毒性反应的未知遗传变异。例如Huang等的研究发现,通过使用Affymetrix GeneChip Human Exon 1.0ST 芯片在HapMap提供的CEU和YRI家系细胞系中检测基因表达水平以及同时检测超过380 000个HapMap提供的SNPs,成功的发现了能影响顺铂和依托泊苷细胞毒性的关键遗传因素,而这两种药物正被广泛应用于癌症的药物治疗中。简而言之,使用HapMap数据库和细胞系使得研究人员能在全基因组水平分析:①基因型与药物反应的关系;②基因型与基因表达水平的关系;③基因表达水平与药物反应的关系。此外,在验证和确认药物反应与遗传变异关系的过程中,HapMap数据库有效的缩小了目标基因的范围,使得各个药物所特有的遗传特性得以凸显出来。这些药物的遗传特性将被用于临床来预测患者对药物的反应差异以及出现毒性反应的可能性。

(四)HapMap数据库的优势和缺陷

目前,随着HapMapⅢ期数据的发布,研究人员能通过使用来自1 115个HapMap样本的海量基因型,基因表达和其他表型数据来从事全基因组研究以及传统的目标基因研究。同时HapMap的淋巴母细胞系,为研究世界上的主要人群(高加索人,亚洲人,非洲人等)提供了体外研究模型。进行体外细胞研究的优势是排除了体内环境药动学的复杂影响,使得遗传因素得以被更明显的发现和检验。同时,在时间和经费上的花费,对于药物毒性的考量(如各种化疗药物)都将低于人体试验。目前,已有许多成熟的工具和技术能使得HapMap数据的使用更加简便,例如查看和分析单体型和连锁不平衡(LD)数据以及优化单体型标签SNP软件(如Haploview)。但HapMap资源也存在一定的局限性,如淋巴母细胞系仅代表一种人体组织,因此它不能体现一些肿瘤组织对药物反应的特性。此外,仅有50%~60%的人类基因表达于淋巴母细胞系中,因此要全面了解遗传变异特性或表型信息,则需要同时使用一些其他的细胞组织,因为我们已经了解许多药物相关基因都具有组织表达特异性,如特异性表达于肝细胞中的SLCO1B1转运体家族等。对于HapMap提供的CEU,YRI,CHB和JPT淋巴母细胞系均在10~20年前使用EB病毒永生化,一些非遗传因素,如EB病毒株,细胞系的反复冻融等都可能导致样本间基因表达的差异。因此在使用这些细胞系时,所得的结果可能会由于这些原因出现偏差。

(五)总结

在HapMap资源的帮助下,研究人员得以开展那些基于不同种族人群的研究,去发现那些具有复杂特性或表型的遗传变异,例如基因表达水平的差异,药物反应差异,不同疾病的易感性以及一些人口遗传学和进化学研究。对于药物基因组学来说,HapMap资源有助于发现那些能改变基因表达水平和药物敏感性遗传变异,从而帮助实现个体化药物治疗。

三、Ensembl:脊索动物基因组数据库(www.xing528.com)

Ensembl(http://www.ensembl.org/)是一个综合基因组信息库,主要提供脊索动物的基因组信息,这包括人类、大猩猩、绒猴、猪、小鼠、大鼠、蜥蜴斑马鱼等。Ensemble的数据主要能通过3种方式获得:Ensembl基因浏览器、Perl API以及BioMart。在本节中,我们重点介绍通过BioMart获取Ensembl数据库信息,及其在药物基因组学研究中的应用。

进入BioMart可通过两个途径实现:①Ensembl数据库的BioMart入口http://www. ensembl.org/(图3-1);②BioMart中心的Martiew入口http://www.biomart.org/(图3-2)这两个入口都能从Ensembl数据库获取信息,并提供一站式生物数据解决办法,包括分子序列,各种生理通路以及数据解释等。以入口1为例,进入BioMart后,首先需要选择不同的数据库。BioMart不仅可以从Ensembl数据库,还能从其他的一些数据库获得信息(表3-4)。在选择了合适的数据库后则需要选择不同的种群,如人类、小鼠等,例如我们需要了解人类染色体某段基因序列的信息,则选择Ensembl 56,Homo sapiens genes(GRCh37);如果需要了解遗传变异信息则选择Ensembl variant 56数据库,而Ensembl functional genomics 56则提供了功能基因组信息。完成数据库的选择后,我们即可通过BioMart的输入信息过滤器(fi lters)和输出属性(attributes)两个功能来完成对目标基因信息的筛选和提取。例如,在研究已知基因或遗传变异时,我们常需要知道哪种技术平台能提供可靠的基因型分析。通过选择Ensembl variant 56以及Homo sapiens genes(dbSNP130;ENSENBL)数据库后,我们可以在输入信息过滤器中输入目标基因的序列信息,如TPMT则位于6号染色体,18236526至18263353,然后在输出属性的变异资源(variation source)中选择不同的检测平台,随后选择计算(count)即可获得TPMT基因变异可由哪些检查平台分析的信息。此外,当基因序列信息未知,但遗传变异编号信息已知的情况下,也可以通过在输入信息过滤器中输入遗传变异的rsID来获取以上信息。

表3-4 BioMart可检索的数据库信息

通过BioMart,我们可以从Ensembl基因组数据库,Ensembl遗传变异数据库以及Ensembl功能基因组数据库中获取我们所需的与药物代谢相关的基因,遗传变异的序列信息,检测平台信息,相关表型信息以及体外功能研究所需的细胞平台信息等。从而为药物基因组学研究提供了有力的信息技术支持。

四、UCSC 基因组数据库

由美国加州大学圣克鲁斯分校开发的基因组浏览器(UCSC Genome Browser: http://genome.ucsc.edu/)是一个大型的公用基因组序列及注释数据库,提供包括人类在内的14中哺乳动物,10种非哺乳脊椎动物,3种非脊椎肠腔动物,13种昆虫,6种蠕虫以及一种酵母菌基因组序列信息及注释信息。同时UCSC 基因组数据库还是DNA元件百科全书项目(encyclopedia of dNA Elements,ENCODE)的协调中心。ENCODE团队是由美国国立人类基因组研究所(national human genome research institute,NHGRI)组织成立的,旨在全面分析人类基因组序列中的所有功能调控元件,这部分内容将在稍后详述。

UCSC 基因组浏览器提供了许多分析基因组序列的工具。BLAT和电子PCR能迅速的在基因组中寻找到目标序列;表格生成器则能将获得的数据在进行过滤,交叉对比,总结后以表格形式展示出来;基因排序器(gene sorter)则可根据不同的需要,如基因表达特性,蛋白结构同源性等对目标基因进行排序,例如在Mar.2006副本下根据蛋白同源性(protein homology-BLASTP)搜索CYP,则可获得CYP超家族基因在不同组织中的表达信息。关于UCSC基因浏览器的其他工具的使用方法,可通过网站提供的帮助文件了解,或使用其在线教程http://www.openhelix.com/ucsc。

五、药物基因命名数据库

(一)人类细胞色素P450酶基因命名委员会

细胞色素P450酶不仅参与了50%的临床药物的Ⅰ相代谢,同时还是一些致癌物质和环境毒素的激活剂或灭活剂。此外,P450酶还参与了许多内源性化合物,荷尔蒙的生物合成以及灭活。在漫长的进化过程中,许多编码P450酶的基因都积累了大量的能导致酶表型改变的突变。这也成为个体对药物反应出现差异的物质基础。在有不良反应的药物名单上,59%的药物是由具有多态性的Ⅰ相酶代谢,而其中的89%为P450酶。仅有20%的有不良反应的药物不是由多态性酶代谢。因此,更好地了解这些代谢酶的遗传变异,将有助于我们设计和生产更安全有效的药物以及药物治疗方案。

人类细胞色素P450酶基因命名委员会(http://www.cypalleles.ki.se/)的主要任务是统一细胞色素P450酶的命名系统,包括CYP超家族,亚家族、单核苷酸突变、插入/删除突变、剪切变异、单体型(星号命名系统)等。CYPalleles的网页目前所运行的服务器隶属于瑞典的Karolinska研究所(http://ki.se/ki/jsp/polopoly.jsp?d=130&l=en)。自1998年以来该数据库共收录了10个P450酶超家族,30个亚家族。其目的是使所有的研究人员都使用相同的符号来描述其所研究的对象。这将大大增加文献的可读性,并减少由于命名混乱而带来的信息偏差。此外,快速发表新发现的变异,也可以减少其他实验室的重复研究。目前已有的一些单核苷酸突变数据库如dbSNP(http://www. ncbi.nlm.nih.gov/snp/),JSNP(http://snp.ims.u-tokyo.ac.jp/)等都没有涉及这些SNP的功能信息,同时还存在假阳性结果和重复数据等问题。在CYPallele中,仅有人类CYP450基因被收录其中,其内容相对集中,所收录的遗传变异都经过了反复验证,并提供了功能研究数据和相关的文献支持,同时单体型数据也被收录其中。但其缺陷是:该数据库没有提供各遗传变异,单体型在不同种族人群中的发生频率,因此仍需要与dbSNP,HapMap 等数据库联合使用,才能为研究人员提供更全面的CYP450基因及变异信息。

(二)糖基转移酶(UGT)基因命名数据库

哺乳动物的葡萄糖醛酸转移酶(UGT)基因超家族编码的蛋白能有效地将各种糖基(如葡萄糖、葡萄糖醛酸、木糖、半乳糖等)与亲脂性的底物结合起来。UGT基因超家族包括4个主要的亚家族:UGT1、UGT2、UGT3以及UGT8。UGT1和UGT2亚家族能有效地使用葡萄糖醛酸作为糖基供体。加拿大药物基因组学研究中心为UGT1A和UGT2B亚家族进行了统一命名(http://www.pharmacogenomics.pha.ulaval. ca/sgc/ugt_alleles/),以方便所有研究人员使用通用名称来描述其研究对象。该数据库还同时提供UGT1A和UGT2B各SNP或单体型的相关信息。

(三)人类芳香胺氮-乙酰基转移酶(NAT)基因命名数据库

自1995年以来,大量的NAT家族基因和遗传变异被发现,但系统性的命名工作一直存在不足。由命名混乱带来的错误信息常常误导研究人员的实验工作。经过一系列命名研讨会后,美国路易斯维尔大学药理及毒理学系建立起了人类芳香胺氮-乙酰基转移酶(NAT)基因命名数据库为研究人员提供了、NAT1、NAT2单核苷酸突变和单体型信息,以及NAT假基因NATP1的序列信息(http://louisville.edu/ medschool/pharmacology/nat/)。该数据库现由NAT命名委员会管理和负责更新维护。

六、其他数据库

(一)NCBI基因表达文库(Gene Expression Omnibus,GEO)

随着生物芯片以及其他高通量基因表达检测技术的出现,基因表达数据在过去的10年里出现了爆炸式增长。GEO在7年前开始逐渐成为储存这些数据的中心,不仅对公众开放检索,传播信息,而且还为用户提供查询、过滤、审查、下载所需数据的各种工具。GEO是目前最大最全的公共基因表达数据库,到2006年,GEO收录了来自12万份样本的32亿次独立检测结果,覆盖了超过200个物种。这些数据由世界上2 000多个不同的实验室提供,并且全部免费对公众开放。

(二)药物基因组学文献库

Pharmspresso(http://pharmspresso.stanford.edu/ygarten/Pharmspresso/html/index. html)是一个专门服务于药物基因组学的文献库。目前共收录了1 025篇药物基因组学相关的文献全文,超过15万个药物肿瘤学专有名词及注解。通过输入关键词,研究人员能获得相关的文献的杂志、年卷期、以及Pubmed收录信息,以及全文。Pharmspresso是一个非常好用的、服务于药物基因组学研究的文献检索数据库。

(三)HuGE Navigator

人类基因组流行病学网络(human genome epidemiology network,HuGENetTM)于2001年开始,建立起一个基于Pubmed文献库的数据库,用以收录已发表的人类基因组流行病学研究。这就是HuGE Navigator(http://www.hugenavigator.net/)的前身。目前HuGE Navigator不断更新人类基因组流行病学研究的新发现,并提供诸如遗传变异这人群中的发生频率、基因-疾病相关性、基因-基因或基因-环境相互作用信息以及基因检测技术的最新进展等。在HuGE Navigator提供的检索工具包括:文献检索器、GWAS检索器(可用于搜索已发表的GWAS相关研究信息)、基因型频率目录、遗传变异目录等。HuGE Navigator综合类许多数据来自其他的数据库的信息,因此其中的部分信息也可从其他数据库中获得。

(四)DAVID

随着蛋白芯片,基因表达芯片,启动子芯片等技术的出现,高通量的基因组学,蛋白组学和生物信息学已能为疾病机制研究提供大量的生物学解释。但这些技术常常需要考察大量的基因。如何为这些基因提供有效的生物学解释,就是继基因分析技术之后的一项非常重要的工作。DAVID(the database for annotation,visualization and integrated discovery,http://david.abcc.ncifcrf.gov/tools.jsp)就是一个基于多种基因组检测平台的能为大量基因提供生物学定义,疾病相关信息的生物数据库。

(五)Genetic Association Database(GAD)

GAD(http://geneticassociationdb.nih.gov/)是一个人类基因组与疾病相关性研究数据库。其作用是使研究人们能从海量的基因变异数据中快速的检索到与某些疾病相关的遗传变异。所有数据均来自科学文献。数据库以通用基因名称为检索核心,为研究人员提供相关注解,并提供其他数据库连接,包括LocusLink、GeneCards、HapMap、PubMed、CDC等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈