自从1977年剑桥大学的弗雷德里克·桑格等人发明了DNA测序技术以来,生物组学数据爆炸,并以前所未有的速度渗透入医学科学基础和临床研究各个方面,为描述疾病提供了新的思路。“组学”的词根“-ome”表述的是集合的概念,如基因组学,指的是基因序列的集合。随着研究的进展,科学家发现单纯从DNA或基因角度并不能解释大多数医学问题,进而使用了生物学信息流动的“中心法则”——遗传信息从DNA到RNA最终翻译合成蛋白质,执行其生物学功能。所以,组学数据可以继续按照这三个层次去划分:转录组学,即从细胞全体的RNA分子角度研究生命活动;蛋白质组学,即从细胞全体蛋白质分子角度研究生命活动;代谢组学,即从细胞全体代谢产物和中间产物的角度研究生命活动。显而易见,蛋白质是生命活动的直接执行者,对蛋白质结构和功能的研究将直接阐明生命在生理或病理条件下的变化机制。目前,由于DNA测序技术发展最为成熟,在医学生物学中以基因组学和转录组学研究最多。此外,还有脂类组学、免疫组学、糖组学等研究分支。
1)基因组学数据
基因组研究主要包括:以获得全基因组序列和相关功能元件为目的的“结构基因组学”,以序列功能注释和鉴定为目的的“功能基因组学”,以比较不同基因组获得序列功能元件的进化为目的的“比较基因组学”,和以解读与研究基因组信息为目的的“后基因组学”。对于人类的健康而言,单单获取人类基因组序列的信息并不能直接产生对疾病和健康的作用。因而,在人类基因组计划之后,又相继开展了以获取人类基因组多态性为目的的国际人类基因组单体型图计划(Hap Map)和千人基因组计划(1000 genome project)等大型国际合作研究项目。
这些大型研究计划提供了丰富的数据资源和实用工具。其中最权威的三大国际生物数据库为美国的GenBank、欧洲的EMBL和日本的DDBJ。这三个数据库包括了各个物种完整基因组和单个基因的序列、注释信息。此外还有专注于各个物种基因组结构和注释信息的UCSC Genome Browser、线虫基因组数据库AceDB、SGD酿酒酵母基因组数据库等各个研究机构建立的专门数据库。此外对于疾病,美国国家生物技术信息中心还提供了专门的数据库,例如:包含了所有单核苷酸多态性的dbSNP、人类医学健康相关多态性的Clin Var、人类基因组结构多态性的db Var、用于疾病基因检测信息的Genetic Testing Registry、疾病相关基因数据库,以及OMIM(online mendelian inheritance in man)等。
2)转录组学数据
转录组,有时也被称为表达谱,研究的是生物细胞和组织中转录组的动态过程和变化规律,是了解细胞表型和功能的重要手段。与基因组的概念不同,转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长周期,各转录组是不同的。从RNA水平研究基因表达丰度情况可以推测特定细胞或组织的状态与所具有的功能,不仅可以揭示特定基因的作用机制,还可以用于疾病的诊断。另外,高通量测序技术还允许对基因进行选择性剪接、RNA编辑、基因融合等。(www.xing528.com)
3)蛋白质组学数据
与转录组的概念类似,蛋白质组是在基因组的尺度上研究蛋白质的特征,包括蛋白质的表达、修饰和相互作用等。从生命活动的具体执行者——蛋白质的角度研究生命活动和生命过程,获得疾病发生、细胞代谢等生命过程的认识。与转录组一样,蛋白质组同样具有“时空”的特征,蛋白质组随着时间与不同类型的细胞组织发生动态变化。通过对正常个体及病理个体间的蛋白质组比较分析,我们可以找到某些“疾病特异性的蛋白质分子”,它们可成为新药物设计的分子靶点,或者也会为疾病的早期诊断提供分子标志。确实,那些世界范围内销路最好的药物本身是蛋白质或其作用靶点为某种蛋白质分子。
4)代谢组学数据
代谢组学是效仿基因组学(和蛋白组学)的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,其研究对象大多是相对分子质量1 000以内的小分子物质。当前,代谢组学发展很快,已渗透到疾病诊断、医药研制开发、营养食品科学、毒理学、环境学、植物学等与人类健康护理密切相关的多项领域。
目前比较热门的肠道菌群代谢,也是属于这个分支。近些年研究表明[18],通过肠道微生物可进行监测的疾病包括:肝硬化、2型糖尿病、结直肠腺瘤及结直肠癌、类风湿关节炎、肥胖病、强直性脊柱炎等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。