在21世纪,生物基因技术开辟了人类创造性地利用生物资源的新纪元,在众多领域显示出强大的生命力和应用潜力。随着DNA测序技术和蛋白组学革命性的进步,更多的基因以及功能片段被发现,这些基因的功能及表达调控机制也快速地被揭示出来。生物信息数据资源呈爆炸式增长,已有上万种蛋白质的空间结构以不同的分辨率被测定,蛋白质功能及其结构关系的研究也突飞猛进,基于cDNA序列测序所建立起来的EST数据库的纪录已达数百万条,这所有的一切构成了生物学信息的海洋。
4.2.1.1 生物基因信息数据的重要性
生物基因信息数据是21世纪的重要战略资源,生物基因信息数据库是促进生物基因数据共享和利用的重要基础平台,也是保护重要基因数据资源的有效手段。运用数学统计学、计算机科学方法探索从科学实验研究衍生出的庞大的生物数据奥秘,对深入探知和理解生命的本质意义深远。
生物信息学是在生命科学发展到一定阶段,积累了大量数据,并随着计算机科学的迅猛发展,以及数学计算水平的提高,在此基础上形成的一门新兴交叉学科。发展到现在,生物信息学实际上是生命科学和大数据结合的产物,也可以说是大数据+生命科学。
生物信息起源于20世纪50年代。1953年4月25日,Waston和Criek研究提出,DNA是双螺旋结构,并有自我表达和自我复制功能,这是分子生物学发展的一个划时代的里程碑。20世纪60年代,生物学家进行生物资料的收集,运用各种方法寻找生命现象的规律。20世纪70—80年代,运用统计学方法和计算机技术分析研究生物学问题,初步形成了生物信息学。21世纪的生物信息学是复合型学科,综合应用了数学、统计学、生命科学、计算机科学和信息科学等多种科学技术。利用生物信息学研究将更有利于探索生命的奥秘。
4.2.1.2 生物基因数据资源
1)一次数据库
数据是实验获得的原始数据,只经过简单的数据处理。一次数据库有:Genbank数据库、欧洲分子生物学实验室核苷酸数据库(EMBL)、日本DNA数据库(DDBJ)。GenBank与EMBL、DDBJ建立了相互交换数据的合作关系,每天交换数据,使得三个数据库保持同步。
一次数据库还包括GDB数据库。人类基因组计划完成后,为保存和处理基因组图谱数据而建立的基因组数据库。GDB数据库还包含其他物种的基因组数据,例如玉米全序列数据库。(www.xing528.com)
(1)核酸序列数据库。Genbank数据库是由美国生物技术信息中心建立和维护。Genbank库包已知的DNA序列,包括基因的核苷酸序列,蛋白质结构及氨基酸序列等。世界各地的研究人员都可将自己发现的新的DNA序列充实到Genbank库中,免费大家使用。
Genbank库中已经包含约55 000个物种的信息,在DNA序列中,56%是人类的基因组的核苷酸序列。基因库同时记载了基因或DNA序列的生物、生化、结构等信息。
(2)GDB数据库(基因组数据库)。GDB数据库是重要的人基因组数据库,由美国Johns Hopkins大学在1990年建立,基因组数据库由加拿大儿童医院生物信息中心负责管理。GDB数据库为人类基因组计划保存和处理基因组图谱数据,GDB数据库是国际合作的成果。GDB主要记载人类基因组的信息图谱,还囊括了基因组的物理和化学结构,遗传标记位点,PCR位点,重复片段,EST片段,叠连群区域等。注册用户可以直接向GDB数据库中添加和编辑数据,可以搜索各种类型的对象,并以图形方式观看基因组图谱。
2)二次数据库
二次数据库是经过进一步整理而形成,旨在为研究者提供的具有特殊、专门用途的数据库。在互联网的快速发展的背景下,二次数据库得到快速发展。二次数据库具有专业性强、表达直观、易用的特点。在有些情况下,二次和一次数据库之间并没有明显的变化,有的一次数据库本身也具有二次数据库的特征。常用的二次数据库有UniGene、EPD、Prosite、Prints、Pfam等。二次数据库可以实现多种查询功能。
4.2.1.3 生物信息在农业生产中的作用
在生命科学中,生物信息学是通过研究基因功能、表达特点及调控,不同功能或相同(相似)功能基因之间及其调控因子等的相互作用来探索生命的奥秘。生物信息学可用于分子育种,利用特定基因与生物的某些表现型特征或功能的关联性,可利用DNA或cDNA等标记物来选择育种目标,可以在最短的时间内找出最有可能的育种组合材料,从而缩短育种所需要的时间,并增强育种的预期性。植物病虫害有时对某些基因(或由这些基因所连锁的基因)的产物敏感或嗜好,这些关联信息可用于病虫害农药的设计以及分子育种。生物信息学还可以帮助我们从基因库中寻找合适的基因,来从事转基因研究。因此,生物信息学是农业育种以及病虫害防治的重要数据资源。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。