首页 理论教育 DNA测序技术的历史和进展

DNA测序技术的历史和进展

时间:2023-11-22 理论教育 版权反馈
【摘要】:与研究DNA的结构几乎同时,蛋白质的结构也在研究中。因此,DNA结构确定之后,随之而来的任务就是如何测定DNA的碱基序列。人DNA分子的长度是2~3厘米,含有的碱基数目达109。因此,当时测定DNA序列困难极大。新的DNA测序法极大地推动了DNA序列测定,许多基因的序列被迅速测出。分子克隆技术和计算机技术的应用更使DNA测序的威力前所未有地增强。

DNA测序技术的历史和进展

与研究DNA的结构几乎同时,蛋白质的结构也在研究中。 科学家已经知道,蛋白质的分子是线型的,构成蛋白质的小分子是氨基酸,一共有二十几种。1951~1952年,英国科学家桑格(F.Sanger)证实,一种小分子蛋白质——胰岛素含有两条由各种氨基酸连接起来的链(叫做多肽链),并测定了这两条链的氨基酸排列顺序(序列)。 因此,蛋白质的性质就是由组成多肽链的氨基酸的排列顺序决定的。 所以生物遗传的信息应当隐藏在某种能够储存这些序列的生物分子中。

很明显,DNA中四种碱基沿着DNA分子排列的顺序,即碱基序列,能够像英文字母的排列顺序一样千变万化,具有几乎无限的储藏信息的能力。 因此,DNA的结构确定以后,科学家们立刻想到,最可能的储存生物性状等一切信息的结构,就是DNA的碱基序列。 因此,DNA结构确定之后,随之而来的任务就是如何测定DNA的碱基序列。

DNA分子又细又长,所包含的碱基对多得令人难以相信。 人DNA分子的长度是2~3厘米,含有的碱基数目达109。 因此,当时测定DNA序列困难极大。 科学家想出了能够想出的几乎一切办法,多半是利用核酸酶把DNA切短,再用各种层析法分离短片段。 不用说,这样效率太低。这样不觉过了十多年;直到20世纪六七十年代发现聚丙烯酰胺凝胶电泳对蛋白质和核酸都有极高的分辨率,尤其对于核酸,可以把长度相差一个碱基的DNA和RNA分开,才使得DNA测序方法有了重大突破。 1975年,英国的桑格和寇逊(A.Coulson)发明了利用DNA聚合酶测定序列的方法。1977年,美国的麦克森(A.Maxam)和吉尔伯特(W.Gilbert)发明了化学降解法。 这两种方法都是在四种碱基的位置造成DNA片段(用酶或化学试剂),用聚丙烯酰胺凝胶电泳分离这些片段;事先把DNA的一端接上放射性磷,使这些片段带放射性,电泳后把X射线胶片和电泳凝胶叠在一起,带放射性的DNA片段就会显现在胶片上,即放射自显影图,由此可以直接读出碱基序列。

新的DNA测序法极大地推动了DNA序列测定,许多基因的序列被迅速测出。 最先被测出的是噬菌体和一些细菌的DNA序列,由此推动了一种人工改造基因方法的出台,这就是分子克隆。 分子克隆就是把已知序列的DNA片段人工插进另一些DNA中,让它们一道在生物体内“生长”,从而给生物带来新的性状。 不过,这种技术当时多用于保存基因供研究用,或让细菌制造我们需要的蛋白质。 这些我们后面再讲。

由于酶法测序更简单、更安全(化学法用的主要试剂硫酸二甲酯和肼都是强致癌物),现在已经没有人用化学法了,都是用酶法测序。 而且近年来国内很多生物技术公司可以提供测序服务,价格低廉,这对于科学研究是一件大好事。 科学家再也不用自己动手辛辛苦苦地测序了;而公司因为可以同时给多数用户测序,也显著提高了工作效率。 分子克隆技术和计算机技术的应用更使DNA测序的威力前所未有地增强。 就是在这些技术蓬勃发展中,20世纪八十至九十年代,由美国科学家倡议,发达国家美、英、德、法、日等和属发展中国家的中国的科学家协作,实行了“人类基因组计划”,经过整整10年的发奋努力,成功测定了人类细胞的全基因组的序列(参考序列,因为只测定了一个人种中的少数人,而世界上不同人种的DNA序列是有少量差别的),并把所有结果公开给全球的科学家使用。这是自从遗传学诞生以来最伟大的科学成就,这一成就大大减轻了全世界的生物科学工作者的劳动强度并加快了研究工作的进度:原来必须自己动手进行的许多工作,现在只要打开计算机上网就能知道结果了。

读者可能会问:DNA序列都测出来了,还有什么好研究的呢? 殊不知,第一,这些序列中包含什么基因,都还没有搞清楚;第二,哪些基因有些什么功能,大部分也都还不知道;第三,不同的人种和不同的人的部族,他们的基因也有差别,而这些更是没有搞清楚的;第四,基因的序列如果有些微变化(“突变”),会引起什么后果,现在也还有太多的问题不知道;第五,现在人类的疾病,特别是各种肿瘤,都和哪些基因或者哪些DNA序列有关系、有什么关系,很大部分还没有答案。 如此等等的“不知道”还可以举出一大堆。 因此,生命科学家要做的事还多得很,恐怕几十年上百年都做不完。(www.xing528.com)

这就产生了一门新的生命科学学科——“生物信息学(bioinformatics)”,就是以人类参考基因组为对象,使用计算机程序进行研究工作。 由于计算机的集成电路是用硅制造的,这就催生了一个新词“在硅片中,或在计算机上”——in silico(近代学者创造的新拉丁文:silicum——硅),与从前的in vitro(在体外、在试管内,古代拉丁文vitrum——玻璃,试管)和in vivo(在体内,古代拉丁文vivum——活体)相对,代表用生物信息学方法做研究。 至于为什么前面添了个in,后面的词尾要变成o,就留给读者自己去找答案吧!

21世纪初,一种原理和以前的测序技术很不一样的新的测序技术——下一代测序(next generation sequencing,NGS)出现了。 下一代测序法是把要测定的DNA片段的一端或两端固定在小塑料片上,把这些片段“变性”即弄成单链,再用“依赖DNA的DNA聚合酶”(下文马上会讲)去合成与单链互补的DNA。 每合成1个碱基,就把这个碱基的信号记录下来,同时还要记录这个碱基在塑料片上的位置。 当然这些工作必须通过电子设备来做。这样就可以同时测定几十万个DNA序列,但是每个序列(叫“读段”)都非常短,一般只有七八十个核苷酸,最多也不过一二百个,还有相当一部分是废品。因此,测出的序列读段必须经过计算机程序的处理,除去废品,才能用于序列分析;这样的序列分析还需要和已经测出的基因组序列(叫“参考基因组”)进行比对,这就要求掌握专门的计算机技术,这些技术软件的操作系统绝大部分不是我们日常惯用的Windows操作系统,而是另一种叫做Linux的操作系统。 比起Windows系统来,Linux操作系统有很多优点,例如一切计算机病毒都不能侵害Linux。

下一代测序是人工无法进行的,这种方法一出现就是“机械化、电子化”的仪器——测序仪,价格也相当昂贵。 而且使用下一代测序还需要掌握Linux操作系统及其附属的生物信息学软件,这是需要一定时间来学习的。 因此,笔者希望现在的有志青年多花点时间掌握几种计算机操作系统,不要把宝贵的时间浪费在玩电脑游戏和手机游戏上。

下一代测序只有在人类基因组计划完成后,在人类的基因组全序列已经公布后,才有实用价值。 现在使用下一代测序技术,比起以前的酶法、化学法等,是方便得多了。 而且使用下一代测序技术测出的数量极其巨大的序列资料,已经可以保存在专门的计算机数据库(如美国的NCBI)中,免费提供给世界科学家使用,这已经并且必将极大地促进全世界的生命科学研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈