随着分子生物学和分子遗传学的不断进步,人们从分子水平上研究基因的结构与功能,发现了许多不同种类的基因,从而深化了对基因本质的认识,充实了基因工程的理论基础。基因的概念也逐渐丰满起来,成为现代生命科学中含义变化最快的一个词。
1.基因的概念
(1)超基因:超基因(super gene)是指作用于一种性状或者作用于一系列相关性状的几个紧密连锁的基因。超基因强调了它的各个成员在排列上是紧密连锁的。
(2)基因簇:基因簇(gene cluster)是指一个基因家族的几个成员紧密地排列在某一条染色体上形成一个基因簇,也可以称为超基因。比如人的珠蛋白基因家族中就有两个基因族,一个是a-基因簇,另一个是β-基因簇。
(3)基因家族:基因家族(gene faroily)是指真核生物基因组中来源相同、结构相似、功能相关的一系列基因,往往是由一个共同祖先经过重复、变异而进化来的。基因家族的各个成员可以聚集成簇排列在一条染色体上,也可以分散在不同的染色体上。
(4)超基因家族:超基因家族(super gene family),又称基因超家族,是由一个共同祖先基因通过各种各样的变异,产生了结构大致相同但功能不一定相同的几个基因家族,合称为一个超基因家族。
(5)假基因:在多基因家族中,某些成员并不产生有功能的基因产物,但在结构和DNA序列上与其他成员具有相似性,这种成员称为假基因。假基因(pseudo gene)与功能基因具有一定的同源性,但由于基因突变等导致功能丧失。在起源上,现在认为假基因可能是由反转录酶(reverse transcriptase)介导的转座作用产生的。
(6)断裂基因:过去一致认为,基因的遗传密码子是连续不断地并列在一起,形成一条没有间隔的完整的基因实体。但之后通过对真核生物基因结构的研究发现,在两个编码序列之间有一段非编码序列,这样,使一个基因分割成若干不连续的区段,这种编码序列不连续的间断基因称为断裂基因(split gene)。编码序列称为外显子(extron),非编码序列称为内含子(intron)。
(7)移动基因:基因绝大多数是固定在染色体的一个位置上的,但是有些基因在染色体上的位置是可以移动的,这类基因称为移动基因(movable gene),也可称为转座元件或转座子(transposable element)。移动基因是美国遗传学家麦克林托克(McClintock)在1951年首次提出的,她认为一个控制因子整合在一个基因座上,可以引起基因的一种新突变;当把控制因子准确地从染色体上切离后,基因座的表型就恢复正常。这些元件都能在染色体上移动,有的元件没有基因产物,位于它所控制的基因座上,作为另一些发挥调节作用因子的受体。调节因子可以自主移动,并支配受体因子的移动。
(8)重叠基因:传统的观点认为,基因的编码子是有序地排列在DNA链上的,各个基因也是按顺序阅读下去,不会发生重叠。但随着DNA核苷酸序列测定技术的发展,人们已经在一些噬菌体和动物病毒中发现不同基因的核苷酸序列有时是可以共用的,即它们的核苷酸序列是彼此重叠的,这种重叠现象可以是一个基因与另一个基因首尾重叠,也可以是一个基因被嵌套在另一个基因内部。这样的两个基因称为重叠基因(overlapping genes)或嵌套基因(nested genes)。
(9)等位基因:基因在染色体上的位置称为座位,每个基因都有自己特定的座位,在同源染色体上占据相同座位的不同形态的基因,称为等位基因。与等位基因表型效应相似、功能密切相关,在染色体上的位置有紧密连锁的基因,称为拟等位基因。在自然群体中等位基因占多数,称为野生型基因;同一座位上的其他等位基因一般都直接或间接地由野生基因通过诱变产生,称为突变型基因。
(10)染色体外基因:染色体是基因的载体,生物体的基因主要位于染色体上。原核细胞没有细胞质和细胞核的区分,它的染色体一般是裸露的环状DNA分子,即DNA分子上没有蛋白质的结合。真核细胞的染色体位于细胞核内,一般是与蛋白质结合的线状DNA分子。不管是原核细胞还是真核细胞,都有一些基因存在于染色体之外,这类基因称为染色体外基因(extrachromo somal gene)。这类基因的传递不符合孟德尔分离和自由组合定律,被称为非孟德尔遗传(non-Mendelian inheritance)。
2.基因的特点(www.xing528.com)
基因能忠实地复制自己,以保持生物的基本特征,并且能繁衍下去。正常条件下,生命会在遗传基础上发生变异,但是,当受精卵或母体受到环境和遗传的影响时,后代的基因组会发生有害缺陷或突变,产生疾病,有的还会遗传。另外,基因之间有间隔,称为内含子(intron),这部分序列在RNA合成后会被自动切除,这种间隔称为基因的不连续性,仅发现于真核生物中。基因还具有重复性,即一种基因不止一个拷贝,有的需要经常表达的基因多到几十个拷贝。生物体以rRNA基因和组蛋白基因这种多拷贝形式来增加基因的剂量,提高蛋白质合成的速度和效率,可能是一种特例而非普遍的方式。已知许多重要的蛋白质都是由单拷贝基因编码的。单拷贝基因完全可以合成大量的蛋白质分子,这种高度表达能力,对于克隆的外源基因在新寄主细胞中实现功能性表达显然是十分有用的。随着DNA核苷酸序列测定技术的发展,人们已经发现不同基因的核苷酸序列有时是可以共用的,也就是它们的核苷酸序列是彼此重叠的,即基因的重叠性。同一位点的同一碱基可以为两个以上基因编码,即一个碱基可以被使用两次以上,由此导致各基因碱基序列的总和大于核酸的序列长度。基因具有漂移性,即一种生物的目标基因向附近野生近缘种的自发转移,导致附近野生近缘种发生内在的基因变化,具有目标基因的一些优势特征,形成新物种,以致整个生态环境发生结构性的变化。转基因作物与其近缘野生种间的基因漂移是目前生物学界最为关注的基因漂移事件,问题是当转基因植物发生基因漂移时,会产生一些难以预料的严重后果,如产生超级杂草、超级害虫、危害生物多样性、诱发新病毒、对非靶标有益生物的影响,这就是所谓的“基因污染”问题。
3.基因的表示符号
基因的表示符号采用如下统一的命名规则:①每个基因用斜体小写的三个字母来表示,这三个字母取自表示该基因特性的一个或一组英文单词的前三个字母;②产生同一表型的不同基因,在三个字母后用不同的大写斜体英文字母表示;③突变型基因的表示方法是在基因符号的右上角加“-”。抗药性基因是在基因符号的右上角加“r”表示抗性;④某一突变型基因的表型一般也是用相应的正体三个字母表示,不过,第一个字母大写;⑤当染色体上存在缺失时可用“△”表示,缺失部分放在“△”符号后面的括号中。
4.碱基顺序与氨基酸序列的关系
DNA分子是基因的载体,那么是否每一段DNA都是基因呢?按照经典的基因概念,在染色体上或DNA分子上,基因是成串珠似的一个接着一个地排列着,它们之间由非遗传的物质连接起来。基因既是遗传的功能单位,同时也是交换单位和突变单位。但是,后来有许多研究工作,特别是以T4噬菌体为材料的研究工作表明,事实并非如此。T4噬菌体感染大肠杆菌的研究实验认为,一段核苷酸序列就是一个顺反子,相当于一个基因的DNA或RNA单元,它编码一种完整的多肽链。这种多肽链既可以是一种具有生物活性的蛋白质,也可以同别的多肽链聚合形成多功能的蛋白质。顺反子是功能单位,它是由许多可以突变的位点组成的,而这些位点之间又可以发生交换。在现代的遗传学文献中,顺反子和基因这两个术语是相互通用的。一般来说,一个顺反子即是一个基因,是由一群突变单位和重组单位组成的线性结构,大约含有1500个核苷酸对。因此,顺反子的概念表明基因不是最小单位,它仍然是可分的;并非所有的DNA序列都是基因,而只有其中某一特定的多核苷酸区段才是基因的编码区。
通常说遗传是由基因决定的,当细胞分裂时,核内的染色体会准确无误地复制出一套新的染色体,其脱氧核苷酸排列顺序和结构与母细胞完全相同,因此父母代的遗传信息全盘且正确地传递至子代。人类受精卵细胞中的23对染色体中,来自父亲的23条精细胞全盘继承父亲的遗传信息,另23条来自母亲的卵细胞也忠实地保留了母亲的遗传信息,因而,生长发育成的子代性状几乎是父母亲的“复制品”。遗传的物质基础是DNA,不同的基因决定生物体的不同性状,也可以说某一特定基因携带着某一特定性状的遗传信息,因此基因实际上就是遗传的基本单位。
DNA以密码子的形式将信息传递给mRNA。在蛋白质合成时,核糖体从mRNA的5′端移到3′端,每次读取一个密码子;每个氨基酸通过各自tRNA的反密码子与mRNA的密码子配对,然后在核糖体上连接成多肽链。
RNA由4种碱基组成,可以组成64(4×4×4)种三联体密码子。其中有三个密码子专门用来终止多肽链的合成,即终止子。剩下的61个密码子对应于20个氨基酸,因此大多数氨基酸可以有一个以上对应的密码子,所以这些密码子是简并的。
蛋白质的结构研究发现,有许多种蛋白质都是由数个亚基组成的,称为多体蛋白质(multimeric proteins)。在多体蛋白质中,如果所有的亚基都是同样的,就属于同型多体(homom ultimer)蛋白质,由一种基因编码。如果这些亚基各不相同,就属于异型多体(heterom ultimer)蛋白质,由多种基因编码。例如,血红素基因(heme group)是由2个Q-亚基和2个β-亚基组成的一种异型多体蛋白质。每一种类型的亚基都是一种不同的多肽链,是不同基因编码的产物。因此,编码Q-亚基和β-亚基的任何一个基因发生突变,都会导致血红蛋白功能的变化。为了能够适用于任何一种异型多体蛋白质的情况,“一种基因一种酶”的表述后来便被修正为“一个基因一个多肽链”(“one gene-one polypeptide chain”),这样就更加准确地反映出基因的本质。
基因决定人体的遗传性状,个体的各种性状又是通过各种蛋白质而显现的。不难想象,基因中的遗传信息控制着蛋白质的合成,这样蕴藏在基因中的信息才可传达至蛋白质,以维持特定的遗传性状。DNA是遗传信息的携带者,蛋白质是遗传性状的体现者。氨基酸是蛋白质的基本组成单位,在自然界中,组成生物体蛋白质的氨基酸有20种,但这些氨基酸的不同排列和组合形成千差万别的蛋白质,它们各自执行着特定的功能,代表着特定的生物性状。令人惊奇的是,无奇不有的生物界中光怪陆离的各类生物却使用着一套看来并不复杂的遗传密码,执行着类似的遗传法则,即遗传信息从脱氧核糖核酸流向信使核糖核酸,进而流向蛋白质。
现在人们知道,基因是细胞中所有的RNA及蛋白质分子的“蓝图”。有些基因编码的最终产物是RNA分子,如rRNA基因、tRNA基因及其他小分子RNA基因等,而其他一些基因编码的最终产物则是多肽,它们是通过mRNA中介合成的。
早在1912年,A.Garrod在研究人类黑尿病时就已经指出,这种疾病是由于缺乏某种酶促代谢反应所致。但第一次明确提出“一种基因一种酶”假说的学者则是G.W.Beadle和E.L.Tatum。他们应用X射线诱变处理粗糙脉孢菌,获得了大量的营养缺陷突变体(auxotrophicmutant)。进一步研究发现每一种突变都是单基因缺陷所致,认为生物体内发生的每一步代谢反应,都是由每一种酶负责控制的,而这种酶又是某一种特定基因的合成产物。一旦基因发生突变,那么,由它指导合成的蛋白质也将随之发生变化,甚至可能导致活性丧失。因为就基因的结构而论,突变只是一种随机事件,它极可能破坏基因的功能,而大量的突变就会产生出一种无功能的基因。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。