遗传密码的进化_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 生物 • 医学

遗传密码的进化

admin  发表于 2017年09月18日


2003年4月14日,科学家向全世界宣布,他们已完成人类基因组的序列测定,即描绘出了决定人类自身复制的30亿个碱基对的DNA序列图谱。现在新的挑战是:如何从大量无用的基因序列中找出所有具备编码功能的基因;以及全面地理解基因怎样和何时被激活,基因指令如何影响所编码蛋白质分子的行为。因此人类基因组计划领导人Francis S. Collins称目前的成就仅仅表示“基因研究初始阶段的结束”,也就不足为奇了。

CoLlins同时提到了在同一周内被纪念的另一个事件:“基因研究初始阶段的开始”。在50年前,James D. Watson和Francis H. Crick揭示了DNA的分子结构,那同样也是一个令人激动的时刻。科学家认识到他们最终能够由DNA分子来窥视生命的奥秘,这些DNA分子允许生物把自身的所有遗传信息像工程蓝图一样储存在自己体内,并且能把储存的遗传信息转译为生命所需的新陈代谢活动。在随后的时间里,如何解释和阐明这些转换的发生过程.一直吸引并困惑着科学界。当时已经知道所有DNA都是由4种类型的核苷或核苷酸构成,所以编码在DNA双螺旋内的核苷酸必须按照某种规则进行解码或还原.并把其中包含的生命信息传递给细胞。而在细胞中,由20种氨基酸串联排列可以产生成千上万种蛋白质,并由此构建出亿万种生命形式。事实确实如此,整个生命世界一直都在不停地忙于进行着各式各样的遗传编码的破译和解码活动,比如鸡蛋孵化、种子发芽、蘑菇生长和细菌分裂。

在那个时期,人们对破译DNA遗传信息的细胞机制还知之甚少,而且研究者常从数学方面考虑这个问题。许多早期主张最终被证明是错误的,尽管有些理论轰动一时,其独出心裁的创造性在今天读来仍然引人入胜。事实上在1960年代,真实的遗传密码最终被破译后,似乎有些令人失望,因为自然的密码规则看上去远不如一些理论家的模型精巧。

只是最近几年,关于遗传密码的新发现才揭示了某些编码程序为什么如此复杂而又巧妙。为何自然界会选择这些基本编码规则,以及这些规则为何历经约30亿年的自然选择仍会存留下来,我们已经越来越清楚了.现在可以指出:通过保护生命在蛋白质合成过程中免遭灾难性错误,编码规则实际上也许加快了进化的历程。研究编码规则还将为解决这些疑难问题提供线索,这仍是后基因组时代实验室所面临的挑战。因此,在我们回顾最初的生命是如何开始的密码规则时,我们也同样在发现可以用于未来研究的工具。

遗传密码的进化1.jpg

我们对“密码”和“解码"(破解密码)的说法是很书面化的。实际上,遗传信息储存在DNA和RNA中,二者均由一种生化分子——核酸所组成。但是有机体大多数都是由各种不同形式的分子——蛋白质所构成,所以尽管一个基因被传统地定义为编码某一种蛋白质的核苷酸序列,但是由基因所包含的这种遗传编码信息必须首先从一个密码符号系统被翻译到另一种完全不同的符号系统,这种过程类似于把莫尔斯电报的密电码翻译成英语。

破解生命的密码

当1953年Watson和Crick描述DNA的结构时,他们和同时代的科学家所知道的基因语言是由只有4个“字母”组成的基因字母表书写的:4个“字母”代表四种碱基,分別是腺嘌呤(A)、胞嘧啶(C),鸟嘌呤(G)、胸腺嘧啶(T),它们组成不同的核苷酸并形成现在人们熟悉的DNA双螺旋阶梯结构。相比而言,蛋白质的字母表包括20种不同的氨基酸。显然,需要由多个碱基“字母”进行“语言”组合,才能编码一个确定的氨基酸“字母”。4种碱基中的每两个组合在一起,只能得到16种编码组合。但是每三个碱基字母组合在一起,就可能产生64种编码组合,这样就足以满足编码20种氨基酸的需求。

当时人们对基因如何翻译蛋白质不甚了了,今天我们已经知道,基因序列正是用3个碱基字母构成一个三联密码子单位,以编码某一个确定的氨基酸。然而要把基因的碱基序列转变成某种蛋白质的氨基酸序列还需要某些必要的中间步骤。首先,DNA的基因序列被复制并进行转录和编辑,生成信使RNA(mRNA),这种RNA分子使用与DNA类似的核酸碱基,但DNA的胸腺嘧啶碱基在RNA中则被尿嘧啶碱基所取代。接着,细胞开始读取信使RNA的基因序列,每次读取3个碱基字母或者说读取一个三联密码子单位。与此同时,细胞内还有一种叫做转运RNA的分子(tRNA)负责把特定的氨基酸从细胞内別的地方搬运过来并将其一个个地连接成一串,这样就形成了蛋白质的氨基酸序列。

遗传密码的进化2.jpg

但是在1950年代早期这个过程还不为人所知,它更像是一个使人迷惑的数学难題,而且第一个提出解决方案的不是生物学家而是物理学家George Gamow。他于1954年发表了具有轰动性的“钻石密码”理论,即在DNA自身物理结构的基础上,由4个核苷酸进行组合从而得到20种氨基酸的非常优美的理论。

Gamow的理论模型是,在DNA双螺旋结构的每一个转弯处有一个钻石形状的空间,其4个角分别有4个核苷酸。这些具有4个核苷酸的钻石结构的小缺口会使DNA成为一个将氨基酸联系起来的模板:DIVA双螺旋每一次的转弯,都会形成一个新的钻石结构,并且会呈现出不同的核苷酸组合,这种不同的核苷酸组合决定编码什么样的氨基酸。他假定,如果去除钻石结构的一个角,每一个钻石结构就只剩下3种核苷酸组合,这样构成的3核苷酸密码组合就有64种可能性来编码氨基酸。该理论还允许有意义的密码子相互重叠,即允许不同的3核苷酸密码组合编码同一个氨基酸,这依赖干翻译的阅读框架或从那里开始沿着DNA分子链开始阅读和翻译。这种优美髙效的翻译理论很受当时研究人员的赞赏,而且即便是按照今天的编码理论来验证,也是有可能的。不幸的是,随后不久,科学家发现了氨基酸链,并很快发现真正的氨基酸链实际上不可能产生于Gamow描述的密码组合理论。

与此同时,已有证据表明DNA和氨基酸不能直接地相互作用。Crick提出了一个理论,假定有一种所谓“适配子”的分子,可以作为DNA翻译成蛋白质的中介者,他并在1957年提出了一套可操作的理论规则。Crick指出,适配子只识别20个有意义的密码,分别对应于20种氨基酸,除此之外,64种三联密码子中的其余三联密码子则被看作是“无意义”编码,而非重叠。如果一个三联密码子不编码氨基酸,则称之为“无意义”编码。Crick的密码没有“标点符号”即密码之间缺乏区分标志,对于适配子来说,无意义的密码子因为不被识别而被有效地隐匿起来。所以生命不需要象征性的标志来指定遗传信息阅读框架的起始点。这种缺少间隔的编码规则看来是如此合理,以至于它立即赢得了几乎所有人的接受——直到实验结果证明这一优美的理论也是错误的。

在1960年代早期,实验表明那些被认为无意义的密码子也可以在离体试管实验中指导蛋白质的合成,到1965年,实验研究已经证明,实际上所有64种三联密码子都可以翻译或表达氨基酸。只是某些密码子彼此意义重复,对于一些特定的氨基酸,可以由2个、4个、甚至6个不同的密码子来编码同一种氨基酸。在这一事实经历多方推测之后,许多人开始认为大自然确定氨基酸的遗传密码,可能只是进化历史过程中的一个随机事件。

“偶然冻结”的理论

事实上遗传密码被破解后,科学家发现像人类和细菌这样彼此截然不同的生物使用着完全一样的密码规则。而且自从由共同的原始祖先分化出原核生物、细菌、真核细胞后,数十亿年来生命的密码看上去似乎并没有什么变化。所以1968年Click提出了简单而有说服力的偶然冻结学说,直到不久前该学说还在科学界处于统治地位。他写到:“密码子如何配给氨基酸纯属偶然事件,”但是一旦密码已经表现为某种形式,便决定了生命的基础,任何进一步的更改将都是灾难性的。

达尔文自然选择理论的前提是,有时在单一基因上的一个小变化,如果它能使生命在所处环境中适应得更好,这个变化就是有益的,这种单基因的点突变就会和生物一起延续下去。然而如果要改变一个生命的编码规则,则相当于同时改变它的遗传基因的无数多个部位,将绝对会导致代谢功能的异常。二者的区别在于,单基因的点突变就像是一个单独的打印错误,而改变一个生物的编码规则就如同重新调整全部打字机键盘的布局。

现在已经证明,这一令人着迷又容易理解的理论有些片面。虽然大多数生命系统确实使用着相同的标准遗传密码,但科学家现在已经了解到至少有16种变异生物,在进化过程中把不同氨基酸交给特定的密码子来编码。尽管如此,其内在的编码规律仍然相同,都是由核苷酸三联密码子翻译成氨基酸。其变异在于,大多数生物会把RNA三联密码子密码CUG翻译为亮氨酸,而很多真菌类生物则将CUG密码子翻译为丝氨酸。各种细胞中提供能量的细胞器——线粒体,则有它们自己的基因组,并且也已经进化出它自己的密码子规则。例如,在一种酵母菌的线粒体中,在6种通常编码亮氨酸的密码子中,有4种转而编码苏氨酸,随着1990年以来更多的这类变异生物的发现,我们越来越清楚密码子的出现和分配完全不是偶尔冻结的。它能够进化就意味着它们也许曾经进化过。只是亿万年的自然选择,使自然界标准的密码子——氨基酸的分配更为精确和保守,但绝非随机发生。事实上,这样安排密码子规则可以有效地减少意外发生的分子错误的伤害。

遗传密码的进化3.jpg

编码损害控制的最小化

每一类编码系统都不得不尽力消除可能出现的错误,然而并非所有的错误都导致同等程度的损害。例如在英语的语音系统中,辅音与元音有很大区别,所以将s替换为a会使信息难以理解。同样,s和z有类似的发音,这样替换后的短语,虽有错误但听起来仍然可以理解其含义。对于—个有错误倾向的系统,好的编码策略是,降低不可避免的偶然错误所产生的伤害性影响。

在生命活动中基因错误可能以各种形式出现。有时DNA会发生突变,有时错误的适配子tRNA会结合到基因的转录体mRNA上,把一个错误的氨基酸掺入正在合成的蛋白质分子中。虽然科学家假设密码子的编码规则出自偶然,但他们仍然注意到编码的安排似乎十分合理,它可以使每个单一的错误所表现的危害尽可能地降低到最小。早在1965年,Carl R.Woese在美国伊利诺伊大学观察到,相似的密码子(指在3个密码字母中有两个相同)经常产生性质相似的氨基酸,这样一来,如果三联密码子的最后一个或两个字母发生错误,就不会明显改变所产生的蛋白质。

确定氨基酸的“相似性”是比较复杂的:20个氨基酸在各种特性上都彼此不同,无论是形状、大小还是电性。Woese和其他人注意到,两个字母相同的三联密码子所翻译的蛋白质的疏水或亲水性质是类似的,这种性质对蛋白质的基本功能十分重要。一个新合成的氨基酸链正是依靠疏水氨基酸的指引和定位而折叠成一种特殊的结构:其疏水端向内聚集在--起,而剩下的亲水端构成蛋白质表面并与细胞浆内多水的环境相接触,

遗传密码卓越的特征在于当单个核苷(字母)发生错误时,产生的错误氨基酸与正常的氨基酸的疏水性常常是相似的,因此这类错误通常不明显影响蛋白质的折叠,危害较小或几乎没有危害。但是这样一来,就产生了一个问题:“遗传密码究竟多么有效?”,这也是我们叙述早期科学家发现的着眼点。

检测自然密码系统

首先我们对20个氨基酸疏水性进行测量,接着用测量结果计算遗传密码的错误指数。该错误指数的定义如下:对所有64种三联密码子来说,三联密码子中单字母变化或替代所引起的错误氨基酸的疏水性平均变化。该指数只代表遗传密码对错误的易感性(指数愈低,错误概率愈小),而与这种错误自身的意义大小无关。我们需要知道自然密码系统如何适应可能发生的密码错误。

要产生这些假设的替代密码,现实中我们必须接受一些规则的限制,因为密码是在一个由DNA、RNA和氨基酸构成的世界中发挥作用的。一项观察表明,RNA转录过程中的错误大多数发生在三联密码子的第3个字母位置。在这个位置上,信使RNA(mRNA)和转运RNA(tRNA)之间的亲和力是最弱的,这就是为什么Crick把这种现象命名为“摆动假说”(wobble)。同义的密码(编码同一种氨基酸)通常只在最后一个字母有区别,因此,这类错误的替代密码仍可翻译生成与原来相同的氨基酸。例如,当三联密码子AGA的最后一个A突变为G时,导致整个密码子由AGA变成了AGG,但AGA和AGG均编码精氨酸。

这种同义的密码自身就可以降低编码的错误指数,但是通过摆动机制产生的基因重排可能更多地是由于生化限制而非进化适应性。因此,我们仅考虑有以上特征的密码,而由于不可能将疏水性指数分配给代表终止信号的密码子,所以终止密码子的数量和字母的分配在测量中保持不变。

根据这些假设条件,我们在20个遗传密码子组合模块中随机排列20个密码子,可以得到大约2.5x1018种变化或替代(这一数值大致等于地球形成以来的秒时间)。我们进行大规模的随机取样,发现每100万个替代的密码子中,只有约100个错误指数低于自然密码子。换言之,自然密码子的表现仍然优于除这100个之外的绝大多数替代密码子[参见本页框文]。

当将更多的限制条件,包括DNA发生突变的倾向和RNA转录错误的倾向等实际情况考虑进来后,我们发现,100万个替代密码子中仅有一个所表现出的错误指数低于自然密码子,除此之外,自然密码子的表现均优于替代密码子[参见本页框文]。

对于遗传密码的这种非同寻常的适应性的一个直接解释是:自然选择。也许,生命曾经有许多种密码,具有不同程度上的错误感受指数,但只有那些具有能对错误应付自如的密码子才能存活下来,这些密码子也随之得以进化。因此我们所见的标准遗传密码子之所以是这种形式,是由于它们最终帮助生物也帮助自己赢得了生存斗争的胜利,从而得以保留至今;或者说,是自然进化选择的结果。我们已经知道密码变异在实际中是有可能的,所以这些假想是合理的。

遗传密码的进化4.jpg

对于密码排列的错误最小化是幕后推动进化的力量的证据,也存在一些批评。反对者认为,电脑接受到的假定是:一个“好”密码要使密码替代所引起的氨基酸疏水基的变化程度达到最低,这时用于收集证据的电脑就会“改善”自然的选择。电脑对最佳密码的检测结果受限于程序设定的标准,而且大多数至今已经被描述的“好”密码,是基于对真实世界中密码所遇到的各种错误类型过于简化后的假设。例如,它们忽视摆动现象:即同义密码子的第3个字母发生错误通常并不改变它所产生的氨基酸的性质。

这种说法的另一个问题,是认为标准遗传密码是“设计者优化的密码”。而自然选择是一个“盲目的设计者”,在那里它只能摸索着在每一世代的变种中选择最好的变异种类。不过,当我们以这种盲目设计的形式模拟大自然的选择时.我们发现标准遗传密码使错误最小化的程度仍然相当令人惊讶,相比之下,通常仅有不足3%的随机替代密码能适应自然选择而发生进化。

换句话说,“钻石”和“缺少逗号”密码理论比自然存在的规则看上去更完美,而且电脑还可以总结更多的数学意义理想化的密码。但是,那些密码仅仅是理论上的完美,而没有考虑到现实中的进化过程,这样来理解自然选择并不可靠。事实上,标准密码不仅是自然选择的产物,也许还充当着加快进化进程的工具。密码具有使不利影响最小化的性质,以及把相似性质的密码与相似生化性质的氨基酸汇集在一起的能力,二者结合在一起,可执行比控制损害更多的功能。较小的突变与极大范围的突变相比可能更有益,通过使每一个突变的影响最小化,基因突变有可能最终改善其编码的蛋白质的功能。

密码利用

了解密码进化的力量如何反过来影响自然的进化历程,让我们有机会赞叹大自然精巧的设计技术。另外,这方面的知识也能够帮助了解2004年实验室所面临的一些艰巨问题。

通过筛选大量初级的基因组序列数据来寻找具有实际功能的基因,是分子生物学的一项重要工作,但是目前的研究受限于如何解决那些已知基因的性质和特征。遗传密码对基因突变的滤过或适应作用,能使科学家识别发生明显变化的基因或这些基因编码所翻译的蛋白质的功能。根据错误最小化的密码编码原则,一种或几种不同的密码子可以编码一种或几种性质相似的氨基酸;据此进行人工密码替换,可能会影响所产生的氨基酸的大小、电性成疏水性;研究者根据这些信息甚至能推导出蛋白质的折叠形状。

我们知道生物体不仅能表达自身的标准密码,也能表达外来不同物种的基因密码。生物学家已经将这一特征用于科学研究。因为每一个单一字母的密码对几乎所有生命都是一样的。所以现在的普遍做法是,把感兴趣的基因,比如人的一个肿瘤基因,插到另一种生物(比如大肠杆菌)体内。大肠杆菌就会表达产生人类肿瘤基因编码的蛋白质。但是,生物体有时也会完全不能表达这些外源基因或者表达的量远少于预期,或者产生的是一个与原来略有不同的蛋白质。

这个问题给生物研究带来了麻烦。但是我们现在认识到,有时这种表达蛋白质的失败,是由于生物对选择使用何种同义密码子来编码某一个氨基酸有着自己特殊的偏好和倾向。例如,有6个标准的密码子可以编码精氨酸,人类基因偏好使用密码子AGA和AGG来编码,然而大肠杆菌很少使用AGA并经常错误地翻译它。知道这些区別能够使我们设计出可以在不同生物体内有效表达的人类基因。

本文作者之一Freeland的一个实验室正在编制应用软件程序,来帮助分子生物学家将这些关于密码的理说和实验结果转变成研究工具,应用于遗传工程、基因发现和蛋白质形状预测。而且我们及其他研究者正在研究:密码自身是如何产生的、最初RNA如何与氨基酸发生交互作用、它们之间的交互作用又如何发展成RNA的密码系统以及氨基酸字母在早期的进化中如何形成。

这种方法也许会带来许多另外的悬而未决问题:为什么是20个并且只有20个标准的氨基酸?为什么有一些氨基酸对应有6个密码子,而另一些氨基酸只对应着一种或两种密码子。这种形式是否与密码的错误最小化有关?目前,基因密码的破解只是理解其生物学意义的开始。

[郭奕倩、徐国恒/译       曾少立/校      张志文/审]


全部评论

你的评论