许多蛋白质都是由很小一组模件组成的。现在还不完全清楚这些模件在进化过程中是怎样伸展和扩增的,但是有一种模型也许已初见端倪。
近几十年来,分子生物学家和生物化学家已经知道许多蛋白质都是由区段,即独立的氨基酸模块组成的。这些区段中有许多都具有明确的功能,使蛋白质具有完整的活性。此外,在进化过程中有些模件在蛋白质内部或不同蛋白质之间经常流动。这些模件的进化流动性并不局限在单一物种的遗传物质中跃动:在有些情况下,这些模件显然能越过物种的界限而横向运行——例如,甚至从动物细胞流向细菌细胞。
正因为在编码蛋白质的各基因区里发现了相似的分区模式,致使许多生物学家都确信这些结构特征反映了这种相同的基本现象。他们相信每一个遗传编码区和蛋白质中某个具体的结构特征是相对应的。我们和我们的同事对此持有略微不同的观点。我们认为,证据主要倾向于这样一种观点,即基因再分成分离的编码部分是进化标准较新的发展。
蛋白质是由氨基酸小分子组成的长链。有20种不同的氨基酸。每种氨基酸各有其自己的形状和化学特性。正是这些氨基酸构成了出现于自然界的所有蛋白质。蛋白质的一切特性都决定于其结构中利用的是这20种氮基酸中的哪几种,而且更要决定于这些氨基酸串连在一起的次序。最令人注目的是,氨基酸序列决定着蛋白质将怎样折叠成具有活性的三维体。氨基酸序列的长度对上述决定起着重要的作用。氨基酸链(通常称为多肽)可能长达几千个氨基酸单元。(迄今为止的最高纪录是一种肌肉蛋白质titin:它是由30,000多个氨基酸残基构成的。)但是有些短的氨基酸链甚至没有足够的分子内聚力(即附着力)把自身固定成单一的构型。因此,这些链往往突然从一种形状变成另一种形状。通常,当一个多肽链含有30或40个残基时,它就开始有足够的内聚力使它具有一个主要的形状,尽管它也许仍然需要来自结合的金属离子或胱氨酸对之间二硫键的附加力来使之稳定。
在恒定的环境里,由多于最低数量的氨基酸单元构成的任何一种蛋白质总是都以相同的方式进行自我折叠的。这样的环境可能是构成许多生物体液或生物膜脂肪性边缘的稀薄的盐溶液;这样的环境还可能包括另一些相邻的蛋白质或者甚至是相同长度的多肽链的另一些部分。
在规定条件下自发地折叠成特有形状的序列叫做区段,但是这一外形定义很少被严格地应用。通常,这一术语被用于蛋白质的任何一部分,只要这部分能被确定为与该蛋白质的其余部分在结构上是独立的。有些小的蛋白质被完全包埋在一个区里;而另外的许多蛋白质则有2个或更多的区段;还有一些则是由许多区段组成的,其形状可能很相似,也可能很不相同。鉴定一个区段的最直接了当的方法是用蛋白质晶体的X射线衍射法或核磁共振(NMR)研究去确定其结构。研究人员只要鉴定出一个区段的氨基酸序列,那么不用再进行结构研究就能够找到另一些相关的区段:他们能够直接寻找和已知结构的氨基酸序列相似的那些氨基酸序列。这一捷径特别有用,因为还有许多当时知道的氨基酸序列是由X射线衍射或核磁共振产生的结构。即使没有实验鉴定,也常常有可能只根据结构来推导出某个区段的存在。用这种方法核查结构和序列的相似性,就可以更多地了解到有关其进化的情况。
直到七十年代初,有关蛋白质怎样进化的常识主要集中在“复制和修饰”上。编码一个特定蛋白质的基因偶尔会通过不同的重组过程(在这些过程中DNA股间交换遗传信息)被复制。这些复制有时会产生第二个基因。这第二个基因然后可能经历进一步的修饰或突变而产生一个具有新功能的新蛋白质。换言之,这个复制的DNA可能是串联的。在此情况下,这个原始蛋白质伸长,结果还可能接受新的特性。正如对氨基酸序列进行比较后所显示的那样,这些内部复制显然产生了许多伸展的蛋白质:从小的蛋白质(如只有56个氨基酸残基的细菌铁氧化还原蛋白)到大的蛋白质(如有1000多个氨基酸残基的细菌β—半乳糖苷酶)。
但是在蛋白质进化方面有一个不为人知的方面,大约在20年前,在普尔多大学的Michael G.Rossmann用x射线衍射法测定了乳酸脱氢酶的三维结构后就真相大白了。他指出,这个分子的一部分和他见到过的另一些蛋白质的特点非常相似。具体地说,这个酶的和一个辅助因子相结合的那部分在另一脱氢酶里有明显的对应物。
明显地造成这些结构相似性的原因是它们总是不能出现在分子的同一些相关部分中。看来正是这个单元在进化过程中在线状氨基酸序列中围绕移动而不丧失其结合一个辅助因子的能力。Rossmann指出,蛋白质是由模件(我们现在应该把这些模件看成是区段)构建的,这些模件出现在生命史的早期阶段而且已经按不同的组合方式组装在一起了。
他的观察结果展示了蛋白质进化的这样一种可能性,即单纯通过复制和修饰就可能完成大量扩增。如果能够重组其他蛋白质的组成部分而产生新的蛋白质,那么蛋白质的多样性就可能迅猛地增多。
Rosmann的看法有先见之明。许多大蛋白质的氨基酸序列已被查明,而且许多蛋白质都有大量的重复结构,以至人们可以期望有一连串流动的模件。例如,纤维连接蛋白是由两根长链组成的,其中每一根链都有2000多个氨基酸残基。随机抽查表明,这种大的细胞外蛋白质的链是由重复几次的三个不同类型的重复序列组成的。这些重复序列被称之为Fn1,Fn2和Fn3,分别有45,60和100个氨基酸的长度。(这些重复序列是“不完全的”,这意味着特定类型的所有的重复序列不绝对相同。)每一类重复序列都可能独立地折叠成一个真正的区段,因而整个蛋白质必定像一由三类珠子组成的长长的项链。
使人感到意外的是,后来又在另外许多种类型的动物蛋白里观察到了和Fn1,Fn2以及Fn3相似的序列。另外许多已被鉴定的区段的情况也差不多与此相同。一种叫做表皮生长因子的小蛋白质只有一个区段(人类的表皮生长因子的这个区段为53个氨基酸长)。这个区段紧密地折叠并由三个二硫键把它锁接在一起。在100多种蛋白质里,这些序列都表明着相似的区段。后者在这些蛋白质里有1-30个以上的拷贝。
现在还不清楚许多这类模件有哪些功能,但是其中有许多确实能结合或识别特定的物质。有一族外源凝集素能结合各种碳水化合物。同样,免疫系统中的抗体和其他分子的特点——免疫球蛋白区段因具有结合能力而尽人皆知。有些区段可能起到识别标志的作用,以鉴别“属于”某一特定组织的某种蛋白质。许多区段看来只不过是连接物或隔离物(无害的连接单元)。最后,还有一些区段也许根本没有什么功能。因此,在进化过程中,显然有许多区段可能而且确实在蛋白质内或蛋白质之间流动。只要这种流动是无害的或不会因此而丧失功能,那么在新的蛋白质里为保持一个区段的进化而付出的代价是微不足道的。这一结果是中性进化论的必然结果,但是这也许可以借用篮球运动的一条规则“合理冲撞”来表示。
当Rossmann首次指出,模件可以在蛋白质内或蛋白质之间移动时,没有一个人认真地考虑过可能引发这类重排现象的遗传机制。但是此后不久,分子生物学家们就遇到了看来能作出解释的一种以前从未料到过的基因特性。James Watson和Francis Crick在1953年了解到,遗传信息就隐在脱氧核糖核酸(DNA)分子的双螺旋里。就像蛋白质是一串串核苷酸碱基,DNA分子是一串核苷酸碱基。DNA的核苷酸序列拷贝(即转录)成信使核糖核酸(RNA)的互补股。在细胞里,叫做核蛋白体的微型因子根据来自RNA的指令组装成蛋白质:每一个密码子即RNA里的三碱基序列和一个氨基酸相对应。
七十年代中期的一项出人意外的观察结果是编码多肽的DNA可被非编码的序列隔开。所谓非编码的序列是指和出现在最终的蛋白质产物里的氨基酸不相对应的那些碱基序列。这些非编码序列在信使RNA股转译成多肽之前是被拼接机制切开的。
关于基因中上述间隔物的发现促使哈佛大学的Walter Gilbert去证明非编码序列(因为这些都是插入的序列,所以他称之为插入子)有助于基因的编码部分(因为这些部分是被表达的序列,所以他称之为外显子)的交换。这一设想是指编码片段之间额外的间距会成比例地使DNA有更多重组的机会。(重组决定于DNA中的随机断裂)。插入子的序列间的相似性可能推动重组过程中DNA的不对准的和不相等的交换。这将使基因更容易重组。当时虽然没有什么依据去认定插入子应该有相似的序列,但是后来的研究证明插入子是许多流动的遗传成分的庇护所。这些流动的遗传成分里相似的序列对减数分裂过程中的基因过失是有用的。(减数分裂是产生精子和卵子的细胞分裂过程。)
当然,许多生物都不进行减数分裂:这些有机体就没有很好的方法去组装新蛋白质了吗?只在真核生物,即带有独立核的有机体的DNA里发现能阻断蛋白质编码的插入子。细菌蛋白的基因不含插入子:每一组3个碱基都和蛋白质里的一个氨基酸相对应。(在细菌里发现极少几种不阻断蛋白质的插入子,但这不属于本文讨论的范围。)
细菌的蛋白质基因没有插入子这—情况使达尔霍齐大学的Ford Doolittle和洛克菲勒大学的James Darnell不约而同地提出,细菌过去可能有过插入子,但是后来失去了。它们的基因组可能在进化过程中简练得使其能更有效地进行复制了。简而言之,插入子从生命开始起就存在了,这曾经是单独形成的短编码程序。
Doolittle和Darnell的假设导致了这样一场仍然没有定论的争议:是插入子出现得“早”,而且是蛋白质起源的基础呢?还是说插入子出现得“晚”呢?后一种假设是由现在任职于不列颠哥伦比亚大学的Thomas Cavalier-Smith提出的。他的推理是,插入子也许是外来的一点点核酸(称之为可换位的单元)。它们产生在共生的有机体内,最终变成了真核生物的线粒体和其他细胞器。渥太华大学的Donal Hickey延伸了Thomas Cavalier-Smith的想法。
真如后来所证明的那样,编码蛋白质中在进化上流动的单元的那些DNA段的两侧经常(但不总是)有插入子。换句话说,许多蛋白质里的结构单元都是由外显子编码的。这一观察结果促进了这样一种广泛的看法,即所有的外显子在进化上都是流动的,而且是和蛋白质中潜在的标准模件的模块是相对应的。
我们认为,这种观点从以下两个方面来看是错误的。首先,正如布达佩斯酶学研究所的Lazlo Patthy最先指出的那样,所有的外显子都可能被移动,但是这种移动的单元只有一部分在遗传上可相容;这就是说,其中有许多不可能被明显转译成某些新些蛋白质。当某个插子进入某个编码序列,那么它将处于下列三种位置之一,即恰好在两个密码子之间(0型),在一个密码子的第—个和第二个位置之间(1型),或在第二个和第三个位置之间(2型)。如果那个插入子和与某相邻的编码序列移动到一个新的方位,那么这个插入子必须接受同—型位置,否则这些移动的密码子将被错误地转译,从而产生一个无意义的氨基酸序列。如果插入子是随机分布的,那么我们将可望在一次移动后发现只有三分之一新的外显子将协调地组合在一起。奇怪的是,绝大多数编码移动最频繁的模件的基因的两侧是1型插入子。
为什么只有某些外显子在进化上是流动的根本原因在于只有真正的区段(即能够完整地并独立地折叠的区段)能在新的蛋白质组里存活下来。较小的、自我独立性较差的序列将不能折叠而丧失其同一性。此外,如果某个移动的单元位于本身并非是真正的区段的两个外显子之间,那么接受附加指令的那个基因的产物就根本不可能正确地折叠自身。
这两个因子(一个是遗传因子,另一个是结构因子)是流动区段如此经常地出现在相互结合中的主要原因。含有一个流动区段的蛋白质并不经常含有其他区段;有些蛋白质是镶嵌型的,含有多达5个不同的通常是移动的区段。这类蛋白质无论在遗传上还是在结构上都能耐受移动过程。
关于许多模件都是由外显子编码的观察结果一直被认为可用来证实这样一种想法,即原始的有机体是用一批由外显子编码的原始的结构组分组装其所有蛋自质的。但是有几种观点反对这样的解释。其中之一是,简单的算术可以证明早先假设的外显子过于小了,以致生产不出自己能折叠的蛋白质组分。我们现在知道的脊椎动物基因组里的外显子的平均大小是135个核苷酸碱基,相对应于只有45个氨基酸的多肽。缩短的序列通常需要附加的稳定性才能折叠成稳定的构型。
还要请记住,“插入子先出现”理论的支持者坚持认为插入子总是随时间而逐渐消失的。他们根据不同物种中不规则地出现插入子而强调这一结论。这一易变的模型可能是获得或丧失插入子的结果。但是如果人们坚持插入子在—开始就已有的观点,那么这唯一的解释就没有意义了。与此相应,最早的外显子可能更小,编码着理所当然地不可能自己折叠成区段的那些多肽。
反对把现代的镶嵌型蛋白作为早期模块例子的另一个论据涉及各区段在蛋白质问的分布。迄今所知的大多数流动的模件肯定都只是在动物蛋白里发现的。在这一点上,我们确实不知道它们中的绝大多数最初是在什么时候,什么地方产生的。也许它们的进化踪迹因为在植物、真菌和原生动物的相关区段里进行了强烈的序列交换而模糊不清了。正如我们将在下文讨论到的那样,从进化意义上来讲,关于三维结构比序列更持久的事实可能解开这个谜。
除了一切有关大多数外显子在进化上都不是流动的证据以外,有些区段也显然不是单个外显子的产物。在脊椎动物的纤维蛋白原里最先观察到的一大区段是由250个氨基酸组成的。在有些蛋白质里,编码那个区段的基因含有多重插入子。但是从未在没有其他一切外显子的情况下发现过这些单位外显子中的哪一个。看来,这些外显子中从未有哪一个脱离过这个区段。因此,在一个基因里只存在插入子看来还不足以使外显子流动。从来没有只在一组蛋白里发现过绝大多数已被鉴别的外显子这一事实驳斥了关于简单的无选择的流动性的说法。
还有另一些例子可以说明在编码序列里含有插入子的可流动模件。需要鉴定的第一类可流动模件称作克林格尔(因为和一种叫做“克林格尔”的丹麦点心相似而得此名)。它大约是由80个氨基酸组成的,而且含有3个特有的二硫键。它和Fn2区段非常相似,区别只在于其半胱氨酸残基问的残基数,因此有些研究人员未能把这两者区别开来。在它的某些组合里,编码克林格尔的基因被一个插入子隔开,但是迄今为止还没有人在任何一种蛋白质里发现过半个克林格尔。
有利于“插入子后出现”理论的另一种观点是,阻断编码区的插入子在动物和植物里的普遍性远远超过最早分歧的真核生物。在原始的真核生物(如兰氏贾第鞭毛虫Giardia lamblia)里根本没有发现过插入子。此外,在植物里鉴定到的流动蛋白质,在动物里找不到可识别的与其相对应的蛋白质;反之亦然。最后还有间接的证据表明有些细菌蛋白质的流动组合是最近才出现的,因此它们必定是在没有插入子帮助的情况下进化成的。所有这些证据都说明,阻断蛋白质的插入子是在真核生物进化后出现的。
因此,有些外显子编码区段,但大多数外显子都不编码区段,即往往在遗传上确实能被复制和移动的外显子。这些现象的因果之争引发了一个难题。也许这些插入子的进化确实促进了外显子的移动。另一方面,这些插入子往往不可能为区段刻画出编码区,因为这种布局有利于插入子的分布。如果某个插入子阻断了编码某个区段的序列,那么它也许能在那种状态下存活(只要它确实没有违反上文提到的相位规则)。但是,它不会进一步扩展,因为在其边界上的外显子不可能单独存在,因而也不可能独立地流动。相反,如果插入子位于编码独立的折叠单元的区段之间,那么它就能够和外显子一起扩展到其他部位。因此,外显子可能只是偶尔会移向存活的插入子。
更多地了解流动单元进化的一种方法是研究其结构,特别是其中一种结构的分布状况。我们挑中了Fn3,即纤维连接蛋白的Ⅲ型区段。Fn3单元和克林格尔一样,有时被单个插入子隔开,但是从未见到过它们的整个补体少于90-100个氨基酸的。我们两人多年来各自都在探索不同蛋白质里的Fn3。在早期的报导里,只在动物蛋白里观察到这种序列。因此,当日本新泻大学的研究人员在1990年报导细菌蛋白里有Fn3区段时,我们两人都感到十分惊奇。1991年在意大利的一次会议上,我们共同的兴趣投合了。在那次会议上,我们决定联合起来全面研究Fn3。
为此目的,我们用包括模式搜索运算法在内的各种方法查阅了蛋白质序列数据库。(模式搜索运算法是本文作者之一(Bork)和Christian Grunwald在东柏林分子生物学中心研究所一起工作时共同发明的。)我们发现了300个独特的Fn3序列。这些序列都确定这毫无疑问是真正的区段。出现的这300个序列实际上代表了67个不同的蛋白质,不包括不同物种的同样的蛋白质在内。其中60个来自动物,7个来自细菌。没有一个序列是从植物、真菌或单细胞真核生物中鉴定到的。
有待解答的明显问题是:细菌和动物这两者是否都是从某个共同的祖先处继承了这个区段呢,还是其中有一种群以某种方式从另一种群处获得了这个序列?如果说,这个区段曾经存在于原核生物和真核生物的共同祖先之中,那么为什么在真菌和植物里从未见到过。我们借助计算机把所能找到的Fn3序列作了配比排列并根据其相似性绘制了原始的系统发育树。因为如果要用全部300个序列来完成这项工作是很麻烦的,所以我们着手利用取自所有细菌蛋白质的有代表性的序列组和只取自最不同的动物蛋白质的有代表性的序列组。
此后不久就发现有些地方出了差错。细菌的序列和动物的序列简直太相似了,所以是在20亿年前由同一祖先传下来的。与此相反,包括计算机绘制出的系统发育树在内的证据都有利于这样的观点,即细菌是从动物那里获得Fn3区段的。
有多种理由可以得出这样的看法。首先,常有这样的情况,即取自某种细菌的某个酶携带着这个区段,而取自另一种细菌的同样的酶却没有这个区段。这意味着这个区段在结构上和功能上都是消耗性的。因此这必定是后来加到特定的细菌上去的。此外,Fn3序列是散发性的和成群的,但总是呈现在胞外酶的特定组合里。如果细菌随时间的消逝而失去Fn3拷贝。那么就可望在另外不同的蛋白质组里找到存活的拷贝。
最后一点,尽管拥有Fn3区段的细菌属于不同的类型。但它们确实具有一些共同的特征。这些都是在聚合物(如纤维素和几丁质)的分解过程中取食的土壤细菌。还检验了另外多种类型的细菌。但是没有一种细菌在其蛋白质中有Fn3区段。大肠杆菌的基因组序列有一半以上已被知晓,但是没有发现任何有关Fn3序列的线索。对于大量研究过的真菌和植物的序列来讲,情况也是如此。如果说Fn3区段曾经存在于原核生物和真核生物的共同祖先中。那么我们理应可以认为它一定会沿着其主要的世代体系继续辐射,并在所有这些种群中表现出来。
关于编码一个区段的基因可能在远缘的有机体之间迁移的设想乍一看来可能令人感到奇怪。常识告诉我们基因是从上一代有机体向下一代有机体垂直传递的。尽管如此,有时候也可能有平行传递的基因:不仅在物种间,也有跨越远缘族系的。有些病毒能够从—个宿主处取得小基因后再把这些基因带给另一个宿主。这个转移的基因偶尔也会把自身融入新宿主的DNA中。细菌从其周围环境(其中可能含有腐烂的动物细胞)中取得DNA后可能会转化。许多细菌还在其小的DNA环,即质粒上携带能和其他细菌进行交换的基因。从理论上讲,所有这些机制都为基因的横向转移提供了机会。
假设某些细菌确实从动物细胞那里获得了编码Fn3区段的基因,那么这是在什么时候发生的呢?系统发育树所能表明的一切情况是这发生在过去的10亿年里。在动物与植物及真菌趋异之后。为了确定这个年代,我们必需知道沿着趋异的细菌系和动物系的序列的平均交换率。关于动物蛋白质,我们对已经有化石记录可以表明其趋异年代的各种动物的序列进行比较后能够估计出这个平均交换率。遗憾的是,我们没有关于细菌序列的可比较的信息。(尽管已有关于和细菌相对应的某些微生物化石,但这还不是像动物所有的那种可解释的进化谱系。)但是我们在动物和细菌的蛋白质里看到Fn3序列随机复制的趋向;也就是说,在任何—个含有一个以上Fn3区段的蛋白质里,这些区段的序列往往是相邻的而且非常相似。这一结果意味着编码Fn3区段的DNA的复制必定是在较近时期发生的。
确定基因的横向传递和基因复制的年代是我们了解这些基因单元如何传播的关键所在。迄今所知,现代的细菌在其编码蛋白质的序列里绝没有插入子。如果在它们的编码序列里确实曾经有过插入子,那么从这些插入子消失至今已有多久了呢?除非这发生在相当近的年代里,否则编码Fn3的基因必定是在没有插入子的帮助下传播的。
有一种可能是Fn3区段是依靠杂乱的噬菌体(细菌病毒)或质粒在土壤细菌间传播的。归根结底,我们要找到一种携带着编码Fn3区段的噬菌体,才能抓住正在进行的传递活动。现在已经发现了许多细菌的Fn3序列,这也许使我们有可能合成将会和Fn3基因单元相结合的短的DNA单元。在结合使用DNA扩增技术(即所谓的聚合酶链反应)的情况下,这些单元可能有助于我们在噬菌体或其他载体里鉴定到这种基因。
当然,Fn3区段起源于何处仍是一个谜。它最先出现在动物里吗?抑或我们确实无法通过序列的比较来确定其远祖的形式?三维测定指明,Fn3结构令人可疑地与免疫球蛋白的区段相似。用x射线结晶法和核磁共振法进行的三维分析有可能把免疫球蛋白的区段往回追溯到包括PapD(协助其他蛋白质折叠的“陪伴”)在内的原核生物的蛋白质,还有可能回溯到消化纤维素的细菌酶。有趣的是,免疫球蛋白的区段是原本就已经明确了的。它含有把它的两侧扣在一起的二硫键,但是它那比较原始的形式(其中有些仍存在于现代的脊椎动物)却缺少这个键。正是这些原始形式和Fn3区段最相似。
我们能够预料到还会有揭示另一些模件被掠夺的事例。根据我们的调查,大约在每50种动物蛋白质里有一种蛋白质有Fn3区段(2500种已知的动物序列中的50种,而与物种的重复无关)。我们估计大约有25种模件,几乎和Fn3一样,非常普遍地散布在动物蛋白质里。另外还有100多种模件出现在不止一种蛋白质组合里,但其出现频率低于第一组。追踪这些模件的系谱和散布情况是我们面临的一项重大挑战,它必将揭示一切生物进化的各个方面的许多情况。
请 登录 发表评论