生物学家们曾经以为蛋白质单独调控人类和其他复杂生物体的基因,但是一套基于RNA的overlooked调控系统可能才真正控制着发展进化的关键。
John S. Mattick
假设有可能是危险的,尤其是在科学领域。它们通常始于可见事实的最似是而非或者最易于接受的解释。但是当它们的真实性不能立刻得到证实而它们的缺陷又不显而易见的时候,假设就会渐变为真理,而新的观察资料将不得不去适合这些真理。最终,当棘手问题的数量多得无法承受时,这个真理必将崩溃。
我们可能正在见证对于遗传信息理解的一个转折点。过去50多年里分子生物学的核心思想阐明,编码在DNA中的遗传信息被转录到中介分子RNA上,然后翻译成氨基酸序列,组成蛋白质。基于“一个基因,一个蛋白”的信条,流行的假设认为基因基本同义于蛋白。一个必然的推论就是蛋白质除了在细胞中的结构和酶的作用外,一定是调控基因表达与激活的最主要物质。
这一结论主要来源于对大肠杆菌和原核生物(缺少细胞核的单细胞生物)的研究。而且这一结论对于原核生物还真的正确。它们的DNA几乎完全由编码蛋白质的基因组成,其间由调控邻近基因表达的侧翼序列相隔。(一些编码起调控作用RNA的基因也是存在的,但是它们仅仅组成原核生物基因组的一小部分。)
研究人员长期以来也假定蛋白质同样控制着动物、植物、真菌等多细胞真核生物的遗传信息(有细胞核的细胞)。先驱生物学家Jacques Monod将这一核心教条的普遍性总结为:“对大肠杆菌正确的东西对大象同样正确。”
Monod仅说对了一部分。越来越多的结果证实,非常不幸的,核心教条对于描述真核生物分子生物学是不完善的。蛋白质在真核生物基因表达的调控中确实有一定的作用,但是,一套隐藏的、由RNA组成与蛋白质平行的、直接作用于DNA、RNA、蛋白质的调控系统也在同时运作。这套overlooked RNA信号网络可以使人类结构的复杂性远远超过在单细胞世界中所看到的情况。
一些分子生物学家怀疑甚至敌视这些非正统学说。但是这一理论可以回答一些发展进化中的长期不解之谜,并对基因药物及医药品的研发有很大提示。此外,这套系统的近期发现可以彻底革新各种复杂系统的设计,包括控制学以及生物学。
到处存在的垃圾
1977年的一个发现预示着基因组计划中的某些已经确定的观点可能使错误的。麻省工学院的Philip A. Sharp和新英格兰生物实验室Richard J. Roberts以及他们的同事各自独立地证实真核生物的基因并不是连续的蛋白质编码序列的模块。而是由编码蛋白质的外显子和不编码蛋白质的内含子镶嵌而成。在细胞核内,基因首先被整体复制作为最初的RNA模板,然后一个称为“剪切”的过程将内含子RNA移走,重新组成一个连续的编码序列——信使RNA,或者叫做mRNA——翻译成细胞质中的蛋白。分离下来的内含子RNA由于没有什么明显的用途,被假设为降解后再循环利用。
但是如果内含子真的不编码蛋白质,那为什么它们在真核细胞中无处不在,而在原核细胞中却难觅踪迹?虽然内含子组成了人类一般的蛋白质编码基因的95%甚至更多,但是大部分分子生物学家仍然认为它们是进化的残留或者是垃圾。内含子被解释为在进化出细胞生命之前的某个时代的古老遗迹,那时编码蛋白质的信息片段自然的装配在一起,形成了最初的基因。也许内含子能幸存于复杂生命体中,是因为它有一些附带的作用,例如可以使进化过程中重组蛋白质片段形成新的有用的化合物变得更加容易。同样的,生物学家还假设原核生物中没有内含子是微生物环境中剧烈竞争压力的结果:进化中内含子被当作负担给剪掉了。
一个基因组中DNA的数量与该物种的复杂性并无明显的相关性,这一观察结果使得像垃圾一样丢弃内含子以及其它位于基因之间的表面上看没有用处的“基因间”DNA变得更加容易。例如,一些两栖类生物的DNA比哺乳类多出五倍以上,更令人吃惊的是有些阿米巴虫甚至比哺乳类超出1000倍。最近十年,研究人员假设这些生命体中蛋白质编码基因的潜在数量与其物种复杂性之间其实有着更好的相关性,但是,由于内含子和其它垃圾序列不确定的背景混乱,这种关联已经丢失了。
但是后来研究人员对不同物种的基因组进行了测序,并且相当清楚的表明常规基因的数量与其物种复杂性之间确实没什么关联。有种简单的线虫——秀丽隐杆线虫(仅由大约1000个细胞组成)——有大约19 000个蛋白质编码基因,比昆虫(13 500)多出近50%,几乎与人类(25000)一样多。相反地,非蛋白质编码DNA序列的数量与物种复杂性之间的关系倒是更加一致。
简单的说,难题就是:人类基因组中只有不到1.5%编码蛋白质,但是基因组中的大部分都会被转录成RNA。或者是人类基因组(包括其它复杂生命体的基因组)中充满了无用的转录,或者就是这些非蛋白质编码RNA有着一些不为人知的作用。
这些线索和其它相当多的实验证据表明,复杂生命体中的很多基因——在哺乳动物中甚至可能是绝大多数——并不编码蛋白质,而是形成有直接调控作用的RNA[见“隐藏的基因组”,W. Wayt Gibbs,《科学》2003年11月12月]。这些RNA可能传递一些对发展进化至关重要并起关键作用的信息。
从寄生虫到平行控制
理解这一点的线索在于对内含子的新解释。与之前的内含子通常要追溯到生命起源早期的假设不同,最新收集的证据表明,这些序列在进化过程的较晚时期才侵入到高等生物的基因中。最可能的是它们来自于一种能自我剪切并可以移动的基因片段,类似于现在所谓的“第二组内含子”。这些片段寄生于DNA,它们有特殊的能力将自己插入宿主基因组,并在表达为RNA时将自己剪切出来。
第二组内含子在细菌中很少发现,原因很简单。因为细菌缺乏细胞核,转录和翻译在一起进行,几乎DNA一转录成RNA,就会被翻译成蛋白质。内含子RNA没有时间将自己从寄生的蛋白质编码RNA中剪切出来,因此,内含子在大多数情况下都会使它所寄生的基因丧失功能,从而对宿主细菌产生有害的后果。在真核细胞中,转录发生在细胞核内,而翻译在细胞质中进行,这种隔离为内含子RNA剪切自身提供了机会。因此,内含子在真核细胞中更容易被容忍。
当然,只要内含子需要将自己从基因组中插入剪出,它们的序列就不会与第二组内含子相差太多。但是内含子进化过程中的进一步飞跃可能伴随着真核细胞中被称为“剪接体”的结构的进化。这是一个少量催化RNA和很多蛋白质组成的复合体,它的任务是有效地从信使RNA的前体中将内含子RNA剪切出来。
通过将内含子从剪切自身的需求中解放出来,剪接体最终将鼓励内含子增殖、突变、进化。内含子中任何对宿主有益的随机突变将会被自然选择保留下来。于是,内含子RNA就能够平行于蛋白质而独立地进化。总之,内含子进入真核细胞掀起了分子进化的一轮新高潮,而这种进化是基于RNA而不是蛋白质。以RNA为媒介,内含子已经越来越多地获得了基因的功能,而不是被当作垃圾般的分子残留物。
如果这一假设是正确的,它的意义将极其深远。真核生物(尤其是更加复杂的生物)已经发展出了一套远比原核生物更加精密的基因操作系统和调控网络:RNA和蛋白质能够平行交流调控信息。这样的安排有些类似于人脑和电脑中进行网络控制的先进信息处理系统。
细胞中各种功能的实现通常要依赖蛋白质,因为它们具有化学和结构上的多样性。但是,RNA在传递信息以及调节基因组的自身行为方面比蛋白质更具优势:RNA可以将短小的、序列特异的信号编码为一种字串代码,这种内置代码可以准确地将RNA分子指向其它RNA和DNA上的靶单位,然后RNA-RNA和RNA-DNA相互作用从而产生新的结构,使得蛋白质将信号转化为具体行为。RNA中含有寻址信息的字串使得这套系统变得极为准确,就像电子计算机中使用的二进制字串一样。用不了多久我们就可以发现在自然界中大量存在这种RNA调控系统。
证明普遍存在的基于RNA的调控系统的证据是有力的,虽然这些证据还很零碎。如果存在这样一套系统,人们可以预料到很多基因可能已经独立地发生了进化并且作为网络中的高级命令调控者表达RNA信号。就好像是这种情况:成千上万的从来不被翻译成蛋白质的RNA(非编码RNA)在最近关于哺乳动物转录的分析中得到确认。所有转录RNA中,至少一半甚至超过四分之三都符合这一类别。
也可以认为很多此类RNA可能被处理成能在网络中定位目标的更小的信号分子。来自内含子以及非蛋白质编码转录RNA的上百的“微型RNA”事实上已经在植物、动物、真菌中得到确认。他们当中很多控制着发育过程中某些步骤的发生时机,例如干细胞的保留、细胞的增殖以及凋亡(重塑组织的细胞程序化死亡)。更多这样的小RNA确实有待发现。
这些RNA信号,通过寻找其它RNA、DNA、蛋白质上的靶单位,可以以很多方式影响细胞的遗传程序。例如,他们可以告知不同的基因某个特定的蛋白质编码序列已经被转录,然后反馈的信息就会触发平行调控的中枢。但是更重要的,RNA信号可以作为置于遗传物质中的一个有效的前馈程序,从而控制基因的表达。如果是这样,就能够解释细胞分化以及生物体发育过程中的一些难题。
调节发育
人类胚胎发育过程中究竟发生了什么:单个的受精变成一个结构精密、外形美观、由估计100万亿个位置功能各不相同的细胞组成的生命体。使这种变化成为可能的基因表达方式依赖于两种现象:染色质的修正与选择性剪切。
染色质是组成染色体的物质,它由DNA结合蛋白质构成。在细胞内,小的化学基团(例如甲基和乙酰基)能够黏附在DNA片段和染色质蛋白上,从而决定相关DNA上的基因是进行转录还是保持休眠。最近的研究表明,RNA信号指向染色质上的标记基团,促使基因表达。事实上,一些复杂的染色体过程,例如有丝分裂(细胞分裂)和减数分裂(形成精子与卵子的前体),以及一些复杂的遗传现象好像都依赖于影响RNA处理的生物化学途径。选择性剪切在身体不同组织的细胞内产生不同的RNA和蛋白质指令,而所有细胞共享同样一套基因。哺乳动物中大多数编码蛋白质的转录体被选择性剪切。当内含子被从一个基因的转录体中剪切出来,编码蛋白质的RNA片段可以用不止一种方法装配从而产生不止一种蛋白质。这种现象对动植物的发育相当重要,但是没有人明白细胞如何指定它们要合成哪种形式的蛋白质。目前还没有发现控制特定基因选择性剪切的蛋白质因子。因此,研究人员通常认为在不同环境中普通因子的微妙组合激活或是抑制基因的选择性剪切。但是没有强有力的证据证实这一假定。
但是,一个更加可信并且听起来更吸引入的可能性就是RNA直接调控基因表达过程。理论上,通过标记最初的基因转录体上的特定序列以及操纵剪接体如何加入片段,这些分子能够对此过程进行精巧的控制。按照这种观点,内含子与外显子连接处进行选择性剪切的DNA序列在进化过程中通常难以改变。同样的,许多实验室已经证实,人工合成的被设计成与这些位点结合的反义RNA可以改变人工培育的细胞中的剪切方式,在所有动物中也是如此。这一现象在体内是否也会自然发生还无法确定,不过到目前为止尚未发瑚.。
控制复杂性
这些考虑很自然地又引出一个更加普遍的问题:控制复杂生命体的发育到底需要什么类型的信息,需要多少?复杂事物的建立,不管是房子还是马,需要两种规范:一种针对组成成分,另一种针对指导其装配的系统。(要建一所房子,必须列出需要的砖头、木板以及房梁,但是还必须有一份建筑计划来表明如何将这些东西组合到一起。)不同于工程学,在生物学中,两类信息都被编码于DNA这一程序中。
组成不同有机体的成分分子(在个体以及物种水平)基本上相同:人类身上大约99%的蛋白质与老鼠相同,反之亦然。那些蛋白质中有很多也存在于其它动物身上,那些基本细胞过程中包含的蛋白质甚至存在于所有真核生物中。因此,动物形态上的差异确实源自更加基础的构建信息的差异。
蛋白质编码基因显然确定了机体的成分,但是构建信息存在于哪里呢?生物学家们通常假设指导装配复杂有机体的指令可能包含于细胞内不同调控因子的组合体中,也就是说,是在与其它蛋白质、DNA、RNA相互作用的调控蛋白的排列组合中。但是,就像Tufts大学的Daniel C. Dennett观察到的,虽然这些组合可以产生无穷多的可能性,但绝大部分是混乱而没有意义的,这在生物学上是一个问题。贯穿整个进化过程中,生物体必须经历精确的、敏感而又充满竞争性的发展途径,否则就会死亡。产生复杂性很容易,而控制它就不那么简单了。后者需要数量庞大的调控信息。
不管是直觉还是数学上的考虑都提示调控因子的数量会按照基因数量的非线性函数(通常是平方)增长。所以,随着系统变得更加复杂,更大的比例将用于调控。这种调控与功能之间的非线性关系好象是所有有完整组织的系统的共同特点。因此,所有这类系统由于快速增加的控制体系而存在固有的复杂性的极限,除非调控体系从根本上改变。
基于以上的预想,已经发现原核生物中蛋白调控因子的数量按照基因组大小的平方而增长。而且,外推法显示:预计新调控因子的数量超过新功能基因数量的临界点接近于目前所观察到的细菌基因组大小的上限。
因此,在整个进化过程中,原核生物的复杂性可能已经被基因调控这一瓶颈所限制了,而不是以前假想的那样由于环境和生物化学因素。这一结论也与地球历史上大部分时间里地球生命仅由微生物组成这一事实相符合。仅靠蛋白质复合物的排列组合并不能突破复杂性的限制。
真核生物肯定找到了这个问题的解决方案。逻辑学和现有的证据表明:过去十亿年中多细胞生命的出现是主要基于内生型数字化RNA信号的新控制体系转变的结果。这显然有助干解释525 000 000年前寒武纪大爆炸的现象——那个时候,种类多得令人掉下巴的无脊椎动物好像突然就从简单得多的生命进化了出来。事实上,这些结果证实了一个生物学之外同样适用的规律:有组织的复杂性是调控信息的一个功能,并且在所有系统中复杂性的爆发都是先进的控制及内含的网络所产生的结果,就像Emory大学医学院的Marie E. Csete和加州技术学院的John C. Doyle观察的那样。
这一规律的含义是令人惊愕的。我们可能完全误解了基因组计划的本质以及生物个体和物种遗传特性变异的基础。这一规律表明复杂生命体基因组中的大部分根本不是垃圾,而是服从于进化的选择,有其自身的功能。
最新的令人惊讶的事情是脊椎动物基因组中包含着成千上万已经保持数百万年不变的非编码序列。这些序列比那些编码蛋白质的序列保存的更好,真是完全出人意料。冻结这些序列的机制还不清楚,但是它们的高度恒定性意味着它们参与了对生物学必不可少的复杂网络。因此,不同于以往将人类和其它复杂生命体的基因组看作是在垃圾的沙漠中的蛋白质编码序列的绿洲,现在更应该看作是多数通过RNA传达的调控信息海洋中蛋白质成分信息的小岛。
广泛的基于RNA的调控系统的存在还有着药理学、药物研究以及遗传筛查方面的分支。传统的遗传疾病(例如囊性纤维化和地中海贫血)是由某一组分的灾难性病变导致的:个体的某个蛋白质无法正常工作了。但是,许多决定机体对多数疾病的易感性以及个体特异性的遗传变异可能存在于基因组中控制生长发育的非编码调控体系中。(非编码RNA与下列情况相关:包括B细胞淋巴瘤、肺癌、前列腺癌、自闭症以及精神分裂症。)
这些缺陷不容易通过分子遗传流行病学进行识别,也不容易纠正。但是,理解这套调控系统对于最终个体化地理解我们的生理和心理以及动植物的形状变异是至关重要的。这可能是进行医学干预以完善健康、改进其他物种的遗传工程学的复杂战略的前奏。
除了内含子以外,假定的遗传垃圾的另一个主要来源——占人类基因组的40%左右——包括转座子和其他重复片段。这些序列通常被看作寄生分子,比如内含子,在进化历史中的不同时期植入我们的基因组。像所有外来者一样,它们一开始并不受欢迎,但是一旦在基因组内定居下来,它们和它们的后代就会逐渐成为进化动力的一部分,改变基因组、为基因组做贡献、并随之进化。虽然比较零碎,但是有有力的证据表明转座子促进高等生命体的进化和基因调控并且在后生遗传(遗传性状的修正)中起重要作用。此外,今年七月Compugen的Erev Y. Levanon及其同事宣布了一个激动人心的发现,在所谓的A-to-I(腺苷对次黄苷)编辑过程中,RNA序列在一个非常特异的位点发生了改变。
他们证实RNA转录的A-to-I编辑在人类中非常广泛,比之前认为的要超出两个数量级,这一过程无一例外地发生在非编码RNA序列中称为Alu单位的重复序列内。A-to-I编辑在大脑中尤其活跃,异常的编辑与一系列的异常行为相关,包括癫痫和抑郁。
虽然从某种程度上讲RNA编辑发生于所有动物,但是Alu单位是灵长类独有的。一种比较可能的情况是,灵长类血统中Alu单位的植入使得RNA处理的复杂性达到新的层次成为可能,从而允许神经系统变得更加有动力更加灵活多变。而这种多功能性又为人类的记忆和更高等级认知的出现奠定了基础。
最后,理解复杂生物体基因组中庞大而又高度精密的调控体系,对设计能够自我复制自我编程的系统这一挑战会有所帮助——也就是真正的人工生命与人工智能。
因为不被理解而被当作垃圾丢掉的东西反过来掌握着人类复杂性的秘密,并成为通常涉及复杂系统的向导。
魏征/译
王芷/校
请 登录 发表评论