在人类以及其他多种生物的基因组中,都潜藏着大量的假基因。假基因是那种貌似正常、却没有功能的“死亡基因”。但是近年来,不断有科学家发现,假基因竟然有活动的迹象!难道假基因并没有死亡,它们有自己的功能,只是人类尚未发现?假若它们真的没有功能,那为什么我们人类在经过长时间的进化后,仍保留数量如此之多的假基因呢?太多的谜团环绕着假基因,科学家能一一破解吗?
你知道吗?在我们的基因组中潜藏着不少“骸骨”,这些沉寂已久的基因“骸骨”胡乱地散布在我们的染色体中。它们是古老的基因化石,向人类展示着现代基因的进化历程。科学家把它们叫做假基因(pseudogene)。曾经很多人都认为它们完成了历史使命,已经光荣隐退。但近年来,科学家发现的种种迹象表明,在这些如恐龙般古老的DNA之中,有些也许并非是真的沉寂,而有着活动的迹象!虽然人类基因组计划已经正式完成,但假基因身上的重重谜团才刚刚揭开一角。
基因组不是一个静止的信息库,而是一个活跃的生物计算机操作系统。假基因是一些古老密码的残留,不过与古老密码相关的功能早已被时间无情吞噬。但是我们不能忽视假基因,它们不仅记录了密码的生成与变化,而且作为基因组重建与更新过程的产物,它们还可以帮助科学家深入了解这些过程的发生、发展,甚至它们本身就是解开假基因谜团的金钥匙。
假基因身世之谜
“假”基因(false gene)貌似正常基因(real gene),但它们没有“真本事”,无法合成出功能蛋白质。上个世纪70年代末,基因学家开始在染色体的特定位点上,寻找能合成出重要功能蛋白质的基因,结果却意外地发现了“假”基因,于是正式把它命名为假基因。例如,血红蛋白(hemoglobin)具有运输血液中氧气的作用,而β-球蛋白(betaglobin)是它的重要组成部分。在寻找β-球蛋白基因的过程中,科学家们发现了一段DNA序列,它与β-球蛋白的基因非常相似,却不能合成蛋白质。原来在这个基因的结构中,具有重要功能的部分发生了突变,使它不能被翻译成有用的蛋白质。
自从人类基因组计划完成以来,科学家又接连完成了多种生物的基因组测序。大量的基因数据让基因学家们对基因组有了全面的认识。他们发现,假基因不是偶然存在的,而是普遍存于生物的基因组中。人类的基因组就像一个巨大的仓库,容纳了30多亿个碱基对,然而只有不到2%的基因组DNA可以直接编码蛋白质。在基因中,非编码序列(noncoding sequence,即内含子)大概占了基因全长的三分之一。基因之间的连接序列更是占了DNA的绝大部分,而这部分序列大多是基因组中的暗物质(genomic dark matter),它们到底发挥着怎样的功能至今还是一个未解之谜。就是在这些看似无用的广袤空间中,随意地散布着数量惊人的假基因,如同抛弃在荒野中的锈迹斑斑的汽车零件。
随着对人类基因组的研究日益深入,我们的研究小组以及欧洲、日本的研究团队发现的假基因数量已经突破了1.9万个!而且假基因发现之旅似乎还远未走到尽头。科学家估计,人类的基因组中,大约只有2.1万个编码蛋白质的基因,所以在某一天,假基因的数量很有可能会赶超我们的功能基因。一个个假基因散发着浓厚的神秘气息:它们是如何形成的?为什么它们的数量如此之多?如果它们真的无用,那它们为什么会在我们的基因组中存在如此长的时间……
对于假基因的形成,科学界已经有了明确的答案。少数假基因也曾经是重要的功能基因,只是由于核苷酸序列发生了改变,导致它们丧失了原有的功能。不过,大部分假基因都是功能基因的无效复制品:或者由于在复制的过程中,发生了致命突变,它们一产生就失去了功能;或者由于有害突变的长期积累,它们的功能慢慢消失殆尽。
功能基因要发挥功能、履行自己的职责,就必须拥有一个完整的基因结构。外显子(exon)是一段连续的核苷酸序列,负责编码相应蛋白质的氨基酸序列。在两个外显子之间,又隔着一个内含子。每个基因的起始部分含有一段异常重要的序列,叫做启动子(promoter),它就像基因的标志,没有它,细胞机器就无法识别基因。当细胞要表达某一基因时,启动子先得将很多重要的生物分子召集到自己的身边,组成一个团队,因为基因的表达是多个分子相互协作的过程。随后,这些分子就会朝着基因的下游移动,将基因转录成前体RNA(preliminary RNA)。前体RNA通过拼接加工,切除内含子、连接外显子,从而产生了经过剪切的信使RNA(mRNA)。最后,核糖体(ribosome)负责把mRNA翻译成氨基酸链。经过一系列复杂的蛋白质加工处理过程,氨基酸链形成了具有特定功能的蛋白质,它们共同执行基因的功能。
假基因可以通过两种途径产生,每种途径都能产生不同于原始基因的翻版。细胞在分裂之前,会复制整个基因组。在这个过程中,往往会产生多余的基因拷贝,它们可能会在染色体上的其他位置安家落户。另外,在基因表达的过程中,mRNA可能会逆转录成DNA序列,然后重新插入基因组中。这是一种逆转录转座(retrotransposition)现象,并且还可以由一种转座遗传因子(transposable genetic factor)—— 长散在元件(long interspersed nuclear element,LINE)引起。LINE具有制造自身DNA拷贝并将它插入基因组的能力,而且当LINE活动时,其邻近的mRNA转录产物也能随之一起被逆转座。
在进化过程中,复制和逆转座是改变基因组、产生生物新变体的主要力量。通过复制产生的基因拷贝与原来的基因一样,具有正常的功能,它们插入基因组后,基因组就能获得更多的进化机会。但是,假如基因拷贝中含有错误序列,或者缺失了重要DNA片段(如启动子),那么它就会变成假基因。通过基因复制产生的假基因仍然含有内含子和外显子,它是可识别的,因而科学家把它称作复制型假基因。但是由mRNA逆转录得到的假基因不含内含子,所以由此产生的假基因被称为加工型假基因(processed pseudogene)。
在人类基因组中,虽然这两种假基因似乎是随机分布的,但是各种功能基因产生假基因的能力却有高有低。基因学家根据功能基因在序列和效用上的相似性,将它们划分为不同的基因家族。在这些家族中,大约只有1/4与假基因有关,不过有些基因家族却非常“善于”制造基因拷贝。例如,编码人类核糖体蛋白的基因家族由80个基因组成,而由此衍生的加工型假基因就高达2,000多个,大约占了整个基因组中已发现的假基因的1/10。还有一个核糖体蛋白基因,叫作RPL21,由这一个基因衍生的假基因超过了140个。
造成这种差异的原因可能是不同基因的功能有所不同。某些基因的产物对于细胞的整个生命过程都是必需的(如核糖体蛋白家族的基因),它们会在细胞中持续、大量地表达,因而有更多的机会衍生出加工型假基因。
长期以来,假基因就是以这样的方式,不断地在我们的基因组中出现。在漫长的进化过程中,有些基因早已消失,但是它们的仿制品——假基因却保留了下来,尽管已经失去了原有的功能。还有一些基因,经历了几多变迁之后,早已面目全非,但是我们仍然可以在假基因身上看到它们早年的英姿。因此,基因区间(intergenic region)是一个巨大的分子化石层,无声地记录着我们的进化历程。
差异巨大的假基因
自然选择规律是一条极具普遍性的规律,似乎连我们的基因也要经过一番自然选择。通常情况下,功能基因会受到严格限制,很难发生突变。如果基因发生了突变,而这一突变有利于提高物种的适应能力,那么突变就很有可能被保留下来。但是,如果突变有损基因的正常功能,那么发生突变的基因就会被无情地抛弃。
不过,一旦被丢入基因组的“垃圾堆”里,假基因就不再受到选择压力的限制,就可以自由地“收藏”各种突变,包括那些对正常基因有害的突变。针对假基因的这个特点,科学家们可以根据假基因中核苷酸的变化获得一种分子钟(molecular clock),然后用它来研究基因组的总体发展动态与进化过程。正如古生物学家能从化石中读出物种的兴衰一样,分子生物学家也可以追溯基因与假基因的进化轨迹,然后揭开基因的产生与消失之谜。
从细菌到酵母、蠕虫,再到果蝇和小鼠,我们已研究了多种生物的基因组。在不同的物种之间,假基因的数量有很大的差异,甚至比基因之间的差异还要显著。另外,假基因的数量与基因组的大小、基因的总数都没有严格的比例关系,因而根本无法估计出在某个物种的基因组中,假基因是多还是少。但是把相关基因与假基因进行比较,则是一个获取信息的重要手段。通过比较,不仅可以知道某个基因的发展历程,还可以了解分子进化是如何进行的。
在哺乳动物中,嗅觉感受器(olfactory receptor,赋予我们嗅觉的细胞表面蛋白)基因家族是已知最大的哺乳动物基因家族之一,共由1,000多个基因组成。以色列雷霍沃特(Rehovot)魏茨曼科学研究所(Weizman Institute of Science)的多伦·兰赛特(Doron Lancet)和约阿夫·吉拉德(Yoav Gilad)对嗅觉感受器(OR)基因及其假基因进行了详细的分析。他们认为,人类在漫长的进化过程中,已经失去了大量的功能性嗅觉感受器基因,而有幸尚存于人类基因组中的已不足500种。然而在大鼠和小鼠的基因组中,有300余种与人类嗅觉感受器假基因相似的基因,仍然在默默地为小鼠的嗅觉做着贡献。
这是不是因为大多数动物比人类更依赖嗅觉呢?人类的嗅觉感受器假基因明显多于黑猩猩,这就是说人类与猿类进化分离之后,很多嗅觉感受器基因也随之丧失。但是猿类的嗅觉感受器假基因的比例(占OR基因家族的30%~40%),又要比啮齿类或犬类动物高一些。这又是不是因为,在猿类的嗅觉退化以后,它们又拥有了另一项本领,而这项本领恰好可以弥补嗅觉退化带来的不便呢?
在研究了猿类、猴类以及其他灵长类动物之后,兰赛特和他的同事们发现,猿类和猴类的嗅觉感受器基因丧失得最多,也就是它们的嗅觉感受器假基因增加得最多。但是,在它们嗅觉退化的同时,它们的视力却得到了增强:能看见三种可见光波长的颜色。这种关联性也许是在暗示,灵长类动物在进化过程中,感官功能进一步协调,视力得到增强以后,敏锐的嗅觉似乎就可有可无了。
与生物体适应周遭环境相关的基因,通常会发生大量的复制和改变,从而形成大型基因家族,就像嗅觉感受器基因家族。许多刚复制出来就没有功能的假基因就是在这一过程中产生的。还有一些后来才失去功能而变成假基因的多余基因拷贝,也往往与生物体周围环境的变化有关。假基因记录了动物们曾经的生活环境,通过比较不同动物假基因之间的差别,就可以发现动物祖先们生活环境的差异。而功能基因则无法提供这些线索,因为这些基因被自身的功能紧紧地约束着。
来自基因组的研究显示,99%的人类基因都能在小鼠的基因组中找到相对应的基因。虽然早在7,500万年前,人类和小鼠的祖先就进化分离了,但是几乎整个人类基因组都能在小鼠的基因组中找到对应的区域。然而,尽管功能基因与基因组结构存在着相似性,但是已知的人类假基因,却很难在小鼠的基因组中找到相对应的部分。
更有甚者,一些基因家族产生的假基因,在人类和小鼠中有着天壤之别。当我们利用亲本基因(parent gene)的序列衰变速率来确定基因的年龄时,发现在人类和小鼠的基因组中,有很多假基因是在不同的时间点出现的。这个观察结果表明,各物种的假基因是在截然不同的情况下,通过大量的、独立的逆转录转座产生的。
假基因的真实身份
作为古老的化石基因,假基因几乎从未受到科学家的重视。现在,对假基因的研究才刚刚拉开序幕。以前,科学家也曾对假基因进行分类,那只是因为人们想要把它与真正的基因区分开来,以便对基因序列进行分析。然而,鉴定假基因却不像确定基因那样简单直接。根据特征元素对DNA序列进行扫描,模式搜寻法(pattern-seeking,一种计算机方法)能够成功地识别基因。而假基因的鉴定则主要依赖于它与基因的相似性以及它的非功能性。寻找假基因与基因的相似性不难办到。利用计算机,将假基因的序列与可能的亲本基因进行彻底比对即可。最大的困难主要来自于对假基因非功能性的确定。
造成生物体死亡的原因多种多样,致使基因沦为假基因的突变同样是五花八门的,只要是影响蛋白质生成的有害突变,都有可能使一个基因拷贝失效,从而变为假基因。有害突变有明显的特征,从假基因的序列上,我们就可以把它找出来。在假基因的序列上,往往会有过早出现的“终止信号”、增添或者缺失的核苷酸,这些突变改变了细胞机器的阅读框(reading frame),因而假基因就无法合成蛋白质。真正的基因绝对拒绝这样的突变,所以这就成为了假基因的典型特征。
20世纪60年代,日本数学生物学家木村资生(Motoo Kimura)提出了中性进化(neutral evolution)理论。他认为,无功能的DNA序列不会受到自然选择的限制,可以随意改变。个别的核苷酸突变可以分为两类,一类是同义突变(synonymous change),它不影响基因编码的氨基酸序列,另一类被称为非同义突变(nonsynonymous change),这种突变会影响基因的正常表达。蛋白质的氨基酸序列一旦改变就会丧失原有功能,因此在自然选择的压力下,基因即使发生突变,也很可能是同义突变,而无功能的DNA序列则不会受此限制。
然而,比较了多个基因组中的假基因后,我们发现了一个奇怪而又意外的现象:有少数假基因,如果它们的序列在进行中性遗传漂变(drift neutrally),那么假基因就很少发生变化。因此,这些假基因很可能受到了进化作用的约束,这就是说,它们仍然具有某种功能!那么如何才能确定假基因是否还在发挥功能呢?最简单、最直接的方法就是,看它是否会转录成RNA。最近,Affymetrix公司的托马斯·金吉若斯(Thomas Gingeras)和美国耶鲁大学的迈克尔·斯奈德(Michael Snyder)进行了一项研究,他们在试验中发现,人类基因组中的基因区间,有很大一部分仍在积极地转录。而且,在所有忙于转录的序列中,已知基因所占的比例不超过50%。另外,在积极转录的基因区间中,很多都是与假基因重叠的,这是否意味着或许有些假基因仍然有活性呢?
在美国,针对基因组里的暗物质,由多个研究团体成立了一个研究联盟,我们的研究小组就是这个联盟的成员。目前,我们正在努力完成一件意义非凡的大事——创造一本“DNA元件百科全书”(encyclopedia of DNA elements,ENCODE)。这个项目正处于试验阶段,我们的最终目标是彻底解读基因组这部巨大的天书,确定基因组中所有的组成部分及其功能。以前的研究和ENCODE的初步数据显示,在人类基因组中,至少有1/10的假基因是具有转录活性的。既然如此多的假基因都可以转录,那么它们到底有什么功能?还有证据表明,某些假基因与基因间序列相比,更具保守性,这是不是说假基因无用论根本就是错误的看法?
近年来,分子生物学家通过大量的研究,已经隐约看到了假基因的真面目,尽管还不能确定:假基因可能不会合成功能蛋白质,但是它会调节功能基因的活性。在高等生物中,虽然有不少基因并没有合成蛋白质,但是它们的转录产物——RNA,却控制着其他基因的活性。这些起调控作用的RNA分子,能以不同的方式激活或阻遏其他基因的表达,甚至在基因被翻译成蛋白质的过程中,它们也会横插一脚。到目前为止,已经发现了至少两个假基因有这样的功能。
1999年,英国萨塞克斯大学(University of Sussex)的迈克尔·奥谢(Michael O’Shea)带领的研究小组发现,在普通椎实螺的神经细胞中,一氧化氮合成酶(nitric oxide synthase,NOS)的基因及其相关假基因都会转录成RNA,但NOS 假基因的RNA转录产物的作用却是,抑制正常NOS基因的RNA合成蛋白质。
2003年,日本埼玉医科大学的广常真治(Shinji Hirotsune)在做试验时发现,他的一组实验幼鼠所表现出的畸形,竟是由一个假基因的改变引起的。在正常情况下,如果Makorin1基因(一种重要的起调控作用的基因)失去活性,那么小鼠的发育会突然终止。当时,尽管广常没有对Makorin1基因进行任何处理,但是小鼠的发育还是受到了影响,这让他百思不得其解。追查原因时才发现,原来他在无意中破坏了Makorin1的假基因,从而影响到了Makorin1基因的功能。
迄今为止,在生物体的某些细胞中,已经发现了不下20起这类现象。虽然这些发现还显得比较肤浅,但是仍然可以说明,某些假基因在某些方面是有活性的。因为大多假基因都具有与亲本基因极其相似的核苷酸序列,所以我们可以信心十足地推测,发生在NOS和 Makorin1假基因身上的现象并非偶然。但是它们现在所拥有的特定功能,是不是在它们产生时就具有了呢?对此,我们还很难断定。不过,它们的活性很可能是由于生物体选择性地保留了有益突变,或是自然界“变废为宝”的一种手段:把无用的假基因变成有用的调节因子。
假基因复活
分子古生物学时代拉开了序幕,科学家们为此激动无比。今天,我们才刚刚触摸到假基因,也许还有大量的假基因我们还没有发现。随着科学的进步与研究的深入,假基因的数量肯定会继续增加,肯定会带给我们更多的惊喜。假基因的大规模鉴定,是一个动态的数据发掘过程,在很大程度上,现有技术还依赖于假基因与已知基因序列的比对。虽然比对技术能轻松地辨别出近期产生的假基因,但对于非常古老的、已退化的序列,这种检测体系就力不从心了。对人类基因组研究的不断细化与深入,将帮助我们揭开假基因谜团。
最近的一些迹象表明,不仅某些假基因具有一定的功能,而且还有一些假基因竟神奇地复活(原本无活性的基因,又变成了可以产生功能蛋白的活性基因)了!在一次序列比对中,科学家发现,一种奶牛的核糖核酸酶(ribonuclease)基因的前身,居然是一个沉寂已久的假基因,只是在最近的进化年代又被重新激活了。我们已经发现,假基因在不同的个体之间存在着细微的差异。例如,有些嗅觉感受器假基因的界定就很模糊,因为它们在有些个体中是假基因,而在另一些个体中却是完整的功能基因。如果在假基因的某些序列上发生随机突变,而这些序列恰好是造成假基因无效的凶手,那么假基因就可能复活,出现这些异常的情况。人与人之间的嗅觉灵敏程度的差异就是由此产生的吗?或许,现在就对人类个体差异的来源进行猜测,似乎还太早了。
然而我们的研究显示,当酵母菌被置于一个充满压力的新环境中时,它的某些细胞表面蛋白假基因就会被重新激活。因此,假基因也有可能是还未成熟的基因,而不是死亡基因(虽然它们也使我们对自己的过去有了新的认识)。随着环境的变化,我们可以将这些藏在基因组深处的假基因,重新提取出来加以利用。假基因迷雾正一层一层被科学家们拨开。
请 登录 发表评论