科学家已测定了人类基因组的全部序列,现在又“勘探”了它广阔的腹地。然而,基因组究竟还有多少秘密,这趟探索之旅究竟终于何处,尚无人知晓。
撰文 布伦丹·马希尔(Brendan Maher) 翻译 冷颖琳
5年来,尤安·伯尼(Ewan Birney)和同事收集了大量基因组数据,他们的工作是ENCODE计划——“DNA元件百科全书”(Encyclopedia of DNA Elements)——的一部分。伯尼想把这些数据打印出来,可存放它们却成了问题。即使每平方厘米打印1 000个碱基对,打印全部数据也要占用16米宽、30千米长的纸张。
ENCODE旨在重拾被人类基因组计划忽略掉的那些东西。科学家通过艰苦的努力终于绘制出人类基因组的蓝图,但很快发现,这本蓝图的使用指南实在过于简略。在基因组的30亿个“字母”中,研究人员能够辨认出许多编码蛋白质的区域,但它们在整个基因组中的比例只略多于1%,大约为20 000个基因——仿佛一些小东西孤零零地散落在大片人迹罕至的“荒漠”中。很多生物学家推测,那些使人体如此精妙复杂的遗传信息正藏身于这片“荒漠”中。ENCODE计划始于2003年,希望通过收集大量数据,将潜藏的有功能的DNA序列分门别类,探究它们发挥作用的时间和细胞种类,追踪它们在基因组的组装、调节和转录过程中的功能。
最初的预实验阶段过后,ENCODE计划的科学家于2007年对整个基因组展开研究。最近发表在《自然》、《基因组研究》、《基因组生物学》杂志上的30篇论文,标志着这一阶段已接近尾声。参与计划的国际研究团队已揭示了基因组中约80%的部分所具有的功能,包括70 000个“启动子”(promoter)区域——位于基因上游,与蛋白质结合以调控相邻基因的表达,以及近400 000个“增强子”(enhancer)区域,调控远处基因的表达。然而伯尼表示,他们的工作还远未完成。伯尼是一名计算生物学家,来自欧洲分子生物学实验室的生物信息学研究所,负责协调ENCODE的数据分析工作。他介绍说,确定基因组中有功能区域的工作只完成了一半,至于更深入地描述基因组全部功能的工作,大概只完成了10%。该计划正在进行第三阶段,将对人类基因组使用指南进行补充完善,提供更多的细节。
ENCODE提供了浩瀚的数据,广阔的应用前景令许多人甫一接触便激动不已。基因组的一些黑暗角落已经被照亮,为研究基因突变如何影响人类的遗传性状和疾病创造了良机。ENCODE的研究结果揭示了不计其数的调控元件,若将这些序列与其他哺乳动物的调控序列加以对比,有望为研究人类的进化历程带来突破。
不过,有的研究者对这一计划该于何时结束感到疑惑。“我觉得这趟列车正越跑越远,不会很快停下来,”英国牛津大学的计算生物学家克里斯·庞廷(Chris Ponting)说。他支持ENCODE的研究目标,却对该计划是否会为投资者带来回报提出了质疑。据估算,整个计划的投资已超过了1.85亿美元。另一方面,美国马萨诸塞大学医学院的ENCODE研究小组领导者乔布·德克尔(Job Dekker)则表示,人们需要一些耐心,去体会ENCODE的潜在价值,“对于一个数据库,你有时要花费很长时间才知道自己能从中得到多少东西”。
在人类基因组测序完成之前,美国基因组学研究的主要出资机构——美国人类基因组研究所(NHGRI)便主张进行一项系统性研究,鉴定DNA中的功能元件。2003年,该机构邀请生物学家举荐一些试点项目,能够在基因组1%的区域内获取这类信息,并协助确定最适合应用于整个基因组的实验技术。
这些试点项目彻底改变了生物学家对基因组的看法。比如,研究人员发现,虽然只有少量DNA能转录出编码蛋白质的mRNA,但是有很多DNA可以转录成非编码RNA,后来才发现,其中一些是基因表达的重要调控元件。另外,很多遗传学家曾认为,功能元件序列在不同物种间高度保守,结果却发现,很多重要的调控序列进化得很快。上述项目团队在2007年发表了研究结果,此前NHGRI刚刚提出第二轮倡议,要求参与计划的研究人员将工作拓展到整个基因组。开始这一“拓展研究”阶段时,恰逢新一代测序仪开始应用,获取数据变得更快捷、更廉价。“我们得到数据的速度是过去的5倍,花费却一点儿也没有上涨,”美国华盛顿大学的ENCODE研究小组领导者约翰·斯塔玛托雅诺普洛斯(John Stamatoyannopoulos)说。
由440多名科学家组成的32个研究小组投入了ENCODE计划,进行着24类标准实验。他们对基因组转录的RNA进行分离、测序,鉴定出了大约120个转录因子的DNA结合位点;并对基因组中被甲基化基团覆盖的区域进行了测绘,这通常都是基因沉默的区域;他们还检测了组蛋白的化学修饰方式,这种蛋白质帮助把DNA组装成染色体,并标示出基因表达增强或抑制的区域。在大多数人体细胞中,基因组都是一样的,但它所发挥的功能却各不相同;根据ENCODE研究小组最近公布的结果,研究团队在至少137种细胞中,共进行了1 648项实验。
其中,斯塔玛托雅诺普洛斯和同事确认了125种细胞的基因组调控区域。他们所采用的叫做DNaseI的酶,对与组蛋白结合的DNA作用甚微,却能把与转录因子等其他调节蛋白结合的DNA切下来。对切下的DNA进行测序,就可以确定这些蛋白在不同细胞中的结合位点。该团队共发现了大约290万个这样的位点,其中大约三分之一仅出现在一种细胞中,只有3 700个出现于所有种类的细胞中。这表明,基因组的调节方式在细胞之间存在很大差异。
把各方面的数据整合起来之后,研究变得饶有趣味了。比如,研究组蛋白修饰的实验发现了一些修饰方式,恰好与DNaseI敏感位点的边界相对应;这样,研究人员便可得到更多的数据,精确描述某个转录因子结合的位置和时机。目前,人们识别出了成千上万个参与基因调控的区域,广袤的荒漠已遍布“地标”。在不同类型的细胞中,这些“地标”以不同的方式排列组合,产生了它们独特的生物学性状。也许正因为基因组有如此丰富的调节方式,相对较少的编码蛋白质的基因才能形成复杂的性状,使人体得以生长和运转。麻省理工学院的计算基因组学家马诺利斯·凯利斯(Manolis Kellis)领导了一部分数据分析工作,他形容道,ENCODE计划“整体成果远大于各部分之和”。
ENCODE计划自启动之日起便一直在发布数据,这些数据已经为疾病遗传学研究提供了帮助。2005年以来,“全基因组关联分析”(GWAS)已发布了数千个与疾病相关的单核苷酸变异位点,但其中90%都出现在编码蛋白质的基因以外的区域,它们与疾病的发生和发展究竟有何关系,研究者们几乎毫无头绪。
现在,ENCODE绘制的“地图”表明,许多疾病相关区域包含了增强子或其他功能序列。细胞的种类也很重要。凯利斯的小组研究了一些与系统性红斑狼疮(一种因免疫系统攻击自身组织而发生的疾病)关系密切的突变,他们注意到,GWAS鉴定出的突变大多位于一些特异的调控区域中,这些区域在一种免疫细胞系中是活跃的,而在其他细胞中则不一定活跃。凯利斯的博士后研究员卢卡斯·沃德(Lucas Ward)建立了一个叫做HaploReg的网站,利用这个网站,研究者可以系统性地参照ENCODE数据来筛选GWAS所鉴定出的突变。“感谢ENCODE,我们现在能向更多复杂疾病发起攻击了,”凯利斯说。
单单处理ENCODE现存的数据就需要好几年,但更多的数据还会不停地出现。在美国加利福尼亚大学圣克鲁兹分校的网站上,有一个栅格状的可视化模型,清楚地显示着ENCODE计划的进度:24类实验中哪一类已经完成,将近180种细胞中哪一种已经检测过。填过的格子稀稀疏疏地分布着。少数几个细胞系已经几乎填满,比如实验室里的“绝对主力”HeLa细胞系和GM12878细胞系,但对于其他很多细胞系,只进行了一项实验。
科学家计划在第三阶段工作中填上其中的很多空白——伯尼称之为“扩建”。同时,他们还计划增加更多的实验项目和细胞种类,例如推广一种叫做“染色质免疫沉淀”(ChIP)的技术,用以寻找与特定蛋白质结合的所有序列,包括转录因子和修饰过的组蛋白。研究人员历经艰辛,正一个一个地培育这些会与DNA结合的蛋白质的抗体,从而把这些蛋白质及其结合的所有DNA从细胞提取物中分离出来,然后对DNA进行测序。
但伯尼说,这至少是一个有明确界限的问题,因为人们认为只有大约2 000个这样的蛋白质需要研究,ENCODE已取得了其中大约十分之一的样本。更大的困难在于要弄清楚究竟得研究多少细胞系。迄今为止,大部分实验都是在特殊的细胞系中进行的,它们在培养环境中稳定地生长,却有一些不自然的特性。以来源于血细胞的GM12878细胞系为例,它们的繁殖是由病毒促进的,其基因组仿佛打了兴奋剂一般,因此组蛋白或其他生物因子可能与细胞基因组发生了异常结合。而HeLa细胞系是用50多年前的一份宫颈癌活组织建立的,癌细胞发生过很多次基因重组,基因组已经“千疮百孔”了。最近,伯尼在一次谈话中打趣道,HeLa细胞系简直称得上是一个新物种了。
现在,ENCODE计划的研究人员希望检测直接从人体中取出来的细胞。但是,其中很多细胞在培养条件下并不分裂,实验不得不只在少量DNA中进行;而且,脑组织等部位的样本很难获得。此外,他们也开始考虑进行更深入的探索,研究个体间的变异如何影响基因组调控元件的活性。“有些序列会发生变异,意味着一个转录因子与之结合的方式和其他序列是不同的,”美国耶鲁大学计算生物学家马克·格斯坦(Mark Gerstein)说,他参与了ENCODE数据结构的设计。最终,研究人员也许会得到数十到数百人的样本可供检测。
同时,实验所涉及的领域也在扩展。在三维空间中研究基因组各部分之间的相互作用便是一个飞速发展的领域。如果增强子与靶序列之间的DNA形成一个环,它们之间的距离就会变得很近,从而增强子就可以调控与其相距成千上万个碱基对的基因,与增强子相结合的蛋白质才得以与那些结合在靶基因附近的蛋白质发生相互作用。德克尔和同事开发了一种技术来检测这些相互作用。他们先用化学方法将DNA结合蛋白聚集起来,然后切下DNA环,测出与蛋白质结合的DNA序列,以揭示调控元件之间如何隔着遥远的距离相互作用。他们正将这项工作推广到整个基因组中。德克尔说,“这超越了对基因组的简单注解,是一个新的阶段”。
问题是,终点在哪里?凯利斯说,有些实验方法会达到一个饱和点:如果新发现产生的速率降到某个临界值以下,每个实验的回报会变得很小,以至于不值得去做。而且科学家终将积累足够的数据,可以预测未知序列的功能——这个被称为“推断”(imputation)的过程,是长期以来基因组功能研究所追求的目标。“我认为,将来会发生一个相变,到那时,推断往往会比动手做实验更有力、更精确”。
然而,这个计划也许可以无休止地开展下去,我们还须检测数千种细胞,还可以用不断发展的实验工具来检测它们。“我们离终点还很远,”美国哈森阿尔法生物技术研究所的遗传学家里克·迈尔斯(Rick Myers)说,“可以认为,这项计划是永无止境的。”可一些人正为此忧心。ENCODE的试点项目花费了大约5 500万美元,拓展阶段花费了大约1.3亿美元;而NHGRI在下一阶段最多只能提供1.23亿美元的资助。
有些研究人员表示,他们尚未看到对这笔投资实实在在的回报。一个原因是,要收集ENCODE数据使用状况的详细信息一直很难。NHGRI的一个项目主管迈克·帕金(Mike Pazin)搜遍了文献,以寻找ENCODE数据在其中起重要作用的文章。他共找到了大约300篇,其中110篇来自没有获得ENCODE资助的实验室。不过这个结果未必可靠,因为“encode”一词总是在遗传学和基因组学论文中出现。“我提醒自己,”帕金自嘲道,“下次要给项目起个独一无二的名字。”
少数科学家抱怨道,这个项目做了快十年,都还没有得出多少可展示的东西,对细胞系和转录因子的选择也有些武断。有的科学家还认为,如果把该计划占用资金花在由研究人员发起的、以假说为导向的项目上会更好——人类基因组计划也曾面临这样的抱怨。但ENCODE还不同于人类基因组计划,批评者认为,后者毕竟有明确的终点,而前者会继续扩张,从根本上讲就是没有终点。
伯尼说,假说导向的研究确实需要更多的资助,他同样关心这一点,但是,“我们不应该把这些项目当作ENCODE计划的直接竞争者”。NHGRI把很多研究经费投向了ENCODE这类由国际团队领导的大项目,但该机构从美国国立卫生研究院(NIH)得到的经费,只占NIH预算总额的2%,还有足够的预算留给假说导向的研究。伯尼还坚称,ENCODE计划的系统化研究方式一定会带来回报,“在把各个部分组装起来之前,你必须先把它们都摆在桌子上,这个道理跟我们的分类编目工作一样不言自明”。
格斯坦表示,从科学家意识到DNA是遗传物质,到对人类基因组进行测序,耗去了半个多世纪,“你肯定可以想象得到,下个世纪的科学计划将力图真正理解这些序列”。
本文作者 布伦丹·马希尔是《自然》杂志负责深度报道的编辑。
请 登录 发表评论