“组学”:科学还是时髦?_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 生物 • 医学

“组学”:科学还是时髦?

admin  发表于 2017年12月05日

曾几何时,“基因组”还是生物学界的热门新词,但现在你却可以看到数以千计的“组学”,其中哪些才能真正称得上“组学”呢?

撰文:莫尼雅·贝克尔(Monya Baker) 翻译:赵瑾

 

最近,抨击“组学”似乎成了一种时尚。《纽约时报》(The New York Times)和 《华尔街日报》(The Wall Street Journal)都发表了文章,对日益激增的以“ome”结尾的科学术语大肆嘲讽。有一位科学家甚至编写了一个叫做“坏组学生成器”(badomics generator)的小程序,随意在各种生物学术语后加上“ome”这个后缀,并以此杜撰一些怪异的论文标题(例如《抑菌组(bacteriostaticome)测序的进化学及环境学意义》〕。乔纳森·艾森(Jonathan Eisen)是美国加利福尼亚大学戴维斯分校的一名微生物学家,他经常在其博客上发布一些冗长的新造科技词汇〔最新上榜的就有:昼夜节律组学(Circadiomics),即影响日常昼夜节律的相关基因〕。

1920年,当植物学家汉斯·温克勒(Hans Winkler)第一次用基因组(genome)这个词来指代一组染色体的时候,他完全没有料到其后的演变。在那时,学术界已经开始使用其他一些以“ome”结尾的单词了,如生物群落(biome)和根系(rhizome)。这些单词大多源于希腊语后缀“-ome”,意思是“具有某种共性”。美国哈佛大学医学院的语言学家和医学信息学家亚历克萨·麦克雷(Alexa McCray)认为,其实是人类基因组计划这样的大型科研项目,将“基因组”这个科学术语美化了,并且推动了这股“组学”风潮。她说:“现在,似乎只要你用上“组学”这个后缀,就能把任何东西跟尖端科学画上等号。”

科研人员也意识到了这个词缀潜在的市场价值。艾森谈到:“人们纷纷宣称自己的研究应自成一体,因此需要专设的筹资机构。”虽然有些“组学”的提法确实值得质疑(例如把存档样本的测序项目叫做“博物组学”(museomics),以及把细胞纤毛的研究戏称为“纤毛组学”(ciliomics)等等),但科学家还是坚信,至少有一部分“组学”的用法是合情合理的。美国华盛顿州西雅图儿童医院的首席数据官尤金·考克尔(Eugene Kolker)是《组学》(Omics)期刊的创刊编辑,他说:“虽然其中大部分没有什么实际意义,但也不乏名副其实的例子,因此找到取舍的平衡点才是解决之道。一味地嘲笑新出现的术语,也是不妥的。”

从理论上来讲,把一个研究领域称为某某“组学”,有助于激发研究思路,明确研究课题,并且启发新的分析方法(见“热门组学”)。“我认为‘ome’是一个非常重要的后缀。它有包罗万象的意思,”耶鲁大学的计算生物学家马克·格斯坦(Mark Gerstein)说,“它就像是基因组学吹起的冲锋号角,激励科学家们再创科研佳绩。”本文介绍的5个新出现的“组学”,代表了科学界的5个新兴领域。

 1.jpg

偶发组

在高通量测序技术(high-throughput sequencing)将个体基因组测序变成现实的许多年前,美国波士顿儿童医院的医学信息学家艾萨克·科哈尼(Isaac Kohane)就创造了“偶发组”(incidentalome)这个词,以警示世人。早在2006年,他就在文章中指出,浩如烟海的遗传信息总有一天会成为医学界的一个挑战。

“偶发组”这个词源于“偶发瘤”(incidentaloma),它是放射科医师所使用的一个行话,指的是那些没有症状的肿瘤,往往是医生因为其他病症对病人进行检查时无意发现的。“偶发组”则是指,在人类基因组的分析中无意间发现的重要遗传信息。例如,在寻找导致某个儿童听力丧失的遗传因子时,我们可能发现该儿童潜在的心脏问题,或是患癌风险很高。但是,我们又应该在什么时候,将哪些发现告知谁呢?随着越来越多的人类基因组测序的完成,美国国家人类基因组研究所(National Human Genome Research Institute)已经将这个问题归为“最令基因组研究者纠结的伦理问题之一”。

去年的一项研究就向我们展示了这种进退两难的程度。无论医生有意还是无意, 99种常见遗传疾病的相关基因变异都可能在大规模的测序中被检出。该项研究调查了16名遗传学家的看法。对于其中21种遗传病基因(其中包括与某些癌症和心脏异常相关的序列变异),所有16名专家都一致建议告知成年患者。但是只有10位专家表示,会告知亨廷顿病(一种无法治愈的致命疾病)的基因变异携带者,而对于其他更不明确的基因变异,以及如何告知携带这类基因变异的儿童的父母,16位专家的意见就更加不统一了。

“偶发组”的最大问题是,人们并不清楚大多数基因变异(在每个人的基因组中有超过300万个基因变异)对于人体健康的影响。温迪·钟(Wendy Chung)是美国哥伦比亚大学的临床遗传学家,她目前正在研究,如何帮助参与研究的病人选择想要了解的基因结果。她还研究了这些信息对病人行为和心理的影响。钟说:“如果你问人们想要知道关于DNA序列的哪些信息,最初他们不是说全部都想知道,就是说什么都不想知道。但仔细思考后,他们会意识到其中其实存在着很多灰色地带。”

随着临床测序的普及,对于偶发组的定义和衡量变得越发模糊。美国西雅图儿童医院的一位生物伦理学家霍莉·塔博尔(Holly Tabor)认为,遗传学家早就应该意识到这些结果是块烫手山芋。她说:“说这些结果是基因组学研究的偶然发现,其实有点误导性,因为科学家一直都知道这类基因变异的存在。”

 

表型组

现在,人类的基因组信息很容易获取。缺少的其实是表型组(phenome)信息:即对个体所有身体和行为特征的全面而准确的描述。研究人员最关心的是与疾病相关的人类表型组信息:例如面部畸形、四肢畸形以及怎样诊断个体是否患有抑郁症等。而且他们想要利用计算机对这些信息进行分析,以便更好地了解表型性状与基因组之间的对应关系。彼得·罗宾逊(Peter Robinson)是德国柏林博爱大学医院(Charity University Hospital)的计算生物学家,专注于人体特征表述的标准化。他认为“表型组”这个词的使用再恰当不过了。

针对小鼠、大鼠、酵母、斑马鱼和拟南芥(Arabidopsis thaliana)的表型组项目已在进行当中。在大多数的系统化尝试中,科学家首先将生物体中的基因逐一敲除,然后对其进行各种检测和物理测试,以查明各种基因影响生物体外形、新陈代谢以及行为的机理。虽然我们无法以同样的方法检测人类基因,但一些临床研究人员希望,通过仔细收集病患的数据来积累这方面的数据资源。

即使是对那些由单一基因突变导致的遗传疾病,要将每种遗传病与相关基因对应起来也极具挑战性。在超过6,000种罕见遗传疾病中,只有不到一半已经找到了相关的致病基因。数据收集面临的最大难题就是病人数量的不足,因为这些遗传疾病的发病几率小于百万分之一。美国华盛顿大学的遗传学家迈克尔·班夏德(Michael Bamshad)谈道:“只要我们有足够的病例进行完整的表型分析,就有可能找出大多数单突变遗传疾病的致病基因。”

但是,如何对这些病例的信息进行汇编呢?许多研究及患者群体都已有长期使用的信息学工具和词汇,来对各种疾病的详细表型进行描述。挑战在于,怎样将这些表型数据进行整合。澳大利亚墨尔本大学的遗传学家理查德·科顿(Richard Cotton)解释道:对于同一表型,如果一位医师将其描述为“腹痛”,而另一位则将其描述为“肠胃炎”,那么即使两位病人的症状非常相似,也有可能被划归为不同的类别。

去年11月,科顿参加了“人类表型组计划筹备大会”(Getting ready for the Human Phenome Project),该会议的主要目标是让表型数据的交换更简单。“孤网”(Orphanet)是一个专注于罕见疾病的联盟,致力于督促医师和科学家对1,000到2,000个标准术语达成统一。例如,仅仅“身材矮小”这一表型就可以被描述为“身高降低”、“身高低于第3百分位”(3rd percentile,随机挑选100个同年龄的孩子,让他们由低向高排队,排在第50位的孩子的身高就是这个年龄的正常身高,排在3位以前的就属于矮小)、“娇小身材”等。美国约翰斯·霍普金斯大学医学院的临床遗传学家阿达·哈默西(Ada Hamosh)说:“如果大家能在这些术语上达成一致,那么不论你采用哪种描述,指的都是同一个表型。”

还有一些研究人员则在试图解读那些电子医疗记录中经常出现的特殊信息,以便计算机程序能够自动梳理分类,从中找出相同的表型描述。科哈尼说:“这些数据又繁杂又分散,而科学则能魔术般地将其变废为宝。”

 

相互作用组

DNA可以转录为RNA,RNA又能被翻译成蛋白质。这个生物学上的中心法则,其实体现了构成生物体的三种重要分子,它们又分别构成了三个基本的“组学”(基因组、转录组以及蛋白质组)。只有这三种分子共同作用,才能产生生命。神经元放电和细胞分裂或死亡,都是各种分子相互作用的结果。相互作用组(interactome)描述所有这些分子间的相互作用,与其他三个基本“组学”相比,它的复杂性最高:只考虑人体内2万多种蛋白质间一对一的相互作用,就会有2亿多种可能性。

相互作用组的复杂性并没有吓倒像马克·维达尔(Marc Vidal)一样的研究者。这位50岁的系统生物学家目前就职于美国波士顿的达纳-法伯癌症研究中心(Dana-Farber Cancer Institute),他希望能看到第一份基因组编码的所有分子间的反应草图。实际上,只要能把所有蛋白质两两联系起来,他就会很高兴了。他说:“过去20年里,我们一直都在做这件事,现在我们终于要成功了。”

维达谈到的“成功”,其实是指他的实验室和其他几个实验室利用基因改造的细胞(在这些细胞中,如果两种蛋白发生反应就会产生可检测的信号),研究蛋白质之间的相互作用,并观察到了这种相互作用占人体内所有蛋白质反应的10%~15%。还有一些科学家则是通过从细胞中提取某种蛋白,检测在此过程中与该蛋白一起被分离出来的其他蛋白质,以筛选与其相互作用的蛋白质;或者从现有文献中搜索与某蛋白质相关的资料,然后利用计算机,根据分子形状及反应特性,来预测可能与该蛋白质反应的分子。

自首个大规模相互作用组研究开展以来,距今已有10多年,研究人员终于开始去分辨,在检测到的分子反应中,哪些是真实发生的,哪些是人为假象。要做到这一点,需要利用多种技术去检测这些分子反应。不过,相互作用组的相关研究成果并不是要非常完美才有用,一些生物学家已经开始在研究中参考相互作用组信息了。

美国康奈尔大学的系统生物学家于海源(Haiyuan Yu)对大约1 800多万对可能发生相互作用的蛋白质进行了检测,并整理了各个数据库中现有的相关信息,最终确认了7 401种人体蛋白质之间的20 614种分子反应。他的团队还对其中大约1/5的分子反应进行了分析,确认这些蛋白质间的相互作用发生在分子上的哪些部位。于海源和同事的研究表明,致病突变通常就是出现在蛋白质发生相互作用的位点上。例如,一种名为“威斯科特—奥尔德里奇综合征”(Wiskott-Aldrich syndrome)的血液疾病,是由于人体中名为WASP的蛋白发生突变所致,但只有当突变发生在WASP蛋白与VASP蛋白相互作用的区域,才会导致疾病。于海源说,就DNA序列而言,这些致病的基因突变毫无规律可循,但如果从分子反应的角度来看,就不难理解其致病的机理了。

维达尔认为,日益复杂的信息可以通过不同的层次,整合到相互作用组中。首先,可以建立一个基本的分子反应网络,罗列出各种蛋白以及与其反应的蛋白质和其他分子,最好还标注上细胞类型。接着,就可以加入描述性信息,例如分子反应的持续时间、反应所需的条件,以及蛋白质相互作用的位点。

维达尔设想,有朝一日医生在诊断疾病时,不仅会参考患者的基因组信息,还会考虑基因变异对于相互作用组的影响, 以及相互作用组对于表型组的影响。美国加利福尼亚大学圣迭戈分校的系统生物学家特雷·艾德克尔(Trey Ideker)说:“毕竟,基因组总的来说是一种静态信息。基因序列不会因为药物、组织或其他因素的影响而改变,但相互作用组却会。”

 

毒物组

托马斯·哈通(Thomas Hartung)是约翰斯·霍普金斯大学彭博公共卫生学院的毒理学家,他致力于研究有毒小分子对人体的影响机理。为此,他组织推动了“人类毒物组计划”(Human Toxome Project),该计划由美国国立卫生研究院提供600万美元科研资金,并得到了美国环保局和食品及药物管理局的额外支持。哈通说,“ome”这个后缀与其计划的目标规模相符:即囊括与毒理相关的所有细胞活动。而且,毒物组与人类基因组十分相似,因为它将成为许多研究的参照基点。

每种药物在进入人体实验阶段之前,都得通过耗资数百万美元的动物毒理实验,但动物实验有时还是不能完全预测这些药物对人体的毒性。超过1/6的药物由于在人体实验阶段发现了安全问题而终止研发。哈通说,毒物组有助于建立一系列直接的细胞测试,以取代药物的动物实验,甚至改进药物分子。了解一种药物所引发的相关毒理反应,有助于科学家将有潜力的新药物或工业分子,变成毒性较小的分子。

首先,哈通让细胞接触有毒的化学物质,然后监测这些细胞的代谢组(即细胞中所有代谢小分子)及其转录组。他希望由此整理出,毒物在人类细胞中影响激素信号、毒害肝脏细胞、破坏心脏节律或其他危及人体健康的详细作用途径。哈通认为,这样的作用途径可能有几百条,根据目前毒理检测的水平,科学家完全有能力对这些作用途径逐一进行研究。

该项目还处于起步阶段——科学家还在努力确保同一检测在不同实验室的检测结果相同,但是,这个项目的最终目标是,根据这些作用途径,设立细胞检测的毒性指标。

“我们会知道,我们是否触发了某些毒理反应,这会导致什么后果,”美国食品及药品管理局的戴维·雅科布森—克莱姆(David Jacobson-Kram)说,他的工作就是负责评估毒性预测方法。他警告说,有时,在培养皿中对细胞毫无害处的分子,在人体中却可能有着完全不同的作用(例如,肝脏可能将原本无毒的分子转化成毒素)。即便如此,他还是认为,毒物组计划可以节省药物的研发时间、经费以及实验动物,绝对是一种深具潜力的研究模式。

 

整合组

考克尔认为,揭开生物学终极奥秘的关键并不在于不断地创造新的“组学”,而在于如何将现有的组学信息整合起来。他说:“任何单一的方法都无法解开生命之谜。整合组(integrome)则是将所有的组学信息放在一起,再结合任何其他相关数据,对其进行整合分析。这才是真正的解决之道,而且它还将越来越重要。”

以谷歌地图为例,罗列加油站、饭馆以及路名的单独列表,远不如在一张地图上,标明某个加油站与一家饭馆就在同一条街上。然而,许多传统的组学研究往往局限于罗列大量的基因、蛋白质或RNA,而忽略了它们之间联系,因此无法发现不同的基因变异其实可能作用于同一生理途径。

艾德克尔已经证实,可以对不同组学的数据信息进行自动化分析。他编写了一个计算机软件,在4个现有的组学数据库中找寻规律,然后利用分析结果,独立地推断出相关基因的功能。这个软件不仅验证了现有基因组资源的部分信息(例如确认了哪些细胞器会参与处理废弃蛋白),还能够发现具有类似组织模式的未知功能基因,从而填补现有知识的空白。艾德克尔说:“我们利用转录组和相互作用组的数据,可以推断细胞组分的层次结构。这项技术是很长一段时间以来,最让我感到激动兴奋的新技术了。”虽然这样的程序还无法完全取代人工的数据整理,但它们可以发现被人类或其他文本挖掘(text-mining)软件——即从文献中提取相关信息——所遗漏的模式。他说:“细胞所使用的语言并不是英语,而是数据。”

去年,美国斯坦福大学的遗传学家迈克尔·斯奈德(Michael Snyder)公开了他的个人整合组数据(虽然他将其称为“综合个人组学概况”(integrative personal omics profile),但其他人则戏称其为“自恋组”(narcissome)),其中整合了他的基因组、转录组、蛋白组以及代谢组的数据。斯奈德的基因组数据显示,他携带一种与糖尿病相关的基因变异;而就在此项研究期间,他被确诊为糖尿病,并且两度受到病毒感染(整合组学分析也显示,斯奈德体内与炎症相关的基因较活跃)。斯奈德说:“这些组学信息还显示,此前一些被认为与糖尿病或感染不相关的分子途径也发生了变化。如果你只是单一地分析转录组或蛋白组数据,那你只能获得部分信息。”

格斯坦也同意,整合数据是下一步研究方向。他说:“未来这些数据将被集合在一起,以深入了解个体的基因组信息。”然而,他还是觉得“整合组”这个词不太合适。他解释道:“整合组是什么?是所有整合信息的集合吗?我并不这样认为。整合是一个动词,而其他组学则大多是某个名词的集合。”

如何创造一个有用的“组学”词汇,麦克雷对此有一套自己的法则,其中一条就是该词必须有实际意义,容易发音,且容易理解(见“‘组学’的评判标准”)。

但这个规则并没有引起多少科学家的注意。麦克雷认为,这些新词汇的不断增加,只是反映了科学的快速发展步伐。语言的变化通常十分缓慢,但“ome”以及“omics”后缀却因为科学的快速发展,在过去十年间迅速蹿红,完成了通常一般词语在半个世纪才会完成的演化过程。这也恰好反映了人们对于该领域的浓厚兴趣以及投入其中的雄厚资金。

全部评论

你的评论