1000美元测出你的基因组_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 生物 • 医学

1000美元测出你的基因组

admin  发表于 2017年11月29日

十年之内,廉价快速的DNA测序新技术,将获得突破性进展,并广为人们所接受。现在我们所做的一切,都是为迎接这场即将到来的科技革命,以及由它开启的个性化医疗时代做准备。

1993年,互联网开始推出,似乎在一夜之间,就风靡全世界,而不是像大多数新技术那样,从首次的“概念论证”到广为人们所接受,至少需要十年时间。不过,互联网也并非在短短一年内就脱颖而出,它的出现得益于很多基础设施的支持,包括从1965年到1993年的国际互联网构建,以及个人电脑的普及跨越了关键门槛。

前瞻性眼光和市场的动力,也推动着新技术的发展和传播。比如空间项目,始于政府的远大构想,但直到很晚的时候,卫星的军事用途和民间用途才推动了太空工业的商业化进程。生物技术将引领下一波科技革命,我们可以开始设想,生物技术市场的发展、对生物技术的构想以及关于生物技术的新发现和发明,都将勾勒出它所带来的丰硕成果,而在这种美景成为现实之前,还将跨越基础设施和资源方面的关键门槛。

1984年和1985年,我和十几位研究人员一起倡导“人类基因组计划”(HGP),期望能首度解读人体DNA中隐藏的、完整描述造就和维持人体生命的说明书。该计划打算花30亿美元,从1990年到2005年,用15年的时间完成对全人类基因组的测序工作。

几年前,我们设法完成了整个计划的93%,这也是计划中最为容易的部分,并留下了一些有用的技术和方法。这些技术和方法不断创新和改良,使得在保证人类基因组测序足够精确度的前提下,测试的市场价格已经下降到2000万美元。尽管如此,这个数字还是意味着,大规模基因测序工作大多只能局限于在专业测序中心完成,供大型、昂贵的研究项目之用。

“1000美元基因组”已经不再是一个遥远的梦,这意味着个人也能负担DNA测序的费用,能将自己完成的基因组序列以光盘的形式储存起来,供医生诊断时参考,让大家认为这一生一次的支出很值得。廉价测序技术还能扩大有能力进行基因组研究的研究队伍,提供给研究者更多的基因组,帮助他们理解疾病和健康个体之间的差异,使测序信息更具意义。

我们的体内和食物中,都充满了病原体、过敏原和有益微生物,因此对人类基因组的研究探索,不仅能让我们更清楚地认识自己,还能让我们的认识延伸至周围环境。许多人关注气象图的变化,也许有一天我们同样也会得益于每天的病原体和过敏原基因图。同样,快速发展的纳米技术和工业生物技术,可能加速对“智能”材料和微生物等生物资源的开发,为制造业和生物方法防治污染提供源泉和动力。

然而,要将这些想法和其他许多我们还没有想到的应用付诸实施,还得解决价格这个障碍性问题。美国国家卫生研究院(NIH)提供 “革命性基因组测序技术”(Revolutionary Genome Sequencing Technologies)项目的基金,向科学家发起了挑战:计划到2009年,达到每测定一个人的全基因组序列只花费10万美元的目标,而到2014年,费用将降为1000美元。最先实现这一目标的研究小组,可以得到巨额奖金。现在的研究已越来越接近这一目标。据调查统计,在今后4年内,序列测定新方法的发展,将让测定一个人全基因组的成本降到2万美元。一旦这个目标实现,其他改进方法也将随之产生。

1000美元测出你的基因组 (1).png 

基因测序的发明

对任何测序方法来说,DNA自身的大小、结构和功能都各有利弊——要么设置障碍,要么就成为有利突破口。人类基因组由30亿对核苷酸分子组成,每个核苷酸分子包含4种碱基(简写为A、C、G、T)中的一种。这4种碱基组成了遗传字母表,由他们编码的遗传信息就储存在DNA中。碱基通过精确的互补原则进行配对后,形成了我们所看到的阶梯状DNA结构。也正是由于互补配对原则,当我们沿着一条链阅读其中的碱基序列时,也就知道了另外一条链的序列信息。

长达30亿对碱基的基因组序列,分布于23条独立的染色体之中。人类通常具有两套这样的染色体(46条),一套来自父亲,一套来自母亲,两者间存在0.01%的差异,所以人的全基因组实际上应该包括60亿对碱基。要在一条延伸的DNA链上鉴定出单个碱基的遗传信息,需要一个灵敏的传感器,以区别出4种碱基之间比纳米级还小的微小差异。扫描隧道显微镜(scanning tunneling microscopy)是一种物理检测手段,可以鉴定4种碱基的特异性结构,区别它们之间的微小差异。然而,要想快速阅读数百万乃至数亿的碱基对,现有的许多测序方法在很大程度上仍依赖于化学方法。

上个世纪70年代,由弗雷德里克·桑格(Frederick Sanger)发明的测序方法在人类基因组计划(HGP)中广为利用,并成为今天大部分测序方法的基础。在这种测序方法中,DNA需要经过多次复制,以制造出足够数量的DNA片断。在此复制过程最后,会得到许多长短不一的DNA片断,并且在这些片断的末端都会加上带有荧光标记的终止碱基。这些片断通过一种被称为电泳的技术,根据分子大小的不同而分离开来。最后,由荧光监测仪来读出每个片断末端标记的荧光信号,并将荧光信号转化为原始链上对应的碱基序列。

桑格测序法发明数十年来,一直具有准确可靠的优点,但所用材料昂贵、检测费时。因此,以后改进的许多测序方法,都以提高测序速度、降低测序成本为目的,所用的方法包括:裁减费时的分离步骤,缩小化学反应体积,以减少化学制品用量,同时以大规模平行反应来同步读取数百万个DNA片断的序列。

许多研究小组在进行测序的时候,经常将以合成法为首的许多测序方法组合到一起,以利用生物系统用来复制和修复自身基因组的高保真过程。例如,当细胞开始准备分裂时,它的DNA阶梯解开为单链,一种叫做聚合酶的蛋白质分别与两条解开的单链相结合。以与聚合酶相结合的旧链作为模板,遵循碱基互补配对原则,聚合酶催化加入的单个核苷酸依次连接,形成与模板链互补的序列;另外一种蛋白质叫做连接酶,它的功能是在保证其序列正确性的前提下,将聚合酶产生的DNA片断连到一起,形成完整的与模板链互补的新生DNA链。

1000美元测出你的基因组 (1)_看图王.jpg

人们模仿DNA分子复制的过程,发明了合成测序方法。当碱基在聚合酶的作用下,加入到一条新互补链的起始端(引物)上,或者当连接酶将它作为匹配物加以识别时,模板链的序列就得以揭示出来。

虽然对这些事件的检测手段不一而足,但通常都会涉及两种信号。如果将荧光分子连接到加入的碱基上,光学显微镜就可以检测到它发出的颜色信号。许多工作组测序时,不管是利用碱基延伸法,还是利用连接法,都使用荧光信号来检测。这些工作组包括美国贝勒大学的迈克尔·梅兹克(Michael Metzker)和他的同事、美国华盛顿大学圣路易斯分校的罗比·米特拉(Robi Mitra)、我在哈佛医学院以及艾基科特生物科学公司(Agencourt Bioscience Corporation)的实验室。

还有一种可供选择的方法就是利用生物发光蛋白,比如萤火虫的荧光素酶,可通过碱基加到引物后端时所释放出来的焦磷酸盐来提供检测信号。这个方法由目前任教于斯坦福大学的穆斯塔法·罗纳吉(Mostafa Ronaghi)教授提出。焦磷酸测序/生物年代(Pyrosequencing/Biotage)公司和454生命科学公司,都采用这套系统进行测序。

荧光发光和生物发光这两种形式的信号测定,通常都需要同时进行多个碱基配对反应,才能产生可被观察到的、足够强的信号,因此需要同时检测目的序列的多个拷贝。然而,一些研究人员正致力于研究如何检测仅发自一条单链DNA分子的荧光信号。美国加利福尼亚理工学院的斯蒂芬·奎克(Stephen Quake)以及螺旋生物科学公司(Helicos Bioscences)和纳米流体学公司(Nanofluidics)的科学家,正就这种单分子测序法进行探讨,意欲通过免去测序所需的制造模板拷贝步骤,以节省时间和成本。

尽管如此,检测荧光信号分子仍然极为困难。因为测序过程中会有5%的序列丢失,所以需要更多的补测工作,来修正测序过程的序列缺失错误。这就是大多数实验室在对目的DNA分子进行测序之前,要将该分子进行聚合酶链式反应(PCR)的原因。在此步骤中,也出现了多种利用细菌来得到目的DNA分子的多个拷贝的方法。

一种细胞外扩增DNA序列的方法,由瑞士日内瓦雪兰诺制药研究所的埃里克·川岛(Eric Kawashima)、俄罗斯科学院的亚历山大·车特佛林(Alexander Chetverin)以及当时在哈佛大学的米特拉发明。他们设计了含聚合酶的一个个独立的克隆,称之为聚合酶克隆(polony),这些克隆可直接排列在显微镜载片或凝胶层上进行扩增反应。每一个模板分子,都可以在一个聚合酶克隆内进行PCR扩增反应,复制出数百万个自身拷贝,外表类似于细菌生长的克隆,仿佛生长自中间的一个原始模板。每一个聚合酶克隆大概有1微米宽,体积只有1×10-15升,一片载玻片可以承载数十亿个这样的克隆。

1000美元测出你的基因组 (2).png

这个测序系统的变化之一,就是第一次将聚合酶克隆交联于浸没在乳状液中的珠状微粒上。当扩增反应结束后,每一个微粒上都会携带目的DNA分子的许多拷贝。带有聚合酶克隆的微粒可以分别放在单独的小孔内,或固定在凝胶上,以进行同时测序。

不同的研究机构和公司采用多种不同方法,通过合成来对目的DNA分子进行测序。这些扩增模板链的方法,以及以碱基延伸或连接进行测序的方法,只是其中少数几个较有代表性的方法。

还有一种方法,通过杂交来测序,同样也是利用荧光产生的可视信号来进行检测。这种方法类似于碱基连接法,利用的是DNA链与互补序列而非错配序列进行结合或杂交的趋势。这一测序系统由美国生物科技公司——艾菲矩阵公司(Affymetrix)、佩尔金科学公司(Perlegen Sciences)和Illumina公司开发,已经在商业上广为使用,最初应用于查找已知基因序列的变化。测序时,首先需要合成有可能与目的DNA分子相匹配的DNA短链,然后把它们排列在大的载玻片上。当未知的目的DNA分子的多个拷贝分子与这种载玻片共浴时,目的DNA分子就能与载玻片上跟自身互补的DNA序列相结合。如果完全匹配,就会产生强烈的荧光信号。Illumina公司为了增加杂交测序的特异性,在测序反应中还加入了一个碱基延伸步骤。

最终,出现了一项长期有效的技术,采用完全不同的方法来鉴别DNA分子上的单个碱基。这种技术被称为纳米测序,以4种碱基间的物理性质差别为基础,将这种差别转变成为可以检测的信号,从而进行测序。当一条单链的DNA分子通过一个直径为1.5纳米的小孔时,将导致小孔的电导率发生波动。每一种类型的碱基所产生的电导变化会有微弱的差别,这些差别可用于鉴定碱基类型。这种测序方法由我本人、哈佛大学的丹·布兰顿( Dan Branton),加利福尼亚大学圣塔克鲁兹分校的戴夫·迪默(Dave Deamer)共同发明。目前,安捷伦科技公司(Agilent Technologies)和其他公司正就感兴趣的方面对这一技术进行进一步的开发,例如荧光信号检测。

 

降低成本  评估测序结果

将这些下一代测序系统相互比较,或者将它们与桑格测序法相比较,能发现一些影响测序结果有效性的因素。例如,两个研究小组,一个是我本人在哈佛的课题组,另一个是454生命科学公司(454 Life Sciences)的课题组,最近发表了同行评议,对能用于直接比较的基因组尺度测序计划作了描述。

我和我的同事描述了一种以连接法进行测序的系统,利用聚合酶克隆微粒对目的DNA模板进行扩增,采用普通的数码显微镜检测荧光信号;454研究组则采用油滴乳液PCR方法对目的DNA片段进行扩增,测序时采用碱基延伸技术,检测碱基连接时释放焦磷酸盐而产生的荧光信号。两个工作组测量的序列数同样多,每次测序测定3000万对碱基。我们的系统每秒大约可以阅读400对碱基,然而454工作组系统每秒可以阅读1700对。为了保证测定的准确性,对一个样品需要进行多次测定。454工作组的要求是,对于目标基因组,每个碱基测定43次,即所谓的43倍覆盖率(43-times coverage,43×)。在此条件下,454工作组的准确率达到了每测定2500对碱基,只出现一次错误。哈佛工作组的测序仪则更准确,在7倍覆盖率的情况下,他们的出错率低于每测定3000对碱基出错一次。对于模板的处理,两个工作组都使用珠状微粒与目的DNA分子连接。微粒的大小关系到所用的昂贵试剂的量。我们的微粒直径为1微米,而454工作组则选用直径为28微米的微粒,在75皮升(1×10-12升)容量的孔内进行反应。

通过电泳进行测序的方法,现在的市场价大概是每测150个碱基对需要1美元。454 小组没有公布他们的项目成本,不过已知的是,哈佛大学工作组每测1400个碱基对花费1美元,仅为市场价的1/9。

1000美元测出你的基因组 (2)_看图王.jpg

只用花10万美元就完成个人基因组(60亿碱基对)的廉价测序技术很快就会诞生。对于下一代测序技术而言,测序成本的进一步降低仍然依赖于测序中的少数基础性因素。现在,几乎所有的测序系统都实现了自动化,花销最大的仍然是化学试剂和测序设备。在小型化思想的指导下,和传统的桑格测序技术相比,现代化测序技术已将试剂使用量从1毫升降到了1×10-15升。

许多图像分析装置可以在一分钟内收集十亿字节的原始数据,计算机能以每秒几十亿字节的速度处理这些信息。但是,图像处理装置的运行速度因为化学物理反应过程的缓慢而受限。这些速度缓慢的过程包括电泳、酶解,或者测序过程中某个步骤的限制,使得整个测序过程在空间和时间上显得不紧凑,影响了测序效率——这些因素都会使得DNA每个碱基的测定成本增加。

还需要考虑的就是,怎么样使用新出现的测序技术。传统的桑格测序技术一次能够测800对碱基,但是新的测序技术只能测5~400对碱基。因此,利用新的测序技术很难将未知的基因组序列片断进行测定和拼接。然而,如果医学应用是测序技术广泛使用的最初动力,我们将大量重复测定人类基因组序列,以寻找个人NDA在短时间内的变化。届时,以短序列进行阅读的限制将不成问题。

要想将测到的序列进行应用,对其准确性也提出了要求。因为现有测序技术每测定一个基因组,都会有60万个碱基的测定出现错误,对于目前人类基因组测序0.01%的误差而言,还需要降低出错率才能将测序应用于诊断。另外看来,在测定基因组的随机样品时,高达4%的出错率,有利于发现及区分不同的RNA和组织类型。一种类似于“鸟枪法”的策略被应用于生态学取样,仅仅提供20个碱基对就足以将生态系统里的任一个体鉴定出来。

 

价值提升

为了降低测序成本,除了需要发展新的测序技术以外,短时间内我们仍然有很多工作要做。例如,为了便于医生管理,需要设计软件来处理测序信息。他们将需要一种方法,来为每位病人建立个性化优先遗传信息列表,显示看起来对病人来说是最重要的前10个左右遗传变异的情况。同样,对这种技术广泛应用于人类的效果评估,也是必须进行的。

从一开始,人类基因组计划就建立了一个研究项目,每年投入1000万美元,用于随着人类基因组测序而发展的伦理学、法律学和社会学的研究。参与者正致力于将我们获得的数据公布于众。数据公布速度空前,发现的数据一周内就可以在网上查到。同时,我们也尽力阻止将发表的数据为商业所用的各种企图。为了保护序列提供者,我们使用了公用基因组(测定人类基因组时,是将几个人的不同染色体混合在一起作为“人类基因组”而进行测定的)。但是仍然存在很多棘手的问题,例如,当科学家、保险公司、公司雇主、法院、学校、收容机构或者政府使用个人遗传信息,以及个人利用遗传信息进行诊断和生育决策时,如何确保个人的隐私权和使用的公正性。

1000美元测出你的基因组 (3).png

这些困难而重要的问题仍然需要我们以严谨的态度着手研究,就像我们对待生物和技术在人类遗传学方面的发现一样。因此,我和我的同事开始个人基因组计划的研究,以探索生存于个人基因组时代的潜在风险和收益。

当我们在股票、房地产或者人际关系上进行投资时,我们知道一切都是不可预知的。我们掂量着风险与收益的各种可能性,并接受犹如生活般复杂多变的现实的市场。正如当我们第一次拥有为数不多的电脑时,谁也不曾设想过,个人数码技术会导致经济、社会以及科学的革新,同样,当我们由最初的几个基因组开始前行时,我们也应当满怀希望,为类似的变革做好准备。 

 

今天,每个在美国出生的婴儿,在离开医院以前至少要做一项遗传疾病检测,看是否患有苯丙酮酸尿症(phenylketonuria);患有某种肺癌的病人也需要检测EGFR基因的变化,以了解病人是否有可能会对药物易瑞沙(Iressa)产生反应。一种预测病人将如何代谢药物的遗传测试,正逐渐应用于药物剂量的判断。个人基因组的低成本化使个性化医疗成为可能。我们已能看见个性化医疗的曙光,对它的需求也与日俱增。

除了关注我们自己的健康以外,我们还需要知道自己的遗传谱系。我们之间以及我们和成吉思汗之间的亲缘关系,到底有多近呢?我们想知道基因和基因、基因和环境之间是如何作用,从而形成了我们的相貌、身体和性格。成千上万的数据涵盖了个人的全基因组及表型(由基因组指导编码而最终显现出的特征),将可能帮助我们解答上面的疑问。

虽然这种新型的个人信息应用前景突然间变得非常乐观,但也不得不让人担心这些信息是否会被保险公司、公司老板、司法机构、朋友、邻居、商业界以及罪犯滥用。除非有一天我们连对水都要进行测试,否则没人能预知生活在个人基因组时代会是什么样。这就是最近我和我的同事发起个人基因组计划(PGP)的原因。在人类基因组计划顺理成章的下一步计划里,我们希望通过征集志愿者,将他们的基因组和表型数据公之于众,以此探索个人基因组计划带给我们的究竟是祸是福。

这些资源将包括46条染色体的全基因组序列、详细的医疗记录,还有将来有一天会成为个人健康档案中一部分的信息——包括关于RNA、蛋白质的全部数据、身体和面部尺寸以及核磁共振(MRI)和其他断层扫描图像。我们还将制造并保存人类细胞株,这些细胞株会涵盖国家常规医学科学研究所Coriell细胞库里的所有类型。我们希望这些遗传特征数据能广泛地为人所用,以便任何人都能利用这些数据,来验证自己的假设和算法,或帮助别人的研究获得新突破。

最近发生的一件事就是很好的范例。我将自己的一部分基因序列公布在网上,这些数据引起了一个远在这个国家另一端的血液学家的关注。他告诉我,经过测试证明,我的胆固醇药物摄入剂量过高。这个结论促使我对自己的药物剂量以及日常饮食进行调整,同时也降低了我患其他疾病的危险。在不远的将来,这种问题将不会再依赖于远在大陆另一端的他人的帮助和分析,而将会培育出一种新的产业,开发有助于我们分析自己序列的第三方基因序列分析软件工具。

现在,哈佛医学院内部审核委员会(Harvard Medical School Internal Review Board)已经同意个人基因组计划的实施,这个计划正如所有的人类研究项目那样,每一个参与者在同意提供自身数据之前,必须清楚地知道这一行为的潜在风险。同时,每个自愿参与个人基因组计划的人,在签署同意书以前,还有权阅读以前一些研究项目的资料。整个项目的进行保证开放,包括用志愿者的数据对他们自身进行详细分析。公开志愿者的数据和有意帮别人隐瞒自己隐私的做法相比,后者更容易被泄漏信息或遭遇黑客攻击,而前者类似的风险性则相对较低。

与人类基因组计划数据公布出来为大家所用的方针类似,个人基因组计划数据公布的目的,也是为了使研究的潜力发挥到最大。除了可以提供科学数据以外,这也是一个试验,检测该计划的公用性和安全性范围。在计划开展的早期阶段,志愿者们将帮助确保人类项目设置的多样性,以避免个人基因组计划以基因歧视的结果收场。我们的研究项目在开始阶段还不用考虑能否盈利的问题,这是该项目慈善性驱动机制的优势所在,但是很多保险公司却可能更关注这一项目的结果。            

 


全部评论

你的评论