为新药物寻找基因_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 生物 • 医学

为新药物寻找基因

admin  发表于 2017年09月22日

研究人员通过鉴定疾病所涉及的人类基因,可以创造有效的治疗性蛋白质并加速高效药物的开发。

图片2.png

本杂志的大多数读者或许都熟悉把基因作为人类一代一代地传递遗传性状的某种物质的这一概念。不太了解的是,有故障的基因被深深地卷入到大多数疾病中,而不仅仅是遗传性疾病。例如癌症、动脉粥样硬化、骨质疏松、关节炎和早老性痴呆全部都以基因活性的特异变化为其特征。甚至传染病一般也激发起患者免疫系统中可辨认基因的活化。此外一生中暴露于电离辐射和有害化学物质对基因的累积损伤或许为与衰老,有关的某些变化打下了基础。

几年前我和一些志趣相投的同事认识到,弄清在人体内不同的基因在什么位置和什么时候被开启会大大提高我们预报和防治疾病的能力。当一个基因是活化的(即正如遗传学家所说“被表达”)时,其DNA中化学单元(即碱基)的序列被用作生产特异蛋白质的蓝图。蛋白质以不同的方式指挥着细胞发挥其所有功能,它们起结构组件的作用、执行生命中多重化学过程的催化剂的作用和调节细胞再生、细胞转化及各级水平上的生理活性的控制成分的作用。事实上,从受精卵发育为成人是基因在不同组织中表现模式的有序变化的结果。

图片220.png

我们意识到,知道了在健康组织和催病组织中表达了哪些基因,我们就能鉴定组织发挥正常功能所需的蛋白质和疾病所涉及到的畸变所需的蛋白质。掌握了这些信息,就可能开发各种疾病的新的诊断试验和改变受影响的蛋白质或基因的活性的新药。研究人员还有可能利用我们鉴定为起治疗药物作用的某些蛋白质和基因用于他们自己的目的。在某种意义上,我们设想在分子水平土作出人体解剖学的高分辨详图。

很清楚,鉴定人体数十种组织中每一种内所有表达了的基因是一项艰巨的任务。在一般的人细胞中有约10万个基因。这些基因中只有很少部分(一般约1.5万个)在任何一类细胞中都表达出来,但是表达了的基因随细胞的种类而异。因此只考察一种或两种细胞类型不能揭示人体内其余部分组织中所表达的基因。我们还必须研究人所有发育阶段的组织。此外,为了鉴定引起疾病的基因表现的变化,我们还必须分析催病组织及健康组织。

技术上的进步已提供了完成这项任务的方法。科学家现在能迅速发现在任何给定的组织中哪些荃因被表达了。我们的方法已被证明是鉴定有医学价值基因的最快方法。

图片221.png

以动脉粥样硬化为例,在这种常见的疾病中,称为空斑的一种脂肪物质在动脉内积累,特别是向心脏供血的动脉内。我们的方法使我们能获得在正常动脉血管内表达的基因名单以及每个基因表达水平的一种量度。然后我们能够将此名单与动脉粥样硬化患者得来的基因名单相比较。名单之间的差异相当于该疾病所涉及到的基因(以及相应的蛋自质)。它也表明,由于该疾病已增加或减少了多少基因的表达。之后研究人员能够制造以这些基因所确定的人蛋白质。

图片222.png

一旦能够以纯的形式制造一种蛋白质,科学家们就能十分容易地设计出一种试验方法来检测患者体内的这种蛋白质。在存在治疗这种疾病的更好选择时,提示在空斑中发现的一种过量生产蛋白质的试验方法可以暴露出粥样动脉硬化的早期征兆。此外,药理学家能够利用这些纯的蛋白质帮助他们发现新的药物。可以考虑把抑制空斑中发现的一种蛋白质的生产之化学物质作为治疗动脉粥样硬化的一种药物。

图片223.png

我们的方法(我把它称作医疗基因组)是有点超出人类遗传研究主流之外的方法。许多科学家都涉足于人类基因工程,这是一个致力于发现人类DNA中化学碱基完整序列的国际合作计划。(DNA的所有密码都只是由4种碱基的不同组合构成)。这种信息对研究基因作用和基因演化将是重要的,而且对遗传性疾病研究特别有益。然而基因组工程不是发现基因的最快方法,因为组成DNA的大多数碱基实际上都位于基因之外。基因组工程也不能为哪些基因与疾病有关作出很确切的结论。

1992年我们创立了人类基因科学公司(HGS)以实现我们的梦想。最初我们执行这项研究是作为HGS与受HGS支持且非赢利组织的基因研究所之间的一项合作计划,该研究所的所长J.Graig Venter是基因组研究中某些关键想法的开拓者。合作6个月之后,世界上最大的医药公司之一SmithKline Beecham公司加入与HGS共同研究。第1年之后,HCS与SmithKlineBeeeham公司继续它们自己的研究,后来Schering-Plough公司、日本的武田药品工业公司、德国的Merek KGaA公司和法国的 Synthelabo公司也加入我们的研究。

以直接的方法发现基因

由于开发新药的关键原则上在于以人类基因生产蛋白质而不是基因本身,所以人们可能会感到惊讶,为什么我们完全致力于基因的研究。原则上我们能直接分析一个细胞的蛋白质,但是知道了一种蛋白质的组成并非允许我们制造它。并将它开发成为药物,所以我们必须大量生产看来很重要的蛋白质。要做到这一点只有一种切实可行的方法,那就是分离出相应的基因并把它们植入能够大量表达这些基因的细胞内。

图片224.png

我们发现基因的方法集中在每当一个基因被表达时在细胞中产生的决键的中间产物上。这种中间产物被称为信使RNA(mRNA);与DNA一样,这也是由4个碱基的序列组成。当一个细胞由一个基因制造mRNA时。实际上它在基因内拷贝DNA碱基的序列。然后这mRNA起一个模板的作用以构制由该基因编码的特异部的蛋白质,研究mRNA的价值在于,只在相应的基因是活性的时细胞才生产它。然而,与基因本身的序列直接有关的mRNA的碱基序列向我们提供了足够的信息,使我们能从细胞内总的DNA中分离出该基因,并生产它的蛋白质(如果我们希望这样做的话)。

对于我们的目的来说,关于mRNA的问题是它可能是难于处理的。因此,实际上我们研究一种代用品,叫作mRNA分子的互补DNA(cDNA)的稳定DNA拷贝。我们通过直接逆转细胞用来由DNA制造mRNA的过程来制造cDNA。

图片225.png

我们以这种方式生产的cDNA拷贝一般是mRNA节段的复制品而不是整个分子的复制品,完整分子可能是若干千个碱基长。事实上,基因的不同部分可能产生cDNA,它们的一般来源可能不是立即就能弄清的。然而,只含几千个碱基的cDNA仍然保留着其亲本基因的独特特征。那是因为两个不同的基因共有数千碱基长的相同序列这几乎是不可能的。正如从一本书中随机取一章来就能极好地鉴别这本书一样,这样一个cDNA分子也能极好地鉴别产生它的基因。

一旦我们生产出了cDNA,我们就能够拷贝它以制造出我们所需要的数量。这就意味着,我们将有足够的物质以确定其碱基的次序。因为我们知道细胞用来把DNA序列转变为构成蛋白质的氨基酸的序列之规律,所以碱基的排列次序告诉我们相应蛋白质断片的氨基酸序列。这个序列又能与已知结构的蛋白质之序列相比较,这种策略往往告诉我们关于完整蛋白质的功能的一些信息,因为含相似氨基酸序列的蛋白质往往执行相似的任务。

分析cDNA序列过去是极其费时的,但近几年来,已开发出了能可靠而自动地执行这一任务的生物医学仪器。另一项开发也是使我们的方法切实可行所必需的。排序设备在我们所关注的标度上运转时会产生大量的数据。幸运的是,现在可以使用能处理所得兆字节数据的计算机系统,而且我们和其他人已编出软件,它可能助我们了解这大量遗传细节的意义。

汇集难题

我们鉴定细胞所使用的基因的方法将分析每个cDNA分子一端的300至500个碱基的序列。这些部分cDNA序列起基因标记物的作用,而且有时称为表现的序列标记。我们之所以为我们的部分cDNA序列选择这种长度,是因为它短得足以相当快速地分析却仍又长得足以明确地鉴别一个基因。如果一个cDNA分子像一本书里的一章,那么一部分序列就像这一章的第一页——它能鉴别这本书,甚至会给我们一个概念这本书是写哪方面的内容。同样地,部分cDNA序列也能告诉我关于它们是由哪种基因得来的某些信息。在HGS,我们每天获得约一百万个碱基的原始序列数据。

我们的方法还在被证明是成功的,在不到5年的时间里,我们已鉴定了数千个基因,其中许多基因可能在疾病中起一定的作用。其它公司和其它学术界的研究人员也已启动了获得部分cDIVA序列的计划。

HGS的计算机识别我们从6000个基因(它们是研究人员已用其它手段鉴定出来的)之一或从我们自己先前已发现的一个基因获得的许多部分序列。当我们不能明确地把新近获得的一个部分序列归为一个已知的基因时,情况就变得更加有趣。然后我们的计算机就通过我们的数据库以及公共数据库扫描,看这个新的部分序列是否在某些方面与以前存入的某一部分序列相重叠。当我们发现明显的重叠时,我们把这个重叠的部分序列与称作contig的更长的节段拼在一起。这时contig相当于不完全的序列,我们推断是存在于亲本基因的某个地方。这个过程有些类似于摘出“一个阴郁的午夜。当我沉思”和“当我沉思,衰弱和疲倦/超过许多......量”这些短语,并把它们结合为可认出为爱伦·坡的“黑猫”中的一个片断。

同时,我们试图推断相当于这部分序列的蛋白质可能的功能。一旦我们预测出了这个蛋白质的结构,我们就能根据它与已知蛋白质结构的相似性而对其分类。有时我们发现与另一种人蛋白质的一种配对物,但往往我们注意与细菌、真菌、植物或昆虫中蛋白质的配对物;其它生物产生许多在功能方面与人的蛋白质相似的蛋白质。我们的计算机不断地修正这些暂时性的分类。

例如3年前我们预测,含4个特定contig的基因每个均能生产相似于已知能校正细菌和酵母DNA中突变的蛋白质的那种蛋白质。由于研究人员已经知道,不能修复突变就会引起结肠癌,所以我们开始研究这4个基因的完整序列。当一位杰出的结肠癌研究人员后来求助我们鉴定能引起那种疾病的基因—他已知道关于这些基因中的一个—时,我们能够告诉他,我们已经在研究可能涉及此病的另外3个基因。

以后的研究已证实,4个基因中任何1个的突变都能引起威胁生命的结肠癌、卵巢癌或子官内膜癌。在北美洲和欧洲,每200个人中就有1个人之多带有正如被称为这些失配修复基因之一的突变。了解了这一点,科学家们就能够开发出一些试验来评定其亲戚有这些癌症的人的失配修复基因。如果被测试的人显示对该疾病有遗传诱因,他们可以被密切的监视。迅速检出肿瘤能导致拯救生命的外科手术,而且这种检验已被用于临床研究以鉴别有危险的人。

现在我们的数据库包括1百多万个由cDNA得来的部分基因序列,分类为17万个contig。我们认为我们有几乎来自所有表达了的人类基因的部分序列。一个表征是,当其他的科学家把基因序列存入公共数据库时,我们发现我们已经有它们中95%以上的部分序列。把部分序列拼在起一经常会发现一些完整的新基因。我们鉴定的这些新基因总共有一半以上与已确定了大概功能的已知基因相似。随着时间的推移,这一比例很有可能增大。

如果一种组织产生异常大数量的来自同一基因的cDNA序列,它就提供一个表征,即所说的这个基因正在产生大量的mRNA。当细胞正在生产大量的相应的蛋白质总是会发生这样的事,表明这种蛋白质可能正在完成一种特殊的重要使命。HGS也对仅在小范围的组织内表现的基因给以特别的注意,因为这些基因最有可能对治疗侵袭这些组织的疾病是有用的。在我们发现的数千个基因中,我们已鉴定出约300个似乎特别具有医学重要性。

新基因、新药物

应用部分cDNA序列法以发现基因,研究人员已首次能够评价有多少基因致力于每一个主要细胞功能,如防御、代谢等。大量储存由部分cDNA序列得来的独特信息,为医学科学提供了新的可能性,这些机会现在正在被系统地探索。诸如我们所建的数据库已被证明对发现可用来作为疾病标志的蛋白质是有价值的。前列腺癌就是一个例子。为检验前列腺癌而广泛使用的试验要测量血液中称为前列腺特异抗原的蛋白质之含量。前列腺癌患者往往表现出异常高的含量。遗憾的是,缓慢生长的、相对良性的肿瘤以及需要攻击性疗法的恶性肿瘤能够引起这种抗原水平增高,因此这种试验是有歧义的。

    HGS及其伙伴已分析了健康前列腺组织以及良性和恶性前列腺肿瘤的多个试样的mRNA。我们发现约300个基因在前列腺中表达出来但在其它组织中不表达。在这些基因中约有100个仅在前列腺肿瘤中是活性的,而约20个仅在被病理学家评定为恶性的肿瘤中表达出来。我们以及我们的商业伙伴正在使用这20个基因及其蛋白产品来设计一些试验以鉴别恶性前列腺疾病。我们对乳腺癌、肺癌、肝癌和脑癌正在进行相似的研究。

部分cDNA序列数据库也能帮助发现引起罕见疾病的基因。例如,很久以来研究人员就知道,儿童中某种形式的失明是由于半乳糖化学分解方面的遗传缺损的结果。检索我们的数据库发现两个先前未知的人类基因,据预测它们相应的蛋白质在结构上与酵母和细菌中已知的半乳糖代谢酶相似。研究人员很快就证实,这两个基因中的任何一个有遗传缺损都会引起这种类型的失明。将来,酶或基因本身可能被用来防止这种疾病。

部分cDNA序列也正在树立一个印象深刻的记录以帮助研究人员发现可能用于新治疗法的小分子。在过去几年里,已大大改进了创造和测试小分子药物——最普通的类型——的方法。自动化设备能够快速筛出可影响与疾病有关的人蛋白质的天然化合物和合成化合物,但是由于已知蛋白质靶的数量有限,推迟了进展。因为研究了更多的人蛋白质,所以进展应加快。我们的研究现在正在提供一半以上SmithKline Beecham的潜在产品的线索。

如我们的这种数据库不仅使得随机筛选有用活性的分子更容易。知道了一种蛋白质的结构使科学家们能够专门设计以特定方式与这种蛋白质反应的药物。称作合理药物设计的这种技术过去被用来产生现在正在证明对HIS有效性的某些新的蛋白酶抑制剂(可是我们的数据库未参与这种特殊的研究)。我们对部分cDNA序列将使药物学能更多地使用合理药物设计充满了信心。

我们的数据库已如何被证明是有用的一个例子关系到称作破骨细胞的细胞,这种细胞一般存在于骨中;这些细胞产生能够降解骨组织的一种酶。这种酶似乎是在如骨关节炎和骨质疏松这些疾病状态下会过量产生。我们在我们的计算机中发现在破骨细胞中表达的一个基因的序列,它似乎为破坏性酶编码;它的序列与已知产生降解软骨的一种酶的基因之序列相似。我们证实,破骨细胞基因引起降解性酶,还表明它未表达在其它组织中。这些发现意味着,我们能够创造阻碍这种基因的蛋白质的方法而不必担心这个方法会防碍其它组织。然后我们制造这种蛋白质,而且SmithKline Beccham已用它通过高通过量筛选与合理药物设计相结合以鉴别可能的治疗法。该公司也已用我们的数据库筛选可用来治疗动脉粥样硬化的分子。

从医学的观点来看,极其丰富地蕴藏着基因和蛋白质的资源是一类称作与受体结合的G-蛋白。这些蛋白质跨越细胞的外膜,并把生物信息从其它细胞传入细胞的内部,很有可能能够抑制这种重要受体的药物就能够用来治疗如高血压、溃疡、偏头痛、哮喘、感冒和精神紊乱等多种疾病。HGS已发现与受体结合的70多种新G-蛋白。我们现在通过把我们已发现的受体基因引入细胞并评价生产这种编码蛋白质的细胞对各种刺激怎样反应以测试它们的效果。特别有用的两个基因生产似乎是与高血压和成人发病的糠尿病有关键关系的蛋白质。我们的医药工业伙伴正在寻找能抑制由这些受体传递的生物信号的小分子。

最后但非最不重要的是,我们的研究支持我们相信,我们现在正在发现的某些人类基因和蛋白质本身(或许以改进的形式)将构成新的治疗法。许多人蛋白质已被用作药物;胰岛素和血友病患者用的凝血因子就是十分熟知的例子。刺激血细胞产生的蛋白质也被用来加速患者从化学治疗中康复。

HGS已发现的约200个完整长度基因序列的蛋白质有可能用作药物。我们已制造出大多数这些蛋白质,并已制定出它们在细胞上活性的测试法。它们中的一些也在用式验动物进行的测试中被证明是大有希望的。这些蛋白质包括几种Chemokine即刺激免疫系统细胞的分子。

开发药物决不是一个很快的过程,因为无论是蛋白质、基因或小分子的药物都必须经过广泛的试验。然而,部分cDNA序列能加速候选治疗法的发现。HGS允许科学研究人员利用它的许多数据库,尽管我们要求有一个协议共同分享来自任何所得产品的专利使用费。

自动化和计算机化发现基因方法的系统使用已首次产生了一幅全面的图,表明不同的基因所表达的位置——人类基因表达的解剖图。此外,我们正在开始认识疾病中基因表达的变化。要确切知道医生什么时候将首次成功地应用这些知识来治疗疾病也还为时过早,但是我们的分析预测,所得到许多治疗法将成为21世纪药物的主要支柱。

 (刘义思 译 王世德 校)

全部评论

你的评论