10个月以前,医生在诊治一位76岁患有晚期尿道癌的售货员时决定,为这位顽强的患者尝试一种新的疗法。当时,她的肿瘤样本已经在数周之前被送到了康奈尔大学威尔医学院和纽约—长老会医院的精准医疗研究所,并由我的团队进行分析。基因测序结果表明,她的HER2基因(又叫ERBB2基因)的拷贝数比一般人多。
在常规治疗手段——手术、化疗和放疗——尽数失败后,医生们决定使用一种名叫赫赛汀(Herceptin,曲妥珠单抗)的药物。该药物通常用于治疗乳腺癌,但它以HER2突变基因为靶点。用药之后,这名患者终于摆脱了癌症的折磨。
测序技术的发展使人们更容易在特定人群、特定肿瘤甚至是肿瘤的特定细胞中找出促使肿瘤生长的基因突变。然而,仍在不断增长的海量基因数据却没有带来太多帮助,因为它们没能和临床信息——如家族病史结合在一起。更重要的是,基因数据往往受存储方式所限,不方便让广大医生搜索和分享,甚至难以理解。
如果精准医疗想在癌症治疗方面达到奥巴马总统等人的期望,测序数据必须能实时地和医生面前的患者建立联系。同时,整合后的基因数据和临床数据还必须能够让大部分医生和研究者方便地搜索和获取。集中式的数据库原型向人们展现了美好的前景,但要扩大其规模,仍需要大量资金的持续投入。
复杂的病历
临床医生习惯于根据如血糖浓度等20~50项常规测试结果进行诊断。将这类数据录入病人的电子病历十分简单,但基因数据则带来了前所未有的复杂度。
基因数据的规模十分庞大。举例来说,美国在2005年建立了一个癌症基因数据库——“癌症基因地图”来记录会导致癌症的基因突变,如果要把这个数据库内的2.5PB数据(1PB=1 000TB)从一个服务器转移到另一个上,需要25天时间。这个数字是我的同事托比·布鲁姆(Toby Bloom)告诉我的,他在一个专门负责大规模人类基因组测序的机构——纽约基因组中心(New York Genome Center)担任副主任。
这些复杂的基因数据通常不能通过电子形式获取,而且很少会与病人的基本信息关联起来。国际癌症基因组联盟(ICGC)已经从近14 000人的肿瘤样本中收集了大量基因测序数据,并且发现了近1 300万个基因突变。但除了基因突变以外,某种疗法是否会对病人有效还和很多其他因素相关。可惜在ICGC(以及很多其他机构)的数据库中,只包含了很少的临床数据——如肿瘤的类型和大小(见“缺失的数据”)。
为了确定实时关联基因数据和临床数据是否可行,2013年以来,我和同事与康奈尔大学威尔医学院和意大利特伦托大学综合生物学中心的一些计算生物学家合作开展了一个试点项目,目前已经为250名癌症患者制作了易读的基因数据报告。
每份报告上都有一个条形码,病人可以根据需求,取消和重设身份认证。条形码可以使数据方便地录入纽约—长老会医院威尔康奈尔医学中心的电子病历系统中。这些数据的形式和病理结果类似,包括了临床信息(家族病史、用药史等)、基因突变以及是否有对应药物存在,还有效果未知的基因异常。
我们发现,参与研究的病人中,90%以上都携带着已有对应药物的基因突变。不过,由于组织管理的原因或是因为未经过批准的药物还缺乏足够的安全证据,只有不到10%的病人适合参加临床试验。
如果不同机构可以共享这些数据,它们将能发挥更大的作用。例如,目前科研人员正在因HER2基因或EGFR3基因发生突变而患上肿瘤的患者身上进行试验,研究一种叫那替尼(neratinib)的药物的有效性和安全性。肺癌患者往往会有EGFR基因突变,但除他们以外,一般人群携带这类突变的概率只有1%~6%。因此要凑够2期临床试验所需的人数,研究者必须从多个医疗中心招募病人。如果不同机构之间的数据可以共享,这件事就会变得简单高效得多。可惜,现状是这种跨机构的合作十分耗时,大多只能靠研究者们口头商量。
要实现这种数据共享,我们面临的困难仍十分巨大。在美国,电子系统之间的不兼容使得病人数据的传输十分困难,常常需要运送和扫描纸版文件。
数据共享
科学家做了不少努力,试图统一电子医疗数据的存储格式。非营利性组织纽约临床数据研究网络(NYC-CDRN)就是一个例子。该组织由华盛顿的以患者为中心的疗效评价研究所(patient-centered outcomes research institute)资助,它正在努力让以康奈尔大学威尔医学院和纽约长老会医院为首的22个医疗机构实现临床数据共享。
16个月以来,NYC-CDRN已经有了超过600万个病历,包含了数十万个数据单元,如血液中的钙含量、磁共振成像扫描结果等。该计划的终极目标是将基因数据纳入数据库中,并且对病人进行长期跟踪记录。尤其是在有私营健康保障体系的国家,这种便于分享和搜索的标准化中央数据库将是最可行的未来解决方案。
精准医疗在癌症治疗方面的前景是显而易见的。例如,以BRAV(V600E)突变(存在于60%黑色素瘤中)和IDH1及IDH2突变(存在于约80%脑肿瘤)为靶点的药物或是已被批准,或是正在进行临床试验。尽管对于大部分靶向疗法,耐药性依然是最主要的问题。目前规模最大的一次精准医疗试验正在法国的数个医疗机构中进行,参与研究的708名患者中有141名已经找到了对应的靶向治疗试验。
需要权衡的经济问题
而精准医疗也向我们提出了一些很难回答的问题。精准医疗的长期成功依赖于患者信息的准确性,而这些信息越是精确,则越难保证患者的匿名性。人们对于自己的健康数据拥有哪些权利呢?这些数据可以在全球共享吗?另外,谁来负责管理和维护数据库,谁又该为数据库的开销买单?
NYC-CDRN已经花掉了700万美元,而且随着数据的累积,每年的花销还会增加。这些花销让本已不菲的治疗费用更增一筹。癌症靶向治疗每年的费用通常在10万美元以上,而大多却只能延长患者数月的生命。
假如一种基因突变只在10%的患者中出现,我们应该开发对应的靶向药物吗?如果这药物只能把患者的生命延长三个月左右呢?假如可以把生命延长一年呢,又是否应该开发呢?
让情况更复杂的是,很多药物的作用可能要在其通过了批准后才能完全显现。以赫塞汀为例,最初它是因为可以延长转移性乳腺癌晚期患者的生命,才被美国食品及药品管理局批准的。然而在使用普及之后,人们发现赫赛汀还可以增加早期乳腺癌患者的长期存活率。
一些机构已经就精准医疗给出了指导性建议。英国卫生与保健评价研究院 (NICE)检验了不同类型的基因测试在治疗乳腺癌中的有效性。2013年9月,NICE推荐医生在临床决策时参考一项名叫Oncotype DX的测试,而认为另外三个测试(MammaPrint、IHC4和Mammostrat)在临床上的有效性证据不足,最好只用于研究。
前景是美好的,但要将基因数据蕴含的大量信息用于癌症的靶向治疗,还需要人们做出艰难的决定,以及投入大量的人力和资金来建立可搜索的共享数据库。
请 登录 发表评论