DNA条形码
撰文 马克·Y·施特克勒(Mark Y. Stoeckle)
保罗·D·N·赫博特(Paul D.N. Hebert)
翻译 冯志华
几年前的一天,本文作者之一赫博特在一间超市的货架走道处徘徊,眼前的景象令他叹为观止:通过扫描由粗细不等的线条按照不同顺序组成的商品条形码,就能很容易地获知商品的摆放情况。他想,能不能通过类似的方法,利用一小段DNA,检测其中4种核苷酸独特的排列次序,来鉴别地球上数目庞大的物种呢?
从250年前卡尔·林奈(Carl Linnaeus)开始系统地对所有物种进行分类以来,生物学家利用了各种各样的性状——颜色、外形甚至行为,来鉴定动物和植物。最近数十年,研究者开始用DNA中携带的遗传信息来完成这个任务,但是经典和现代的遗传学方法都需要进行大量实验,而且极为耗时。利用一小段DNA来实现同样的目的,就像用12位商品条形码识别商品一样,是个省时省力的好办法。
因此,摆在我们眼前的挑战就是找到一段DNA,能够可靠地区分不同的动物物种。要选择所有物种都拥有的基因,且这段DNA应该位于这种共有基因的相同位置。我们预计,一种类似于GPS接收器的手持式条形码阅读器将很快被研发出来,能够顺利读出任何微小组织里的DNA片段。繁忙港口的稽查员、山间小径中的徒步旅行者,或者实验室里的科学家,只要向阅读器的扫描口放入一份含有DNA的样本,无论是一小段胡须,还是昆虫的一条腿,这台仪器都能读出相应条形码片段的核酸序列。这些信息被迅速传递到DNA条形码的公共数据库中,就能得到该样本所属物种、照片及相关描述等反馈信息。任何人在任何地方都可以鉴定物种,也可以知道眼前的标本是否属于从未被发现的物种。
我们为何需要DNA条形码?
形态学(morphology)主要研究动植物的外形和结构,这门学科使科学家确认了大约170万个物种。现在形态学依旧是林奈分类法的基础,但仅仅依靠形态学来描述生物的多样性是有局限的。一些近亲物种间的细微差别非常复杂,以至于大多数分类学家只能专注于其中的一类。因此,一次生物多样性调查需要大量生物分类专家的参与,才能完成物种鉴定。寻找合适的专家并进行样本的分配极其费时,而且耗资巨大。拥有高分辨率图片的网络数据库在某种程度上有助于后期分类工作,但其他问题依然存在。
生物学家估计,目前约有800万个物种尚未得到描述。随着形态学特征百科全书的日益扩增,仅仅鉴定样本与已知物种是否匹配,都变得日益困难。而且,待检动物样本中卵和幼年个体要比成年个体多很多,前两者缺乏明显的特征,必须将它饲养成熟,方能进行鉴定。另外还有些物种,仅有一种性别能够被鉴定。对于植物而言,有些样本的花比较容易鉴定,而根和其他部分则难以区分(参见《环球科学》2008年第7期《物种分类:三百年的糊涂账》)。对于这些障碍,利用遗传信息建立起快速简便的标准化方法,便可以轻松绕过。
付诸实践
基于遗传信息的这一快捷方法要真正得到应用,第一步就是要找到一小段携带鉴定信息的DNA。这段序列要足够长,能包含区分物种的信息,但也要足够短,保证使用起来快速高效。经过反复试验,我们选定了一个特殊的基因片段作为鉴定动物物种的参考标准[植物鉴定另有参考标准(见对面页上部图表)]。该片段是一个线粒体(mitochondria)基因的一部分,线粒体是遗传自母系的一个细胞器,是细胞内产生能量的场所。我们选择的这个基因编码一种酶,名为细胞色素c氧化酶亚基I基因(cytochrome c oxidase subunit 1,简称CO1)。CO1的条形码区域足够小,利用现有技术,它所包含的核酸碱基序列(即著名的DNA双螺旋)一次读取就可解码。尽管在每个细胞中,这段DNA序列都是不起眼的片段,但它具有足够的多样性,可将绝大多数物种区分开来。
以灵长目动物为例,每个细胞大约包含35亿个碱基对,但CO1条形码区仅有648个碱基对。尽管如此,从人类、黑猩猩(chimpanzee)以及其他类人猿(great ape)身上取得的样本中,CO1条形码区的差异仍足以区分这些物种。不同的人,CO1条形码区存在一至两个位点(碱基对)的差异,但我们与近亲物种差异更大,比如与黑猩猩约有60个位点的差异,而与大猩猩(gorillas)则有约70个位点的差异。
现已证实,线粒体DNA尤其合适进行物种鉴定,因为在不同物种间,线粒体DNA的差异要比细胞核DNA大很多,这样一来,前者的一些短DNA片段就更有可能用于分辨物种。另外,每个细胞中,线粒体DNA分子的数目比核DNA的多,因此容易提取,尤其是对那些样本量较小或部分降解的样本。
为了证明这一小段DNA确实可以用于物种鉴定,我和同事选择了从陆地到海洋、从极地到热带地区的多种动物,对CO1条形码区的有效性进行检验。我们发现,以前分类学研究识别过的动物中,仅凭CO1条形码区本身就可区分其中98%的物种。对于余下无法区分的动物,我们利用上述方法,将它们成对分组或归为一小类——这些都是进化道路上才分开不久的动物,或者定期杂交的物种。
现在我们已经完成了寻找条形码区的任务,下一步便是汇编完成一个参考数据库,保存那些经鉴定确定了身份的物种的条形码区信息。将待检物种的DNA条形码区与“标准样本”进行对比,研究者就可以确定前者是已知物种还是新发现物种。构建数据库所需的技术很简单,只须从组织样本中提取DNA,确定条形码区的核酸序列,并将它们输入一个条形码数据库即可。样本的获取则更为复杂:物种内的变异程度虽然较低,但依然存在,这意味着每个物种至少要对10个个体进行分析,记录这种变异。尽管全世界的博物馆保藏着超过15亿件标本,但其中绝大多数在收藏时并没有考虑过DNA的完整保存,很多标本过于老旧,无法获得条形码区的全长序列。一些馆藏的旧标本主要用于为物种的分类学名称提供初期参考,对于这些标本,只需以旧DNA或已部分降解的DNA为模板,扩增出100~200个碱基对大小的迷你条形码片段——通常情况下,这样大小的片段即可提供足够的信息,将它们与新鲜标本的全长条形码区进行对比,可以确认二者是否属于同一物种。为了有助于建立条形码数据库,来自多家研究机构的研究者已经开始汇总大量组织标本,并在能确保DNA完好无损的条件下保存。
记录如此之多的标本及其序列信息,本身就是一项工程学挑战。但这一过程已开始着手进行,一个名为生命数据条形码系统(Barcode of Life Data Systems,简称BOLD,网址为www.barcodinglife.org)的公共数据库正在建立。目前,BOLD已有46万多条记录,涵盖了动物界46,000多个物种,有关鸟类、鱼类、蝴蝶以及蛾类的记录尤其详细。每一条记录都包括了物种名称、条形码区序列、采集地点、对照标本链接、图像信息以及其他生物学数据。许多研究机构为了建立这一巨大的数据库付出了相当多的努力,为了协调这些工作,生命条形码协会(Consortium for the Barcode of Life,简称CBOL)于2005年成立。该协会包括45个国家的150家研究机构,这些机构支持将DNA条形码作为鉴定物种的国际标准。如今记录的搜集汇总工作正在国际生命条形码计划的框架下进行,有25个国家加入这一计划,目标是到2014年,搜集记录来自50万个物种的500万件样本。
DNA条形码的收获
正如E·O·威尔逊(E. O. Wilson,美国著名生物学家,主要以蚂蚁为研究对象)指出的那样,尽管已付出了250年的努力,我们依旧不清楚地球上生活着多少物种,甚至连大概的数量级也是个未知数。DNA条形码已经加快了生物多样性的分门别类。一个重要发现是,由于划分标准较以往更加精细,物种的数目比此前科学家所认为的要多很多。DNA条形码提供的新信息揭示了隐藏物种的存在,有些生物看起来难辨你我,但遗传差异表明它们是不同的物种。
到目前为止,在每次集体研究时,DNA条形码调查都能发现保藏于博物馆展柜中的新物种。例如赫伯特、丹尼尔·詹曾(Daniel Janzen,美国宾夕法尼亚大学生物多样性生态学家)、约翰·伯恩斯(John Burns,美国史密森学会分类学家)以及他们在哥斯达黎加的合作者发现,此前曾被视为同一物种的名为Astraptes fulgerator的弄蝶(skipper butterfly)实际上至少可分为10个物种(如上图所示)。由于这些昆虫的成年个体极其相似,科学家们以前并未意识到它们在遗传上是如此不同。与此类似,加拿大安大略省生物多样性研究所的亚历克斯·史密斯(Alex Smith)与其同事发现,一类寄生于不同昆虫中的蝇类,此前利用形态学进行分类时被分为3种,但实际上有15种之多,每种蝇类只会寄生于少数固定的宿主身上。施特克勒的研究工作表明,即便如北美鸟类这样研究详尽的种群,仍然有大约4%的已命名物种存在遗传上不同的谱系,这意味着它们可能属于不同的物种。
最令人惊讶的初步发现是,在大多数动物中,线粒体的遗传多样性非常之低。这一发现与种群遗传学理论(population genetics theory)的预言相反,该理论预言年代更久远和更大型的种群具有更多的多样性。科学家通常认为,低突变水平表示这一种群近期处于发展瓶颈期。例如在人类种群中,几乎没有线粒体突变,科学家认为这表明15万年前生活在东非的早期人类濒临灭绝。根据夏娃假说,所有现代人类的共同祖先都可追溯到当时的一位女性,即所谓的线粒体夏娃(mitochondrial Eve)。研究发现,线粒体遗传多样性较低是一条放之动物王国而皆准的法则,这向夏娃假说提出了质疑,并且提出了一个更大的悬而未决的科学问题:什么力量限制了物种内的线粒体多样性?我们和其他一些科学家相信,核酸序列变化程度一贯保持较低水平,反映了频繁的“选择性删除”(selective sweep)现象的存在,即更具优势的新突变取代了源自祖先的旧版突变,“削平”了种内多样性。
到目前为止,我们的研究显示DNA条形码可以加速生物多样性调查的进程。然而事实上,对新物种的正式描述仍需耗时数年方能完成,因此序列数据的产生速度会远远超前于物种的官方描述。我们将DNA条形码视为一张绘有DNA多样性图谱的地图,能为今后的细节性研究工作建立一个框架。就像航拍(aerial photography)技术兼具速度快且成本低的优势,使它取代了田野调查(ground survey)成为土地分析工作的首选工具。与此类似,DNA条形码在物种发现的前期工作中,也是一项快速和相对廉价的方法。将DNA条形码与传统分类手段结合起来仍需时日,这种结合能够提供一个整体视角来审视地球上过去生存过和现在仍然生存的生命,帮助我们将生命的全部辉煌壮美引领至新的时代。
请 登录 发表评论