我们收集了一封连锁信的33个版本,时间跨度从1980-1995年。这个时期,复印机早已普及,但电子邮件尚未在大众中流行。连锁信从一个人到另一个人,不断地传递,在这一过程中发生演化和突变,而且它的平均长度约为2千个字符,所有这些都与基因相类似。连锁信通常会恐吓说,如果你中断传递,你就会有性命之虞,迫使你把它又转寄给你的“朋友和同事”。有的连锁信据说可传播达百万人之多,从这一点看,它们又像凶恶的病毒。连锁信还许诺说只要你照信中吩咐去做,你和你的下家都会大吉大利,这一点颇像生物性状的可遗陛。连锁信也会经历自然选择,有时各个部分甚至会在并存的“物种”之间传递,这一点又与基因组异曲同工。不过,连锁信明白易懂,这倒与DNA有天壤之别。事实上,正因为连锁信好懂,所以它特别适用于在课堂上讲授系统发育学(进化史),这样学生们就可以摆脱令人头痛的分子生物学术语了。
连锁信是一种有趣的社会现象,但我们对它感兴趣,是因为可以把它当作工具,来检验分子生物学的某些算法,如根据现有生物的基因组来推断系统发育树。我们认为,如果这些算法是可靠的,它们在用于连锁信时,就应当得出满意的结果。我们开发了一种有很强通用性的新算法,可广泛用于连锁信这类问题,效果比传统的标准算法要好。这一算法最初是为分析基因组而开发的,但它也被用来分析语言,甚至检查学生作业有无互相抄袭现象。无论什么事物,只要涉及到符号串,都可以成为该算法分析的对象。利用这一算法,我们重构了那33封连锁信的进化史。
像病毒一样
为方便起见,我们把这些连锁信从L1到L33随意加以编号。这些信之间的差异十分显著,它们的标题有15种,信中提到的“一位办事员”有23个不同的名字,而连锁信的始作俑者则有25个名字。拼写错误、句子换位以及增删短语、句子和段落的情况比比皆是(下一页展示了其中典型的一封连锁信,并示出了一些版本变化的情况)。几乎所有的连锁信都是打字稿的复印件,字迹或多或少有些模糊。据此我们推测,各封信之间的差异是间歇出现的:一封信经过若干代复印之后,字迹便模糊得难以辨认了,这样下一位收信人就会把信重新打印,从而可能产生错误和变异。
我们收到的这些连锁信绝大部分都只出现一次,只有L4、L6和L22在收到第一封信几个月后,第二封又接踵而至。除了这33封英语连锁信外,我们还收到法语连锁信4封,荷兰语和德语连锁信各1封(但未把这些信纳入我们的研究范围),它们与英语连锁信显然出自同一人之手。
为了发现这些连锁信,我们把每封信重新输入成计算机文件,全部使用小写字母,略去日期和旁注,既不分行也不分段地一直排下去。这样每封信就变成了一个连续的字符串。
在运用新算法之前,我们先用一种称为“多重吻合”(multiple alignment)的方法来分析这些连锁信。研究人员广泛运用这种方法研究基因,以推断其系统发育树,而我们则是尽可能地找出所有连锁信之间完全吻合的段落。任意两封信之间吻合的程度,称为“相似度”,我们在获得相似度数据之后,据此用另一个算法构造出进化树。遗憾的是,多重吻合法只能找出按相同顺序排列的符号串,遇上句子顺序重排的情况便一筹莫展,而L12和L26正是这样。同样的道理,这一方法对单一基因,比对整个基因组的效果要好,而基因组内发生位置改变的情况却更为常见。
我们尝试去掉L12和L26之后,再对剩下的31封信使用多重吻合法。即使对于这样一组精简后的连锁信,多重吻合法分析的结果看来仍然不太对——它把L6、L7和L13列为亲缘关系密切的一类。之所以会出现这一错误,是因为这3封信全都比较短,因此它们的不同之处也就比较少。遗传学中也会出现类似的问题:只是统计差异的多少而不管基因组的长度,结果往往会高估短基因组之间的相似度,而低估长基因组之间的相似度。合理的相似度指标,应当使短基因组中较小的差异,比长基因组中较小的差异有更大的权重。
因此我们转而着手设计自己的相似度指标,它能够分析基因组、连锁信或其他任何可以用计算机文件形式存储的数据。我们希望新的相似度指标对于位置改变之类比较简单的变化不敏感,因为这种变化给信息相似度造成的损失是微不足道的。为了解决长度问题,新指标规定,不论长度如何,两个完全不同的文件相似度为零,两个完全相同的文件相似度为1。
衡量一个数据文件有多大的信息量的天然指标,不是它的原始长度(以位表示),而是它能够被压缩成的最短长度。压缩程序(如Zip或StuffIt等)搜索数据文件中最常见的各类冗余信息(例如重复的短语)并压缩掉,这样就得到一个长度缩短了的文件,而在必要时程序又可以根据压缩后的文件完整地重构出原始文件。
如果我们把两个文件压缩在一起,使它们都可以从压缩后的文件还原,就会出现有趣的情况。如果这两个文件根本没有相同的信皂那么它们的联合压缩文件的长度将与两个单独的压缩文件合起来一样大。但是如果这两个文件含有某些相同的信息,那么高水平的压缩程序将会发现它们的信息有重复,这样联合压缩文件的长度就可以缩短。因此,我们可以把联合压缩文件的长度与两个单独的压缩文件长度之和进行比较,其结果便可以作为衡量这两个文件相似程度的指标。
但是对于我们的目标来说这一指标还不够好,因为两个较长的文件其相似度通常比两个较短的文件要大。为了消除这个问题,我们定义了“亲缘度”(relatedness)指标,亲缘度为两个文件的共有信息所占的比例,也就是两个单独压缩文件长度之和超过联合压缩文件的长度的百分比。根据这一定义,无论文件的长度为多大,亲缘度均在0到1之间(两个完全无关文件的关联度为0,两个完全相同文件的关联度为1,即100%)。
我们应当使用何种压缩程序呢?显然我们的亲缘度指标值取决于所采用的压缩程序。较理想的是采用能把文件压缩得尽可能短的程序。这种用极限可压缩性来定义的信息量指标研究,构成了信息理论的一个有趣分支,即算法信息论或柯尔莫哥洛夫复杂性理论(理论的创始人之一为俄罗斯已故数学家安德烈·N·柯尔莫哥洛夫)。遗憾的是,信息理论家业已证明,这种理想的压缩程序,需要几乎无限长的时间才能完成压缩任务。因此,我们决定采用一种特殊的压缩算法,名为Gen Compress,此算法系美国加州大学圣巴巴拉分校的Xin Chen所开发。Gen Compress是为分析基因组而设计的,在用于基因组时效果相当好。下面我们将会看到,它在用于连锁信时效果也不错。
针对一组连锁信,用Gen Compress程序来计算每两封信之间的亲缘度易如反掌,而且这一过程是完全自动化的。下一步就是把亲缘度数据转换为进化树,此过程也基本上是自动完成的(有许多软件包可实现这一转换)。所得结果可以是如67页所示的简单树形图,其各分支的长度是任意规定的,只能定性地显示它们之间的遗传关系;也可以是一种较为复杂的树形图,其分支长度定量地反映了亲缘关系的密切程度。
无论哪种情况,研究人员应该做的,主要就是确定进化树树根的位置(树根代表所有连锁信或物种假想的共同祖先)。对于生物的系统发育,树根代表的是生活在千百万年以前的现已灭绝的物种,因此它与表示现代生物的那些分支不会有太密切的亲缘关系。而在我们的研究中,连锁信是在15年的时间中收集起来的,其中某些连锁信的日期接近这段时间的开头,因此我们决定把树根置于这些信中的一封(Ll5)的附近。遗憾的是,在收集的过程中,绝大部分连锁信的邮戳或收信日期没有记录,因为在开始时,我们只不过把它当成一项业余消遣而已,只是到后来才变成了一个严肃的科研课题。
连锁信与进化史
在我们推断出来的连锁信进化树中,具有相同特征的连锁信总是聚集在一起,从这个意义上,我们可以说此进化树代表了一个几乎“完美无缺”的发展过程。在构造出进化树后,我们就可以利用它来对这些连锁信的演变过程作出种种推测。
首先我们判定,在进化树中C点之前的连锁信是年代最久远的[见65页图]。这一判断的主要依据在于,Carlo Dadditt这个名字以及该信的标题在这一组信中是变异最多的。我们认为在年代最久远的信中这样的错误更为常见,因为当时复印机的普及率还比较低,对连锁信重新打字的情况较为普遍。此外,在14封注明了日期的信中,有两封(L4和L15)属于C点之前,而这两封也正是14封信中年代最久远的。这些较老的信全都以宗教祈祷语为标题,都来自“荷兰”,并且都有“连锁信的传播不应因任何理由而中断”这句话。
接下来,我们发现了一种分子生物学中早已熟悉的现象。在分子生物学中,基因组的各个不同部分的突变率可能有巨大差异。酶的活性位点几乎不发生突变,而那些远离活性位点的部位则持续不断地发生随机漂移。无独有偶,对于连锁信来说,那些为保持连锁信的“活力”而必不可少的主要部分不会发生突变,而那些比较随意的部分,如警告收信人说如不把连锁信传播下去就会大祸临头之类的恐吓语,发生的突变就比较多。连锁信中有的词语没有明确意义,例如Gem Walsh和Carlo Craduit之类古怪的名字,这些地方发生的突变是最多的。
连锁信中出现的另外一种生物学现象,就是有些突变具有连带关系,也就是两个突变在各自单独发生时将起有害的作用,必须同时发生才能变成无害或有利。例如,C点之前的所有连锁信(除开邻近的L29以外)在宣称有人死于非命时是这样说的(不包括Ll2和L26,这两封信中未提及有人一命呜呼):
General Welsh(or a variation) lost his life… however before his death…
[Welsh将军(或某个变异名字)不幸命丧黄泉…不过在他撒手人世之前……]
而C点之后的信却是这样说:
Gene Welsh(or a variation) lost his wife… however before her death...
[Welsh将军(或某个变异名字)痛失爱妻……不过在她撒手人世之前……]
由此可以看出,当life(生命)变成wife(妻子)时,his(他的)也随之变成her(她的),这样才使上面这段话前后讲得通。
洞察抄袭现象
除了分析连锁信以外,我们的亲缘度指标也被用于其他多种场合。对于生物信息学本身,我们用亲缘度指标分析了18种哺乳动物的线粒体基因组。线粒体是细胞内产生能量的细胞器,它的基因是仅从母亲一方遗传下来的(这一点同“单亲”遗传的连锁信颇有几分相似)。由于不存在母本基因和父本基因重新组合的过程,因此线粒体基因组中突变的积累就起着时钟的作用,可以测定一种生物的祖先是从何时起与亲缘物种分道扬镳的。
传统的分析方法在用于不同的线粒体基因时,往往得出互相矛盾的进化树。而且,许多方法由于位置移动之类的问题而无法成功地用于整个基因组,在这一点上它们也不如我们推出的新指标。例如,使用传统的方法进行分析时,约有6个线粒体基因得出的结果是灵长目动物(例如我们人类)同啮齿动物的亲缘关系,比同野有蹄类(ferungulates)的亲缘关系更密切(后者是范围相当广泛的一类动物,包括牛、马、鲸、猫和狗等)。另外6个线粒体基因得出的结果则是灵长目动物与野有蹄类之间的亲缘关系更密切。鉴于有其他多方面的证据(例如非线粒体的基因以及化石资料等)支持此结论,因此人们一般认为它是正确的。当把我们的方法用于整个的线粒体基因组时,它便很自然地得出了这后一种进化树,不需要临时编造什么假设或进行任何修补,来解决模糊或矛盾的问题。
罗马La Sapienza大学的Dario Benedetto、Emanuele Caglioti与Vittorio Loreto大胆地把进化树推断的技术发展到极致,他们在推断人类语言的进化树时另辟蹊径,不是去分析那些语言已知的文学作品和历史,而只是用一种与我们的方法相类似的方法来分析“世界人权宣言(Universal Declaration of Human Rights)的52种译本。这一分析的结果相当令人满意。特别是考虑到这种依赖的证据少得可怜,此结果之好简直是出人意料。一个比较引人注目的缺陷是它把英语列入拉丁系语言,与法语有较近的亲缘关系,而实际上英语是在日耳曼语系内演变的。之所以会出现这样的错误,是因为在诺曼底征服之后英语吸收了多得不计其数的法语词汇(这是同时转移现象的一个实例)。
我们的亲缘度指标还有一个用处——查出学生作业中的抄袭现象。这方面的例子之一是,某个计算机编程班的两份作业用我们的方法分析后被判定有过份雷同之嫌,但教师自己在检查这两份作业时看不出有任何明显的抄袭证据。教师询问了这两位学生,并且从有利于研究的角度考虑,答应他们只要坦白承认是否合作过便可免于抄袭的罪名。显然这两位学生讨论过这个问题,并且讨论过打算如何解决它,但他们之间的合作仅限于此。如果情况真是如此,那么他们的作业经过这种讨论后其相似之处应该是很难察觉的,但我们的距离算法连这种不易看出的相似性也检查出来了!
我们的方法是完全自动化的,这一点既有利也有弊。有利之处是它可以给出客观的结果,不需要权衡各种各样的证据(例如权衡DNA证据与化石证据),也不需要考虑基因组的哪些部分突变最快。不利之处在于它将无法利用这些额外的证据可能给我们带来的认识。所有的进化树推断法都存在这样那样的缺陷,有时会错误地推断出与历史上实际发生的过程相左的进化树。同历史学家和古生物学家一样,进化分子生物学家现在也开始承认这样一个事实:不论他们考虑多少方面的证据,他们都永远不可能重构出过去事件的整个实际情况。在涉及到灭绝物种时情况尤其如此。许多一度在地球上生存过的物种永远也不会为人所知,因为它们既没有留下化石,也没有留下后代。与此相仿,甚至就在过去的一个世纪中,也有许多语言遭到灭绝的厄运,消失得无影无踪,连一丝痕迹也没有留下。
至于连锁信,可以肯定的是,由于众多收信人不愿意继续传播下去,一些连锁信最终将消失。同古希腊悲剧作家索福克勒斯失传的剧作一样,这些连锁信的内容可能永远也不会重现于世,甚至连它们的存在也只能根据某些间接证据加以推测,正如加州的失业和高档汽车修理,在没有任何明显理由的情况下突然暴增。
请 登录 发表评论