假如你在编写一份报告,而截止日期又迫在眉睫,你隔壁的合作者拥有你报告所需的信息。她将这些信息用电子邮件发给你,不过这些信息出自电子表格程序,而你手头只有WPS,因此你不可能通过剪贴操作将信息加入你的文件中去。你不得不从头全部打印和录入。
如今生物学家们的处境也就是这个样子。生物信息数据库多得很,后基因组序列测定时代尤其如此,但是众多研究人员就像渴得受死的水手置身于汪洋大海之中,他们急需的水就在跟前,但此种水就是不能随意饮用。
有鉴于此,来自生物技术行业和制药公司的科学家和研究人员组成了一些团体,它们携手合作为生物信息设计计算机标准,以便生物学家能够更轻松地共享数据并充分利用来自人类基因组计划的大量信息。这些组织的目标在于让研究人员不仅能够全面浏览众多的DNA序列数据库和由这些DNA编码的蛋白质三维结构数据库,而且能够更加有救地搜索这些数据库。举汽车为例,如果你键入“Camaro”,结果还将包括其他轿车,因为该系统非常灵通,足以知道Camaro是另一种轿车。
立竿见影的结果将是更快地开发新型药物。马萨诸塞州坎布里奇市千禧制药公司信息副总裁Tim Clark说,“就我所知.制药研究是成果不断下降的唯一领域。研发工作处于原始的手工阶段,跟家庭作坊编织没有二样,尽管早在产业革命时期随着可互换部件的发明.标准化就成了首先被解决的问题之一。”
问题在于使用什么标准。现在的情况足人人都主张采用自己的标准,颇象20世纪70年代计算机行业的情形。各种止式组织征世界各地不断涌现.例如生物学路径联合组织、目标管理集团生命科学研究领域攻关组以及生物学一本体论联台组织等等,它们的思路各不相同。生物学一本体论和生物学路径两组织的成员、神经科学家Eric Neumann现任马萨诸塞州坎布里奇市第三千禧(与千禧制药公司无关)咨询事务所生命科学信息副总裁。他说可扩展标识语言(XML)正在发展成生物信息学的标准计算机语言。XML是超文本标识语言(HTML)的发展,后者目前是万维网的驱动器(参见本刊1999年8期《XML与第一二代网》一文)。
XML的优点之一是,它包含根据每种信息的类别来识别信息的标识符, 比如说“camaro”.就会被标识为轿车。Neumann队为,以XML为基础的语言将“突出牛物学信息的网络性质”。生物学信息内容非常广泛,如DNA、信使RNA、蛋白质、蛋白质问相互作用、生物化学路径、细胞功能以及有机生命整体的行为等等当前生物信息存储和检索方法的重点集中于单个基因,“但是我们要对付的疾病所涉及的远不止一种基因。”Neumann如此指出。
Clark指出,生物信息学面临的主要问题是浩瀚的数据、对先进模式识别(比如DNA序列和蛋白质结构域的模式识别)的需求、处理信号以消除数据“噪音”的能力以及组台最优化(即通过迷宫般的分子相互作用寻找最佳路径)这些问题使制定标准成了不可少的一项工作。他断定,“单靠个人的力量是不能完成全部任务的。”
Neumann认为组台最优化可能是最难以逾越的一道槛。“路径比DNA序列复杂得多。如果我们不干出点名堂来,那就将成为真正的蠢蛋。”
请 登录 发表评论