6年前,蒂姆·伯纳斯-李(Tim Berners-Lee)、詹姆斯·亨德勒(James Hendler)与奥拉·拉西拉(Ora Lassila)合作,在《科学美国人》上发表了一篇文章,介绍语义网(Semantic Web)这个刚刚崭露头角的设想——语义网是一种高度互连的数据网络,这些数据可以被现有个人电脑或手持数字设备轻松地查阅和解读。蒂姆等人为我们勾画了语义网的美好前景,各种基于语义网的智能代理软件将在万维网上大显身手:可以为我们的出行预订航班和酒店;可以更新我们的病历记录;也可以为我们的疑难问题提供简明扼要而又十分精确的答案,这样我们就无须四处搜寻信息,更不用在海量的搜索结果中逐个筛选了。
要实现上述美好前景,还需若干新技术的支持:首先要有一种表达数据的通用语言,它必须能够被各种代理软件所理解;要有实用分类系统(ontology,即若干组语句或本体),它可以把来自不同数据库的信息转换成通用术语;还有就是规则,这是代理软件在对术语描述的信息进行推理时必须依据的。数据格式、实用分类系统和代理软件就像一个大型应用程序一样在万维网上运作,对网络数据库中的所有原始资料以及网络上的所有文本、图像、视频及通信数据进行分析。与万维网自身的成长经历相仿,语义网的发展壮大也依赖于普及,只不过它的发展将得到万维网联盟(World Wide Web Consortium)各个工作组的大力支持。
自语义网的设想面世之后,怀疑者一直声称,语义网过于玄妙莫测,人们很难理解它,更谈不上利用。但事实证明并非如此。语义网所依托的各项技术已日趋成熟。一个由早期语义网用户组成的团体通过协商,已制定出各项标准,逐步使语义网的应用变得切实可行;一些由大型公司推出的语义网重点工程正在实施之中,这些项目有望大大提高公司内部运作和科学研究的效率;其他一些机构也正运用语义网来强化各企业之间的互动,并打造隐藏在新推消费服务背后的数据处理结构(即后台);这项庞大的工程也开始应用在直接消费领域。
什么是语义网
语义网与万维网并无太多不同,它只是一项旨在增强万维网效能的工具,能够极大地扩展万维网的实用性。专注于某一领域或某个行业的人群,无论是研究基因的学者还是街头的嘻哈一族,都会制定出统一的方案来表达他们所关注的信息,语义网由此应运而生。随着越来越多的群体开发出这类方案,语义网工具便可帮助他们把各自的方案联系起来,并实现术语转换,逐步使越来越多的人和群体所用的网络软件能够自动互相识别。
最引人注目的实例,可能要算已经在网络上大行其道的标签系统(tagging system)了,不过它的应用范围还比较有限。美味书签(del.icio.us)、掘客(Digg)、出版商使用的数字对象标志符(DOI)系统,以及MySpace和Flickr之类的网站上使用的各种自定义标记组,都是标签系统的实例。借助这些标签系统,人们可以选择统一的术语来描述他们在某些网站上搜寻或发布的信息;反过来,这些工作又使网络程序和浏览工具能够找到、并大致理解贴上了标签的信息,比如说,在Flickr网站上找出所有在太平洋沿岸拍摄的日落和日出风景照片。但是一个系统内的标签在另一个系统上不起作用,即使同一个术语(例如“昂贵的”)也不行。因此我们无法简单地扩展这类系统,使它能够分析网络上的所有信息。
不过,万维网联盟已经发布了跨系统运行所需的语义网语言和技术,而且已经在一些大企业中得到应用。英国电信集团就构建了一个网上原型服务项目,协助众多经销商更加高效地合作开发新产品;波音飞机公司正在探索语义网的相关技术,以便更有效地整合参与飞机设计的所有合作伙伴的工作成果;雪佛龙公司则在试验各种方法,管理电站和炼油厂的生命周期;Mitre公司打算运用语义网工具套件,帮助美国军方阐释护送任务的交接规则;英国陆军测量局(Ordnance Survey,英国国家测绘机构)则在内部使用语义网来辅助制作地图,不但能提高地图精度,而且节省了费用。
还有一些公司目前正致力于借助语义网改进消费服务的后台运作。沃达丰公司的多媒体门户网站Vodafone Live!为用户提供手机铃声、游戏和各种移动服务,就采用了语义网技术,大大加快了用户下载的速度;美国著名月刊《哈泼斯杂志》(Harper’s Magazine)在自己的网站上,用语义实用分类系统注释时事一览表,使它们能自动链接到介绍这些时事背景的文章;免费网络电视网站Joost则借助语义网软件,管理观众在线使用的电视播放时间表和节目指南。
消费群体也逐渐开始直接使用数据语言和实用分类系统了。一个名叫“朋友的朋友”(Friend of a Friend,缩写为FOAF)的网络系统就是代表。FOAF是一个分散型的社交联系网,完全靠大众路线发展起来。热心网友已经创建出一份语义网词汇表,用于描述人们的姓名、年龄、住址、职业和相互间的关系等,或者发掘他们共同感兴趣的东西。FOAF用户可以按自己的喜好,用任意格式发布信息和图像,这些数据全都能实现跨格式的无缝连接——MySpace和Facebook等网站就无法做到这一点,因为它们的字段不兼容,而且不能转换。已经有超过100万人实现了各自FOAF文档的相互链接,其中就包括两个当红博客网站LiveJournal和TypePad的用户。
这些实例表明,人们正朝着打造语义网的目标前进。在这个网络中,不论项目内容是文档、照片、标签、金融交易、实验结果,还是抽象概念,所有的在线信息之间都可以建立关联。我们用名为“资源描述框架”(Resource Description Framework,缩写为RDF)的数据语言给每个项目和各项目间的关系命名,使电脑和软件能够自动交换这些信息。语义网使用的各种技术,包括实用分类系统,以及用来建立这些关系并进行查询、分类和推理的其他一些技术,使它的功能更加强大(参见第59页插文)。
如此一来,语义网就可以让不同公司的员工使用自己的数据标签,而无须硬行规定全行业统一的标签。语义网能够理解数据库1的术语“X”与数据库2的术语“Y”具有相同的意义。而且,如果数据库1的内容有了任何变化,其他数据库以及数据整合过程本身就会识别新的信息,并随之自动更新。借助于语义网,所谓的“推理程序”——能够自动找出各数据源之间关系的软件,也就有了用武之地。
因为有了HTML和XML语言,万维网得以发展壮大。与此类似,RDF语言以及使用该语言的各种实用分类系统,使语义网日趋成熟,商家也正在推广以此为基础的各种应用。IBM、惠普和诺基亚等业界巨头正大力推进开放源程序语义网框架,这是一套用于打造完美程序的通用工具;甲骨文公司(Oracle)旗舰级商业数据库10g已经支持RDF语言,全球有数千家企业在使用这种数据库,而即将面世的升级产品——11g,还会加入其他几项语义网技术;Adobe公司风靡一时的各种绘图程序(如Photoshop),最新版本也将使用相同的技术来管理照片和图像。一些较小的商家,诸如Aduna Software、Altova、@semantics、Talis、OpenLink Software、TopQuadrant以及Software AG等,则推出了各种语义网数据库程序和实用分类系统编辑程序,这些程序与曾经推动万维网蓬勃发展的HTML浏览器和编辑器相仿。如今,语义网网站已经可以用Java、Perl和C++等主流计算机编程语言来建设。
我们仍致力于寻找一条合适的途径,实现由代理软件自动为我们处理日常生活这一美妙的设想。但语义网最大的进步,是在生命科学和医疗保健领域中取得的。这些领域的研究人员,在工作的每一个阶段,都会面对大量的数据整合任务。下面介绍几个案例,那些由先驱们打造的真实系统,将让大家体会到语义网的功能究竟是何等强大。
案例研究1:药物开发
传统用药模式的弊病之一就是“以不变应万变”:有高血压怎么办?服用阿替洛尔。有焦虑症怎么办?服用安定。
然而,每个人的基因序列都是独一无二的,物质生活和精神生活环境也各不相同,因此用药效果也不一样。现在,研究人员开始把生物学和药物活性认识方面的巨大进展,与各种预测工具相结合,判断对某一位具体的患者来说,哪些药物(以及多大剂量)会产生较好效果。这类预测将使“对症下药”真正成为可能,使病人能够得到个性化药物治疗。
我们面临的挑战是,要用某种方法把令人眼花缭乱的数据组合在一起:包括每个人的所有病历,涉及众多药物、药物试验、潜在副作用和其他患者用药效果等内容的各种科研报告。传统的数据库工具无法完成这样复杂的任务,采用人工整合的方式,又会产生非常高昂的费用。甚至仅仅是维护如此大量的数据,都会非常困难,因为当某个数据源更新时,其他所有与之链接的数据源都必须一个一个地重新整合。
美国辛辛那提儿童医院医学中心的一个研究团队,正在利用语义网的功能寻找导致心血管疾病的潜在遗传因素。传统的方法,是在正常组织和病变组织中,搜寻表现不同的基因,因为研究人员认为,这些基因可能对病变的产生起到某种作用。此类搜寻工作往往会把数十乃至数百种基因列入“嫌疑”名单。对于每一种可能有问题的基因,研究人员都必须仔细地检索四到五个数据库,辨别哪些基因(或基因所编码的蛋白质)最有可能对心血管疾病的生理过程产生影响。这项工作非常艰苦,研究人员常常经不起这样漫长的折腾,致使整个工作不了了之。
辛辛那提的研究团队中,有一位语义网专家。这个团队首先把保存着相关资料的数据库下载到一个工作站中——这些资料来源各不相同、格式也互不兼容。这些数据库包括Gene Ontology(保存着有关基因和基因产品的数据)、MeSH(重点保存疾病与症状的资料)、Entrez Gene(收集以基因为核心的信息)以及OMIM(人类基因与遗传疾病数据库)等。研究人员把资料的格式转换为RDF,存储在一个语义网数据库中。再使用两款免费语义网软件——美国斯坦福大学开发的Protege和惠普实验室开发的Jena,将这些数据整合在一起。
接下来,研究人员利用一种排序算法,对可能与心脏功能有关的数百种基因进行排序(这项排序算法类似于谷歌排序搜索结果的网页所用的算法),发现了一些可能诱发扩张型心肌病的基因。研究人员用该软件对排序信息进行评估,并评估了这些基因跟扩张型心肌病或类似疾病的特性和症状的关系。这种软件鉴别出四种与某染色体区域高度相关的基因,这一区域可能对扩张型心肌病有致病作用。研究人员正在研究这些基因突变的作用,新的治疗方法很可能以它们为作用目标。研究人员还把语义网系统用在了其他心血管疾病的研究上,期待它能够显著提高研究效率。
无独有偶,美国药业巨头礼来公司的资深研究人员,也在借助语义网技术,对治疗特定疾病的最有效药物进行完整描述。运用语义网工具,他们把众多本来互不兼容的生物学描述汇编成一个统一的文档,大大加快了寻找下一种突破性药物的速度。另一个药业巨头辉瑞公司则依靠语义网技术,把有关蛋白—蛋白相互作用的各个数据组互相关联起来,揭示那些不容易被人发现的相关性,寻找具有潜力的新药物。研究人员相信,这些技术将大大提高我们发现新药物的机会,加快新药物推向市场的速度,并促进整个制药行业向“个性化药物”转变。“这正是语义网可以助我们一臂之力的地方,”设在马萨诸塞州坎布里奇市的辉瑞研究技术中心信息技术团队负责人贾尔斯·戴(Giles Day)如是说。
上面的例子证明,语义网可以把来源各异、类别繁多的海量数据有机整合在一起,从而改进研制药物的工作。与此类似,消费服务行业也在利用语义网开拓新的业务。英国Garlik公司就用语义网软件,比较以前互不兼容的数据库,警告用户他们的身份可能会被黑客盗用。这家公司从互联网上各个地方获取截然不同的个人身份信息,并利用常见的词汇表和规则把这些信息整合起来,就可以向用户提供一份清楚的网上身份评估报告,内容有时会令用户大吃一惊。
案例研究2:医疗卫生
医疗卫生行业中,信息密集程度非常高,与制药业相比也毫不逊色。2004年,美国休斯敦市得克萨斯大学卫生科学中心,启动了一项名为SAPPHIRE的工程,以改进对突发公共卫生问题的监测、分析和反应能力。这个系统把来自地方医疗卫生机构、医院、环保部门以及科学文献的各类数据整合起来。借助这一系统,负责卫生事务的官员能够透过不同的窗口对相关信息进行评估,例如跟踪流行性感冒的蔓延,或跟踪HIV患者的治疗。
每10分钟,休斯敦市区及郊区的8家主要医院,就会向SAPPHIRE系统发送急诊室病例报告,包括患者自述症状、最新的电子健康档案和临床记录等。这些医院急诊室的就诊量占了该地区急诊室总就诊量的30%以上。语义网技术再将这些信息整合成关于这个地区当前健康状况的统一描述。这个系统的关键技术是一个实用分类系统,它的任务是把具有流感症状(如发热、咳嗽、喉咙痛等)的不明疾病列为疑似流感病例,并自动上报给美国疾病预防与控制中心(CDC)。以前,这些报告需要9名护士人工书写,现在SAPPHIRE系统会自动生成报告,就可以节省大量时间和人力。此外,这个系统呈交报告的时间也比以前早了2~3天。CDC目前正在协助美国各地的卫生部门开发类似系统,以取代那些已经沿用了数十年之久、没有统一标准、冗长繁琐的纸质文档。
语义网技术灵活、智能的优点,使SAPPHIRE系统在其他环境下同样能够高效运转。2005年,卡特里娜飓风来袭,大批被疏散的民众涌入休斯敦市的临时避难所,公共卫生官员担心会因此引发流行病。在临时避难所开放8小时后,得克萨斯大学卫生科学中心的人员就对SAPPHIRE系统进行了适当配置,以对疾病控制提供帮助。他们给公共卫生官员配备了加载有健康调查问卷的袖珍手持式电脑。难民们的答卷被上传到SAPPHIRE系统,系统则把这些答案、难民区急诊室的数据和休斯敦卫生局驻现场流行病学专家的监测报告整合起来。根据这些资料,SAPPHIRE很快就弄清了胃肠道、呼吸道及结膜炎等疾病在飓风幸存者中蔓延的情况,极大地节省了时间。
SAPPHIRE优良的适应性显示了语义网系统的优势:一旦针对某个普遍性问题(比如公共卫生情况的上报)设置了语义网,它就能迅速适应该领域的各种不同场合。正因为如此,CDC有意仿照SAPPHIRE的模式,打造全美统一的综合性疾病警报系统。
SAPPHIRE系统之所以大获成功,是因为它可以把来自各方的信息融为一体,并应用于不同场合。FOAF系统在民众中的快速发展也依赖于这一优势。该系统利用统一约定的语义网词汇表,来寻找网民共同的兴趣爱好,即使他们分别属于不同的交友网站(如MySpace或Facebook)。FOAF狂热者们目前还在积极发展“语义信用网”,也就是建立一份受信任发送者的“白名单”,以此来对付垃圾邮件。
跨越界线
SAPPHIRE和其他应用系统的成功,使得要求把语义网进一步融入卫生保健事业的呼声越发高涨。美国食品及药品管理局(FDA)和美国国立卫生研究院(NIH)最近都宣布,为了改进药物的开发与运输过程,必须加强对跨系统数据转换的研究。
这一研究工作也将使医务工作者使用的传统型计算机辅助医疗决策支持系统(CDS系统,即存储最新治疗知识的数据库)得到升级。以前,每家医院、每个医疗网站以及每家保险公司都必须为用户定制设计专用系统,还要花费很多精力维护、更新。每当诊断、治疗方法或药物安全等领域取得新的进展时(这类进展是时常出现的),管理员就必须改进系统。此项工作需要花费大量的人工和时间,通常远远超出大多数单位所能承受的范围。此外,各个专用系统往往互不兼容,要取得全行业的共同认识或解读出最佳方案,会非常耗时和艰难。美国波士顿合作伙伴医疗系统公司(Partners HealthCare System)首席信息官约翰·格拉泽(John Glaser)也表达了自己观点:“传统的数据整合、知识管理和决策支持方法已经远远落后,即使扩展其规模也达不到个性化医疗服务所需的水平,因此我们正打算引入语义网技术。”
为了改善这种状况,Agfa健康医疗机构构建了一个以语义网技术为基础的原型——CDS系统。如果人为改变某个系统中的某一部分,该系统其他各部分的资料或另外一个机构系统中的资料也会随之自动更新。例如,Agfa的原型系统把标准的放射医学协议转换为语义网表示法,并将它们与其他常用的知识库(例如各医学学会提供的临床指南)整合起来。各个机构的系统可以在机构内部使用自有标准,但医院等终端用户能够轻松地把新内容整合进入系统,从而大量节约劳动力。
随着Agfa之类的系统在医疗卫生网络中的运用,医学知识库的智能化程度和易用性与日俱增,而费用则不断下降。假设有一位容易出现血凝块的患者,在他体内检测出一种遗传突变,而根据现有的医学文献,这种突变对一种新的抗凝血药物显示出良好的响应。但几个月后,新的研究发现,此突变的某种特殊变异体会导致该抗凝血药物产生适得其反的效果,使血凝更加严重。因此,必须及时通知医生,凡是带有这种变异体的患者,都必须改变治疗方法。然而,数百万患者所患的几百种疾病涉及上千种基因,如何才能把通知有效送达呢?可以说,应对这一挑战,必然要依靠语义网技术。
日常应用
语义网技术改变了药物开发和医疗卫生事业的传统模式,并在更多的领域中发挥着重要的作用。“科研共用”组织(Science Commons)就是一个例子,他们帮助研究人员在互联网上发布研究数据。这一非营利组织提供的语义网工具,可以把具有法律约束力的版权和授权信息附在这些数据上。科学家们就能够使用一个小型应用程序,寻找有关某个基因的信息,但只能找到那些可以获得免费授权的信息。
DBpedia是一个大型的工程,旨在把维基百科(Wikipedia)收录的700多万篇文章中的信息智能化链接起来,使网民能够详细搜索维基百科的内容,比如“找出1990年以前所有入围奥斯卡最佳影片奖提名,且长度在三小时以上的电影”——这类搜索目前还无法实现。
语义网各项应用的逐步开发,将与万维网联盟内外旨在实现语义网之梦的研究工作遥相呼应。制定相关的标准协议将是一项长期的工作,一些悲观人士担忧,某些大公司会抢先推出一组具有专利权的语义网协议和浏览器。也许,这种情况无法避免。但是请注意,现在已经有众多企业和大学参与了万维网联盟的语义网工作组。他们意识到,如果该工作组能够制定出一些精心设计的协议,以支持最大范围的语义网,未来任何公司都将拥有更广阔的赢利空间。
有些观察家还担心,语义网把越来越多来自不同数据源的私人信息互相链接起来,人们的隐私可能受到威胁。但语义网的提倡者们坚称,语义网对个人隐私的保护力度,并不亚于未链接的数据网提供的保护。如果被语义网合并的两个数据库有不同的保密规则,语义网软件将同时遵守两套保密规则,或者制定一套新规则把二者都包括进去。SAPPHIRE系统在把不同患者数据库整合起来时,会遵守每个数据库的保密要求,否则合并工作就不会进行;以前护士们在进行手工合并工作时,也遵循同样的原则。
与万维网相比,语义网可能更多地在后台运作。我们不会看到语义网怎样帮助礼来公司开发个性化药品,只须购买就行了;我们也不会知道沃达丰公司如何使超酷手机铃声的发布变得如此方便快捷,但我们将会享受轻松下载这些铃声的乐趣。不过,语义网很快会赋予我们一些更直接的权力。比如说,到易趣网购物时,我们不再进行“待售的丰田普锐斯轿车”之类的简单搜索,而是提出更为复杂的要求:“待售的红色普锐斯轿车,二手,售价14,000美元以下,卖主距我80英里以内。找到后发出求购意向。”伟大设想的实现过程极少跟预想完全一样,但重要的是,语义网正在兴起,正在使网上信息变得比以往任何时候都更加有用。
请 登录 发表评论