万维网的迅速发展正在使该网络目前的检索和组织手段越来越跟不上需要。新的用户接口或许是较好的解决办法。
人们如何能在万维网上犹如一团乱麻地互连起来的数百万网页中找到他们所需的东西呢?检索某些十分流行且明确定义的信息——如电话号码及股票价格——并不困难。许多网址都开通这类服务。使Internet网络如此激动人心的是它有能力超越地理障碍,把有关无数问题的大量信息直接送到人们的桌面上。但是,如果缺乏井然有序的组织,电脑空间将越来越陷人一团混乱之中。如果你想用现有的网络检索工具来找到最切合你需要的东西(比如在俄勒冈找到一份文件,在英国找到一份目录,在日本找到一份图像),这一检索可能相当慢。令人感到失望。
对检索结果是否有用进行评估的更高级的算法或许能有所帮助,但是这个同题的解决途径更可能是依靠新的用户接口。现在用于分析文本业处理多层次数据的软件可以为观石Internet网络或其它大量文本集合提供一些更好的方法。诚然,大多数网址使用的“页面”这个比喻是人们熟悉而简单易懂的。但是,从用户接口设计这一角度来看采用页面却造成了不必要的限制。将来页面将用功能更强的其它表示法所代替,后者使用户可以同时从若干方面观看网络上的信息。
试着看这个例子,亚利桑那州的Aunt Alice接通了万维网,想要知道今年秋天她可以在花园中种植哪些可食用的球茎类作物(如大蒜或洋葱)。这个问题的答案隐藏在浩瀚的万维网的某个地方。但是如何找到它们呢?
Alice现在有若干方案可以选择,但对她帮助都不大。她可以请朋友给她推荐几个网址。她也可以求助于网络索引。目前有两类网络索引,一类是人工编制的目录,它分类列出了网络的网址。另一类是检索机,它可以迅速地扫描网络页面的索引以找出某些关键词。
Yahoo雇请数十人每天给数以百计的网址加上类别标记,从而编制出了最有名的目录。在使用Yahoo时,用户从一个菜单上选择看来最有希望符合耍求的类别(见图1左边页面)。然后观看一个更专门的子菜单或一个Yahoo的技术人员认为属于此类的网址一览表。但是,这个接口可能很不好用。各种类别并非互不相容, Alice应当选择“消遗”、“地区的”还是“环境”?不论她选择了哪个类别,先前的菜单都将从屏幕上消失,这样她就只得默记住她本来可以选择的所有其它路径,或者是按步就班地循着她的步骤倒回来重新阅读每个菜单。如果Alice对哪个子类别最符合要求猜测不对(不是“环境’这个类别),她就不得不退回来再试。如果她要找的信息藏在这一分层结构的深处,或者是根本就役有,那么这一过程可能很费时问,令人感到十分恼火。
思维的(慢)速度
过去十年间,信息可视化这一领域的研究工作已得出了若干有用的方法,可把抽象的数据集(如Yahoo的分类表)转换为能够更直观地进行检索的显示。一种方法是把用户的脑力负担从速度较慢的、耗费大量思维的过程(如阅读)转变为较快的感觉过程(如模式识别)。例如,比较一幅图中的各种条形较之比较一张表中的数字要容易一些。彩色对于帮助人们在有其他一大堆东西混在一起时迅速找出某一个单词或物体是非常有用的。
另一种方法是利用深度幻觉。如果放弃页面摸式,就可以在计算机屏幕上实现这一效应。当三维显示成活动图像时,透视、掩蔽、阴影等所产生的感觉效果可以有助于清楚地表示一大组物体之间的相互关系,而在平的二维页面上,一大堆物体只能乱糟糟地挤做一团。在二维显示上,想要看的东西可以移到前面的显著位置上来,而意义不大的东西则可向后边或边缘上推,这种显示可以帮助用户保持一种上下连贯的感觉。
对虚拟环境的这种意识可以使信息检索成为更具有探索性的过程。用户可能找到他们以后想要重新使用的部分结果,发现表达询问的更好办法,沿着他们开始时以为没有用处的路径走下去——或许甚至可能从整整一个新的角度出发来考虑他们的问题。Aunt Alice在Yahoo中一边四处搜寻一边作记录也能完成其中一大部分任务,但是我们同事在施乐公司帕洛阿尔托研究中心开发出的一种厚型接口却使这类有意义的活动更为有效。
这一软件称为“信息可视化程序”(Information Visualizer)。它画出一棵动画三维树(见图3),此树把每一类别同它所有的子类别联接起来。如果Alice检查Yahoo树以寻找“花园”这个词,那么Yahoo的有“花园”或“园艺”作为其一个子类别的所有6个部分都将亮起来。这样她就可以把这些类别中的每一个“转”到前面来,以观察它会引导到何处。如果一条路径走到了死胡同,那么只消点击一下就可转到尚未探索过的路径上。
当Alice找到了有用的文件后,这一接口使她可以把文件连同帮助她到达这些文件的检索词存在一本虚拟书中。她可以把这木书放在一个很易看见亚且清楚地作了标记的虚拟书架中。到下个周末,Alice可以重新翻开她的这本虚拟书,撕下一页并用它来重新提出她的询问,以继续进行她上周的检索。
我们的接口对于把整个网络的内容组织起来这一艰苦尝试没有多大帮助。由于万维网上新网址出现的速度比通过人工为它们编索引的速度快得多,Yahoo(或其它任何一种网上服务)已编制索引的网址所占的比例正在迅速减小。而且,有些网址(如《时代》周刊的网址)所含的文章涉及多方面的内容,但它们常常只被列在许多相关类别的仅仅几个类别中。
Excite和Alta Vista之类的检索机涉及的内容要全面得多,然而这正是它们的缺点。倒霉的Aunt Alice在向Excite输入了一连串关键词“大蒜、洋葱、秋天、花园、种”之后,将会检索出583430个网络页面(到本文写作时为止);如按阅读一页需两分钟计,她得花两年时间不吃不睡一直看下去才能看完所有这些网页。任何检索过程,只要是以检索出所有相关文件为目标,其结果必定是得出一长串充满了不需要的无关资料的表;反之,较有针对性的检索几乎肯定会漏掉许多有用的页面。
Internet网络上的大多数检索服务其输入格式均相当紧凑,以促使用户采用简短的、因而必定模棱两可的询问,这就使上述问题更加严重。有一种办法可以帮助用户更确切地说明他们想要检索的东西,这就是让用户使用逻辑运算符——如“与”(AND)、“或"(OR),“非”(NOT)一来规定哪些词必须(或不许)出现在检索到的页面中。但是许多用户觉得这些布尔记号令人望而生畏,把他们弄得昏头昏脑,简直没有什么帮助。即使专家的询问实际上也不过就是他们选择的术语。
当成千份文件都与一个询问相符合时,给那些有较多的检索词的文件或有罕见的关键词(这类关键词往往比较重要)的文件以更大的权重仍然不能保证最相关的页面会位于检索结果的最前面。因此,检索机的用户别无选择,只能把检索到的项目一个一个地再筛选一遍。
组织检索结果
较好的解决办法是设计一种用户接口,它使网络检索过程产生的大量信息具有一定的条理。能够自动地把页面安排成某些类别(如Yahoo的技术人员所作的那样)的算法是存在的。但是此方法未考虑到这样一个事实,即大多数文本不可能硬塞进仅仅一种类别中。实在的物体常常可以只规定一个分类学位置(如洋葱是一种蔬菜)。但只谈洋葱的网页则的确是很罕见的。一份典型的文本常常涉及产品的销售商、或汤的配方、或关于种植引进蔬菜还是本地蔬菜的争论等内容,建造层次的发展趋势是设立越来越具体的类别以应付这类情况。(例如,设立“洋葱销售商”、或“洋葱汤配方”、或“关于洋葱的农业争论”等类别。)一个更易于管理的办法是把适合于文件的所有类别组全用来描述文件,再加上一组限定词(如来源,日期、流派、作者等)。期坦福大学数字图书馆工程的研究人员正在沿着此方向开发一种称为“Sense Maker”的接口。
在施乐公司帕洛阿尔托研究中心,我们开发了把检索机检索到的网页表分类的另一种方案。此方法称为“Scatter/Gather,它建立起一个目录,当用户对何类文件可以找到及哪些文件最有用的了解越来越多时,此目录表也随之而变化。
试设想Aunt Alice使Excite进行她的检索并找到了头500个网页。然后Scatter/Cather系统就可分析这些页面并根据它们彼此间的相似程度将其分为若干组〔见图5)。Alice可以迅速扫描每一组并选择那些看来她感兴趣的组。
虽然对用户行为的评估是一个很难评估的不精确的过程,但初步试验表明,分组常常有助于用户找到他们感兴趣的文件。例如,一旦Alice确定,她对于用“球茎作物”、“土壤”和“园丁”这几个词概括的一组293份文本极感兴趣,她就可以用Scatter/Gather再次对它们进行分析,重新把它们分为若干更具体的组。经过几次反复后,她可以把500个大部分属不相关的网页浓缩为几十个有用的页面。
文件分组本身业不能解决Excite之类的网上检索机遇到的另一个常见问题,即它们为什么要像这样列出文件。但是,如果录入格式鼓励用户把他们的询问分为若干组相关的关键词,则用一个图示接口能够指明哪些检索标题出现于被检索到的文件的何处。如果所有标题都出现于某一节文本中,则文件有用的可能性就更大,因此程序将把它排在靠前的位置上。Alice可能很难事先确定哪些标题必定出现在文件中,也很难确定它们彼此靠得有多近。但是当她看见她需要的东西时,她有可能将其识别出来并能够据此进一步调整她的询问。更重要的是,这种方法——我称之为Tilc Bars——能帮助用户决定观看哪些文件业使他们迅速地直接到达最有关的段落上。
新型用户接口和文本分析方法的潜力还只是刚刚开始发挥出来。其它一些把统计原理和经验法则结合起来的技术能够自动地总结文件并将其安排在现有的一种类别系统内。它们能够提示询问词的同义词并回答简单的问题。所有这些先进技术都没有用于万维网上的检索机,但它们迟早将会有用。将来,用户接口很有可能发展到超出两维及三维显示的范围,产生出听觉之类的知觉,以帮助世界各地的Aunt Alice们找到她们的方向并探索信息前沿的新天地。
(苏媛 译 王世德 校)
请 登录 发表评论