12年前,人工智能的先驱Doug Lenat曾经预测:在21世纪所有软件都会融合进日常知识的认知能力。当时,Lenat从事一项称为Cyc(来源于百科全书“encyctopedia”一词)的项目已经有6年时间,该项目的最终目标就是实现他的预言。现在21世纪已经到来,Lenat在耗资5000万美元后设计了迄今为止第一个也是唯一一个能够运用常识来理解语言的数据库软件。
Cyc数据库包含了差不多l50万条日常信息,这需要一个程序员花500年才能完成这些数据的输入工作。然而,Cyc显然还不是HAL。HAL指的是控制论倡导者Stanley Kubrick和Arthur C.Clarke所著的名著中提到的计算机根据使用者的不同行为能够说出溢美或责备之词。
迄今为止,Cyc最重要的作用是作为提高Lycos Web搜索引擎质量的工具。比如要搜索“dime”(一角硬币),Cyc会提示你使用“Franklin Roosevelt”(福兰克林罗斯福)作为相关主题,因为它知道一角硬币上有福兰克林·罗斯福的头像。
这种功能的确让人心动。然而Lenat对于常识软件的期盼远比现在所取得的发展要多得多。l991年他告诉“Scientific American”杂志在以后5年软件会发展到仅需通过阅读——也就是通过扫描文字材料就能够获得新知识,而无须由软件工程师通过设定的程序回答一条又一条的问题来输入信息。Lenat最初计划到目前Cyc少能够实现复杂的自然语言交际功能,可以进行自然和随意的交谈学习新的知识。然而,Lenat说这一目标还需要再花5年时间才能实现。至于让Cyc实现能够不用手把手地去学书上的东西,还需要20年的时间。
该项目之所以陷入困境,是因为人们逐渐认识到仅有认知事实是不够的,认知环境也很重要。比如,吸血鬼是虚构的,然而在小说里却被当成真实的东西来处理。Lenat解释说,如果要实现这种功能会导致所需的数据库成十倍地增加。此外,还得为Cyc的工作考虑进开支。该项目始于1984年,由前中央情报局代理主任Bobby Ray Inman领导的、由政府资助的微电计算机技术公司(MCC)的研究协会提出,当时是为了与日本人工智能领域著名的第五代计划相竞争。但是即使Cyc是MCC的项目并在MCC于l994年解散前就成立了Cycorp公司,Cyc项目还需要依靠客户数据库项目来保证收入。观察具有原始自然语言交流能力的Cyc工作就如同观察在聊天室里同一个极其礼貌又不知疲倦的海伦凯勒(Helen Keller)进行对话一样。假设你告诉它“炭疽菌在人类引起炭疽热”,它就会接受这项事实.然后开始进行消除歧义的分析,它会问“你所指的炭疽热是疾病还是重金属乐队”、“你所指的人类是指人类杂志还是人类种群?”等等。当了解到目前的认知环境是谈论疾病后,它可以采用称为二级预测积分的逻辑算法.推断出“引起”的意思是“导致某种情况的发生”,而不是这个词的其它19种意思之一。
Lenat认为当前的Cyc数据库已经足够强大,这使得任何与它交互的应用程序软件在面对真实世界时都能应付自如。Cycorp公司将要发布CycSecure以及OpenCyc产品。CycSecure是网络安全系统,它可以对会导致软件和网络设施瘫痪的信息进行限制(比如它可以监视心存不满的离职雇员)。OlzenCyc是数据库自由软件.意在鼓励人们将真实世界的信息加入Cyc。
在2000年4月为五角大楼制作的演示Cyc自然语言交流的录像带同样令人们难以忘记。录像带画面是操作员向Cyc输入了类似炭疽热生化武器的信息,然后问了一系列的有关问题。Cyc推断出燃烧是消灭细菌的一种很糟的方法,气雾剂也不是传播细菌的好方法。并且它还提示说名叫奥萨马·本拉登的人的确能够得到它,因为他所控制的基地组织拥有这种细菌。这些对于中情局情报分析员来非常简单的常识,却几乎得花20年的时间才能教会计算机。
Cyc中称为“莫妮卡(Monica)”的条目
信息在Cyc数据库中采用二级预测积分(一种常规数学逻辑算法)的形式来表达,Cycorp将其称为CycL。Cyc数据库中有这一条信息:
[hcldsln[YearFn1998]
[embarrassed BillClirton
[sexualPartner
MonicalLewinsky
Bil’C’inton,]]]
它的意思是:在1998年可以确定的是称为“比尔克林顿”的条目与“尴尬”这词相关,这是由于它和包含“莫妮卡·莱温斯基”这个条目的“性伙伴”这一概念相关。
【徐翔/译 张蓓蕾/校】
请 登录 发表评论