网络机器人怪圈
为了抵制垃圾信息,对付模拟人类的网络机器人,研究人员需要模仿网络机器人。
Lee Bruno
三年前,被称为网络机器人的无赖计算机程序在雅虎聊天室中佯装十几岁的青少年。它们通过收集来访的青少年,或向参与聊天的人发广告来制造麻烦。当浏览者输入一个标志问题后,网络机器人启动,自动反应出这个人可以去哪里找答案,并提供路径,将浏览者带入广告页面。
网络机器人臭名昭著,是因为它能产生上百万的垃圾信息,宣传打印墨盒、污水处理系统、或者伟哥、尼日利亚人的金钱交易。它们破解新的电子邮件账户,自动大肆发送消息,以此来散布垃圾信息。根据澳人利亚反垃圾信息联盟的统计,2001年垃圾信息量是前一年的六倍多,去年的垃圾信息量高达2000年的21倍。
邮件过滤功能尚处于初级阶段,在减少无用信息泛滥方面,还起不到有效的作用。
为网络机器人设计的图灵测试是一些识别谜题,只有人才能解决,而计算机不能。Baird说:“人类非常善于阅读各种奇怪的材料。”他的正式头衔是帕洛阿尔托研究中心(不再属于施乐)首席科学家,和统计模式与图像分析领域的负责人。
以EZ-Gimpy为例,该算法从拥有850个单词的字库中选择一个单词,然后通过扭曲字体、在字母中设置间隙来改变字母的外形,把它们放在纷乱的背景之下之后,CAPTCHA为试图获得免费邮箱帐号或进八聊天室的用户提供一个人类认证测试。EZ-Gimpy很快在雅虎起作用。陆续,其池网络邮件服务商,比如微软的Hotmail,也使用了基于EZ-Gimpy的CAPTCHA。
EZ-Gimpy运行良好,但是新一代的网络机器人变得更狡猾了,它们识别字库中扭曲单词的本领更高超。于是,Baird和伯克利的Monica Chew一起合作开发了新的CAPTCHA方案——迷惑文本”,它比850个单词字库的EA-Gimpy有所进步。每次用户登陆网页建立帐号或获取其他服务时.它随机生成一些变形的单词用户必须识别出这个词,并在页面空白处正确输入,才可以进人下一步。
两种主流理念引领科研人员创造出更强大的网络机器人威慑物。“迷惑文本”是将无意义的单词组合起来,避免小字典带来的问题。同时,它还利用了格式塔心理学,或人类天生能够从完整信息中推断整个画面的能力(机器做不到)。比如,用到了非英语字符串,像“inchem”和“scotter”来防止字典驱动的智能代理的攻击。而且,经退化和掩饰处理的格式塔式文字图像是不可能被网络机器人解码的。这样一来,为了破解“迷惑文本,网络机器人的程序设计者必须解决计算机视觉和模式识别中最复杂难缠的问题,这将花去他们几十年的时间。
为了测试CAPTCHA,其他来自伯克利和卡内基-梅隆的研究人员试图破解它们。已经完成的大量工作都是基于文本的,视觉和听觉CAPTCHA正在研究中一直以来,人工智能组织都将破译CAPTCHA的挑战视为一项思维运动。
Baird继续构建、测试和破译他的网络机器人“这是两只胳膊的赛跑,”他说,“无疑,网络机器人将越来越聪明老练。”预计CAPTCHA将在保护商业企业免受智能代理攻击方面发挥重要作用。实际上,他们已经成了新型网络服务电子卫士,编写智能代理的人为了达到个人目的,妄想滥用网络,而CAPFCHA可以帮助网站免受越来越聪明的网络机器人的攻击。另一方面,程序员们专心于破解CAPTCHA,希望有一天可以发动网络机器人舰队,在这场游戏中略胜一筹。这就是为什么在人工智能领域里,构建更强大的CAPTCHA激起了研究者们与那时开发极其复杂的象棋程序同样的兴致。而且,这项工作最终可以对到底是人类,还是机器敲响了真理之门的问题给出更令人信服的答案
【崔琳琳/译;杨光/校】
请 登录 发表评论