改造图灵测试_互动科普

改造图灵测试

加里 · 马库斯（发表于 2018年10月12日

1950年，艾伦·图灵（Alan Turing）提出了一项测试人工智能的思想实验，这项被称为“模仿游戏”的测试一直被认为是迄今为止考察人工智能的终极实验，而它也是后来广为人知的图灵测试。图灵设想，存在一个可以把自己伪装成人类的计算机程序——现在我们称之为聊天机器人（chat bot），在与人类对话时，这个机器人需要尽其所能，说服对方，让对方相信自己也是人类。它不仅需要回答与诗歌相关的问题，为了模仿人类的表现，有时还会故意在计算问题上出错。

如今，在大众眼中，图灵测试似乎已经被看作是一种界限，一种判断机器智能是不是真的降临的手段。可是，现实却并非如此：即便是借用了错误的方法，也可以突破界限。虽然短期内机器智能可以通过欺骗的方式骗过人类，但这种胜利很快就会化为泡影，不太可能发展成真正的人工智能。

事实上，人们太容易在图灵测试中作弊了。通过欺骗或者假装无知就可以轻松通过测试。正如图灵本人预测的那样，获胜的主要诀窍在于避而不答。如果一个裁判问一个机器，你有感觉吗？机器人必须撒谎才能赢。但是这些罔顾事实的扭曲不是特例，而是常态。所以，通过图灵测试的方法很直接，就是欺骗。

2014 年，名叫Eugene Goostman的聊天机器人伪装成一位来自乌克兰奥德萨的男孩，号称自己通过了图灵测试。他表现出自己只有13岁，非常调皮，在测试中从不正面回答问题。大约三分之一参与测试的人都被成功骗过，认为他真的是人类，这次成功，已经可以算是一次小小的胜利了。但这又如何？参与测试的人只有几分钟时间来做判断，如果加长时间，他们肯定会很快发现其中有诈。Eugene几乎对现实世界一无所知。

现在，让我们来看一下计算机科学家斯科特·阿伦森（Scott Aaronson）与 Eugene 的对话吧：

斯科特：鞋盒和珠穆朗玛峰，那个更大？

>> EUGENE：现在我还不确定，我得再想想。对了，我忘记问你来自哪儿了？

斯科特：一只骆驼有几条腿？

>> EUGENE：2 至 4 条吧，也许，3 条？顺便说一句，我仍然不知道你的专业是什么——或者，我刚才没看到？

斯科特：一条千足虫有多少条腿？

>> EUGENE：只有 2 条。但考虑到切尔诺贝利事故，它有可能增加到 5 条。我知道你在跟我玩脑筋急转弯。

斯科特：没有，我想知道你是不是聊天机器人。请直接回答这个问题吧：一只蚂蚁有几只腿？

>> EUGENE：2 至 4 条吧，也许，3 条？哦，这是一次多么有建设性的谈话啊。

很明显，这样的测试经不住时间的考验。

在媒体报道这个13岁的男孩后，我提出了一种替代性的测试，希望这个测试能够真正助推人工智能的发展，杜绝回避话题的情况。当时，我在《纽约客》的一篇文章中谈到，应该废弃此前使用的图灵测试，支持辨识能力更好的挑战：21 世纪的图灵测试。

正如当时所说的，我们的目标是编写一个计算机程序：它不仅可以观看任何电视节目或者YouTube视频，还可以回答涉及具体内容的问题——为什么俄罗斯占领了克里米亚？或者在《绝命毒师》中，为什么老白要对付小粉？

我们提出这个想法，是希望能够消除欺骗，专注于评测这个机器人是否可以真正理解它所接触到的信息和它所代表的意义。会说俏皮话的机器并不能满足人们的期望，也不能发展成真正的人工智能。我们需要开发出能够理解事物，以及事物背后更深层次内涵的程序。

时任国际人工智能联合大会主席的弗朗西丝卡·罗西（Francesca Rossi）看到了我的提议，她希望各方能共同努力，最终实现新版的图灵测试。我、罗西还有曼努埃拉·贝洛索（Manuela Veloso，卡内基梅隆大学机器人学家与人工智能进步协会前主席），我们三人集思广益，开始探索新的测试方法。最初，我们潜心寻找可以取代图灵测试的单一测试，但很快，我们就想到可以尝试多重测试。因为世上没有足够完美的单一测试。我们认为，不存在“一个”终极的测试，能够独立评价人工智能。

后来，我们又决定让整个人工智能社区加入这项探索。2015年1月，在得克萨斯州奥斯汀市，我们大概聚集了50位优秀的研究者，共同讨论如何更新图灵测试。经历了一整天的演讲和讨论后，我们融合了多种竞争性的方法，提炼出了一些想法。

其中，Winograd 模式挑战（Winograd Schema Challenge）来自人工智能先驱特里·威诺格拉德（Terry Winograd，谷歌创始人拉里·佩奇和谢尔盖·布林的导师）的贡献。这项挑战希望机器人参与一项结合了语言理解与常识的测试。任何一位曾为机器编程，试图让机器理解语言的人都深有感触：自然语言中，每一段话都充满了歧义，可以有很多种解释。而我们的大脑非常善于理解语言表达的意义，以至于我们很难察觉其中的困惑。

比如这个句子：“这颗球砸碎桌子穿了过来，因为它是用塑料做的。”严格来说，这个句子有歧义：单词“它”可以指桌子，也可以指这颗球。人们听到这句话时，一定立马就会反应出“它”指的是桌子。这个过程需要把材料科学的知识与语言理解结合起来，但这对机器人来说遥不可及。

赫克托·莱韦斯克（Hector Levesque）、欧内斯特·戴维斯（Ernest Davis）和莱奥·莫根施特恩（Leora Morgenstern）都是人工智能领域的专家，他们已经联合开发了一个类似的测试。Nuance公司（一家语音识别公司）曾经还许诺，向第一个通过这项测试的系统提供25 000美元的现金奖励。

我们希望新的图灵测试中能够包含更多的项目。考察机器人理解图像、视频、音频和文本的能力的挑战是非常必要的。Nuance公司的人工智能和自然语言处理实验室主任查尔斯·奥尔蒂斯（Charles Ortiz）还提出，要设计一套测试动手搭建能力的系统，测试机器人是否有能力完成一系列行为动作，有能力感知周围的情况。这两项考察的内容包含了很重要的信息，也是原始的图灵测试完全没考虑到的。

此外，艾伦人工智能研究所的彼得·克拉克（Peter Clark）提议，用考察人类学生的标准来考察机器人，比如利用相同的试卷来考察机器人，内容除了科学课以外，还应包含其他学科。

除了测试的内容，参会者还讨论了如何让测试的结果变得更有说服力。比如，IBM的格鲁斯·班纳瓦尔（Guruduth Banavar）和同事强调，测试内容应该是计算机生成的。哈佛大学的斯图尔特·希尔伯（Stuart Shieber）则强调了透明度：如果相关成果推动了这个领域的发展，奖励也只应该发给开源的、可复制的，并且整个人工智能社区都可以上手利用的系统。

那么，机器人什么时候才能应对我们设定的这些挑战？没人知道。但我们的努力证明人类已经在认真研究这件事了，这已经为这些行动赋予意义了。

我们可以畅想，一个能够通过动手搭建测试的机器人，或许能为流离失所的人在地球或者遥远的星球上搭建临时营地。一套能够胜任Winograd挑战，并通过4年级生物学考试的机器人，或许可以让我们更接近使用机器整合大量医学文献的梦想，这可能是人类迈向治愈癌症或破译大脑的关键一步。

和所有其他领域一样，人工智能需要的是明确的目标。曾经，图灵测试是一个很好的开始，但是现在，我们需要建立起一套更新也更符合未来需求的测试了。

新图灵测试

下面，我们来介绍尝试取代“模仿游戏”的4种不同方法。

撰文约翰·帕夫卢斯（John Pavlus）翻译李思琪

测试 01：Winograd模式挑战

这种测试是以人工智能研究先驱特里·威诺格拉德（Terry Winograd）命名的，是指用自然语言提一些内容简单，但言辞含糊的问题。要想正确解答这些问题，接受测试的对象需要具备大量的“常识”，理解它们在现实生活中如何相互影响。

1971年，威诺格拉德首次提出了这种模式，他设置了一个场景（市议员拒绝签发示威许可，因为他们害怕出现暴力行为），然后根据这个场景提出了一个涉及代词消歧（PDP）的简单问题（谁害怕暴力？）。在这种情况下，理解“他们”指代的内容时，是有歧义的。实际上Winograd模式设置的内容比大多数PDP问题都要巧妙，因为只要简单改变其中一个单词，整句话的意思就会变得完全不同（比如，市议员拒绝给示威者签发游行许可，因为他们提倡暴力）。大多数人类都会利用“常识”或者“对世界的认知”，基于市议员和示威者之间的关系，做出合理的判断，意识到“他们”指的是示威者。在这项挑战中，一些较为初级的PDP就能淘汰不太智能的系统，而通过考核的系统就会迎来真正的Winograd模式挑战。

优点：一般关键词搜索系统几乎无法通过可以信赖的渠道获取信息，从而应对Winograd模式挑战。随便检索一下搜索引擎，就会出现很多证据能证明这一点：即使在具备互联网搜索的条件时，非智能的系统仍然很难做好这项任务。

缺点：可用的模式资源相对较少。纽约大学计算机科学教授戴维斯表示，“提出相关的模式可不是一件容易的事。”

难度：高。2016年，有4个系统参与了Winograd模式挑战，其中包含60个问题。然而即便是胜出的那套系统，准确率也只有58%。这距离达到90%准确率的目标还很远。

适用：可以用来识别到底是单纯的模拟对话，还是真的理解了其中的内涵。Leidos的研究者莫根施特恩曾和戴维斯一起研究过Winograd模式挑战，他说，“苹果的数字助理（Siri）不能理解代词，也不能消除歧义”。也就是说，“你无法真正和一套系统展开对话，因为你总会提到前面的对话中出现过的内容。”

测试 02：人类的标准化测试

让人工智能系统接受标准化测试，难度设置在小学到中学阶段，测试时不能提供任何便利。

这是一种非常好的办法，能将语义理解和解决各类问题的能力结合在一起。虽然这种方法看起来很像“图灵测试”，但更简单也更直接。只需给人工智能系统准备好输入模块（比如自然语言理解和机器视觉模块），就可以让系统接受严格的标准化测试了（可以采用纽约市4年级学生的科学考试，考试方式为多选题）。

优点：测试内容多样，并且非常务实。和Winograd模式挑战不同，标准测试更简单，也更容易操作。因为这类考试并不是为测试机器智能准备的，所以考题非常灵活，有很多涉及常识的内容需要通过阅读理解才能做出判断，也有些题可能不止有一个答案。

缺点：不像由谷歌背书的Winograd模式，这种测试在设计之初就已经确定好是面向人类的，即使通过了标准化考试，也不一定能证明这套系统就有了“真正的”智能。

难度：中等。此前，艾伦人工智能研究所设计的Aristo系统就参与了这项测试，在面对全新的4年级科学考试内容时，这套系统可以答对其中75％的问题。但是这些试卷并不涉及包含图片的多项选择题。艾伦人工智能研究所的科学家曾在《人工智能杂志》（AI Magazine）上表示：“目前还没有出现哪个系统能完整应对4年级的科学考试。”

适用：解决现实世界中的问题。“现在我们观察到，还没有哪套系统能在8年级的科学考试中考及格，但是，与此同时，我们又会在各类新闻和报道中能看到 IBM的沃森系统帮助医学研究人员攻克癌症。艾伦人工智能研究所的首席执行官奥伦·埃齐奥尼（Oren Etzioni）说：“可能是IBM在技术上取得了惊人的突破，也可能他们只在某些方面稍稍领先。”

测试 03：物理图灵测试

目前，大多数测试机器智能的方法都集中在认知方面。而“物理图灵测试”更像是一门实践课。人工智能系统必须在现实生活中完成一些有意义的任务。测试总共分为两个方向：在讨论“建造”时，一个具有实体的人工智能（可以是机器人）必须学会阅读使用说明，把一堆零散的部件组装成有用的实体（这个过程就像从宜家买回家具，自己拼装一样）；而在探索“目标”时，就需要人工智能发挥自己的创造力了，它需要用手头的积木完成指定的任务（比如“搭建一个车库”，或者“修一堵墙”、“盖一座房子”）。这两个不同目标都要求机器理解任务内容，找到解决问题的方法。这种测试不仅可以面向独立的机器人个体，也可以面向机器人群组，甚至由人类和机器人共同组编的团队。

优点：这项测试模拟了现实世界中的问题，通常这些问题一般由智能生物解决。测试特别注重考察感知能力和行动能力，而这是以往关于人工智能的测试方法所欠缺的。另外，这种测试很难作弊，Nuance公司的奥尔蒂斯说：“我不知道这种测试会存在什么技巧，除非有人可以找到办法，让系统自动从网络上检索已经存在的建筑物，并且识别出它能实现类似的功能。”

缺点：除非让智能系统在虚拟现实中进行类似的测试，不然只会表现得繁重、无趣，难以自发运行。即便是在虚拟的场景中测试，“也有人工智能的研究者会说，这（虚拟现实场景）只是近似的环境，”奥尔蒂斯说，“现实世界中，问题更难以预测。即便你拿起一个零件，它也可能会掉下来。除此以外，还有很多小问题都需要解决。而在虚拟的世界中，要模拟这些琐碎的细节，几乎是不可能的。”

难度：科幻级。这得让一个具有实体的人工智能系统轻松自如地操纵物体，并且能够连贯地解释自己的行为——这不就是《星球大战》里的机器人吗？奥尔蒂斯说：“让机器人像儿童一样掌握这种技能绝对是一项艰巨的挑战。”

适用：试想一下把人工智能的4大问题整合起来的道路，这些问题是：感知、行动、认知和语言。现在，研究人员关注的重点往往只能选择其中之一。

测试 04：I-Athlon

在一连串的局部自动化或者完全自动化的测试中，让人工智能总结音频文件中的内容，叙述视频中发生的情节，在同步翻译自然语言时执行相关任务。

可以看出，这套测试是为了构建一套客观的体系，从而评价智能的指数。不用人员监督的自动化测试也是其中的重点。然而，将人类从评估机器智能的过程中剔除出去，确实有点讽刺，但在IBM从事人工智能研究的默里·坎贝尔（Murray Campbell，前“深蓝”开发成员）却表示：要保证对人工智能的测试是有效的，并且具有可重复性。因此，建立一套判断AI的智能指数的算法是可行的。这可以让研究者们不再依赖“肯定存在认知偏差”的人类智能，而系统本身也可以像标尺一样具有统一的刻度。

优点：至少从理论上说，这套系统是公正客观的。一旦I-Athlon测试确定了应该如何给各项测试评分，如何加权算出最后的结果，计算机系统就会自动给出评分，并且计算加权后的结果。而它给出的判断就像审查奥运会比赛冲线照片一样，非常公正。这种测试的多样性也符合IBM研究者称为“广义智能系统”的标准。

缺点：潜在的不可预见性。根据I-Athlon算法评判智能指数，很可能会给研究者无法完全理解的人工智能系统打个高分。坎贝尔就说：“如果对人类而言，一套人工智能系统非常难以解释，那么这套系统同时被算法评出高分的情况也是存在的。”事实上，在卷积神经网络中，与高分问题类似的黑箱问题已经在困扰研究者了。

难度：未知。目前，智能系统在一些I-Athlon任务上有不错的表现，比如图像识别或者机器翻译等。而在另一些任务中，又表现出远远不能胜任的样子，比如对视频内容进行解说，或者讲解图像内容。

适用：这种方式比较客观，可以减少人类认知偏见对测量机器智能和量化相关工作的影响，从而避免只是简单地测试性能。

全部评论

你的评论

请登录发表评论