统一人机智能_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 信息 • 能源

统一人机智能

admin  发表于 2017年12月21日

什么是智能?心理学家在很久以前就知道:虽然智能是心理学最为核心的概念,但要精确描述或定义智能这个概念是非常困难的。智商测验是用来衡量人类智能的首选方法,但这一方法测试的是数种不同的能力,在理论上看来不够可靠。美国心理学家霍华德·加德纳(Howard Gardner)在他1983年出版的著作《精神的框架》(Frames of Mind)中提出,统一的智能是不存在的,人具备的是多种不同方面的智能。这个理论迎合了我们自身的愿望,特别是当我们在通常的智商测试中无法取得较高的分数时:专项智能的种类越多,我们就越有机会在某一项上出类拔萃。然而,在专业研究领域里,加德纳的理论饱受争议。

近年来,关于智能本质的讨论有了新的话题,因为计算机系统在某些领域取得了卓越成就,人们认为,毫无疑问可以用“智能”一词来形容它们了。1997年,运行在深蓝计算机上的程序击败了当时的国际象棋世界冠军加里·卡斯帕罗夫(Garri Kasparow),这被视为一个重要里程碑。让我们人类可以稍感欣慰的是,当时有评论指出,下围棋的计算机程序最多只能达到人类的一般水平。但这么多年过去了,围棋领域的人工智能已经逐渐达到了准专业的水平。2013年3月,由雷米·科隆(Rémi Coulom,当时在法国里尔第一大学任研究员)开发的围棋人工智能程序“疯狂石头”击败了日本职业棋手石田芳夫;但是,这次胜利是在石田让4子的前提下取得的。到了2015年10月,由DeepMind公司开发出的最新人工智能围棋程序成功地击败了欧洲围棋冠军,不久后又击败了韩国著名棋手李世石。

在西洋跳棋领域,人工智能目前已经处于战无不胜的地位。从1994年至今,全球范围内没有任何一位棋手可以击败加拿大的西洋跳棋程序“支奴干”(Chinook)。在2007年,人们就已经知道,这个战无不胜的程序背后,是一套已经达到最优化的对弈策略。根据博弈论,要获得这种最优的制胜策略必须要事先穷举得到所有可能的棋局组合,而想要通过这种方式来获得国际象棋的最佳策略,至少在几十年内是不可能做到的。

限制人工智能成就的,不是数学模型的问题,也不是在海量的排列组合中寻找最优结果的问题。仅就棋牌领域而言,研究人员发现,最困难的是模仿人类的思维过程。尽管不同的人工智能程序可以在西洋跳棋、国际象棋和围棋中分别击败人类中的高手,但是它们的工作原理与人的思考方式却是大相径庭。

当然,没理由因此否定这些计算机程序具有智能。机器智能已经能够为我们提供出色的服务了,如果还要求它们按照我们的思维方式来执行任务,显然是很不公平的——因为就连我们自己都还没有完全弄清楚我们的思维方式。至今还没人能成功地将一个国际象棋大师的下棋方式用算法的形式描述出来。

 

自动驾驶汽车

海量信息的存储,快速并系统化地对符号化的数据进行处理——例如根据兵在棋盘上的位置来评估局势 。 这些能力使得人工智能可以打败国际象棋世界冠军,然而,这还远远不足以让它们自动驾驶汽车。尽管最近有很多关于汽车自动驾驶系统的轰动新闻,但它们距离实用还比较遥远。这一领域中机器和人类智能的差异最为显著,一辆自动驾驶汽车有着和人类完全不同的思维方式。

Stones_go.jpg

若用传统的驾驶方法来实现自动驾驶,人工智能驾驶系统必须对多样而高速切换的图像进行实时分析:撒满了落叶的道路的边界到底在哪里?在前方50米街道正中央的黑斑到底是一个洞还是一个浅浅的水坑?目前还不存在具备如此精确辨识能力的图像处理程序。所以,目前的自动驾驶系统完全是建立在另一套体系之上。谷歌公司设计的自动驾驶汽车借助GPS导航系统提供的精确定位信息来确定自身的具体位置。这些自动驾驶汽车还使用了一种特殊的“地图”,这种特殊地图中存储了街道的形状、外观、交通标识以及周围的其他重要地标。除此之外,这种自动驾驶汽车还装有雷达系统、名为Lidar(光学侦测和测距)的光学系统、对周围环境进行实时三维成像的系统以及车轮上的传感器。

谷歌公司的这种自动驾驶汽车已经无故障行驶了数万千米,这已经足以证明它具备智能,尽管它还无法对警察的手势做出正确反应,有时会在建筑工地前突然停下,而且出于安全考虑,自动驾驶汽车的时速不得超过40千米。但是,和人类司机相比,这种自动驾驶系统的驾驶能力还相当落后。人类司机凭借从图像中获取信息的强大能力和通用的智能,可以在完全陌生的道路环境中驾驶汽车——无需地图、雷达和光学探测系统,也可以保证在遭遇突然出现的路障时不出意外。

 

机器人记者

人们一度认为,正确理解和处理人类的自然语言(无论是书面语言还是口语)对于计算机是难以逾越的障碍。但时至今日,事实证明这样的观念是错误的。在理解及生成自然语言词句的领域,人工智能已经取得了令人震撼的成绩。很多媒体,例如《洛杉矶时报》、《福布斯》以及美联社都开始使用机器人新闻记者。目前,这些人工智能程序的工作还只是局限在某些特定领域,例如把体育比赛结果和经济数据撰写成短文,以及在某些特殊情况下快速做出反应。

2014年3月17日当地时间凌晨6点25分,加利福尼亚州发生了里氏4.7级地震。时隔仅仅3分钟,《洛杉矶时报》的官方网站就登出了一篇长度约20个单词的短文,在第一时间报道了这次地震的一些基本信息:震中的位置、强度、地震发生时间以及与最近一次地震强度的对比等。这个撰写文章的人工智能程序直接使用了由美国地质调查局地震通知服务系统提供的原始数据;这个程序是由肯·施文克(Ken Schwencke)开发完成,他既是记者,也是程序员。施文克认为,这种计算机程序并不会威胁到记者的工作,与之相反,它会使得原本枯燥的工作变得更加有趣。的确,撰写满是数据的短文确实是一项非常枯燥乏味的工作,而且人工撰写这些短文并不见得会比机器做得更好。

在著名的线上自由百科全书——维基百科的网站上,由计算机自动生成的文章数量达到了令人惊讶的程度。瑞典物理学家拉尔斯·斯韦克·约翰松(Lars Sverker Johansson)开发了一个名为“Lsjbot”的程序,它可以自动在维基百科上创建条目,最高速度可以达到每天创建10万个条目。截至目前,该机器人已经在维基百科上创建了200多万个条目。其中有三分之一属瑞典语维基百科,三分之二属于宿雾语维基百科和瓦瑞瓦瑞语维基百科,后两种语言都是在菲律宾广为流行的语言。Lsjbot主要用于创建生物物种条目以及城市地区条目,这些条目的内容信息事先已经在维基百科数据库中有存档。Lsjbot机器人会自动按照维基百科的文本格式将相应内容信息撰写成其所对应的语言条目。截至2013年,Lsjbot机器人已经为瑞典语维基百科创建了近一半的条目。借助于机器人自动生成条目的技术,荷兰语维基百科的增长速度甚至已经超过了德语维基百科。

在广受好评的同时,约翰松遭到了很多批评。因为程序创建的文章缺乏创造力,而且,此类文章庞大的数量破坏了维基百科的均衡性。对此,约翰松做出了回应。首先,无论有没有创造力,这些文章毕竟是有用的。其次,在维基百科中由人类编写的技术类条目比重也非常大,由Lsjbot带来的不均衡没有比这更严重。实际上,根据约翰松的计划,他要利用“Lsjbot”机器人为每一个动物物种创建一个独立的条目,这本身就是十分有意义的事情。除此之外,他还在为把Lsjbot应用到更广泛的领域而进行着积极的宣传。但无论如何,维基百科都还是需要人类对条目进行编辑,因为要让Lsjbot机器人用文字去表达一些特殊的情感,几乎是一件不可能的事情。

更加复杂,也更配得上“人工智能”这一称谓的程序当数“沃森”。沃森是由IBM公司开发的,在2011年参加了电视节目《危险边缘》。

时至今日,人工智能程序已经可以在填字游戏中完胜人类最好的专业选手。尽管到目前为止,跨语种的机器翻译时而会得出让人觉得莫名其妙的结果,但相信在不久的将来,人们最终会接受这样一个事实——语言不再是人类独有的能力。

 

通过图灵测试

与智能类似,和它密切相关的概念“思考能力”同样难以简单地定义。为了解决这个难题,计算机科学先驱阿兰·图灵(Alan Turing)提出了一种假想测试,后来,人们用他的名字命名了这一著名测试方法,即图灵测试。

图灵测试的大致过程是,把一台机器放置在人们不可见的远端,通过电话线 ——现在就是互联网 ——和一组人类鉴定专家对话。如果专家不能被辨别它是机器还是人,那么就可以称这台机器能够思考,甚至具有智能。毕竟,我们也是通过交流互动来评判一个真正的人。

在图灵测试的具体实施过程中,也可以采用如下方式:先找到大量的鉴定人员,让他们随时可以和某个对象进行文字交流。与鉴定人员的对话,有一半是由人类来完成,另一半则由参与图灵测试的机器完成。每一个鉴定人员都可以在自己决定的时间点,判断和自己对话的到底是人类还是机器。最后对所有鉴定人员的评估结果进行统计,如果认为对话对象为机器的比例不超过50%的话,就可以认为该机器通过了图灵测试。

图灵曾经做出过较为乐观的预测,他认为到公元2000年时,人工智能就有能力取得部分成功。他估计,在一个为时5分钟的对话测试结束后,鉴别专家至少有30%的概率会将机器人程序误判为人类。图灵的预测总体上来说是正确的:近些年,一些计算机程序陆续通过了难度弱化版的图灵测试。而一台可以通过“真正图灵测试”的机器,目前还并不存在。当然,图灵对此并没有做出预测。

2011年9月6日,在印度古瓦哈提举行了一场对人工智能程序“Cleverbot”的图灵测试,这个人工智能程序是由英国计算机专家罗洛·卡朋特(Rollo Carpenter)开发完成的。现场一共有30个鉴定人员,他们和这个陌生的“人”分别进行了4分钟对话。最终,鉴定人员和所有在现场通过大屏幕看到对话的观众进行评判,总数为1334的投票中有大约59.3%的比例认为这个Cleverbot是真实的人,而不是机器(让一个人在后台进行同样的对话实验,也仅有63.3%的人会认为隐藏的对话者是真实的人)。

2014年6月9日,为了纪念图灵逝世60周年,英国皇家学会举办了一场类似的图灵测试实验,参加测试的是一个名为尤金·古斯特曼(Eugene Goostman)的人工智能聊天机器人。在总共30位鉴定人员中,有10位认为被测试者是一个真实的人。然而,由于本次实验的组织者对外只做了非常主观和片面的宣传,使得很多媒体过度夸大了本次实验的结果,有些甚至认为这次胜利是人工智能史上的里程碑事件。但实际上,这次实验的成功是建立在不太公平的手段之上:古斯特曼把自己伪装成一个13岁的乌克兰男孩,这样就为它糟糕的英语和有限的百科知识做出了合理的解释,否则鉴定人员可能很容易就发现它是机器了。

截至目前,没有任何一个计算机算法可以通过图灵测试,哪怕是接近成功的也没有。这不由得使人怀疑,那些在难度弱化版的图灵测试中使用的方法是否对真正的图灵测试有效。某些计算机程序可以在预存的海量答案中找到最合适的,从而迷惑测试专家。因为鉴定专家经常会提出一些类似的问题,这就使得计算机在预存的答案数据库里找到正确回答的概率大增。如果再借助于一些语法分析软件,程序还可以把问题中的词语片段整合成句子作为答案,使得测试专家觉得它理解了问题。而如果这个程序没有找到合适的答案,它会用提问的方式来反击。在2014年6月的测试中,曾有一个记者向尤金·古斯特曼发问:“如果你赢了,你会有什么样的感觉?”尤金·古斯特曼立刻反问道:“这真是一个愚蠢的问题,你能告诉我你是哪一位吗?”

 

追寻通用智能

对一些特殊任务——如学习一门新的语言 —— 现在的人工智能已经完全可以达到甚至超越人类的水平。 人工智能在某些方面所达到的水平令人赞叹,展现了这个正在持续进步的领域取得的巨大成功,不过,人工智能的进步并不是通过模仿人类智能而获得的,相应地,对理解人类智能也几乎没有任何帮助。就目前来看,人工智能研究的方向不是通往“通用”智能或者“强人工智能”的,而这恰恰是通过真正的图灵测试所必需的。

那么到底什么是通用智能呢?目前有几个尝试回答这个问题的方案,都既抽象又全是数学语言——但最好的答案,可能是一个绝对的,不依赖于人类智能概念的定义。

一个比较接近的假说认为:智能是一种理解和掌握万事万物规律和结构的能力。如果用计算机科学的专业术语来描述,就是对获得的数据进行压缩处理,并对未来可能产生的结果做出预测。这种能力可以使智能载体具有演化的优势,因为智能载体可以充分利用已知的规律,来适当调整自己的行为。

举个例子:有一个数列 4,6,9, 10, 14, 15, 21, 22, 25, 26, 33, 34, 35, 38, 39, 46, 49, 51, 55, 57,如果有人可以看懂它的规律和结构,就会发现它其实是一个由两个质数的乘积按照大小排序形成的数列。一旦掌握了这个规律,不仅可以简洁地表述这个数列,还可以推算出这个数列的后序数字: 58, 62, 65, 69, 74, 77, 82, 85, 86, 87 ⋯⋯

美国计算机科学家雷·所罗门诺夫(Ray Solomonoff)早在1965年就对智能、信息压缩以及预测之间的关系给出了系统化的阐述。所罗门诺夫的模型引用了由13世纪时著名哲学家奥卡姆的威廉(William of Ockham,1288 - 1347)提出的法则,即“奥卡姆剃刀”:如果许多种理论都能做出同样准确的预言,那么应该从这些理论中选出最简单一种。在所罗门诺夫的模型中,“最简单的”就是压缩程度最高的,也就意味着数据和对其的解释之间的关系最为简洁。

如果对数据量以及解释的复杂程度进行数值化的合理表述,所罗门诺夫的模型就演变为一个数学规范。这正是由安德烈·科尔莫戈罗夫(Andrej Kolmogorow)和格雷戈里·柴廷(Gregory Chaitin)建立的算法信息论。根据他们建立的理论,一个任意长度字符串的复杂度(特别是可以用完备理论描述的字符串)和能够生成这一字符串的最短程序的复杂度是一致的。

基于计算复杂度理论,目前任教于澳大利亚国立大学的德国计算机科学家马库斯·胡特尔(Marcus Hutter)给出了“通用智能”的定义。他提出,可以用“某个人工智能策略在所有可能的环境中获得成功的概率”来量度通用智能。有趣的是,他的定义中出现的所有概念都可以用计算机科学的方式进行解释。“策略”被定义为拥有任意功能的某个软件模块。“环境”被表述为这个软件模块可能会遇到的所有可能的数据——这里的“所有可能的数据”又被附加了一个相对较弱的前提条件,即数据并非完全随机,而是遵循了一定的法则,就如同我们周围的自然环境数据会遵循物理法则一样。最后,“成功”被定义为,要达到某个具有意义的目标函数的极限值,典型的例子包括实现自我生存以及繁衍大量后代。

胡特尔对通用人工智能的定义还有一些技术细节,我们在这里不方便详述。即便包含了这些技术细节,他所提出的定义依然过于抽象,无法直接应用。仍有人认为,一种能够通过测试的通用人工智能系统是遥不可及的。尽管如此,这些理论探讨还是有助于建立一个基于数学理论,不依赖于人类智能特性的通用智能概念。与前面提到过的霍华德·加德纳(Howard Gardner)的多元智能理论相反,智能是个统一的概念。而一种能对生物或机器进行统一智能评定的方法可能最终会取代目前流行的智商测试。

尽管在目前看来,这一理论包含很多不切实际的地方,但是它仍是人工智能领域一个具有重要意义的进展。在此期间,“通用人工智能”已经成为了一个全新的研究领域,并拥有自己的科技期刊 ——可免费获取的《人工通用智能期刊》。

为避免理论的数学部分停滞不前,胡特尔筹建了一场计算机科学竞赛。他的出发点建立在这样的假设之上,即程序压缩数据的能力越强,就越智能。参赛选手如果想赢得比赛并获得5万欧元的奖金,就必须尽可能高地压缩维基百科的部分内容。 

目前的计算机显然还不具备通用智能,但通用智能领域的新研究有望改变这个现状。

 

 

 

机器获胜的智能测试

毫无疑问,由法国心理学家阿尔弗雷德·比内(Alfred Binet, 1857 - 1911)提出的智力测试并不适用于机器。实际上,很多程序都可以在智力测试中取得很好的成绩,然而可能很少有人会觉得它们聪明。

由普里蒂卡·桑吉(Pritika Sanghi)和戴维·道伊(David Dowe)在2003年开发的一个程序可以在下文列举出的很多测试中获得很不错的成绩。这个软件的逻辑其实非常简单,主要基于几个测试设计者经常会使用的策略。一个经过进一步完善的程序可能在智商测试中会取得超过常人的成绩,但这并不能证明这个程序具有很高的智能,只能表明测试人类智商的方法并不适合测试通用智能。

对于某些特定类型的任务,机器很容易就可以取得比人类更好的成绩,例如下面这道测试题:请问下面数列之后的3项分别是什么:3, 4, 6, 8, 12, 14, 18, 20, 24, 30, 32, 38, 42 ?

你大概知道这道测试题如何求解,它其实是质数数列每项加1之后形成的数列,即 2 + 1, 3 + 1, 5 + 1, 7 + 1⋯⋯因此,紧随这个数列之后的三个数字分别是43 + 1,47 + 1,53 + 1,即 44, 48, 54。

一个可以快速回答类似问题的程序在互联网上可以找到:“在线整数数列大全”(网址为https://oeis.org)。该程序是由美国数学家尼尔·斯隆(Neil Sloane)开发的。它甚至会提供一些你根本想不到的答案。例如,对于上述数列,它还给出了另一种答案:这是由符合某种规律的自然数n组成的数列,n具有如下性质,假设自然数k和n互质,并且k2<n,则 n-k2是一个质数。按照这一规律,就可以算出数列中接下来的3项分别是48,54和60。当然,专门设计用来通过智商测试的程序,是不会给出这样复杂的答案的。

这个系统程序比人类厉害多了。你可以在这个网站上尝试一下下面五个数列,看看你和它比起来哪个速度更快。

 

A. 11, 12, 14, 16, 20, 21, 23, 25, 29

B. 11, 31, 71, 91, 32, 92, 13, 73

C. 3, 7, 14, 23, 36, 49

D. 1, 2, 4, 5, 10, 20, 29, 58, 116

E. 1, 4, 5, 7, 8, 11, 13, 14, 16, 22, 25, 28, 31, 34

 

这五道题的答案可以在文章最后找到。“在线整数数列大全”可以瞬间找到它们的答案,甚至难度更高的题目也一样。但尽管如此,也不能认为这个程序具备智能。它只能搜索数据库中已经存入的数列,这些数据是耗费了数年时间逐渐积累而成的。此外,这个程序也只会用最简单的方式回答问题。这个程序的成功依赖于大量已经预先准备好的数据,以及快速搜索答案的能力。而如果换成人脑的话,我们会通过心算分析数列的结构,或者用其他类似的方式去解密。这个例子再一次说明,人类和机器的智能是建立在完全不同的方法之上。

几年前,在美国的电视智力竞赛节目《危险边缘》里,计算机程序成功地赢得了一场比赛。而要赢得比赛,不但要具备非常广博的知识,还需要具备理解和运用自然语言的能力。《危险边缘》从1962年开播,在美国具有很高的知名度和收视率。节目题目涵盖了历史、语言、文学、艺术、科技、流行文化、体育、地理、文字游戏、自然科学等多方面内容,所有的问题、沟通及回答都使用英语口语表达。在比赛的某些环节,回答问题的速度也会决定最终比赛成绩。2011年2月,由IBM公司开发的“沃森”人工智能程序参加了一场《危险边缘》电视竞赛,在本次比赛中,它面对的是两位实力强劲的人类对手。和传统的《危险边缘》节目安排不同,在“沃森”参加的这次比赛中,问题以书面的形式提交给“沃森”,而在它得出答案之后,再通过人工语音进行输出。"沃森"通过这次成功获胜向世界宣告,无论是《危险边缘》中经常被使用的晦涩而幽默的双关语,还是覆盖诸多知识领域的问题,都没有能够阻碍人工智能获胜。

现在,人工智能系统“沃森”将会被应用于医疗领域,研究者正在把它训练成医学专家。

马库斯 · 胡特尔的压缩竞赛

智能可以有很多的定义,举例来说,根据一个给定的有序数列预测出后续数字,且正确率高过随机猜测,这种能力就是智能。而这个能力实际上和数据压缩能力是等价的。最近又有很多研究人员,包括马库斯·胡特尔在内,干脆用数据压缩能力定义“绝对智能”(更为确切的说是“通用智能”),前提是待压缩的数据必须要具有足够高的多样性。

因此,胡特尔特别组织了一个针对数据压缩的竞赛。任何人都可以参与这场竞赛,胜者将有机会获得由胡特尔设立的部分或全部奖金,总额5万欧元。

这场竞赛所需要完成的任务如下。给定一个1亿比特(bit)的文本文件,该文件是从维基在线百科全书中摘选生成的,参赛者需要设计一个程序,将这个文件尽可能地压缩,从而用很少的比特完全表述这个文件。这里需要强调的是,利用压缩后生成的小文件,要能够将原始文件完全恢复出来,即不允许出现任何信息损失或错误。比赛开始时,首先可以基于传统的压缩算法,把文件压缩掉大约81%,使其包含的比特数降低到18 324 887 个。之后,如果有人可以编写出程序使其压缩率相较上一位获胜者的压缩率提高百分之N,他就可以获得5万欧元的百分之N。例如,如果你想出一种压缩算法,相比于上一位获胜者可以将压缩率再提高5%,那么你就可以获得2500欧元的奖金。当然,对于压缩程序本身的大小,以及解压缩所需要的时间都有详细的规定和限制。

到目前为止,最后一个胜利者是亚历山大·拉图什尼亚克(Alexander Rhatushnyak),他在2009年将最终结果的比特数压缩到了15 949 688个。理论计算机科学的奠基人克劳德·香农(Claude Shannon)曾做过一个估计,自然语言中每个字符大约要占用1比特的信息量。按照这个说法,1亿比特的文本文件大约可以压缩到1250万个比特(文本文件中每个字符占用8个比特)左右,这样在理论上应该还有继续提高压缩率的空间。此外,因为维基百科的内容实际上体现了自然规律,如果设计出一个可以找出其中规律的程序,那么就还可以获得更高的压缩率。

 

AlphaGo,新的围棋大师

最近,机器在它棋中最后的弱——棋中战胜了人2015105日至9日,AlphaGo和三届欧洲棋冠樊麾按照传统规则进行了五场对弈,AlphaGo5:0战绩樊麾。这样,谷歌公司的DeepMind团队部位于英国敦)就比他期提前了整整10年达到了既定目

对计算机来说,围棋并不是因为其规则比国际象棋复杂而难以征服——与此完全相反,围棋规则更简单,它其实只有一种棋子。对弈的双方轮流把黑色和白色的棋子放到一个19×19的正方形棋盘中。落下的棋子就不能再移动了,只会在被对方棋子包围时被提走。到了棋局结束时,占据棋盘面积较多的一方为胜者。

围棋的规则如此简单,但对于计算机来说却又异常复杂,原因在于围棋的步数非常多,而且每一步的可能下法也非常多。可以用国际象棋做一下对比,国际象棋每一步平均约有35种不同的可能走法,而一般情况下,多数的棋局都会在80步之内结束。而对围棋来说,相应的数字分别是250和150。

如果是结构简单的棋类游戏,计算机程序开发人员可以使用所谓的“暴力”方法,再辅之以一些技巧,来寻找对弈策略。也就是对余下可能出现的所有盘面都进行尝试并给予评价,从而找出最优的走法。如果某次尝试走到最后是白棋一方取得胜利,就给之前经历的每一个盘面的分值加1,最后是黑棋胜利,则给之前经历的每一个盘面的分值减1。

这种对整棵博弈树进行穷举搜索的策略对计算能力要求太高,对国际象棋来说目前是不可能做到的,在可预见的未来也没有成功的希望。实际上,国际象棋程序会为任何一种盘面估算出一个数值范围从-1到1之间的分值:这个数值越大,对于白色一方越是有利,反之就对黑色一方更有利。程序会从当前盘面出发,对一定步数之内所有可能的盘面做出推演,得出不同盘面的估算值,并根据这些信息决定下一步的走法。

AlphaGo之前的围棋程序已经认识到,即便只从当前盘面出发去搜索博弈树的枝干,也会在有限几步后很快耗尽所有计算资源。更多的计算机程序放弃了这种穷举搜索,取而代之的是多次随机选取部分枝干进行搜索(即蒙特卡洛树搜索,英文缩写为MCTS),然后计算这些搜索结果的平均值,帮助计算机选出最佳走法。

无论用不用随机方法,对取胜最为关键的都是计算机程序具有的知识,也就是评判当前棋局形势的依据。在传统计算机程序中,这一关键功能一般由估值函数来实现,该函数可以为当前盘面打分。而基于蒙特卡洛随机搜索的计算机程序还需要策略来帮助选择走棋顺序。一个好的策略会倾向于获胜可能性最高的走法,它甚至允许执行一些乍看上去不是很明智,但依然会有一定取胜可能的走法。

伦敦的计算机专家设计的AlphaGo人工智能程序中,最新颖的技术当属它获取知识的方式。此前的计算机程序使用的估值函数一般是分析大量的对弈过程后统计得出的。某些国际象棋程序也会使用根据特定的棋形和盘面来评估形势的经验法则。与那些程序不同,AlphaGo可以借助于一个深度(多层的)神经网络自主地学习新的知识。深度卷积神经网络在图像识别领域有非常广泛的运用,这种神经网络本身有很多层,对图像分析得越细,利用的神经网络层就越深。AlphaGo的神经网络可以用不同层分析围棋盘面,无需额外的编程。

在深度学习的第一阶段,拥有13层神经网络的AlphaGo借助围棋数据库KGS中存储的3000万份对弈棋谱进行初步学习;在第二阶段,AlphaGo会和自己的老版本进行对弈,并对每次对弈的结果进行评估,从而改善它在第一阶段学到的知识。而在第三阶段中,AlphaGo可以根据之前获得的学习经验得出估值函数,并利用它在比赛中做出正确的判断。

AlphaGo获得成功的途径是否和人类完全不同呢?它的对手樊麾并没有这种感觉:“如果在比赛前没有人告诉我AlphaGo是机器人的话,那我一定会觉得我的对手是一个棋风罕见,但却非常强大的棋手——但无论如何我一定会觉得这个强大的对手是一个真实的人,而不是一台机器。”如果拥有极为坚强的意志力,人也可以和AlphaGo一样完成类似学习,至少可以完成前两阶段的学习——即 “观察大师下棋”和“通过和自己对弈练习来逐步强化自己”,特别是神经网络本来就是模仿人脑的结构。

然而,AlphaGo也有一个与人类相似的负面特性:它可得出最优策略,但是这些策略是怎样得来的,却无人可知。问题的答案藏在神经网络系统的内部参数(专业术语称为神经网络突触权重)中。尽管与人类神经细胞不同,研究人员无需额外的探查手段即可查看神经网络,但从其中却无法得到深层次的认识,也不可能用数学方程表达其内部结构。

在2016年3月的比赛中,Alphago击败了世界最强棋手之一,韩国的李世石(Lee Sedol),标志着人工智能终于征服了围棋。

 


全部评论

你的评论