AlphaGo来了!(六)_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 工程 • 技术

AlphaGo来了!(六)

黄铂钧  发表于 2018年05月21日

训练AlphaGo更像训练动物

尽管AlphaGo空前强大的棋感的确归功于深度神经网络的学习能力,但这种人工神经网络和我们人类在学习方式上截然不同。

人类从了解围棋规则,理解前人总结的一般概念和要领,到练习局部攻杀,再到通过实战把所学的各种“局部”知识融成一体,再到对已有对局复盘打谱,找出对棋局结果影响大的“关键手”,分析研究背后反映出的因果关系和逻辑规律。其间还会和其他棋手讨论,交换心得,甚至可能从围棋之外的生活经验得到启发,然后又以非常微妙的方式运用于围棋之中。所有以上步骤又再经过反复循环之后,一个人类围棋高手才逐渐诞生。

与之不同的是,现在训练人工神经网络学习的方式和马戏团训练动物更类似,可以说就是直接训练一种从情景到行为的映射,做对了给予“奖赏”,做错了给予“惩罚”,并大量重复。拿AlphaGo来说,它“学棋”没人类那么多手段,就像是自己坐在那里默默看高手对局,数量多到世界上最勤奋的人几十辈子也看不完。其间,每一局每一步都通过比对自己与高手的差异一点点校正自己的行为。这个校正过程从根本上不同于人类的学习过程,中间没有产生任何“高层思维和概念”,本质上也可以看作是在同样浩瀚无穷的原始“参数空间”中的一个搜索过程。

另外,AlphaGo学习时要求的训练数据规模也和人类完全不是一个量级的。AlphaGo团队在训练价值网络时有过一个小插曲。据论文描述,AlphaGo的“策略网络”和“价值网络”在网络模板和训练算法方面都是一样的,但是如果像训练策略网络那样,直接把网络对战产生的3000万个盘面拿给价值网络“看”,价值网络会在训练时表现良好,却在实战面对新盘面时表现不佳。AlphaGo团队认为这种“过拟合”现象是由于这3000万个盘面实际上是从16万场对局中提取的,所以虽然输入是3000万个,正确答案却只有16万个,其中有很多盘面信息是冗余的。为了获得足够的数据,开发团队特地制作了一个“神经网络版AlphaGo”,并通过让这个神经网络版AlphaGo自己与自己对弈的方式产生了3000万场新对局,然后从每场自弈对局中只挑出一个盘面做训练数据。可见,AlphaGo使用的深度卷积网络在“学习围棋棋感”时对数据量要求非常大,即使是十万量级的数据规模仍然不能满足要求,而要通过其他手段达到百万甚至千万的量级。从此也可知,AlphaGo自身是不可能在与对手的一两盘对局中“学习”到任何新东西的。相比之下,李世石九段在与AlphaGo的前3盘对局中观察到AlphaGo中盘对杀的弱点,在第4盘对局中主动将盘面引向对手不擅长的局面并一击制胜,这样令人类自豪的应变能力是现在的AlphaGo程序完全无法做到的。

 

AlphaGo是一次宝贵的实验发现

从上面的介绍可以看出,在技术层面上AlphaGo并不出奇,基本上就是把之前已经成功用于图像分类的神经网络直接拿来替换已有蒙特卡罗树搜索围棋程序中的两个模块。但这丝毫不影响AlphaGo成为一个里程碑式的成就。恰恰因为AlphaGo在改进思想上如此简单,所以为进一步提高计算机的棋力留下了广阔的技术改进空间。

某种程度上AlphaGo可以说是一种“哥伦布发现新大陆”式的成功。并不在于它发明了多么匪夷所思的技术,而在于超越技术范畴之外的深远影响。与其说AlphaGo是一次技术胜利,不如说它更是一次成功的实验发现。

一种颇为流行的看法认为,围棋是检验人类智能的标准,计算机在围棋棋盘上战胜人类,预示着人工智能超越人类智能这一时刻的临近。实际上,用于检验人类智能的标准是为“人类智能”量身定做的,并不是一般原则,尤其不适用于检验机器智能。AlphaGo战胜了人类高手,说明它围棋下得好,但并不说明其智力超群。同样,如果哪一天某个计算机IQ测试拿了满分,那也只能说明它IQ测试做得好,同样不能单以此说它智商高。

那么机器要怎样才能“证明自己的智商”呢?笔者认为通用性才是智能的一般标准,一个物理系统的“智能”体现为它能在各种不同环境中都能更好完成既定目标的“全才”能力。事实上学术界已经有人开始挑战“通用人工智能”,这也是人工智能领域的“初心”所在。比如开发出AlphaGoDeepMind公司也致力于此。他们做了一个程序,可以同时在几百种视频游戏中都超出人类平均水平,是可喜的进展。但我们一个人可以解决的问题何止万千,按通用性标准来看,今天包括AlphaGo在内的机器智能程度远远不及人类万分之一。

“智能”是人类最引以为豪的能力,也是已知世界中最复杂的现象之一,背后一定隐藏着深奥的客观规律。让我们抛开日常经验的束缚,用实证精神一点点揭开认知科学和人工智能的终极秘密。


(本文发表于《科学世界》2016年第4期)



全部评论

你的评论