如果你将有关这个世界的所有数据输入一个黑盒子,这个黑盒子能否变成一个水晶球,可以让你窥见未来——甚至还可以根据你的选择来测试将要发生什么?至少有一个人认为可以,而且他即将获得10亿欧元的资金来打造这个黑盒子。
撰文 戴维·温伯格(David Weinberger) 翻译 张燕晶
然而,没有一个人能够百分之百确定剧情将如何发展。越来越多的人担心,希腊一旦脱离欧元区,那么西班牙和意大利或许也会效仿,这样就会使欧盟的关键纽带进一步削弱。但是英国著名财经杂志《经济学人》(Economist)却认为,危机会“促使布鲁塞尔(欧洲央行所在地)加强对财政政策的控制,将欧元区变为一个在政治上更加一体化的俱乐部”。这些结果还将进一步带来广泛的影响:申请进入欧盟的移民也许会转而涌入生活费用较为便宜的希腊;旅游人数的下降,也会使得传染病的扩散受到限制;贸易路线的改变则会破坏当地的生态系统。
其实问题本身非常简单——希腊到底要不要退出欧元区?但问题将会带来的后果却很难预料,其结果过于复杂,即使是世界上最聪明的专家也无法把握这一切将会带来的变化。
德克·赫尔宾(Dirk Helbing)是一位物理学家,同时也是瑞士苏黎世联邦理工大学的社会学教授,他试图花费10亿欧元来打造一个计算系统,用以对世界上将要发生的事情作出有效预测。而前文提到的那些问题,恰恰就是刺激他这么做的动机。赫尔宾的系统绝不仅限于用来预测金融、政策或环境等的某一方面。他的目标非常明确,那就是要预测一切——即这个世界上的所有事情——从而找到决策者面临的最棘手问题的解决方案。这个项目的核心部分被称为“活地球模拟器”(Living Earth Simulator),它试图模拟一个全球尺度的系统——包括经济、政府、文化趋势、流行病、农业、技术发展及更多领域——这需要用到巨量的数据流、高级的算法,以及能让系统运转起来的硬件设施。在赫尔宾的竭力推销下,欧盟委员会被打动了,因此,他们在有6个项目参与的最终角逐中,将赫尔宾的项目排在第一位,并向他的项目投入10亿欧元。
这个系统是对“巨量数据”最具雄心的表达,在许多科学家看来,此趋势堪与当年望远镜或者显微镜的发明相媲美。美国哈佛大学医学教授、社会学家尼古拉斯·克里斯泰基斯(Nicholas Christakis)说,呈指数式增长的数字化信息将计算机科学、社会科学、生物学等通过各种方式结合在一起,这让我们有能力应对那些此前无力解决的问题。克里斯泰基斯举了一个例子,无处不在的手机可以创造出大量的数据,比如一个人正在前往什么地方,他们在购买什么,甚至可以追踪人们都在思考些什么。很多科学家都相信,只要将这些数据同其他类型的数据结合起来——比如来自基因组学、经济学、政治,以及其他领域的数据——众多新颖的探索领域很快就会向科学家敞开大门。
“科学上的进步一般都是由仪器来推动的。”戴维·雷泽尔(David Lazer)说,他是美国西北大学计算机和信息科学学院的副教授,同时也是赫尔宾项目的支持者。有了工具,任务也就随之而来,如雷泽尔说的那样:“科学就像一个醉汉在街边的路灯下找钥匙,因为那儿的光线更好。”对赫尔宾的支持者来说(其中包括来自全球的数十位备受尊敬的科学家),10亿欧元的资金足以获得非常明亮的“光线”。但仍有许多科学家对是否需要将全球的数据汇集到一个中央数据库持怀疑态度。他们认为,更好的方式是通过互联网形成数据云,然后通过链接来使它们能供所有人利用。这种数据分享格式能让更多人有机会浏览查看数据,然后找到潜在的联系,并为有竞争力的创意创造一个交流场所。
超级复杂顶级模型
对现代科技而言,寻找各类数据之间的联系实属稀松平常,即使现在这些数据堪称海量,它们之间的关系也相隔十万八千里。例如,美国麻省理工学院人类动力学实验室主任亚历克斯·彭特南德(Alex Pentland)指出,研究者已积累了大量有关人类行为的匿名数据,足以通过分析这些数据,找出诱发II型糖尿病等“行为方式疾病”(diseases of behavior)的行为学和环境方面的复杂因素。彭特南德说,这种海量数据挖掘的方法使得一项始于1948年、累计有5 209名自愿者参与的极具创意的心血管病研究[俗称“弗雷明汉研究”(Framingham study)],看起来就跟一项小组研究差不多。
然而,赫尔宾的“未来信息通信技术知识加速器”(FuturICT Knowledge Accelerator)以及“危机缓解系统”——这是该项目的正式名称——远远超越了数据挖掘的范畴。该项目包括“全球危机气象台”,四处搜寻危机出现的苗头,例如食物短缺或者流行病的出现。它还有一个被称为“地球神经系统”的组成部分,能将分布在地球各地的传感器采集到的数据汇总起来。但是,FuturICT的核心还是要数“活地球模拟器”,它可以对世界上正在起作用的,来自社会、生物、政治以及物理的无数力量进行模拟,并利用它们来获得对未来的认识。
模型的出现已经有大半个世纪了。早在1949年,一位来自新西兰的工程师及经济学家比尔·菲利普斯(Bill Phillips)用水管零件和一台拆下的汽车雨刮马达打造了一个模型,向世人展示了英国的经济是如何运转的。此模型基于对消费者开支、税收以及其他经济活动所进行的“假设”调节,用有颜色的水模拟收入的流动。尽管用今天的标准来看,菲利普斯的模型还相当初级,但它却具备了模拟的基本运作方式:规定各个要素之间的一系列关系,输入数据,然后观察结果。即使预测效果不准,这种误差本身也能成为有用的信息,可以用于改进模型。
现代社会没有电脑将寸步难行,没有模型也一样难以运作。但是你能时时刻刻都使用足够多的水管与水泵来建模吗?不仅是对火山喷发、短期经济增长的影响建模,而且还要针对人类行为涉及的所有领域,从教育到疫苗的分配,能做到吗?赫尔宾给出了肯定的答案。他的自信部分源自他已经成功模拟了另一个复杂的系统——高速公路上的车流。通过在计算机上对车流进行模拟,赫尔宾和同事设计出了一个模型,这个模型显示(同样是在计算机上),如果减小运行中的车辆的间距,就能消除因汽车走走停停而浪费的时间。非常不幸的是,这个间距实在太过微小,以至于只有机器人驾驶才能做到。同样,赫尔宾还介绍了一个由他充当顾问的计划,即模拟麦加的朝圣者人流。此计划的结果是花费10亿美元重新规划建设当地的街道与桥梁,从而避免朝圣者互相踩踏造成大规模伤亡。实质上,赫尔宾把他的FuturICT系统看作是这些交通模型的一个精心制作的放大版本。
但是,这种模拟只对很少一类情况有效,美国哈佛大学定量社会科学研究所的加里·金(Gary King)说。在高速公路交通和麦加朝圣者的案例中,每个人(或者每辆车)都是朝着相同的方向前进,而且都希望能够尽可能安全、快捷地到达目的地。反观赫尔宾的“未来信息通信技术知识加速器”却旨在建立复杂的模拟系统,这些系统内的人可谓形形色色,动机也各不相同;既有各种意外事件,也有无数复杂的反馈,并且可以通过输入、输出以及反馈回路与其他相关系统相连。例如,一个城市的经济模型就依赖于该城市的交通模式、农业生产、人口统计资料、气候和流行病学情况,当然,这里只提到了其中一部分。
除了要面对令人望而生畏的复杂性问题,科学家还列举了一个综合系统所必须征服的一大堆相互关联的挑战。首先,我们目前还不具备一套完备的社会学理论,而这正是一个系统的起点。加里·金解释说,当我们拥有一套可靠的关于事物如何运转的理论后,就可以建立起一个能够成功预测结果的模型,比如对物理系统来说就是这样。但是,目前我们所掌握的无论哪一种社会行为学理论,在预测能力方面都还远远落后于物理学定律。
不过,加里·金指出了另一种可能性:如果我们拥有足够多的数据,我们就可以基于一些关于“规律如何形成的线索”来打造模型,甚至不用去知道规律到底是什么。例如,如果记录下地球上任意地区的气温和湿度在一年内的变化情况,我们就可以开发出一套相对准确的天气预报系统,而不需要懂得流体动力学或者太阳辐射什么的。
美国西北大学复杂网络研究中心主任阿尔伯托—拉斯洛·巴拉巴希(Albert-László Barabási)认为,我们已经开始利用数据来梳理一些有关人类系统的规律了。巴拉巴希同时也是FuturICT项目顾问,他和同事最近公布了一个模型,可以根据人们过去的出行习惯,预测这些人明天下午5点钟的时候都在什么地方,准确率可达90%。做出这种预测没有用到任何与心理学、技术或者经济相关的知识。模型仅仅是分析过往数据,并以此作出推断。
但是,有时候为了让这些方法取得较好的效果,所需的数据量远远超过了我们的能力范围。卡内基·梅隆大学的统计学家科斯马·沙利兹(Cosma Shalizi)认为,如果你在思考100种不同互动因素的问题时,想像思考二维问题一样准确,那么需要的数据量近乎天文数字。沙利兹总结说,除非你将就着使用那些无法把握社会行为学整体复杂性的简单模型,“想要单靠数据打造出精确模型是不现实的”。
FuturICT不会仅仅依赖于一个模型,不论此模型有多复杂。赫尔宾介绍说,它将把“计算机科学、复杂性科学、系统理论、社会科学(包括经济学和政治科学)、认知科学”以及其他领域都结合起来。但是,模型的结合也会带来新的问题——复杂程度将呈爆发式增长。“假设天气与交通各有10种情况,”加里·金说,“如果你想同时知道这两者的情况,需要知道多少事情?答案不是20,而是100。这还不至于让我们感到绝望。它仅仅意味着我们所需的数据量增长得非常快。”
更棘手的是,一个模型的预测结果也将改变它在建模时自身所处的环境——预测结果做出后,它会反过来影响自身的准确性。印第安纳大学复杂网络与系统研究中心主任、FuturICT项目首席数据规划师亚历山德罗·维斯皮尼亚尼(Alessandro Vespignani)说:“这是一个巨大的科学问题”。既然预测结果影响到其自身条件,那么,“我们要怎样才能开发出合适的模型,使它所含的反馈回路或实时数据监测系统,能够让我们连续不断地改进算法并作出新的预测?”维斯皮尼亚尼说。
这样的模型还必须具备令人难以置信的复杂和详尽程度。比如说,如果你询问一个经济学模型,你所在的城市是否该把一些土地改做他用,而这个模型在做决策时没有考虑食物链的问题,那么,从经济学角度来讲,它给出的答案或许合理,但对环境来说,可能就是一场灾难。世界上有超过1 000万个物种,仅仅是了解每一个物种以什么为食,都会复杂得让人无比沮丧。而且,食物方面的相关差异还不仅仅停留在物种这个层次上。美国洛克菲勒大学的环境学家杰西·奥苏贝尔(Jesse Ausubel)指出,通过对蝙蝠胃里食物的DNA进行分析,我们可以弄清蝙蝠都吃了什么。但是居住在某个山洞里的蝙蝠和仅仅数英里之外的同一类蝙蝠,它们的食物源都可能不相同。如果没有踩着那些海鸟粪,进入一个又一个山洞具体考察,则依赖那些互相关联的模型的专家将有可能遇到不可靠的、会产生一系列连环作用的结果。
所以,虽然从理论上说,即使我们对模型所依据的根本法则一无所知,也能构造那些关于复杂现象的模型,但实际的困难也将呈指数式猛增。总有另外一个层次的细节,总有另外一种因素在最后的结果中可能被证明是非常关键的。如果我们没有事先了解人们会怎样做,那么我们就不可能知道模型获得的是不是最终结果。
在基因组学和天文学等领域,建立在巨量数据上的研究业已取得许多成功,但是,在单一领域的成功还不足以证明,当我们将多个领域通过高度复杂的方式相互联系起来的时候,仍能取得成功。也许我们可以一点点地进步,但也许存在这种可能性:对于涉及人类活动这样复杂的系统,模型的能力天然就是有限的。毕竟,人类系统通常服从于象征着不可预测性的两大理论:黑天鹅理论(black swans theory)以及混沌理论(chaos theory)。
当预测结果难以理解时
什么模型可以预见到世界范围内每天都在发生的动荡?或者预见到2001年9月11日的那场恐怖袭击,以及它带来的深远影响?又或者预见到因特网从研究者专用的一个不起眼的网络,变身为全世界最重要的工具,催生或颠覆了整个行业?纳西姆·尼古拉斯·塔雷伯(Nassim Nicholas Taleb)在他2007年的畅销书《黑天鹅》(The Black Swan)中阐述道,这就是通俗化的“黑天鹅问题”(black swan problem)。“这个世界总会比模型更加复杂,”奥苏贝尔说,“事实永远如此。”
更糟糕的是,赫尔宾想要弄清楚的社会、政治以及经济系统,绝非复杂二字就能形容。这些系统具有混沌的特性。它们中的每一个都依赖于成百上千个独特因素,相互间的关系非常复杂,而且还深受初始状态影响。在混沌系统中,每件事都有某种起因,或者更准确地说,每件事的发生都有多得不计其数的起因,因此对事件只能作最普遍、最一般性的预测。例如,美国乔治·梅森大学的气候学家、全球环境与社会研究院(Institute of Global Environment and Society)主席雅格蒂西·舒克拉(Jagadish Shukla)曾告诉我,虽然我们能提前5天预测天气,“但如果想要提前15天做出预测,那是不可能的。无论你安置了多少个传感器,初始条件总会有误差存在,而且我们所使用的模型也不是完美的”。舒克拉说:“局限性并非来自技术方面,而在于系统的可预测性本身。”
舒克拉一直小心翼翼地把天气和气候区分开来。我们也许无法预测100年之后的某天下午是否会下雨,但是我们可以在一定程度上准确预知那时的平均海洋温度。“尽管气候是一个混沌系统,但它仍然具备可预测性,”舒克拉说。对赫尔宾的模型来说也是如此。“复杂的金融市场运作也许比天气的可预测性更低,”赫尔宾在一封电子邮件中写道,“但事实上,我们可以通过对某些宏观经济数据(例如,很多年以来,美国人的消费总是比收入增长得更快)的分析,预测出金融危机迟早会发生。”但是,不需要一大堆超级计算机、天文数字般的巨量数据,以及花费10亿欧元,我们也能获知这些。
如果模型的目的是为了给政策制定者提供有科学依据的咨询意见(就如赫尔宾在证明10亿欧元赞助费物有所值时所强调的那样),一些新的现实问题就会冒出来。首先,我们尚不清楚,人类的大脑是否已经有能力理解超级计算机给出答案时的过程与依据。当模型足够简单时——比如有关英国经济的“水工学”模型——我们可以追溯模型的运作,并意识到个人存款账户的缩水是加税过快而带来的一个意料之外的后果。不过,那些依赖于大量数据计算,并需要通过结果反馈来加以调整的复杂模型即使能提供可靠的结果,其过程之复杂也是人类大脑所难以理解的。也就是说我们只能知其然而不能知其所以然。
当我向赫尔宾问到这一局限性时,他停顿了一下,然后告诉我,他认为人脑能够理解的那些基本规律以及公式,最终可能都会浮现出来,因为他在研究交通时遇到的情况就是这样。但是,汇集了金融系统、社会行为、政治运动、气象学以及地理学的交叉口,其复杂程度远非朝着同一个方向行进的三车道交通能够比拟。所以,人类也许无法理解,当模型被问到一旦希腊脱离欧元区会产生什么结果的问题时,它凭什么会预言灾难即将到来。
如果无法理解为什么某一行动路线是最佳方案,一个国家的总统或首相就永远不可能据此采取行动——尤其是当这样的行动看上去荒谬可笑时。哥伦比亚大学的统计学家维多利亚·斯图登(Victoria Stodden)构想了这样的情景:一位政策制定者获知了“活地球模拟器”的预测,并宣布“为了让全世界摆脱经济危机,我们必须烧掉地球上所有的油井”。如果政策制定者无法解释这样做的理由,那么这就是一个无法被执行的建议。毕竟,即使科学家事实上已经就气候变化带来的威胁大体上达成共识,政策制定者还是拒绝为每一个严肃的环境模型所预测的未来做好准备。
网民的争论
赫尔宾现在所描述的FuturICT是一项巨大且复杂的工程,需要一个中央组织来对它加以管理,因此,也就难免出现这样或那样的实际问题。赫尔宾将负责监督一个包括硬件建设、数据采集、结果返回等工作的全球化项目。
但这不是约翰·威尔班克斯(John Wilbanks)想要的。威尔班克斯是非营利组织“知识共享”(Creative Commons)分管科学的副总裁,他和赫尔宾一样热衷于巨量数据,但他的直觉让他把目光投向因特网而不是钟情于建立机构。在威尔班克斯的领导下,一个旨在组建形形色色的“共享数据”系统(data common),让所有人都可以利用它们的项目正在展开。这个项目旨在让全世界的科学家都加入到一个汇集了各种创意、模型和结果的开放的交流场所中。与规划一个具备有序输入和高价值输出功能的形式化机构相比,威尔班克斯的方法可谓反其道而行之。
上面的两种方法强调了两种不同的价值标准。数据分享也许不能获得一个封闭系统实行的专业人员审核过滤制所带来的好处,但威尔班克斯坚信,这种方法通过其“繁殖力”的优势足以地弥补这一缺陷[繁殖力(generativity)这个术语引自乔纳森·奇特林(Jonathan Zittrain)在2008年的著作《互联网的未来》(The Future of the Internet),指一个系统通过大量各种类型的受众做出的未经过滤的贡献,从而获得意料之外的变化的能力]。例如,互联网允许每个人都参与进来,这就是它为什么能成为一个强大的创新引擎的原因。在威尔班克斯看来,如果科学家都能利用到尽可能多的数据,如果一切信息都能对所有人开放,并且易于使用,而且这些信息能够实现跨学科、跨单位、跨模型的整合,科学就能以最快的速度取得进步。
在过去数年里,一种新的数据“语言”浮出水面,这让威尔班克斯的梦想看起来不再那么遥不可及。此语言源自于万维网(World Wide Web)创始人蒂姆·伯纳斯—李(Tim Berners-Lee)2006年阐述的若干原则。在这种“链接数据”格式中,信息的输入形式简洁明了:X和Y以某一特定方式相关;这种相关性可以是发布数据的人所想要的任何东西。例如,如果知识共享组织想要以链接数据的形式发布他们的员工信息,他们可以用一系列“三元组”(triples)来提供数据:[约翰·威尔班克斯][领导着][知识共享组织的科学部门],[约翰·威尔班克斯][的电子邮件地址是][ johnsemail@creativecommons.org],诸如此类。
而且,由于世界上不止一个人叫约翰·威尔班克斯,“领导”一词也有其他意思,因此这些“三元组”中的每一个元素都包含着一个网络链接,指向一个权威的,或者清晰无误的信息源。例如,“约翰·威尔班克斯”的链接或许就指向了他的主页,或者是CreativeCommons.org(知识共享组织的主页)介绍他的页面,或者是维基百科(Wikipedia)中关于他的条目。而“领导”的链接则有可能指向一个标准词汇表,这个词汇表定义了他所起的领导作用的类型。
这种关联结构可以让研究者将来自多个源头的数据联系起来,而无须先就一个用以解释各部分之间关系的抽象模型达成一致。这样一来就大大降低了发布数据之前数据准备工作的成本。它同样也提升了这些数据被发布后的价值。
这种“链式数据”的方式可以使更多人注意到某一特定数据集上,因而增大了某人偶然发现一个有趣的信号的可能性。更多的假说可以被测试,更多的模型也可以被检验。“网民们的思想需要碰撞,”威尔班克斯说,“他们需要辩论模型中所用的变量和数学是否准确,还有前提假设是否正确。”这个世界非常紊乱,以至于我们读懂它——比如及时发现潜在的金融危机——的最佳机会,就是让尽可能多的人都来对它指手画脚一番。对威尔班克斯和他的团队而言,让数据公开且可以通用是第一步,也是革命性的一步。在参与辩论的各门各派中必定有一些拥有非凡智慧且打造出了精致模型的机构。但是,要让真相浮出水面,第一个而且最基本的条件还得是争论本身——网民与网民之间的争论。
威尔班克斯和赫尔宾都将“天量数据”看作是一场革新,他们也都期望,能被科学地理解的社会行为比我们前些年设想的要多得多。赫尔宾并没有打算通过向赞助方描述“活地球模拟器”如何防止国家破产及全球危机以说服他们出钱(如巴拉巴希所言,“如果你试图说服政治家,那你就必须谈论最终产出”),而是承认FuturICT将会支持多个彼此间存在竞争的模型。而且,赫尔宾还渴望能完成人类历史上最大规模的一次数据采集,并将它们中的绝大多数公之于众。(其中一些必须保密,因为它们来自商业机构的有限授权,或者包含了个人隐私信息。)
无论怎样,差异是实实在在的。对赫尔宾以及他的数据架构师维斯皮纳尼来说,确认FuturICT支持多个模型不会让他们止步不前。“甚至天气预报都是基于多种模型完成的,”维斯皮纳尼说。然后他又说:“把它们结合起来,就可以得到一个有关各种结果发生概率的统计推断。”对赫尔宾和维斯皮纳尼而言,FuturICT的价值就在于它可以汇集多种模型,得出一个答案。
当然,数据共享的目标也是向真相汇聚。但它既然采用网络架构,它就承认甚至是鼓励富有成效的意见交锋。科学家可以使用不同的模型、不同的分类标准、不同的术语,但是他们仍然可以彼此交谈,因为他们可以通过其共享的数据链接回到因特网或者现实世界中的某个已知的联系点。也就是说,他们可以各干各的,但仍能相互交流甚至合作。威尔班克斯认为,差异不会消失,变成众口同声的一言堂,因为存在不同的文化,不同的出发点,甚至不同的脾性。这种数据大众化的方法不但意识到差异的长期存在,而且承认甚至鼓励这种存在。
网络重新定义知识
最显而易见的问题也是最实际的问题是:哪种方法将取得更佳的效果?[ 这里的“效果更佳”指的是能够推动科学前进,并针对有关未来的那些难题给出有意义(而且准确)的答案。]
归根结底,答案也许可以归结为对知识的本质特性的争论。两千多年来,西方一直将知识看作是一个已确定的、始终如一的真理系统。也许这种看法更多地暴露了知识传播手段而非知识本身的局限性:当知识被不褪色的墨水写在纸上从而被传播和保存的时候,人们就会认为它通过了验证而且不会再改变。然而,新的知识传播媒介不再是印刷出版物,更多的是通过公开的网络传播。我们可以从数据共享中获取大量知识,但它们随时以这样或那样的方式被修改,因此这些知识就更像是一种连续不断的论证。事实上,这就是网络时代的知识:永远不会被完全确定,永远不会写完,永远不会彻底搞定。
FuturICT平台的目标是打造出一个能足够完美地代表地球的机器,我们可以向它提问,并根据它的回答采取行动。这意味着我们可以通过生活中各个领域的逻辑模型来准确无误地描述世界。而“链接数据”阵营的出现则在一定程度上是对这个观点的挑战。知识也许来自数据共享系统,即使它本身并不能完美地代表这个世界。
当然,除非这场各种观点间的混战——网民与网民间的争论——是对世界的更加完全真实的表述。
请 登录 发表评论