除去带来兴奋与好奇,大数据还在帮助人类重构对世间万物的认知。但与此相对,人类对大数据的理解还显得有些粗浅。
本刊记者:刘洋
小说中,故事的发展证实了科学家们的猜测。凶手——一位优秀的心理学家将康纳士博士一年来的行动描绘成图,又将这些 粗线与土蜂——与人类相比当然是一种毫无智慧的低等动物——的行为进行对比,结果发现人类与土蜂的行动竟全无二致。当心理学家将成果展示给康纳士博士时,自视甚高的博士完全无法接受残酷的现实,不久就郁郁寡欢地了却余生。
从盗版书进入街边小店算起,《卫斯理》的风靡持续了20年。在玄幻小说整体匮乏的时代,独特的《卫斯理》在某种程度上扮演了《哈利·波特》在今天所扮演的角色。但与后者不同,《卫斯理》系列小说似乎总在追求某些神秘现象背后可能存在的科学原因。
在《规律》中,小说家倪匡将人类与动物活动轨迹的一致归因于基因。直到今天,科学的发展还难以证明,小说家的这一幻想是否确有科学依据。但今天的科学也从另一个侧面证实,小说中凶手“杀人于无形”的特殊信息处理及心理攻击方法可能是合理想象。就信息处理而言,人类以及世界上很多杂乱无章的物质运动所传递出的信息,往往都确实暗含着某种神秘的规律。
揭示这类神秘规律的任务留给了科学家与工程师。这个任务,我们称之为大数据处理,简称大数据(big data)。
大数据时代
对于数据分析,这无疑是一个前所未有的黄金时代。现在,几乎每个人的衣袋中都有一部可以随时联网的智能手机,更强大的平板电脑则安静地躺在数亿人的手提包中,加之久久没有退出历史舞台的个人电脑和方兴未艾的物联网中的电子设备,这个世界,每时每刻有数以百亿计的电子精灵在产生数据,一个崭新的数据爆炸时代正喷薄而出。
市场研究公司加特纳(Gartner)的统计数据显示,Facebook在上市前两年一共收集了2.1万亿条“获利信息”,其中包括用户喜好、评论和共享信息等等,这些珍贵的数据令资产仅有66亿美元的社交巨头获得了超千亿美元的估值——如此高的溢价在商业史上堪称“前无古人”。
中国的科技企业也在经历这种洗礼,比如百度。这家仅次于谷歌、Facebook、Youtube和Yahoo的全球第五大网站,每天需要响应50亿次搜索请求并处理100TB的数据。而作为所有媒体内容的载体,百度仅是每天需要处理的网页数量就高达3,000亿。
但与科学界相比,工业界最庞大的数据也会相形见绌。2000年,斯隆数字巡天项目启动的时候,这架位于美国新墨西哥州的2.5米口径的射电望远镜在几周内搜集的数据,就已经超过全球几千年积累的总和。而作为欧洲航天局的第三个中型科学计划,普朗克卫星搜集的数据更是令人瞠目结舌:千余名全球顶尖科学家和工程师,耗时3年才将首批结果公诸于众。
事实上,正是在天文学等饱受数据规模与复杂度所累的科学领域,率先提出了“大数据”口号,并发出利用思维革命与技术创新,系统解决此类问题的呼吁。类似的呼声在世纪之交还显得另类而小众,但仅仅十余年后的今天,人们就已经感受到了数据大潮呼啸而至的震撼。
今天,人类社会存储的数据已经高达1.2ZB。如果将这些资料刻录成光盘,其长度足以绕地球50圈。在这些信息中,非数字化信息已不足2%。考虑到电影数字化浪潮的风起云涌、电子阅读的方兴未艾,人们几乎没有理由怀疑这样的趋势还将继续。
数据数量的爆炸、来源的多样和形态的迥异,使这个时代显得如此不同。在这个时代,人们第一次有机会接触与某个现象相关的全部数据,因而得以颠覆“以样本代表总体”的科学研究铁律。但即便如此,我们对于大数据这一新生事物的了解依然过少。
大数据的价值
对于大数据,IDC为人们提供了一个简洁的标尺:“为了更经济地、高频率地从大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为更大的容量(volume,从TB级跃升至PB级)、更强的多样性(variety,包括结构化、半结构化和非结构化数据)、更快的生成速度(velocity)以及基于以上三者的更大价值(value)。
“4V理论并不足以概括全部,大数据的核心其实还在于其跨域关联。数据正像棉花和钢铁在工业革命中所发挥的作用一样,变成新科技革命中最重要的原材料。”电子科技大学教授周涛认为,数据积累遵循由量而质的演进过程。如果规模较小,数据就只能用于分析特定现象本身;一旦规模达到另一域值,很多杂乱无章的现象就会表现出意外的关联性,这才是大数据的价值所在。
人品与删除浏览记录,就是这样一个曾经看似风马牛不相及的关联体。很多人喜欢上网后删除浏览记录。在保护隐私的旗帜下,这种行为很少受到关注,也很少激起人们的兴趣,自然也就不能调动人们深入思考和仔细研究的积极性。但来自以色列的夏沃特·谢克(Shvat Shaked)却通过努力告诉人们,如此寻常的行为中同样蕴含着道理,也许还蕴含着无限商机。
谢克有一个坚定的信念:一个人的品行与其不经意间的行为密切相关,那些“坏人”为防被人追踪一定会不断删除自己在互联网上的踪迹,而“好人”则一般不介意在互联网上留下自己的印记。基于这个信念,谢克通过对海量数据的分析研究出了一款独特的防欺诈系统。
这一防欺诈系统受到了eBay的关注。后者的paybal系统允许两个用户通过电邮地址在线交易,这为钓鱼式攻击提供了可乘之机:一些欺诈网站伪装成真实网站以获得用户的登录信息。paybal近年来不断加强在线安全却一直收获不大,谢克的创意及其防欺诈系统出色的性能就在此时吸引了eBay。2008年,eBay以1.69亿美元将谢克及其公司Fraud Sciences收入囊中。
大数据正在改变这个世界,甚至连农夫山泉这样的传统产业也在拥抱这一浪潮。现在,农夫山泉在全国大概有10,000个业务员,每个业务员每天会跑十几个超市,去了解矿泉水摆放方式和位置的变化,这些都要用数据传回公司总部,而公司的信息技术人员就从这些数据中,分析出消费者的特性、习惯,以及竞争对手的变化对产品销量的影响,最后再以分析结果来指导生产和销售。这种决策以前都只能根据经验来制定,而现在则是根据数据。
科学也在因大数据而经历变革。曾提出“长尾理论”和“免费经济”的《连线》杂志总编克里斯·安德森(Chris Anderson)指出,“数据爆炸使科学研究方法都落伍了”。安德森认为,可获得数据量的激增意味着传统研究范式正在成为过去,无需终极定理支撑的相关关系研究正在取代因果关系研究成为学术界的主流。
中国科学院高能物理研究所研究员李淼无疑也在经历这种变化。十几年之前,这位对黑洞、宇宙学、暗能量和弱引力等课题兴趣甚浓的物理学家还在感叹珍贵数据的稀少。尽管同样是“大胆假设,小心求证”,但那时的科学在某种程度上似乎更像艺术而非技术:物理学家脑海中突然迸发出的灵感,远比运算能力强大的计算机更可能影响物理学的走势。
但现在,李淼的学生都在通过大数据寻找各种现象间的相关关系,而最近一两年吸引了全球目光的寻找希格斯粒子的研究,同样借助了大数据的相关手段。“大数据当然会带来科学研究范式的改变。”李淼的好朋友,电子科技大学教授周涛认为这种改变甚至刚刚开始,“对于很多以往只能定性研究的社会学科,大数据时代的到来意味着定量研究正成为可能。这些学科中约定俗成的很多东西,都有可能在这个新的时代重新洗牌以验证真伪。”
但这个太快到来的变革确实令人应接不暇,以至于很多时候,人们无法去思考怎样利用这个伟大的时代。
从big data到open data
与周涛一样,来自中国台湾的彭启明也是大数据时代的受益者,他对数据利用方式也有自己的独到看法,“同样的数据,不同的人会看到不同的价值。因此,只有调动全球研究热情才能最大限度地利用数据,从big data到open data终将成为大势所趋。”
彭启明是少数几个因天气预报而走红的网络名人之一。考虑到其主战场是仅有两千万人口的台湾地区,而天气预报难以进行娱乐化运作,这样的成就就显得更为难得。博士毕业之后,彭启明仅维持了短暂的教育生涯就投身天气预报。2010年,台风“鲶鱼”在花莲导致20名大陆游客不幸遇难之后,台湾气象部门找到彭启明寻求气象服务支持。
“万幸的是,自那之后再未发生过大陆同胞在台湾因天气原因遇难的事件”。彭启明认为这件事情是其职业生涯的转折点。现在,他经营的天气风险管理公司是中国台湾地区最著名的气象服务提供商,包括诺基亚在内的全球多个知名企业均是其长期客户。
天气预测依赖于计算技术的进步和数据量的增加。在预测天气时,气象学家将大气运动归结为一组复杂的流体力学方程,并借助计算机求得结果,最后再把大气的变化描述出来。在描述大气变化时,气象部门通常会把全球划分成许多网格,而每一个格点之间的距离叫做格距。
在天气预报的早期,格距大概是250km。而现在,全球格距均值已经缩短至15km。在北京,随着自动观测点从20个增加到200个,其预测时的格距已经下降到惊人的3km。操作模型的每一次精细化,都会产生出更多的现实模型和更精确的预报。但要真正摸清天气的脾气依然困难重重:要预测小范围内的极端恶劣天气,网格间距被认为需要缩小到1km。
“1km可能已经接近极致,但1km的网格说大不大,说小也还是真的不小。台湾地区多山,山前晴空万里、山后暴雨倾盆的场面并不少见。”对天气预报的前景,彭启明虽一直乐观但也保持谨慎,“过去几年,我们可获得的数据增加了不止百倍,预测的精确度也确实得到了显著提升。但要想让预测的准确度继续得到提升,我们还需要某些更本质的变化。”
彭启明认为这个本质变化就是中国台湾2004年《气象法修正案》的发布,该修正案开放了政府持有的气象数据库,并允许个人和团体从事气象观测、预报和发布。彭启明随之拿到了全台湾第一张个人及公司气象预报执照,并最终从一班美女主播的包围中突出重围。现在,中国台湾地区90%的气象信息来自政府气象部门,彭启明则贡献了另外的10%。
彭启明相信会有越来越多的人投身open data(开放数据)的浪潮之中。因为在科学的世界中,数据是无争议的通用语言。借助互联网公开部分数据,从而让更多平生或难谋面的人共同研究这些数据,会让数据的公共品属性和价值得到更完美的开发。
现在,彭启明频繁往返两岸以期推动气象数据的公开,他相信已经发生的历史可以照亮尚未改善的现实。现在,美国开放的数据库总数已经超过40万,并因此创造了45万个就业岗位,这对经济萎靡不振的美国至关重要。目前,美国政府气象部门的年度预算与气象产业所创造的产值大致持平,但气象产业生产和传递的气象信息量,却为政府部门的两倍多。
开放已经开始创造价值。但对于大数据时代的开放浪潮,我们该如何去拥抱呢?
我们准备好了吗?
不久前,百度在其开放研究社区举办了一次电影推荐优化算法大赛。百度希望能够利用用户的观看、评分和社交数据实现一个个性化算法,帮助用户从一万余部备选中发现可能喜欢的影片。对于一家提供视频服务的网站,这对提升用户满意度和网站流量的价值不言而喻。
但在这里,百度犯下了一个小错误。“数据分布明显不符合齐夫定律”,刁瑞是中国科学院主攻最优化算法的数学博士,同时也对机器学习和大数据兴趣盎然。在发现百度电影推荐算法的纰漏之前,他已经对来自多家公司的多组数据进行了分析,百度的错误对他而言似乎显而易见,“为6或者6的倍数部电影打分的人太多了,为电影打8分的人也太多了”。
齐夫定律是哈佛大学教授齐夫(George Kingsley Zipf)在1949年提出的一个实验定律。齐夫在研究过程中发现:在自然语言里,一个单词出现的频率与它在频率表里的排名成正比。这样,在以频率的对数为纵轴,频率排名的对数为横轴的坐标系中,对一组自然语言中每个词语出现频率的描绘应为一条近似直线,而百度提供的数据显然不符合这样的要求。
由于历史原因,百度的电影推荐系统有两套不同的评分体系。一种的选择是“喜欢”和“不喜欢”;另一种则是标准的10分制。但为了数据分析的需要,百度的工程师将两套系统合二为一,并将“喜欢”统一标注为8分。为了使数据看起来更加真实,这些工程师还为这些数据设置了一些随机干扰,这使这些数据至少在表面上看起来更加接近真实数据。
同时,百度还对参评超过6部电影的用户进行了处理。如果一个用户给7部电影打过分,那么只有前6部会在训练集中;如果一个用户给6部电影打过分,那么也是6部在训练集中。这就导致在训练集中,给6部电影打过分的人的比例变得实在太高了。这些基于数学理论的数据处理方式,明显已经背离了大数据时代科学研究与商业应用的基本原则。
“电影推荐其实并不简单,它与音乐和书籍推荐完全不同。听过无数次《海阔天空》的人,会因为看到《光辉岁月》的推荐栏而再次点播《海阔天空》;但只要看过一次《无间道》,人们就很难有动力再去观看第二次了。”在回忆百度犯下的错误时,刁瑞补充说,“我们也很难预测未来的需求,我们已经完成的很多数据处理,可能并不满足未来数据分析的需要。”
百度上线数据存储系统时,Hadoop和HDFS等开源系统还未发布。而当时活跃于市场的开源系统性能有限,根本无法充分利用处理设备的各种硬件资源,也无法为特定访问模式做优化处理,更缺乏对工业应用而言十分重要的稳定性。百度的很多服务也都基于不同的注册体系,这意味着百度很难明确用户间的关系,这使百度看起来更像一家媒体而非科技公司。
所有这些曾经的纰漏,最终可能在大数据时代演绎成为一个严重且不可控的错误。
业务的精髓与数学的精巧,在这里变成了两个无法兼顾的课题。数据来源的复杂决定了技术空间的多维,并导致了指标选择的困难。同样的数据,极有可能带来截然不同的决策。百度遭遇到的问题绝非孤案,不久的将来,这一幕很可能在其他企业重现。
问题的根源,其实在于大数据演进过程本身。大数据走进人们的视野,至多不过10年有余。要重构一种新商业环境并培育出一种与之适应的全新的商业文化,这样的时间无疑太过短暂。今天,人们确实已经开始习惯建立在数据基础上的理性决策,但要将决策量化为数学指标,并将原本留给大脑的工作交给计算机,今天的商业精英们也许还没有准备好。
数学家们也没有准备好。今天,他们正将模型演绎到极限,但对商业环境的理解,他们中的更多人才刚刚开始。“最重要的不是工程技能,而是分析思想,数据工程师们需要学会因地制宜和因时制宜,需要知道怎样选择指标,但这些需要商业经验的积累。”
而作为所有这一切共同的前提,对于大数据,人类应该先有一个理性的认识。
硬币另一面
当商业界还在为大数据的万能欣喜若狂的时候,科学界却已经开始了对大数据的反思。
“大数据确实很有价值,学生们也确实可以通过相关关系得到很多有意思、有价值的结论,但却极少有人再去思考学科最本质的原理。”李淼因此将可获得数据量的激增描述成“幸福的烦恼和甜蜜的负担”,“大数据时代的很多规律都是实验性的,而非理论性的。幂律确实很神奇,但它既无法解释因果关系,也没办法准确衡量突发因素在科学中的作用”。所谓幂律是指节点具有的连线数和节点数目的乘积是一个定值,因而二者在对数坐标系下得到的图形是一条向下倾斜的直线,齐夫定律、“长尾理论”和二八原则都是幂律的表现。
在新时代的曙光里,科学界甚至已经嗅到了更严峻的气味。过去几十年,人类一直在建设一个此前并不存在的虚拟空间。但人们也许会在某天惊讶地发现,虚拟空间与真实世界之间并非永远不可逾越,而由此带来的震撼甚至会从价值观上重建现代科学体系。如果物质能够被信息记录并重构,那么信息与物质谁更接近世界的本质?如果我们可以把复制范围扩展到生命,那么繁殖还是不是生命的本质特征?如果人类已经掌握地球的全部数据并可据此再建一个新的地球,人和非人的界限究竟在哪里?
周涛认为这些貌似异想天开的追问已非耸人听闻,人类对量化一切近乎永无止境的追求正把自己推向危险的边缘,“如果包括爱情在内的一切感情都可以通过编码实现,我们是否还会努力追求幸福?如果我们已经有能力选择最完美的幸福之路,我们是否还有必要去经历深刻的痛苦?如果一切痛苦都已杳无踪影,这还是不是我们所定义和所热爱的世界?”
幸运的是,历史为我们提供了继续乐观的理由:迄今为止,人类尚不曾因为创造出足以毁灭自己的技术而走上自我毁灭的道路。这使我们不必沉迷于对未知的恐慌,可以继续自己的追求。
“其实,即便有大数据的支持,准确的预报仍然需要考量太多因素。”彭启明认为,大数据确为气象业带来很多福音,但模型和数据永远无法代表一切,否则气象竞争将失去实质内容,“并不存在放之四海而皆准的数学模型,因为已有的模型都只适合某些特殊的地理范围和环境参数,数据的增加、模型的完善和参数的修正都不能完全替代经验和直觉的价值”。
就像不断强调开放数据所可能催生的巨大价值一样,彭启明同样在不断降低人们对大数据过高的期望,“大数据或许真的意味着很多,但无论如何,它都不能代替一切”。与大数据相关的最后一个案例,就在于阐述这样一个简单的道理。
一位懵懂的少年喜欢上了学校的校花。于是,他每天在校门口掐表观察校花姑娘。经过一学期的努力,他终于发现了校花姑娘的作息规律,他与她相遇的几率因此比其他同学高出了354%,频繁的碰面也令校花姑娘觉得两人有缘。然后就这样每天相遇,然后就毕业各奔东西,然后就没有了然后……大数据可以带来别人没有的机会,但结果如何还要看人。
请 登录 发表评论