没有高水准的分析方法,大数据会让我们不堪重负
导语:随着数据越来越多,这真的是一件好事吗?数据的意义体现在哪里?本文作者将带我们破解对大数据的迷信。
关键词:大数据;知识;分析方法
作者:By ROBERT W. LUCKY
插图:Greg Mably
直到最近,“数据”这个词还不需要修饰语。但当我们谈到“大数据”,便是跨过了一道分水岭。显然这种称呼并不能充分描绘出数据的庞大,人们因此寻找过一些更夸张的,像“极大数据”这类的词。可现在看来,我们似乎已经找不出恰当的形容词了,可数据还在不断地膨胀增加中。
所以人们不再谈论数据,转而在谈笑挥手间含糊其辞的说着“云”这个词。这似乎是一个完美的隐喻,一团迷雾笼罩地球,不时下点“信息雨”给地球上焦灼的“收信人”。它是未知也是全知。它能解决一切问题,只要我们知道如何去破译那些答案。
这种演变让我们思考起两件事。 第一个是按照当前的科学假说,黑洞中的所有信息都在围绕它的事件视界中。这就像“云”的概念,在真实地球上,“云”的实际表现是不断扩增的服务器群组。这些群组衍生出了第二个思考:道格拉斯·亚当斯的经典小说(还包括广播剧、电视节目和电影)《银河系漫游指南》中的城市级超级计算机,“深思”。
脑海中思索着虚构的终结态,我想知道:一切指向何方? 数据会无限增长,还是会在某时回落?数据会不会有足够多的时候—还是可能太多了?
有一种流行的说法,“数据是新石油。”虽然我觉得这是一个不完美的比喻,但石油和数据确实都需要精炼才能有价值。我记得T.S. Eliot的诗《The Rock》中曾这样描述信息金字塔:“遗失在知识中的智慧去哪里了?遗失在信息中的知识去哪里了?”
为了更好地进行讨论,我们说数据是由无数个1和0组成的,信息是被数据编码的词语和图像,知识则是我们从信息中收集或了解的东西。关键的汲取精炼是在知识和信息之间。在精炼石油时,最终产物和原油的比例不受原油数量的影响。但信息却不是这样,未处理的原信息越多,我们就要尽量使提取出来的单位字节知识量越小,否则不断膨胀的大数据会轻而易举将我们压垮。我们只是想从大堆的信息中获取少量的知识。随着数据逐渐变多,工作也会越来越困难。然而,要捕捉需要的知识,除非信息量足够大,否则它们不一定包含我们所要寻找的细小信息点。
知识不可避免地在增长,所以数据就必须增长得更快。幸运的是,存储技术能在不将地球变成一个巨大硬盘的情况下处理这些数据,不过重任就落在人工智能和将数据转换为知识的算法上了。1948年克劳德·香农发表了经典的信息理论文章,在那时他可以对忽略这一问题轻描淡写道:“通常消息有意义……而这些语义方面的交流与工程问题无关。”但我们的时代已经据此甚远。
我还留意到抽屉、衣橱、硬盘等最终总会被没用的垃圾填满。我有时候会将这归咎于热力学第二定律,它阐述了熵——混乱的程度——总是向着增加的方向发展。也许这最终也适用于“云”。旧的无用的信息积累得越来越多,要净化就很费力。还有,谁又能说哪些是有用的哪些是没用的呢?所有信息都在那,但数量过于庞大。在熵已经最大化时,最终数据就会像莎士比亚所说的,“充满喧哗与骚动,却没有任何意义。”
这篇文章出现在2017年5月的印刷版《违反直觉的云》中。
(翻译:朱雅文;审校:杨玉洁)
原文链接:http://spectrum.ieee.org/computing/it/the-future-of-big-data-distilling-less-knowledge-per-bit
请 登录 发表评论