大数据的未来：从数据中汲取更精简的知识

admin 发表于 2017年10月12日

没有高水准的分析方法，大数据会让我们不堪重负

导语：随着数据越来越多，这真的是一件好事吗？数据的意义体现在哪里？本文作者将带我们破解对大数据的迷信。

关键词：大数据；知识；分析方法

作者：By ROBERT W. LUCKY

插图：Greg Mably

直到最近，“数据”这个词还不需要修饰语。但当我们谈到“大数据”，便是跨过了一道分水岭。显然这种称呼并不能充分描绘出数据的庞大，人们因此寻找过一些更夸张的，像“极大数据”这类的词。可现在看来，我们似乎已经找不出恰当的形容词了，可数据还在不断地膨胀增加中。

所以人们不再谈论数据，转而在谈笑挥手间含糊其辞的说着“云”这个词。这似乎是一个完美的隐喻，一团迷雾笼罩地球，不时下点“信息雨”给地球上焦灼的“收信人”。它是未知也是全知。它能解决一切问题，只要我们知道如何去破译那些答案。

这种演变让我们思考起两件事。第一个是按照当前的科学假说，黑洞中的所有信息都在围绕它的事件视界中。这就像“云”的概念，在真实地球上，“云”的实际表现是不断扩增的服务器群组。这些群组衍生出了第二个思考：道格拉斯·亚当斯的经典小说（还包括广播剧、电视节目和电影）《银河系漫游指南》中的城市级超级计算机，“深思”。

脑海中思索着虚构的终结态，我想知道：一切指向何方？数据会无限增长，还是会在某时回落？数据会不会有足够多的时候—还是可能太多了？

有一种流行的说法，“数据是新石油。”虽然我觉得这是一个不完美的比喻，但石油和数据确实都需要精炼才能有价值。我记得T.S. Eliot的诗《The Rock》中曾这样描述信息金字塔：“遗失在知识中的智慧去哪里了？遗失在信息中的知识去哪里了？”

为了更好地进行讨论，我们说数据是由无数个1和0组成的，信息是被数据编码的词语和图像，知识则是我们从信息中收集或了解的东西。关键的汲取精炼是在知识和信息之间。在精炼石油时，最终产物和原油的比例不受原油数量的影响。但信息却不是这样，未处理的原信息越多，我们就要尽量使提取出来的单位字节知识量越小，否则不断膨胀的大数据会轻而易举将我们压垮。我们只是想从大堆的信息中获取少量的知识。随着数据逐渐变多，工作也会越来越困难。然而，要捕捉需要的知识，除非信息量足够大，否则它们不一定包含我们所要寻找的细小信息点。

知识不可避免地在增长，所以数据就必须增长得更快。幸运的是，存储技术能在不将地球变成一个巨大硬盘的情况下处理这些数据，不过重任就落在人工智能和将数据转换为知识的算法上了。1948年克劳德·香农发表了经典的信息理论文章，在那时他可以对忽略这一问题轻描淡写道：“通常消息有意义……而这些语义方面的交流与工程问题无关。”但我们的时代已经据此甚远。

我还留意到抽屉、衣橱、硬盘等最终总会被没用的垃圾填满。我有时候会将这归咎于热力学第二定律，它阐述了熵——混乱的程度——总是向着增加的方向发展。也许这最终也适用于“云”。旧的无用的信息积累得越来越多，要净化就很费力。还有，谁又能说哪些是有用的哪些是没用的呢？所有信息都在那，但数量过于庞大。在熵已经最大化时，最终数据就会像莎士比亚所说的，“充满喧哗与骚动，却没有任何意义。”

这篇文章出现在2017年5月的印刷版《违反直觉的云》中。

大数据的未来_Robert_W._Lucky_2552.jpg

（翻译:朱雅文；审校：杨玉洁）

原文链接：http://spectrum.ieee.org/computing/it/the-future-of-big-data-distilling-less-knowledge-per-bit

全部评论

你的评论

请登录发表评论

互动科普