斯诺登之后:数据安全三原则
如何在大数据时代中确保隐私不受侵犯?
如何监管那些收集大量数据的机构?
如何保障信息在共享和传输过程中的安全?
对于这些问题,目前并没有完善的解决方案。
但是,只要遵循3个基本原则,也许这些问题就能迎刃而解。
撰文 亚历克斯 ·“桑迪”· 彭特兰(Alex “Sandy” Pentland) 翻译 盛杨燕 审校 周涛
然而,“911”事件后,一切都改变了。NSA的首要敌人变成了散布在四面八方的恐怖主义分子。世界上的任何一个人都可能成为合法的监视目标。随着数字通信渠道的扩展,监视的本质也发生了变化。网络移动设备的指数级增长仅仅是一个开端。而NSA的老式工具显然已不再适用。
于是,NSA采取了全新的应对策略:收集一切信息。前局长基思·亚历山大(Keith Alexander)曾指出,要想大海捞针,就要翻遍整个海洋。于是,NSA开始大量收集电话通话记录,几乎每个身处美国的人都会受到监控;很快,大量的网络流量数据也被收集,对象几乎包括美国境外的所有人。不久之后,NSA已经可以做到,每两个小时收集到的数据,就相当于在美国做了一次人口普查。
很自然地,为了保存这些不断更新,且浩如烟海的数据,NSA将其存储在内部的安全设备上——这也是NSA一贯用来存储情报资料的地方。然而,数据如此集中,也会造成一定的后果。全世界几乎所有人的隐私信息,忽然之间让NSA的分析师们应接不暇。除此之外,数据的囤积也使得NSA的信息泄露情况达到了前所未有的严重程度。因此,爱德华·斯诺登(Edward Snowden)才可以从夏威夷的服务器上,下载上千份秘密文档,然后跳上飞往香港的飞机,将文件披露给媒体。而斯诺登这么做,正是因为NSA在秘密收集数据时,活动范围太大,让他感到愤慨。
一直以来,有关人们行为的数据,比如人口普查信息,对于政府和各行业都十分重要。可是,在全球范围内收集所有人的数据,存储在秘密服务器群组上,然后在不受监督的情况下对这些数据进行分析——这样的一个秘密机构,从性质上看是前所未有的。所以,斯诺登揭露的事实,引起了公众如此激烈的争论,也就不足为奇了。
到目前为止,有关NSA的数据收集活动的评论,大都聚焦在道德和政治层面上,而对于NSA为何能够具备这样巨大的能力,人们对其组织结构和技术方面的关注甚少。在数据收集和使用领域,美国政府不仅缺乏相应政策,甚至在政策的制定和评估过程中,进度发展也严重滞后。政府的行动必须要与技术发展的速度相匹配。要解决这些问题,并没有简单而明确的答案,但只要掌握几项基本的原则,就会让我们逐渐步入正轨。
亚历山大关于大海捞针的说法其实并不正确,因为根本不需要翻遍整个海洋——你只需具备搜索大海中任一特定区域的能力就可以了。完全没有必要将大量的数据储存在同一个地方,因为这样做,无论对监视者和被监视者而言,都是非常危险的。对于政府而言,这很可能导致严重的信息泄露。而对于个人,这就为大规模地隐私侵犯埋下了隐患。
斯诺登事件清楚表明,政府掌握的信息太过集中了。NSA和美国其他政府机构应该将大数据资源分别存放到恰当的地方,交由建立数据库的机构进行监管,并制定不同的加密方案。不同类型的数据应该分开存储:将财务数据存在一个数据库,而将健康档案存放在另一个数据库。有关个人的信息应该与其他信息分开存放,分别监管。这样,NSA或其他需要访问这些数据的机构(具有充分、合法的理由),仍然可以搜索信息海洋的每一部分,唯一不同的只是,整个数据海洋并不是存储在单一的服务器群组里。
要实现这样的分流,最简单的办法就是停止数据囤积,比如让电信公司和互联网公司保留他们的记录;也不用急着去销毁NSA已经收集到的数据,因为不论是记录的内容还是与之相关的软件,都将很快过时。
很难想象,NSA会中止数据收集——从现实情况来说,若没有相关立法或行政命令,NSA也不会停止这样做。但这样,对其也有好处,NSA似乎也意识到了这一点。去年夏天,时任美国国防部副部长的阿斯顿·B·卡特(Ashton B. Carter)在科罗拉多举行的阿斯本安全论坛(Aspen Security Forum)上,就NSA问题的根源进行了分析。“本次失败(斯诺登事件)源于两种需要推翻的做法……太多的信息集中在了同一个地方。这是错误的。”第二,“赋予某个人太大的权力去接触和转移信息,是不应该的。”将数据库分散加密,使其在不同的计算机系统上运行,这不仅会让“斯诺登式”泄密更难实现,还能有效地抵御外部的网络攻击。这样一来,黑客的每次入侵,就都只能访问整个数据库中一部分。
那么,分散数据这种方式,如何保护个人隐私呢?分散存储数据,我们就能够追踪数据库与人为操作者之间的信息交换方式。不管是搜索专门的条目,还是对一些数据进行处理,每一次数据操作都有特定的信息交换模式——标志性的网页链接和数据库间的数据流动。这些特征可以视为“元数据的元数据”(元数据是指数据及信息资源的描述性信息),可以对一切私下、未经授权的信息交换进行监督。
以此类推,若一家公司不同部门之间,采用可视化的信息交换方式(就像传统的邮件一样),那么,即便操作的内容(邮件的内容)被隐藏了,操作方式依然能为员工们所见。比如,负责管理员工健康档案的人员发现,财务记录办公室对这些私人档案的访问次数,突然较以往发生了很大变化,那么,他就可以询问对方访问这些档案的原因。同样,通过生成“元数据的元数据”的方法,将大数据操作结构化,对大数据的监管也就成为可能。借此,通讯公司可以监控数据安全;独立的公民实体,以及新闻媒体,都可以使用这种方式监督NSA。有了“元数据的元数据”,我们就能对NSA做那些它曾经对每个人所做过的事了。
减少NSA存储的数据量,只是保障隐私的第一步,谁让我们生活在一个大数据的时代呢?因此,通过加密来确保信息传输和存储的安全也同样重要。若没有这样的防护措施,数据就会神不知鬼不觉地泄露出去。更何况,在我们这个时代,网络犯罪水平不断提升、网络战争威胁不断加剧,这种形式的防护手段不可或缺。
任何使用个人数据的实体,无论是政府、私人实体或个人,都应当遵循几条基本的安全规则。外部数据的分享,只能在有类似安全标准的数据系统间进行。而每一次数据操作都需要一连串可靠的身份凭证,以便我们搞清楚数据的来龙去脉。一切实体都必须接受元数据监控和调查审核,类似于今天对信用卡进行的防欺诈监控。
可信网络(trust network)就是一种很好的方式。这种计算机网络会在法律的框架内,持续跟踪用户对每个数据的访问权限,指定可以或不可以对数据进行哪些操作,明确违反使用权限的后果。通过保存访问来源和权限的相关记录(这些记录是防篡改的),可信网络可自动进行审核,确保数据的使用协议得到严格遵守。
通过长期实践,很多可信网络的安全性和稳固性得到了证明。其中,最著名的是“环球银行金融电信协会”(Society for Worldwide Interbank Financial Telecommunication,SWIFT)网,有一万家银行和机构使用这个网络进行转账。SWIFT最显著的特征是,它从未被成功地入侵过(就目前所知)。当被问及为什么会抢银行时,威利·萨顿(Willie Sutton,美国著名银行劫匪)回答说:“因为钱就在那里。”如今,钱就在这里,SWIFT上每天的资金流高达上万亿美元,但由于内建了元数据监控、自动化审核和连带责任系
统,SWIFJ的可信网络不仅将“抢劫者”拦截在外,还能确保资金的正确流动。
以往,可信网络运行复杂且成本昂贵。然而,随着单位计算能力的成本不断降低,使得一些较小的组织甚至个人都能够接触到可信网络。我在麻省理工学院的研究小组就曾与数据驱动设计研究所(Institute for Data Driven Design)协作,开发了openPDS(一种个人数据商店)。作为可信网络的普通用户版本,该软件的设计目的就是使SWIFT级别的数据安全实现全民化,以便使企业、地方政府和个人可以安全地分享敏感数据——包括健康档案和财务记录。如今,各行各业和政府的合作伙伴也都在检验这种设想。此外,美国几个州的政府已开始评估这种可对内、外部数据进行分析的服务体系。随着可信网络使用范围的扩大,个人与机构之间的数据传输也变得更加安全;如此一来,也就更加容易建立安全而分散的数据储存体系,以保护个人和机构,使其免受因大数据的不当使用而造成的危害。
对我们来说,这最后,但也许最重要的一个步骤是:我们必须承认,对于数据安全,我们还无法给出所有解决方案,而且也不存在终极方案。我们所能确定的是,当技术发生变化时,监管结构也要随之调整。这是一个全新的数字时代,我们既不能仅仅依赖既有政策,也不能只是遵循传统,而是要不断尝试新的思想,付诸实践,检验其可行性。
来自其他国家、公民和科技公司的压力,已经迫使美国白宫对NSA的数据收集加以限制。那些科技公司正提起诉讼,要求公开NSA发出的数据请求信息——这就是元数据的元数据,籍此重获用户的信赖。2014年5月,美国众议院通过了一项《美国自由法案》(USA Freedom Act),尽管很多希望保护隐私的公众认为这一法案的力度不够,但美国已经开始限制数据收集,并让数据收集具有一定的透明度(至截稿时,美国参议院还未对此法案作出最终决定)。
这些步骤都是正确的。然而,对于一个长期性问题来说,我们当前所做的任何改变,都只是一些暂时性的调整。科技在不断进步,政府的创新速度一定要跟上。我们能做的最大的改变,就是不断实验,做一些小规模测试,并开展新项目,检验其可行性,然后取其精华,去其糟粕。
本文译者 盛杨燕是电子科技大学外国语学院英语语言文学方向硕士研究生。
本文审校 周涛是电子科技大学教授、互联网科学中心主任。
请 登录 发表评论