全世界数据库，联合起来

admin 发表于 2017年11月30日

全世界数据库，联合起来

撰文西姆森·L·加芬克尔（Simson L. Garfinkel）

翻译王昊明

几年前，我有一段哭笑不得的经历。当时我准备乘飞机前往英国，在去机场的路上，我从星巴克买了一杯拿铁。经过8个小时飞行之后，我抵达了伦敦希思罗机场，随即为我的手机买了一张预付费SIM卡。然后，就在我准备购买前往伦敦的火车票时，我的信用卡没有任何反应，彻底罢工了。等我回到美国，才弄明白事情的来龙去脉：原来，星巴克和希思罗两地相距甚远，而我则在一天之内在两地先后使用信用卡消费，被信用卡公司的电脑发觉，触发了某种反欺诈数据挖掘算法（antifraud data-mining algorithm）。信用卡公司首先试图通过电话联系我，继而使用语音邮件，但均告失败。最后不得不将我的信用卡列入黑名单。

整个事件中，最让我感到恼怒的是电脑的应变能力。它应该“知道”在英国使用信用卡的人就是我自己，毕竟我用同一张信用卡购买了飞往英国的机票，而且乘坐的是美国一家大航空公司的飞机。难道它没有将这些数据库中的信息联系在一起分析吗？

也许大部分人认为这是理所当然的。我们看过许多好莱坞电影，比如《全民公敌》和《谍影重重》三部曲，电影中的各种神秘组织能够瞬间访问所有数据库，敲几下键盘就能监视我们的任何行动。从多种来源搜集信息，并进行归纳整理的技术被称为“数据融合”（data fusion），人们认为它能产生比原始数据来源更强大、更灵活、更准确的信息源。数据融合的倡导者认为，这项技术能够帮助各种机构管理庞大的数据，以便更好地利用它们；反对者则认为，收集的数据也许会被用在意想不到的方面，从而对公民自由造成严重威胁。两派的意见都建立在同一个假设上，那就是数据融合系统能够真正地发挥作用。然而现实是，这种系统根本不可能无所不知，也不像大多数人想象的那样稳定可靠且发展成熟。

数据融合

数据融合技术可以追溯到20世纪70年代的电脑化自动匹配程序。1974年，美国国会通过了《隐私权法》（Privacy Act），同时批准设立联邦寻亲服务处（Federal Parent Locator Service）。这个机构如今掌握着一张庞大的黑名单，定位那些失去孩子监护权又拖欠孩子抚养费的父母，拒绝给他们发放护照和多种联邦福利。这些数据与美国新聘雇员档案室（National Directory of New Hires）的数据融合在一起，通过比对找出最近被雇佣、又拖欠孩子抚养费的家长，就可以从他的薪水中扣取抚养费了。

“数据融合”在1984年成为一条科学术语。当时，洛克希德马丁公司高级技术中心的研究人员发表了两篇有关“战术数据融合”系统的论文。该系统能够将战场上来自传感器、数据库及其他各种来源的信息综合，并实时提供给人类指挥官。从那时起，数据融合的构想便一发不可收拾。生物信息研究人员开始谈论基因数据融合技术。美国国土安全部（Department of Homeland Security）斥资2.5亿美元，建立了大约58所数据融合中心。从事消费品营销的尼尔森公司（Nielsen）则开发出数据融合产品，通过分析客户特征识别并发掘潜在新客户，而不是将资源浪费在传统的营销手段中。

尽管数据融合可以应用在许多方面，但它在识别潜藏恐怖分子方面的用途却在公众间引发了最大的争议。美国国防部高级研究项目局（Defense Advanced Research Projects Agency，DARPA）的海军少将约翰·波辛德克斯特（John Posindexter）和罗伯特·L·波普（Robert L. Popp）在2006年的一篇文章中写道：“寻找恐怖分子的关键在于，分析以往恐怖袭击的模式，找寻一些标志性信号，从而找出恐怖分子活动的线索。”他们指出，1993年世贸中心爆炸案和1995年俄克拉何马城爆炸案发生前，曾经有过大宗化肥交易。如果政府能够注意到购买者并非农民，并顺藤摸瓜深查下去，这两起爆炸或许就能够避免。然而，要得到这些购买记录，并与农场所有权及雇佣关系记录合并，政府就要无限制地访问私人电脑系统，这是前所未有的。这样一来，美国的每一宗交易，以及从事交易的每一个人，都会受到无条件的监视。考虑到这些原因，美国国会在2003年中止了波辛德克斯特和波普的研究项目——“整体情报识别”（Total Information Awareness）计划。

混乱的数据

政府的保密措施并不能减轻自由主义者的担忧。数据融合系统是否已被部署用于保卫国家安全，美国各级政府机构均守口如瓶。他们担心这些消息一旦走漏，一些别有用心的人就能更轻易地躲避追踪。不过现有的公开信息已经足以表明，数据融合系统不仅在伦理和法律方面引起了相当严重的问题，在技术方面也遇到了难关。

数据质量就是其中一道难关。数据库中的许多信息当初收集的时候，纯粹是用于统计目的，它们的准确性或许不足以让机器自动判断并得出权威结果。1994年，澳大利亚国立大学（Australian National University，位于堪培拉）的罗杰·克拉克（Roger Clarke），对美国和澳大利亚的联邦及州政府维护的电脑化自动匹配程序进行了研究。这些系统扫描数百万条记录，从中标记出数千条有可能“匹配”的信息。不过大部分“匹配”都被证明是无效的。比如，一种寻找福利金欺诈的程序能将美国卫生及公共服务部（Department of Health and Human Services）的就业记录，与华盛顿特区周边地区福利金的发放名单进行比对。它大约能够找出1,000个“匹配”，但进一步调查显示，被程序挑出来的人中有3/4是无辜的。数据融合技术确实带来了一定的收益，但是与收集数据、训练人员和后期调查这些工作的花费相比，这些收益也就微不足道了。

许多人都有这样一种想法：假如数据融合程序能够提前发现并阻止恐怖袭击，无论花费多大都是值得的。海军少将波辛德克斯特打过一个比方：用数据融合系统找寻恐怖分子，难度堪比在茫茫大海中找寻敌方潜艇。但是，在数据海洋中寻找恐怖分子的信息，进而识破他们的阴谋，甚至比在海洋中寻找敌方潜艇更困难。地球上的海洋尽管极其广阔，但其中每一个点都能用经度、纬度和深度唯一地加以确定。在数据海洋中定位可就没这么简单了。此外，地球海洋的面积在短短几年内不会明显变化，而数据海洋的体积却会成倍增长。大部分信息空间都是未被探明的领域；数据在数百万台个人电脑间传递，许多信息都是隐藏的，甚至连专家都不知道它们的存在。

数据融合之所以困难，主要是因为数据来源实在太多，我们已经迷失在这些细节各异、模棱两可的数据之中了。数据融合面对的真正挑战并不是如何获得，而是如何准确理解这些让人头痛的数据。

全世界数据库，联合起来.png

硬盘上的秘密

要理解数据融合面对的问题，最好的方法是从个人电脑硬盘上的信息开始着手分析。这正是1998年到2005年我一直在从事的工作。我从eBay、电脑商店和以物易物集会上购买收集了1,000多块废旧硬盘，有些甚至是从街角的垃圾堆里翻出来的。2003年1月，我和阿比·舍拉特（Abhi Shelat，现在是弗吉尼亚大学的计算机科学家）发表论文公布了我们的发现。

这些硬盘中大约有1/3遭受重创，数据已不可读取；还有1/3在丢弃之前，数据就被完全删除了。不过剩余1/3的硬盘中存有大量个人信息，包括电子邮件、备忘录和财政记录等。有一块硬盘是从自动取款机上淘汰的，里面储存了数千张信用卡卡号；另一块硬盘曾用于超市之中，记录了向银行提交的刷卡信息。这两块硬盘在进入自由市场重新出售时，数据都没有被正确清空。

我们使用的工具并不是特别先进的专业设备，世界各地的警方都在用这种设备恢复电脑和手机中被删除的数据。大多数时候，人们意识不到他们在数字世界里留下的蛛丝马迹。上世纪七八十年代，美国堪萨斯州威奇托市出现一名连环杀手，人称BTK杀手，接连犯下8起血案后销声匿迹。2004年3月，这名杀手再次露面，给《威奇托雄鹰报》（Wichita Eagle）寄去一封信详细叙述了自己早年犯下的罪孽，还给当地电视台寄去一张软盘，里面存了一份Word文档。这份文档中包含的“元数据”（metadata，描述文档属性的信息）指向当地一间教堂的电脑。警方发现当地教会主席使用过这台电脑，而他就是杀手。

建立文件散列

要分清哪些文件重要、哪些不重要非常困难，需要结合硬盘外的大量知识进行综合判断。举例来说，当我开始分析20世纪90年代的硬盘时，发现许多硬盘上都存着名为Island Hopper News的电子报。这一点当时看起来十分可疑。后来我才了解到，这份电子报其实是微软公司Visual Studio 6.0软件的一份演示文件，是在安装软件时被存入硬盘的。如果不知道这一点，我在分析硬盘原来的主人时，可能就会得出错误的结论。

迅速筛选出无关文件的唯一方法，就是对所有电子文档进行抽样，并建立一个可以被广泛利用的列表。一种快速而且可以自动完成的方法就是建立散列集合（hash set）。密码散列算法为任何数字文件指定一个独一无二的电子指纹。最常用的两种算法是MD5和SHA-1，前者生成一个128位的指纹，后者产生一个160位的指纹。如此一来，确定两个文件是否相同就只须比对电子指纹，而不用去比较文件中的每个比特了。

在美国司法部（Department of Justice）的支持下，美国国家标准与技术研究院（NIST）下属的国家软件参考实验室（National Software Reference Library）从上百家发行商收集了软件样本，并将所有文件转化成密码散列，建成了一个如今包含4,600万条目录的庞大数据库。随后，NIST把数据库分发到全国各地，为法证调查人员提供了一种快速而可靠的筛除无用信息的方法。通过比对电子指纹，那些软件发行商发布的电子文档（比如Island Hopper News电子报）就可以被调查人员安全地忽略过去。美国其他联邦机构也提供了类似的数据库，其中记录了电脑黑客软件和儿童色情文件的电子指纹。

尽管它们很实用，但散列数据库也只能包含数据海洋中少量文件的信息。为了扩大信息覆盖量，我开发了一种名叫“跨硬盘分析”（cross-drive analysis）的新技术。它能自动收集散落在数千块硬盘、闪存和其他存储设备中的数据碎片并加以整合。这项技术能够自动识别并提取电子邮件地址、信用卡号，以及诸如此类的身份识别信息，并按照它们出现的频率高低划分重要等级。通常假设，身份识别信息出现得越频繁，重要性就越低。最后，该技术会将来自不同设备的身份识别信息进行交叉比对：如果上千件存储设备中，一个电子邮件地址或者信用卡号只出现在其中两块硬盘上，那么这两块硬盘就很可能相互关联。

身份认证难题

数据融合遇到的另一道难题是身份认证问题。在电子世界里，可能几十个人都叫同一个名字，也可能同一人使用着几十个名字。比如前面提到的海军少将波辛德克斯特，有些数据库把他的名字记为约翰·马朗·波辛德克斯特（John Marlan Poindexter），有些则记为J·M·波辛德克斯特，还有的数据库甚至把他的姓错拼成了普安特克斯特（Pointexter）。有些人的名字在一些数据库中是罗伯特（Robert），但在另一些数据库中就成了罗布（Rob）或鲍博（Bob，两个都是罗伯特的昵称）。再比如一个阿拉伯人，在西非他的名字被音译为Haj Imhemed Otmane Abderaqib，而在伊拉克人们都叫他Hajj Mohamed Uthman Abd Al Ragib。

将电子世界里不同的名字和账号与现实世界中的人对应起来，被称为身份识别（identity resolution）。离开了身份识别，数据融合就无从谈起。有趣的是，身份识别系统中大量技术创新的不断涌现，竟然得益于拉斯韦加斯的赌场。美国内华达州法律规定，赌场必须禁止自称为“病态赌徒”（problem gambler）的人参与赌博。实际上，这些赌徒都自愿在一张写有“别让我再赌博！”的纸条上签过自己的大名。但是其中一些人嗜赌成瘾，为了混入赌场，他们想出了各种办法，有的更改姓名，有的涂改出生日期。赌场也下决心要把一些身份可疑或者确凿无疑的赌场骗子挡在门外。如果一位客人玩21点纸牌赢了一大笔钱，赌场也要调查发牌师和这位客人是否有关系。

因此，赌场决定资助一项被称为“非显性关系分析法”（nonobvious relationship analysis，NORA）的技术。这项技术将身份识别与信用卡公司数据库、公共记录及旅馆登记信息结合在一起。比如，NORA系统也许会发现，那位发牌师的妻子跟刚刚赢了10万美元的这位客人，曾经住过同一栋公寓大楼。20世纪90年代，软件工程师杰夫·乔纳斯（Jeff Jonas）开发了一套系统，能够将赌场电脑中存储的姓名与其他信息源获得的信息进行模糊比对。也就是说，这套系统能够容忍一定的错误、含糊和不确定的信息。该系统的工作原理是根据现有信息提出一些假设，一旦获得新的信息，再对这些假设进行相应的修正，最终得出相对可靠的结论。

举例来说，如果该系统收到一份马克·R·史密斯（Marc R. Smith）的驾照记录、一份兰德尔·史密斯（Randal Smith）的信用卡使用报告，还有一份马克·兰迪·史密斯（Marc Randy Smith）的信用卡申请表，它就可能猜测这些名字都属于同一个人。如果如果马克·R·史密斯与马克·兰迪·史密斯的驾照编号相同，而兰德尔·史密斯与马克·兰迪·史密斯的电话号码相同，这个假设就显得更加合理。假定系统收到了新的数据，显示老兰迪·史密斯（Randy Smith Sr.）的生日和兰德尔·史密斯相同，但他的社会福利编号与马克·R·史密斯不同。现在，系统就会修改先前的猜测，认为马克·R·史密斯应该是小兰德尔·史密斯，而兰迪·史密斯应该是老兰迪·史密斯。实现这些功能的关键在于，在编写程序时对原始数据和推测得出的数据进行分别处理，以免两者混淆。

2005年，乔纳斯把这套系统和公司一起卖给了IBM。从那时起，IBM就增加了一项被称为“匿名识别”（anonymous resolution）的新业务：两个机构可以确定他们相应的数据库中是否包含同一个人的名字——同时又不必分享那些没有找到匹配姓名的人名。这项技术比较的并不是真实姓名，而是姓名的密码散列。

隐私权倡导者坚持反对数据融合，他们认为散列、跨硬盘分析、匿名识别以及诸如此类的技术，都不能从根本上解决他们最担心的问题。毕竟，这些系统仍然需要使用个人信息，而这种利用方式违背了当初收集这些信息的本意。这些系统大举搜集个人信息，根本不管当事人是否涉嫌犯罪。不过与20世纪80年代开发的系统相比，这些系统的误报率已经明显降低。或许有一天，电脑窥探人们的个人资料所带来的社会效益，可以抵偿我们在隐私权上所付出的代价。

数据大联合

数据融合系统的效果究竟如何呢？数据质量仍旧是一个问题。举例来说，如果把美国三大征信机构中同一个人的信用报告放在一起，就能发现报告可能存在错误和相互矛盾之处。这些数据也许潜伏多年也不会引起太多麻烦。然而，当某种数据融合新算法读取了太多相互矛盾的数据之后，问题也就随之而来了。

即使所有数据都准确无误，情况也仍然复杂，因为通过比较数据库得出的结论，有些可能具有实际意义，另外一些则可能纯属巧合，就像一大间屋子里总能找到两个生日相同的人一样。如果数据融合系统找到4个人，他们每周都要驾车很久去碰面一次，那么他们有可能是在策划犯罪，也有可能同属一个垒球队，每周都参加大型比赛。

社会对数据融合技术的期待也许过高了。如果恐怖分子在民众之中潜伏得很隐蔽，无论是人类调查员还是计算机都很难找到他们。大部分数据挖掘及融合系统都能进行敏感度调节：敏感度调得过低，系统就会漏过真正的匹配结果；调得过高，系统又会产生太多“误报”。应该如何设置才好呢？如果一个数据融合系统在筛查飞机乘客时，平均每三个人中就会响起一次警报，那它很可能不会漏掉真正的恐怖分子，但整个空中交通会陷于停顿，执法部门也会疲于奔命。

一套数据融合系统达不到预期的效果，有可能是因为它的算法存在根本性错误，也有可能是因为数据严重不足。同样，如果系统效果良好，给它提供更多的数据也许会让它表现更为出色。换句话说，不论数据融合系统的效果如何，建造和使用这些系统的人都会本能地想要输入越来越多的数据。因此，数据融合系统与生俱来的这种不受限制采集数据、甚至超出所有设定范围的“本能”，不仅让公民自由的倡导者感到震惊，也让这一技术的投资方大跌眼镜。克拉克在1994年的一篇论文中总结道：“国家利益要求控制社会，个人利益则要求公民自由不受无理干涉，两者间的权衡取舍总是以有利于国家的方式被解决的。”

公众对数据融合技术的争论不休，让我这个科学家感到无比沮丧，因为在数据融合的实际应用方面，几乎没有什么公开信息可言。这让我回想起20世纪90年代一场关于密码的大讨论，当时美国政府称有充分理由来立法限制密码的使用，但是那些理由非常敏感，甚至公开谈论都有可能威胁国家安全。我怀疑，针对政府是否该使用数据融合系统，一场类似的讨论正在酝酿，更不用说这种功能强大的技术是否该用在经济及至政治活动中去了。这样一场讨论是很值得的，而且将在公众中展开。

全部评论

你的评论

请登录发表评论

互动科普