保证数字式文献的长久性

admin 发表于 2017年09月17日

在深刻的记录保存革命中，数字媒体正在取代传统的纸张。但数字媒体有可能随时间的流逝而丟失或湮没，除非我们现在就采取措施加以保护。

公元2045年，我的孙子们（还没生下来）正在我的住宅（还没有买下）的阁楼上翻找东西。他们找到了我于1995年写给他们的一封信和一张CD-ROM光盘。信里说盘里存着有关如何获得我的财产（还没赚到手）的文献。我的孙子们当始兴奋极了。但他们除了在老的电影里看到过CD-ROM光盘之外，还从未见过一张真正的CD-ROM光盘。就算他们能找到一台合适的CD-ROM光盘驱动器，他们又如何运行解释存贮在盘上的信息所必须的软件呢？他们怎样才能读出我的过时的数字化文献呢？

Ensuring the Longevity of Digital Documents-01.jpg

这一想象中的场景暴露了数字式文献所存在的一些根本问题。如果没有那封说明信，我的孙儿们不会认为对阁楼上那张光盘一探究竟是值得的。读懂这封信只需掌握英语即可，不需要机器、工具及其他专门知识，这一点令数字媒体自愧不如。由于数字信息可以被精确地再三复制，因而人们认为它的寿命很长，并且对其大加赞美。但事实是，由于硬件和软件的不断更新，50年后只有那封信是可以立即读懂的。

信息技术正在使我们对记录保存的概念发生革命性的变化，这一变革的深刻程度仅次于文字的发明，而与印刷术不相上下。目前这一代数字式记录有它独特的历史意义，但这些数字式文献远比记录在纸上的文献容易损坏，从而使我们所处的整个时期的文献处于危险之中。

我的担心不是没有根据的。已经发生过几起可能酿成巨大灾难的事件。一份1990年的众议院报告记述了1960年的美国人口调查数据险些变得无法使用的经历。这些表格化的数据原先是存贮在磁带上的，由于采用了新的记录格式，因而使原先的记录很快过时（尽管大部分数据都已成功地转移到新媒体上了）。报告还指出了其他部门所发生的类似情况，其中包括卫生与公众服务部的磁带，防止吸食大麻及其他毒品全国委员会的文件，公共土地法律审查委员会及其他机构的文件，包含有越战期间战俘及战斗失踪人员记录的战地伤亡文件，及分析橙黄剂（落叶剂）的影响所需的除草剂资料。科学数据也处在类似的危险之中。国家航空和航天管理局及其他机构的大量的一旦丢失就无法弥补的实验数据已因很长时间没有进行维护而濒临湮没。

到目前为止，无争议的实实在在的损失还是很少的。但许多数字式文献——那些我们认为无足轻重因而不值得保存的数字式文献——的重要性，可能要等到它们无法被读出之后很久才显现出来。不幸的是，许多传统的保存印刷材料的方法并不适合于保存电子文件。如果我们现在采取保护行动的话，数以万计的记录、数据库和个人文献的内容和历史价值将永久性地遗失掉。

Ensuring the Longevity of Digital Documents-02.jpg

从现在到永恒

虽然数字信息在理论上来说是不会因时光流逝而遭到破坏的，但存贮它的物理介质却远非如此。如果阁楼上的那张CD-ROM光盘是一张磁盘，那么试图读出它所存贮的内容可能是徒劳无功的。杂散磁场、氧化和材料的变质，很容易抹去这些磁盘上记录的数据。大多数数字媒体对信息的保存时间远远短于高质量的纸张对信息的保存时间。因为不断有新的、不兼容的媒体形式和存贮格式出现，数字式文献常常会在存贮它的媒体还没有破损之前就不能用了——有多少读者还记得8英寸的软盘？说数字信息可永远保存，或者可以保存5年，表面上看起来似乎有些滑稽可笑，但实际上是有一定道理的，因为用不了五年，存贮媒体和存贮格式就已经过时了。

然而，无论是数字媒体物理上容易损坏，还是容易变得陈旧，都不是我的孙子们所面临的最难解决的问题。我们的后代不仅必须提取出盘中存贮的内容，还必须对其加以正确的解释。为了能够体会他的困境，我们需要考察一下数字存贮的特点。数字信息可被存贮在任何能表示二进制数字（“比特”）0和1的媒体上。我们将把一个中间没有空格、标点符号和格式编排的有特定含义的二进制数字序列称作一个位流。

要从存贮介质上读出一个位流，需要如磁盘驱动器这样的硬件设备和专用电路。通过一台计算机来对磁盘驱动器进行存取还需要一个“驱动”程序。读出位流之后，还要对其进行解释。这项工作并不简单，因为一个给定的位流可代表任何一种类型的数据——从一个整数序列到用（法国印象派）点画法所画的一张画上的一个点阵列。

Ensuring the Longevity of Digital Documents-03.jpg

不仅如此，要解释一个位流还必须理解其隐含的结构，而这在位流中是不能清楚地加以说明的。代表一个字符序列的位流可能由固定长的二进制数组（“字节”）组成，每一个字节代表一个字符的编码。例如，在一种现行的编码方案中，八个二进制位01110001代表字母q。为了从位流中取出字节，需要把位流“分解”成其组成部分。为此，我们必须知道一个字节的长度。

传达字节长度信息的方法之一是在位流的开头给出一个“键”码。但这个键本身也必须由某种长度的字节表示。于是，为了让用户理解第一个键，又得给出第二个键。计算机科学家把对这样一种递归问题的解决办法称作“引导程序”。在这种情况下，引导程序必须提供用户能看懂的说明，以帮助用户了解如何解释数字存贮媒介。为了让我的孙辈们能读出我留给他们的光盘中的内容，他们必须先读我写给他们的那封信，即那封信发挥了引导程序的作用。

在对位流作了正确的切分之后，我们又面临另一个递归问题。一个字节可以表示一个数字，也可以根据某种编码方案代表一个字符。因此，为了解释这样的字节，就要知道其编码方案。但是，如果我们想用在位流的前面插入一个代码标识符的方法来指明编码方案，那么，我们就得再用一个代码标识符。因此，我们就必须有一个用户看得懂的文本作为“引导程序”。

更大的问题在于，位流可能包含复杂的相互参照信息。位流常常是以二进制数字集合或文件的形式存贮的。许多具有逻辑关系的数据在文件中的存贮位置并不相邻。这些数据通过内部参照相互连接起来，这些内部参照由指向另外的数据或者要与之匹配的摸式的指针组成。印刷文献采用类似的参照方法，此时页码起指针的作用。

解释位流

假定我的孙子们没法从我留给他们的光盘中读出所存贮的位流，此时他们将面临一个真正的难题，如何解释体现在该位流中的信息。大多数文件所包含的信息仅对生成它的软件来说是意义明确的。字处理文件中包含有字体和排版格式（如标题和章、节等结构）等格式指令。电子数据表文件包含有计算表中每一个单元的数据所采用的公式。所谓“超媒体”文件包含有标识和连接文本、图形、声音和时间数据的信息。

为方便起见，我们把这种嵌入信息和对一个位流的其他方面（包括字节长度、字符代码和结构）的说明称作一个文件的编码信息。这种编码信息实质上是程序，即只能用合适的软件加以解释的指令和数据。一个文件本身并不能成为文献——它只是描述了一个文献。只有在用生成一个文件的程序对该文件加以解释之后才能形成一个文献。如果没有这个程序（或相当的软件），这个文件只不过是被它自身的编码所隐匿的人质。

如果文献由简单的字符序列组成，那么用试探的方法也许就某个文本文件进行解码。但如果情况比较复杂，这种蛮干的方法就很难成功。一个文件的含义不是其位流的内在属性，正如你正在读的这个句子的含义并不是组成这个句子的词的内在属性一样。因此，为了理解任何一个数字文献的含义，我们必须知道该数字文献的位流在它的读者所用的语言中表示什么。遗憾的是，一份数字文献的读者是程序。对于用多媒体技术表示的文献，没有适当的软件是不可能读的。这与印刷的文字不同，它不能被简单地拿到光线底下来读。

有必要去运行生成一个文件的特别程序吗？在某些情况下，类似的软件至少能部分地解释该文件。但是，认为任何一个文件的编码——不管在我们看来该编码是多么的自然——都能被将来的软件读出是太天真了。信息技术不断地产生新的编码方案，这些新的编码方案常常是废弃原来的编码方案，而不是对原来的方案加以改进和扩展。

文字处理程序就是这种现象的一个典型例子。大多数文字处理程序都使得作者能用目前是七位的美国信息交换标准码（ASCII码）将其作品以简单的文本形式存贮起来。如果七位的ASCII码继续作为文本文件的标准代码使用，则在将来对文本文件进行解码是比较容易的。但ASCII码并不是用以存贮文本文件的唯一流行的标准，并且已经有人建议将其扩展为一种16位的代码（为了能表示非英语字符），因而未来的读者可能会猜不出一个文本文件所采用的编码标准。使事情更加复杂的是，作者极少把他们的作品以纯文本文件的形式存贮起来。正如Avra Michelson（当时在国家档案馆工作）和我于1992年所指出的，作者们在写作过程中，常常很早就对数字文献进行格式化处理，而在以后再把插图和注释加进去使之成为更加可读和完整的稿件。

如果“读”一个文件意味着只是把其内容提取出来（而不是其原来的形式），那我们就不必运行原来的软件。但文件的内容会以意想不到的方式丢失掉。例如，在转换文字处理格式时，常常会把标题和注释漏掉或抹去。这仅仅是结构的丢失还是对内容的损害？如果我们把电子数据表转换成一个表，而删除把表中各项相互联系起来的规则，这样做对内容产生了影响吗？假设在我的阁楼上的CD盘中存贮着一张标明宝藏位置的地图。由于代表该地图的位流是用我的软件中的算法对原始地图中的图示和文字说明进行处理所得到的结果，所以只有当使用原来的程序来查看该数字文件时，才能看到这张指示如何寻宝的地图。如果我们想把一个用数字方法存贮的复杂的文献显示成与其作者所看到的完全相同，只有用生成该文献的软件来读该文献才成。

50年以后我的孙子们找到这个软件的机会有多大呢？如果我在这张CD盘上存有该程序的一份拷贝，他们还必须再找到能在某种计算机上运行该程序的操作系统软件。把该操作系统存贮在CD盘也许会有助于解决这一问题，但运行该操作系统所必需的计算机硬件到那时早已经过时了。我可以留下一个什么样的数字式罗塞达碑来提供理解我的CD盘中的内容所需的钥匙呢？

Ensuring the Longevity of Digital Documents-04.jpg

转移位流

为防止数字式文献丧失可读性，我们首先必须保存它们的位流。这意味着必须不断地把位流拷贝到新型的介质上去以保证它们的可访问性。这种方法类似于用定期转抄的方法保存文本文献。这两种方法都需要持续不断的努力：将来的文件访问依赖于不间断地进行这种拷贝和转抄以防止在每一次拷贝和转抄前存贮介质已经变得物理上不可读或者过时。由于当前存贮介质长久保持位流的能力还不够好，存贮介质的形式又变化得如此之快，这就使得每隔几年就要对数字文献进行一次介质转换。保守的估计认为存贮在磁带上的数字数据每年必须拷贝一次才能保证不会发生信息丢失。记录在磁带上的模拟信号在多年以后还能被重放出来，因为这些稳定的模拟信号衰减比较缓慢。

从长远的观点来看，我们可能能够开发出保存期长的存贮介质，这将使得介质转换的频度降低。目前，还没有出现保存期长的存贮介质。但是，介质转换的代价将迫使我们开发出这样的产品，虽然在性能上不一定能完全满足我们的要求。

一部古书可以通过把它翻译成一种现代语言或拷贝其原始形式来加以保存。翻译可使我们不必保留该书所用原始语言的知识，但很少有学者会赞同其前辈采用这种方法。翻译不仅会丢失信息，而且由于原始文献被丢掉了，也无法确定究竟丢失了什么信息。在极端情况下，翻译可能完全破坏内容：想象一下盲目地把双语辞典中的两种语言都翻译成第三种语言的情形。相反，对原始文献进行拷贝（保存其位流）则可保证不丢失任何信息。当然，这种方法假定原始语言的知识也被保留下来。

档案工作者已经指出了两种类似的保存数字化文献的办法。第一种办法是把它们转换成独立于任何计算机系统的标准形式。第二种办法是延长计算机系统及其原始软件的寿命以便能够读取用该计算机系统及其原始软件生成的数字化文献。不幸的是这两种办法都有严重的缺陷。

表面看来，把数字化文献转换成标准形式似乎更可取，因为这种标准形式使得我们的后代仍能读各种数字化文献，而不必保存和运行生成每一个数字化文献时所使用的已经过时的软件。这种办法的支持者把关系数据库（1977年由现在在加州圣何塞Codd&Date公司工作的E. F. Codd提出）作为一个范例。这样的一个数据库由表达实体间关系的表组成，一个雇员数据库可能包含一张有雇员姓名和所在部门栏目的表。该数据库中的另一张表可能在它的第一栏列出部门名称，第二栏给出部门人数，而第三栏为部门领导人的姓名。关系模型定义了一组合法的操作指令，通过这些操作指令可以把这些表中的关系结合起来以便进行诸如查找一个雇员所在部门领导的姓名之类的操作。

由于所有关系数据库系统所实现的都是该同一基本模型，所以任何一个这样的数据库在原则上都能转换成能为其他的关系数据库系统接受的标准表格形式。用这种方法表示的文件在必要时可以拷贝到新的介质中去，且所采用的标准表格形式将保证文件具有永久的可读取性。

转换的缺陷

遗憾的是，这种方法有两个根本的缺陷。首先，关系数据库比它们表面上看起来的标准化程度低。市面出售的关系数据库通过用非标准化的方法扩展关系模型来提供新的特点以便把自己与其他的关系数据库区别开来。不仅如此，这类关系数据库的局限性已经导致人们开始采用新的数据库模型。关系数据库中的表格不能明确地显示结构。也就是说，这种数据库不能立即清楚地告诉人们，我的公司是由一个公司总部，五个全国性的办事处，二十五个分部以及一百个部门组成。为了满足这一要求，正在出现各种面向对象的数据库模型（能直接表示结构）。这种迅速的演变不仅不是偶然的，而且是必要的。这正是信息技术的特点之所在。

Ensuring the Longevity of Digital Documents-05.jpg

此外，关系数据库实际上是一种独特的数据库模型，而不是一种有代表性的数据库模型。其它任何一种数字化文献几乎都没有这种利于标准化的形式化基础。利用文字处理程序，绘图程序、电子数据表以及超媒体程序所生成的文件相互之间差异很大。造成这种情况的原因并不是由于各公司都力图使自己的产品在市场上更加具有特色，而是技术主动适应不断出现的用户需求而造成的直接结果。

迄今为止，还没有一种常见的应用可以实行标准比。我们对于人们处理信息的方式还没有一个公认的合乎逻辑的理解。因而，现在试图列举数字化文献的最重要的应用为时尚早，更不用说通过标准化对其能力进行限定了。强迫用户接受由这些标准所施加的限制，或者规定所有的数字化文献只能包含文本数据，并以此作为一个最低限度的共同标准，都是没有什么用处的。信息革命正是通过不断地吸收新的能力来获得前进的动力的。当信息科学建立在一个更为正规的基础上时，给数字化文献制定一个长期的标准也许是可行的，但目前这种标准还不是解决问题的办法。

将文献连续地转换使之符合一个又一个的短期的标准也不能真正解决问题。连续转换避开了需要制定一个最终的标准这一难题，但是每一次转换都会造成新的信息遗失。如果一部现代版本的荷马史诗《伊利亚特》不是根据从古代留存下来用古希腊语写的原始版本直接翻译过来，而是通过一系列的中间语言翻译过来的，那么它是否会有同样的文学效果呢？从理论上讲，按一系列的标准对文献进行转换将使得学者们能重新构造出原始的文献。不幸的是，这就要求每一次转换都是可逆的，都没有发生信息丢失，但实际情况远非如此。

最后，转换还有一个致命的映陷。与英语和古希腊语（它们的表达能力和语义规则大体相同）不同，数字化文献演变的速度是如此之快，以至于不可避免地会发生文献形式上的改变，新的形式不一定包容了先前的形式或与其匹配。旧的文献不可能总是能够以一种有意义的方式转换成以前没有过的形式，而把当前的一个文献转换成以前的形式常常是不可能的。例如，许多老的等级数据库被完全重新设计，以使之符合关系模型的要求，关系数据库现在也正在被重新构造以符合新出现的面向对象的数据库模型的要求。这种改变使得把旧文献转换成新的标准形式难以进行或毫无意义。

也可以不对数字式文献进行转换，而是用生成一个数字式文献的程序来读该数字式文献。从理论上讲，我们实际上可能并不需要这一软件。如果我们能以一种不依赖于任何一种计算机系统的方式来描述该软件的特性，后代人就能够重新编写出具有原软件特性的软件，并用新编写的软件来读这个文献。但是，信息科学目前还不能对软件的特性进行采用这种方法所需要的足够深入的描述，而且在可预见的将来也不可能做到这一点。现在为重现一个程序的特性，除了运行它而外别无选择。

由于这一原因，我们必须把生成数字式文献的程序以及运行这些程序所需要的系统软件一起保存起来。尽管这样做工作量很大，但在理论上是可行的。作者们常常在提供数字式文献的同时还提供相应的应用程序和操作系统以帮助用户或读者阅读所得到的数字式文献。有些应用程序和系统软件随时随地都能很方便地获得，因此作者只需向读者指出要用哪些应用程序和系统软件来运行这些程序就成。在Internet网络中已经有许多可以免费的公共软件供用户使用。不仅如此，申请了专利的程序在专利权期限过后其版权保护就宣告终止，用户就可以自由地使用它们了。

我们如何提供硬件来运行过时的系统软件和应用软件呢？一些专门的博物馆和“怀旧计算机”俱乐部打算保存过时的计算机，并对其进行维护保养，使之处于能够工作的状态。除了由于技术上的虚张声势而产生的某种不可抗拒的魅力之外，这种方法最终将是徒劳无功的。修理或替换损坏部件的费用以及聘用有这种技术的专家所花费的费用与对任何一种过时的计算机的要求比起来，肯定会使得这样做很不合算。

幸而软件工程师能够编写可模仿硬件行为的仿真程序。假设计算机的功能变得比现在强大得多，那么将来的计算机应该能够在需要时对过时的计算机系统进行仿真。仿真方法的主要缺点是它需要有对过时的硬件系统的详细说明。为了使后人能读懂它，这些详细说明必须以独立于任何一个特殊软件的数字形式存贮起来，以防止在模拟一个系统时又必须模拟另一个系统去读取摸拟第一个系统所需要的详细说明。

Ensuring the Longevity of Digital Documents-06.jpg

保存历史的数据

如果要把数字式文献和读取这些文献的程序保存起来，那么它们的位流不能被改变，因为位流的少许改变都会使程序及其所要处理的文件错误百出。如果这种改变不可避免，那么它必须是可逆的，不会丢失任何信息。不仅如此，还必须对每—次变换作详细记录，以便能够重建位流的原始代码。尽管位流可被设计成对任何预期的改变具有免疫性，但将来的转录却可能会导致使位流产生意想不到的改变。例如，大比率的数据压缩可能会把一个位流转换成这个位流自身的某种近似，这就使得不可能精确地重建原始的数据流。类似地，在加了密的情况下，如果不提供解码键，要恢复一个原始的位流也是不可能的。

理想的做法是把位流密封在一个虚拟信封中：内容被原封不动保存起来，而每一个信封所附带的有关该信封的背景信息将对信封中的内容进行说明，并记录其所经历的变换。这种信息必须以数字存贮起来，但也必须以一种易为人读的形式进行编码（也就是它应当比位流本身更容易读出），以能够将其作为一个引导指令来使用。因此，在对信封的背景信息进行编码时，我们必须采用引导指令标准，采用简单的、文本型的引导指令标准就足够了。每当要把一个位流复制到新介质上去时，与其有关的背景信息就可加以转换，使之符合一个更新了的引导指令标准。在这里，不可逆的转换是可以接受的，因为需要保留的只是原始背景的语义内容。这些标准也可用来对建立仿真计算机所需要的硬件说明进行编码。

这样做留给我孙子的将是什么呢？如果他们幸运的话，我留给他们的光盘可能仍能利用某种现有的磁盘驱动器读取，或者他们有足够的能力和手段根据我信中所提供的信息构造出一个能读取光盘中信息的硬盘驱动。如果我把所有的相关软件和对所需硬件的完全的、易于解码的说明都存贮在光盘上，那么，他们应该能够建立起一台可运行原始软件的仿真计算机，并将我存贮的文献显示出来。我祝他们好运。

互动科普

保证数字式文献的长久性

全部评论

你的评论

社交媒体