Internet网络的保存

admin 发表于 2017年09月22日

Internet网络的档案库可能将被证明是历史学家、企业和政府极为重要的资料。

古埃及亚历山大城图馆收藏的手稿毁于一场火灾。早期的印刷书刊因年久变质成了一堆无法辨认的废纸。历史最悠久的电影胶片有许多已被当作废品回收处理，以取得其中所含的银。遗憾的是，在Internet网络(及其万维网)的发展过程中，历史有可能重演。

还没有任何人尝试获得对万维网上网文件中所包含的文本和图像作全面的记录。印刷和电影的历史，就是一个资料遗失和部分重构的历史。但是万维网这个已经逐渐发展为珍贵的科技、文化和历史信息储藏库的网络不一定会承演这种历史。

数字存储费用的不断下降意味着只需要一个配备了不多的计算机工作站和数据存储设备的专业技术人员小组就可以保存万维网(以及Internet网络的其余部分)的一份永久性记录。一年前，作为一个名为“Internet档案库”的项目(Internet Archive)的组成部分，我和其它若干人开始着手实现这一设想。

到本文发表之时，我们将已对万维网上我们能够自山访问的所有各部分拍了一幅快照。这一数据集合的规模可能将达到两万亿字节，从文字到视频图像应有尽有。相比之下，国会图书馆收藏有大约20万亿字节的文字资料。在未来几个月中，我们的计算机和存储设备将记录Internet网络的其它区域，包括Copher信息系统和NetNews公告牌。至今收集的资料已被证明对历史学家是很有的。将来，它可能构成一个经仔细编目的可检索图书馆的原材料。

给万维网拍快照的后勤工作是比较简单的。我们的Internet档案库山10名工作人员从旧金山市中心一个改建了的军事基地(Presidio)的办公室进行管理。它还使用了加利福尼亚大学圣迭戈分校的圣迭戈超级计算机中心的一台信息收集计算机。

我们的计算机上的软件“爬过”网络，也就是把一个接一个的网址上的文件(称为页而)下载。软件一旦获得了某一页的图像，就搜索它与其它页面的交又引用（即连接）。它使用万维网的超连接——即嵌入在一个文件页面内的地址—来转移到其它页面上。然后此软件再次进行拷贝，业寻找新页面所包含的其它连接。为了避免下载重复的页面拷贝，爬行者程序要对照数据库检查所谓“统一资源定位址”(URL)的标识名。数字设备公司的Alta Vista之类程序也使用爬行者软件来编制万维网网址的索引。

这项实验之所以能够实现，是由于数据存储费用不断下降。千兆（即10亿）字节的硬盘存储空间的价格为200美元，而使用自动安装装置的磁带存储的费用为每千兆字节20美元。我们使用硬盘来存储档案库用户可能需要时常检索的少量数据，而用一台自动安装业读出磁带的装置来存储用得比较少的信息。一台磁盘驱动器存取数据的时间平均为70纳砂(毫微秒)，而磁带则需4分钟。经常被检索的信息可能是历史文献或一组已不再使用的URL地址。

图片218.png

我们计划至少每隔几个月更新一次所收集的数据，首次完整记录需要将近一年时间进行整理。以后再穿过万维网收集资料时，我们就可以只更新那些自上一次收集数据以来发生了变动的信息。

从万维网上收集来的文字、图像和音响资料永远也不会是包罗万象的，因为爬行者程序不能进入数十万个网址中的许多网址。一些发行人对数据检索规定了种种限制。或者是其文件的存储格式使得简单的爬行者程序无法检索到它们。然而，网络档案库仍使人们能领略到某一时期内万维网的概貌。

在收集并存储了工Internet网络的公开资料以后，档案库可以有些什么用处呢?我们能够提供原始发行人不再提供的文件；如果万维网的超文本系统要成为学术发表的媒体的话。这将是一个很重要的功能。对于商业研究，这样一种服务也可能被明是值得的。对于政府和其它公开发行文件的部门，档案数据可以当作“资料副本”。这样，档案库将渐渐地越来越类似于一个数字图书馆。

保存缺失的环节

历史学家们已发现这些资料是有用的。史密森学会的David Allison利用这个网络档案库在博物馆建立了一个总统竞选网址展览，他把此项工作比作保存早期电视竞选广告的录像带。这些网址的许多连接(例如得克萨斯州参议员Phil Gramm的竞选活动)已经从Internet网络上消失。

图片219.png

建立一个档案库涉及多方面问题，从隐私权到版权。一个大学生建立的网页中如果有她当时的男朋友的图片，这会不会有什么问题?如果她后来想要“撕掉”(可以这么说)这些图片，但它们却继续存在档案库中，情况又怎样呢?她应当有权撤掉这些图片吗?对比之下一位公众人物——如美国参议员——是否可以撇掉他或她大学时代的资料呢？收集供公众使用的信息是否违反了版权法中关于“公平使用”的规定，这些问题是轻而易举可以解决的。

眼下我们暂且让作者来把自己的作品排除在网络档案库之外。我们也在考虑只让研究人员获取档案资料的一般性的统计数据，而不是获得具休的文件——例如，可以统计网络上关于厚皮动物的参考书目的总数，但不可以观看一个具体的关于象的主页。我们希望，这些措施将足以减轻眼下人们对隐私权和知识产权问题的担心。随着时间的推移，在建立Internet网络档案库的过程中所考虑的这些问题可能会通过检验在Internet网络上“公平使用”之类概念的意义而有助于解决更大范围上关于知识产权和隐私权问题的政策辩论。

Internet网络档案库与旨在实现Internet网络上信息长期保存的其它一些项目是相辅相成的。华盛顿的“保存与使用委员会”在研究如何确保数据不会随着数字存储媒体的标准格式近几年的变化而丢失掉。在另一个项目中，弗吉尼亚州雷斯顿的“全国研究计划公司”(CNRI)和其它一些机构大力研究了能使数字文件获得一个唯一标识名的软件体系结构。这些所“统一资源名”（URN）可以补充日前用于访问万维网文件URL地址。给一份文件赋予一个URN，是为了保证它在连接不存在以后仍能被跟踪。因为据统计一个URL的平均寿命只有44天。URN能够找到其它仍然可通到所需耍文件上的URL地址。

其它一些范围更有限的尝试——为Internet网络的一部分建立档案——也已开始进行。Deja News这个档案库记录的是Usenet公告牌上的信息，而In Reference则把Internet网络的发送名单收入档案库。这两个档案库都靠广告商出钱维持，这也是Internet网络档案库的一个可能的资金来源，直到现在，该档案库的资金都是来自作者从一个Internet网络软件与服务公司的销售业务中得到的收入。几家计算机大公司也捐赠了设备。

实现Internet网络资料保存的基础设施还需要很多年的时间才能变得相当成熟，而有关知识产权的问题也要许多年之后才能得到解决。对于我们来说，我们觉得把收集档案资料的工作进行下去是很重要的，因为这些资料不可能在将来被恢复，这样获得一种新媒体的出生记录的机会也就随之丧失了。

互动科普

Internet网络的保存

全部评论

你的评论

社交媒体