实现数字化_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 信息 • 能源

实现数字化

admin  发表于 2017年09月22日

电子图书馆将使现今的Internet网络相形见绌。但是创建这种图书馆业非轻而易举。

图片199.png

耸立在巴黎市中心,紧靠塞纳河岸的四座巨大高楼已经作好准备。它那总长395公里的书架足可容纳2200万册书。这些建筑是法国国家图书馆新建的Tolbiac大楼群,它们可能既是这类建筑的第一例,也是其最后一例。说它是最后一例,是因为大多数重要城市再也无力修建这样宏大的公共建设工程了。而说它是第一例,则是因为法国国家图书馆的此项搬迁工程将有一件引人注目的大事:数以百计的工作站使读者们可以通过电子途径轻而易举地查阅涉及法国历史和文化许多方面的11万卷书的全部内容。

世界各地的图书馆已开始着手一项极其费力的工作:制作出保存了人类智力成果的书籍、图象和录音的可靠的数字拷贝。对于坐在椅子里空想的学者们来说,这项工作可望把如此大量的信息送到他们的桌面上,以致回头看来现在的Internet网络不过是外行搞的粗糙玩意而已。但是众多的技术,经济和法律方面的障碍仍然使这一希望难以捉摸。

在图书馆管理专家看来,实现数字化有3个显而易见的好处。第一,数字化有助于他们保存稀有和易损的文献,同时让希望研究这些文献的人仍可查阅它们。例如伦敦大英图书馆保存有英国史诗《贝奥伍尔夫》的唯一一部中世纪手抄本,以前只有有资格的学者才能获准查阅。但是在肯塔基大学的Kevin S.Kiernan用3种不同的光源扫描了这部手抄本(此扫描显示出肉眼通常察觉不到的各种细节)并把所得图象送上Internet网络后,人人都可以观看它了。类似地,东京国会图书馆也在制作1236幅它认为属于“国宝”级的木刻画、卷画和其它作品的极为详细的数字照片、这样研究人员无须翻弄原件也能详细地研究它们。

图片200.png

第二个好处就是方便快捷。一旦把书籍转化为数字形式,用户就可以只花几秒(而不是几分钟)来检索它们。几个人可以同时阅读同一本书或观看同一幅图画。图书馆工作人员也免去了把书重新放回书架这一繁重工作。而且可以设想图书馆也能通过Internet网络向那些不能亲自到图书馆的人出租它们的虚拟藏书。

电子拷贝的第二个好处是它们在磁盘上只占几毫米的存储空间,而同样的印刷文献在书架上则要占好几米的空间。扩建图书馆大楼的费用日益高昂。加利福尼亚大学伯克利分校最近花费了4600万美元增建一个地下书库以收藏150万部书,平均每本书的费用为30美元。相比之下,磁盘存储的价格已下降到大约每300页印刷品2美元,并且还在继续下降。

技术折衷

并非所有这些好处都能立即享受到。可供图书馆选择的几种使它们的藏书实现数字化的技术中,每种技术都要求对保存、方便和费用等诸方面因素进行权衡折衷。例如,扫描印刷页面以把它转化为数字图像的费用是最低的。康奈尔大学的Anne Konney在1992年发现,十九世纪的书籍可以以每本30至40美元的成本转化为页面图像,这一费用大部分用于支付扫描机操作人员的工资。柯达公司的Photo CD技术使照相底片数字化的过程实现自动化,从而可大大降低这一成木。借助Photo CD技术,哈佛大学得以把它的犹太史藏书中的8万份招贴画以每天1千份的速度和每份2美元的价格转换为数字图像。由于图书馆长期经费紧张,因此,目前预定要进行转换的文献大多数将用扫描法——包括法国国家图书馆电子书籍中的91%以及美国国会图书馆预定到2000年要实现数字化的5百万份文献。

图片201.png

对于文献的保存来说,扫描也是一种很好的方法。扫描可以保留下书的原貌以及写在页边空白上的所有注释。它也可以把非常详细的非文字内容转变为高分辨率图像。诚然,这可能会得出庞大的文件。例如,要使长31英寸、宽15英寸,印刷字体仅为0.05英寸高的地图产生出一幅易辨认的图像,需要把它扫描成一个有4500*9300个像素的125兆字节的文件,数据量之大使台式计算机难于应付。但是,功能更强大的计算机以及新的图像格式——它在必要时可以较低的分辨率绘制图像——最终将消除这一障碍。

扫描的主要缺点是它只产生数字图像,这种图像与排字印刷的书页一样,只适于观看。至今还没有一种方法能轻而易举地找出包含在某一扫描书籍中的一段引文或一段话。文字的图像不能很容易地通过电子邮件发给一位朋友或剪贴成书刊报告。对于视力有缺陷的用户来说,书籍的图像读起来并不比书籍本身更轻松(见“不用监视器的网络冲浪”一文。〕

对于许多场合来说,电子文本——即能够用字处理器处理并编索引的那类文本——比扫描图像方便得多。把印刷品转换为电子文本的最便宜的方法是使用光学字符识别软件(OCR软件)。这类程序使用模式匹配技术来一个字母一个字母地从扫描图像中捉取单词,近几年来它们的成本的确已大幅下降,精确比也略有提高。较先进的程序现在已能正确识别标准测试图像99%以上的字符——但这仍然意味着每页会产生十几个或更多的错误,如果转换后的文本仅用于编索引而不是用于阅读,则这样多的错误或许是可以容许的。否则就必须通过人工来校正错误,而这是一个十分费力的过程,其费用不比扫描少,也许还要更多。

图片202.png

Andrew W.Mcllon基金会在它的“期刊存储工程”中采用了后一种方法来使10种流行的经济学和历史期刊数字化。虽然这项工程的扫描、光学二字符识别和校对费用达到每页39美分(相当于一本300页的书要花120美元),但该基金会认为,这种方法降低了编目及存储成本,因而使它很容易收回此项开支。(书籍在以文本文件的形式存储时,所占用的磁盘空间仅及以页面图像文件的形式存储时的十分之一。)此外,这笔投资使读者能够快得多地找出感兴趣的文章。

当然,任何想要取代纸印出版物的档案都必项包括原文中的图纸和照片。但是光学字符识别程序无法顺利处理插图。幸运的是,最近已开发出了其它一些软件,它们能自动识别插图,以便把这些插图作为图像存储起来业放在电子文本中的适当地方。这种方法——美国化学协会通过此方法从42.8万页化学杂志中提取出了几乎40万幅图——依靠这样一个事实,即正文使页面有规律、可预测地显得暗黑,而插图则显得较亮而无规律(见图3)。

把书刊输入计算机的最慢的方法是把它键入计算机。这也是费用最高昂的方法,即使现在亚洲有些雇用了成千名低薪打字员的公司能够完成极大量的键入工作。键入时操作人员通常保留了原文中的错别字和作者特有的风格(特别是当操作人员不懂他们键入的语言时),而光学字符识别软件却常常会“无意”地纠正这些错误。此外,对于格式的文本(如“牛津英语词典”,它用许多不同的字体来指示信息的微妙复杂的意义),重新键入是把文本转换为数字形式的唯一可靠的方法。但是,除了最重要的作品外,键入的费用高得令人不敢问津:讹人一般的300页的文本需花600美元,而用“超文本标识语言”(HTML,万维网上使用的计算机语言)或其许多类似语言中的一种来对该文本的格式编码则可能要花900美元,比仅仅扫描该文本的费用高出30倍。

现在图书馆购进的几乎所有新文献都是由某地的计算机生成的。图书馆能够取得CD-ROM上存储的或以其它某种机器可读形式存储的大量资料的使用权的情况越来越多,从而完全用不着进行转换了。例如,美国电气与电子工程师协会〔IEEE)把它出版发行的所有62种杂志都用标识语言编码以供网上观看。由于读者们使用图书馆中这些较新的文献形式要比使用旧式藏书频繁得多,因此我预计到2000年时,大多数主要图书馆中读者查阅的资料有一半将是数字化的。然而在那之后,或许还要再花10年时间才能使这些图书馆中的一半资料实现数字化。

前途不平坦

这一转换将带来某些风险。在八十年代,当许多图书馆把它们的馆藏图书目录实现计算机化时,图书管理人员发现,在有三分之一左右的图书目录联机上网后,用户往往忽视了其余的图书。类似地,当这些书籍本身实现联机查阅后,那些不能对旧资料进行联机检索的图书馆将面对这些旧资料处于无人问津的状态。尽管电子图书馆对改进学术研究是大有潜力的,但它也可能产生暂时的消极影响。

数字作品版权问题上的含糊不清也提出了一些棘手的问题。当IBM公司为纪念哥伦布的著名远航500周年而准备制作一部CD-ROM时,据报导该公司不得不支付1百万美元以办理必要的版权许可手续。至今大多数图书馆都只把1920年以前出版的资料转换成数字形式(这个时限以前出版的资料不受版权保护),从而避开了这些管理手续上的麻烦问题。例如,国会图书馆已制作出成千份美国南北战争时期的照片、大陆会议文件及第一次世界大战时的讲话的数字版——但不包括小说“飘”。当康奈尔大学决定制作1850到1950年间的重要农业文献的数字版以供发展中国家使用时,它小心翼翼地避开了所有受版权保护的书籍。

除非图书馆获得许可,能够像使用作品的真实版本那样方便容易地使用其数字版本,否则二十年后图书馆的读者们将会发现所有书刊均已上网,除了1920年到1990年间出版的一类陌生的书刊以外。这些书刊是出版业中被遣忘到书库角落的一潭死水。转换成数字版本的计划需耗资数百万美元,而版权限制可能使这笔资金筹集不易。去年“飘”被借出的次数远多于第一次世界大战中的任何一次演说;把最受欢迎的收藏文献转换为数字版是争取公众支持的好办法。

如果不能走上述途径,图书馆也可以联合起来在Internet网络上共用它们的虚拟馆藏作品,从而分摊制作费用。但是政治上和组织上的问题——图书馆应当向远处的读者提供多少服务?购买和存储资料的成本如何能公平地分摊给不同的图书馆?——使合作的尝试至今难于实现。

一旦这些障碍被消除,数以百万计的书籍、图片和录音实现了数字化,那么我们的子孙能够找到、观看、检索并打印出它们吗?使用坚固耐用的器件并不是解决办法;问题在于技术的过时〔见《科学》1995年5月号上“保证数字式文献的长久性”一文)。每隔几年,图书管理员都必须把他们的馆藏文献转换为新器件上的新格式。把文件从一种器件拷贝到另一种器件上不会有什么困难——比特就是比特。但是软件格式则更丰富多采,变化更迅速,因此也更容易过时。

此外某些格式在转换成其它格式时必定会丧失信息。普遍使用标准的图像格式及格式化文本有助于解决这个问题。但是某些标准——如用于文本的SGML(标准通用标识语言)——的定义很不严格,以致任何单个程序都无法很容易显示出所有遵循该标准的文件。

图书馆并不是仅有的要实现数字化的信息储藏库。它们所面临的抉择与问题同样适用于某些政府部门(如国家航空航天局和国立档案馆)、扫描蓝图和病历的企业乃至对其在世界各地的出生与婚姻记载实现数字化的摩门教徒。转换为数字版的工作将花几十年的时间,耗资数十亿美元。但是,正如我们现在既可聆听在拨弦古琴上演奏也可聆听在钢琴上演奏的巴哈赋格曲,既可朗诵也可阅读莎士比亚的戏剧作品,既可在电影上也可在录象带上观看查理·卓别林的表演,我们也将会逐渐利用联网计算机来更容易、更廉价、更文雅地享受人类创造力创作出的精神财富。

〔任志纯 译 王世德 校〕

全部评论

你的评论