档案数字化中的文件格式问题

更新时间:2024-02-10 作者:用户投稿原创标记本站原创 点赞:13240 浏览:57247

【摘 要】档案数字化作为国家信息化工程的重要组成部分,已经成为人们的共识,它是在维护档案信息内容真实的前提下对档案信息记录方式和载体形式的变换,本文旨在阐述在档案数字化的系统化工作中文件格式的重要地位以及档案的文件格式在确定的过程当中应该权衡的因素.

【关 键 词】档案;数字化;文件格式

档案数字化是将传统的纸质档案、照片档案、声像档案上所记录的文字、图形、图像、录音、录像等信息变换为以二进制数字代码形式记录的,能为计算机网络所识别和表达的数字信息.

一、文件格式的重要地位及其本质

档案,作为社会记忆的最为重要的载体,其最本质的特征就是原始记录性,而数字化档案作为一种新型档案载体,必然需要满足作为档案的基本属性.数字化档案用二进制数字代码的形式将传统档案载体如纸质档案、照片档案、声像档案等所记录的文字、图形、图像、声音、录像等信息固定下来,最基本的要求便是所用的二进制代码必须不但不损害档案的原始记录性特征,而且要积极保护档案的原始性.

然而在整个档案数字化过程和数字化后的档案的利用当中,档案不能实现其自身目的的案例时有发生.数字化后的档案在利用当中会出现读不出的现象,而不能够实现长久保存和利用的档案不能称之为真正意义上的档案,不能实现长久利用的问题在很大程度上就在于文件格式的无法识别.文件不同的格式,就造成不同的读取方法;当这种读取方法被遗忘时,在一定程度上是由于文件格式被遗忘.

被遗忘的原因在于,我们将档案信息转化为二进制数字信息时所采取的记录方法是人为设定的,因而记录方法是多样的.在不同的记录方式下,相应的应用程序形成不同格式的数字化文件.我们可以说,记录方式的不同造成文件格式的不同.以图像的数字化过程为例可以较为清晰地说明.从图像的存储来看,有两种方式,一种是位映射(位图模式),一种是向量处理(矢量图模式).而对应于位图模式,图像的数字化记录过程则分为采样和量化两个阶段,针对不同的图像,采取的记录方式不同,进而导致存储方式的不同,文件格式也会有很大的差异.

二、文件格式选择所需考虑的诸种因素

文件格式作为一种数字化规则,自然在数字化过程当中占据重要地位,甚至是核心地位.而这一规则本身的成立是建立在权衡多种因素之上的,这些因素包括:保真度、存储空间、与软硬件平台的相对独立性、通用性、标准化程度、数字化档案的目的.

保真度和存储空间及其关系可以用上文中提到的图像文件数字化过程进行阐述.在图像文件数字化处理阶段,对其所进行的采样和量化就是解释保真度和存储空间大小的两个维度.采样的结果就是通常所谓的图像分辨率,显然,用越多的点去描述一幅图像,这幅图像就越清晰,而因此就要用越大的空间对之存储;量化的结果就是图像能够容纳的颜色总数,显然,用越多的字节去描述一个点,这幅图像就能够拥有越多的颜色,而因此就需要越大的空间对之进行存储.这两个维度都说明了同一个问题,即数字文件的保真度与它的文件存储所需的空间往往成负相关关系.


在这种负相关关系下,我们必须在文件的保真度和文件的存储两个因素间进行权衡、取舍.如何权衡呢?这要依赖于我们对文件的现实要求,在满足文件允许的最低保真度下,尽量减小文件的存储空间.这一原则可以用我们常见的JPEG和PSD两种图像文件格式及其比较来说明问题.JPEG文件所采用的压缩技术十分先进,“它用有损压缩的方式去除冗余的图像和彩色数据,获得极高的压缩率的同时能展现十分丰富生动的图像,就是可以用最少的磁盘空间得到较好的图像质量”而PSD格式Adobe公司的图像处理软件Photoshop的专用格式PhotoshopDocument(PSD),因为这种格式的图像文件中包含着各种图层、通道、遮罩等的多种设计,所以它占据的存储空间相对于JPEG格式文件而言是极大的.然而为什么JPEG文件和PSD文件都能够普遍应用呢?这就在于文件的用途是不一样的,PSD格式文件虽然需要更大的存储空间,但它能够保存图像数据的每一个细节,简言之,它的保真度更强.我们需要PSD格式的目的在于,它作为一张“草稿图”可以为下一次打开文件时继续修改,且能够以JPEG格式存储.可见,格式在保真度和存储空间的抉择需要依我们的目的而定.

其他因素,如与软硬件平台的相对独立性、通用性、标准化程度,其共同点在于,它们都立足于从时间维度,目的是实现数字化档案的长久保存和利用.文件格式与软硬件平台的相对独立性越强,该文件格式对文件的长久保存和利用就越有利.若文件格式对软硬件的依赖性过强,如应用软件专用格式,它的存储、处理和还原只能由特定的操作系统和应用软件完成.当经过较长时间后,要想恢复档案的原貌就必须重建这样的系统和应用软件,这一重建工作所需时间长,而且难于实现.

相比而言,中间转换格式更有前景,它作为可以跨应用软件、跨软硬件平台、有兼容性等要求,为同类专用格式相互转换而特别设计的格式,即使经过较长时间,仍能保持其通用性.通用性在于强调一种数字文件格式被用户和业界使用和支持的程度,一般而言,一种数字文件格式的技术开放性越强,其被广泛支持的程度越高,因而技术开放性也是对数字档案文件格式进行取舍的重要方面.除此之外,在当今数字化档案的真实性仍受到质疑的现状下,所选格式时还需考虑“替代性保管”还是“副本保管”,它们对格式的要求不一,替代性保管更倾向于与原件的完全一致,而副本保管可能仅限于档案的方便利用,如网上的流通等.总体而言,文件格式的选择问题是一个立足于现状,须考虑多种因素间相互作用的问题.

【参考文献】

[1]钱毅.数字档案文件长久保存策略刍议[J].档案学通讯,2007(3).

[2]张照余.数字化档案的文件格式选择[J].档案学通讯,2003(6).

[3]肖毅,步金梅,杨璐.图像的数字化处理及其文件格式特点[J].中国新技术新产品,2009(5).