网站的归档

更新时间:2024-03-15 作者:用户投稿原创标记本站原创 点赞:2052 浏览:6582

现在许多政府机关、企业、组织有了自己的网站,但如果想看一下网站改版以前的外观,查一下更新前的内容,则做不到,因为旧的内容已经被“冲”掉了,人们也习惯了网站的这个实时更新特性.根据《档案法》的要求,在网站上公布信息、新闻是国家机构、社会组织、企业(以下称单位)从事公务和经济等活动的一部分,利用者也有查阅网站以前的内容和外观的要求,所以网站属于归档范围.那么网站该怎样归档呢本文试图从技术的角度谈谈网站归档的方法.

一般讲,网站在归档时要最大限度地保留当前网页的表现特征,尽量在归档后实现网页上的全部功能,保留网站上的所有的结构、内容、形式和链接.除了因特网外,内部网上的网站也应归档.

一、不同的归档方法

1.硬盘直接保存.许多中小单位一般只是手工更新网页,旧的网页仍保存在怎么写作器硬盘原有的文件夹下,但时间长了会产生混乱,如有的网页成了没有链接的死网页;或是文件夹下文件太多,降低利用者访问速度等.有的单位将旧网页文件直接删除,这样又有销毁应归档文件之嫌.如果将旧文件移动到结构良好的归档文件夹下,并在主页上向利用者提供访问旧的主页或专门的已归档网页的人口,以及提供网站内检索的功能,将会极大地方便利用者对旧文档的检索.如果不想对利用者开放旧网页,可设计成供内部使用的入口,实现对旧网页的查询.

2.建立网站镜像.现在用一些工具软件可以在本地电脑上建立与网站内容完全一致的镜像,然后用离线浏览器阅读.为避免浏览时出现兼容性上的冲突,应注意同时收集归档时相应的工具软件和离线浏览器.如果经常用此方法对同一网站进行归档,需要占用较多空间,不便于向网上的利用者提供利用,可用于对外部和本单

3.网页快照.用过搜索引擎的读者知道百度网站有个“百度快照”.百度搜索引擎预览各网站,以文本形式保存网页的快照,既用做自己计算搜索的依据,也提供给搜索用户用以解决死链接问题.但这样归档的网页不能保证其原来的链接、排序继续有效,网页内使用Ja语言的内容也不一定能正常显示.此方法适合对外部网站的归档.

4.预定义格式的网页快照.为实现对网站的完整归档,必须采用前处理的方法,由档案部门向应归档网站提出格式上的要求.这样的要求包括元数据的格式,限制或强制使用的HTML语句等.此方法适用于对一个系统如条管各单位的网站的归档.如果在网页上传时就对网页的元数据进行了定义,则在查询时能提供更多的查询方法.如何对应归档网站的网页格式进行规范,值得档案部门深入讨论.

5.数据库方法.现在许多网站使用的是动态网页的技术,利用者通过客户端的浏览器窗口调用怎么写作器端的脚本语言来生成页面描述语句.如果保存在数据库中的内容和用来生成页面的在怎么写作器端运行的脚本语言语句不更新,那么利用者在任何时候查询,其显示的结果是一样的.但许多动态网站的主页还是静态页面,对这样的主页只能采取在硬盘上直接保存的方法来保存.此方法适用于使用数据库加动态网页的网站对自身网站的归档.为保证归档文件的齐全完整,要求网管人员把脚本程序当作档案来保存,向外部或内部利用者开放,并定期保存静态的主页;网站上设置人口,允许外部或内部利用者查询过去的静态主页,并按过去的脚本语言显示查询结果.

6.知识管理系统的方法.知识管理系统(ContentManagementSystem)管理电子文件从生成、更新、发布、运转到归档或销毁的全过程,美国微软公司的知识管理软件SharePointPortalServer是一个门户怎么写作器,提供了与Office和Windows办公桌面的集成连接,帮助用户

实现文档管理、文档版本管理、检索及订阅,它又是一个网站,其绝大部分功能能在浏览器下实现,这也就为今后网站的归档提供了可能.要实现基于SharePointPortal Server的网站的有效归档,软件开发人员要在完成在软件说明书上指出的配置外,为文档配置窗体增加体现来源原则的归档号、案卷号和保管期限、密级、开放日期等字段,最好建立主题词表而非关 键 词表,妥善规定访问权限,最终实现对全单位档案的集中统一管理.限于文章篇幅,不再详述.

二、存在的问题

1.因特网上有些网站有访问限制.如需要用户注册的网站、受保护的网站、用数据库管理的网站等很难从外部用快照法进行归档.如果有必要归档,可以通过与网站协商,注册为一个用户再进行归档.

2.版权问题.如果对本单位以外的网站进行归档,就可能存在着版权问题,应尽量与网站所有单位协商,签署版权授权协议,避免可能产生的纠纷.

三、国外的尝试

1.美国因特网档案馆.1996年在旧金山成立了世界上第一个因特网档案馆,其任务就是将公开的网页和数字形式的文化产品尽可能完整地归档.他们设计了一种网络机器人软件,检索那些尚没有归档的或是上次归档后形式和内容有所改变的网页.到2004年1月该档案馆保存了超过300TB(307,200GB)容量的网页,并以每天250GB的速度增加,据网站介绍,到2005年6月,已保存了400亿页网页.

在这个因特网档案馆的查询栏输入要查询的后,会列出对这个归档的年份和次数.笔者输入了内蒙古档案信息网的,显示该档案馆在2003年对内蒙古档案信息网进行了4次归档,2004年进行了5次.笔者选择了2003年的一个时间点,果然就显示出了内蒙古档案信息网当年的模样,但显示速度很慢,另外网页上依赖当前计算机时钟的控件显示的是当前的时间而非过去时间.

2.德国德意志图书馆.1998年到2000年,德意志图书馆(DieDeutscheBibliothek)试验了在网络化欧洲存储图书馆(NetworkedEuropeanDepositLibrary)一NEDLIB项目框架下开发的网络机器人程序,采用快照法对网站归档.但程序还不能把动态网页和基于内容管理系统的全部功能保存到档案管理系统中.德意志图书馆对这样的结果不满意.

2001年10月,德意志图书馆和一些出版社开始使用由图书馆预先定义的格式对网站和网上出版物进行归档.不过按德意志图书馆的观点,政府和事业单位的网站不在其归档范围,图书馆界和出版界关注的是如何既能让网上出版物找到读者,在网上长期保存,又能有效保证版权,不让未注册的读者阅读全部内容.


3.德国联邦档案馆.2001年,联邦档案馆和德意志图书馆、国家提出了一个计划,共同对联邦政府网站进行长期归档的试验.计划的具体内容是,由,家私人公司负责开发一个技术模型,一方面以静态全文本方式保存网页的每次修改,并每月保存一次包含图片的德文网页的快照,要求是,保留原始网页结构和在浏览器中的翻页功能,而其他功能如邮件、外部链接等由于费用的原因未列计划.即使这样,因为经费的问题没有实施.

4.德国社民党档案馆.从1999年开始,德国社民党档案馆着手对社民党、弗里德里希阿尔伯特基金会和本馆的网站进行归档,借助网站镜像软件把所选网页保存到载体上,用离线浏览器浏览.具体是,保存静态网页、动态生成的网页、Ja Scripte、Hash动画,把原来网页上所有的绝对链接部分手工地转为相对链接,从外部链接的数据一并保存在网页中,不保存数据库、流媒体、SessionID等.事实证明这样做太费时费工,后来决定每年保存三次联邦级的网页,每半年保存一次州一级的网页.在两次归档间隔中产生后又删除的网页无法归档.在2004年的一次联邦级的归档中,形成了2GB的镜像文件.

5.澳大利亚档案馆的网上档案馆Pandora.Pandora是由澳大利亚国家档案馆和其他9家图书馆和文化单位共同维护的因特网档案馆,最早于1996年由澳大利亚国家图书馆发起倡议,其目标是长期保存有关澳大利亚的网上出版物和澳大利亚的网站,并为公众提供检索人口.打开网站主页后,可看到按主题分类的类目,共15大类,下面还有按字母顺序排列的归档网站清单.找到一个网站后,上面列着对这个网站的归档时间,有的一年归一次,有的多次.

网站的归档是近年来企业上网以及政府上网工程实施后的新生事物,建议各网站所有单位把网站的归档纳入本单位档案工作的范围内,对网站管理部门提出要求,把现有的网站及时归档.各级档案行政管理部门和档案工作者也要重视、研究网站的归档,找到更经济、更简便并对利用者更友好的归档方法.

(作者单位:内蒙古大学外国语学院010020内蒙古自治区档案局010010)