档案网站应加强网页存档工作
发布时间:2016-11-15  浏览次数:

作者:王善柏 洪坦秋 来源:中国档案报

 

 档案网站是档案部门向广大利用者提供档案信息服务的重要途径,档案网站具有丰富的档案信息资源,这些档案信息资源以网站文件的形式存在于网站之中。网站文件是在网站中形成的、具有原始记录性的电子文件,包括网页、后台数据库文件、程序文件等。对于传统纸介质可以通过馆藏保存,而动态网页信息随着时间的推移,电子文件在不断变化、增长,很多当时的网页,就再也找不到了。我国还没有网站信息归档的操作指南或指导性规范,大量网站信息处于自生自灭的状态。作为档案部门在信息化发展迅速的今天,加强档案网站归档工作已经刻不容缓。

 加强档案网站归档具有非常重要的现实意义。网站文件更新快、寿命短,具有很强的动态性,不及时归档整理,这些记录也将不复存在,及时对网站归档是保护网络信息资源的需要。当前,各级档案网站通过政府信息公开向公众提供信息服务,以保障公众的知情权和监督权,收集网站上对国家和社会有保存价值的记录,是国家档案行政管理部门的职责所在,也是互联网时代档案部门面临的新课题。

 现阶段信息化发展为档案网站归档的实现提供了有力的技术支撑。网站归档要最大限度保留实时网页特征,归档后实现网站的全部功能,保留网站上的结构、内容。在进行网页归档时,应参照国家有关电子文件管理相关要求。前端控制是电子文件归档保存的基本原则,对于动态网站文件来说尤为重要,这就要求网站建设初期就要根据网站数据特征制定归档保存方法,这样随着网站改版、更新,大量的网站电子文件才能做到繁而有序。另外,网站的归档时机要选择在网站发生较大变化时,这样可以记录重要节点网站原貌。现阶段,我国主要的档案网站根据网页电子文件的特征主要有静态页面、数据库两种类型。根据网站类型网站文件的保存方式我们可以采用对象驱动法、事件驱动法和网站快照法来进行网页电子文件归档。

 对象驱动法适用于静态页面的网站归档,主要是按照改版和时间,如周、旬、月定期建立网站镜像。这类网站基本使用网页生产系统制作网页后自动传送至网页服务器,传输网页文件同时可以定期自动将实时网站文件按照时间节点制作网站镜像,将网站内容全部拷贝到硬盘、光盘、磁带等存储器中脱机保存。满足实时网站历史原貌的要求,但它的成本较高。网站的每一次更新、改版导致内容发生变化,都要做一次镜像备份,尽管现在的存储价格低,但随着时间网站备份数据增大,购买存储设备的资金支出就会越来越大。

 事件驱动法适用于使用较多动态网页技术的网站,动态网页一般都有后台数据库做支持,具有很强的交互性,网页会根据用户的要求和选择而动态改变和响应,用户可以在网站上咨询、留言。动态网页都是通过数据库自动生成新的页面,无须手动更新,访问者通过浏览器调用网页服务器的数据库来访问网页。这类网站网管人员定期将数据库文件进行完整备份。这种方法网页中的静态页面基本不变,变化的是不同的数据库中的表,访问者通过访问指定时间的数据库就可以查询到过去某个时刻网站的电子文件。这种方法需要存储多个时间节点的数据库并建立索引,这就要求网站管理人员具有较高的计算机专业技能。

 网站快照法是在特定时间对网站上数据对象进行完整且准确的拷贝,它捕获了网站的内容、格式和技术特征。展现出了网站在某一时间点的画面,对于单独的一份快照来讲,它是孤立的,只有和其他的快照联系在一起才能重现网站,为保证快照之间的连续性,需建立快照目录,即快照的变化日志来跟踪记录站点的变更。对于更新不频繁的网站,可以采用此方法,在网站内容更新或改版时做一次网站快照并对其进行维护。网站快照的缺点是要借助现有的搜索引擎(如百度、谷歌等)来抓取网站数据,然后对网页进行缓存处理后存储在本地服务器中,如果自己开发搜索引擎的成本是网站所有者无法承受的。

 网站网页归档是近年来政府上网工程和电子政务发展带来的一项新的工作任务,目前没有统一的标准,网页归档涉及太多的问题,有些问题目前尚无完好的解决方案。作为档案网站的建设者应进行多方位探索,并在探索中不断完善。近几年,国家档案局对此也在进行探讨和研究,相信不久将会启动各级档案网站网页存档工作,将网站纳入本单位电子文件归档范围,把档案网站网页保存好、记录好。

 

原载于《中国档案报》2016年11月10日 总第2988期 第三版