图书馆馆藏特色文献资源的数字化深加工模式探析

更新时间:2024-02-20 作者:用户投稿原创标记本站原创 点赞:22368 浏览:97010

摘 要:图书馆作为文献资源和怎么写作机构,承担着为社会提供各类文献的主要职责,而其馆藏特色文献是衡量一个图书馆的资源地位并为读者提供特色怎么写作能力的重要指标,是图书馆为文化建设怎么写作的知识特色宝库.在当前互联网和数字技术高速发展的大环境下,图书馆原有的“藏”为主将转变为“怎么写作”的功能,因此有责任充分利用数字和网络技术,将传统的特色馆藏文献纸质资源通过数字化深加工的形式进行充分展示.主要介绍了上海图书馆馆藏特色文献资源的定义和类型;探讨了资源数字化深加工可以从深度标引、检索功能的多功能化以及知识单元链接的具体模式,为图书馆特色馆藏文献资源开发提供了方法.

关 键 词 :图书馆 特色文献资源 数字化 深加工 模式

中图分类号:G259 文献标识码:A 文章编号:1672-3791(2012)09(a)-0255-02

图书馆作为文献资源和怎么写作机构,承担着为社会提供各类文献的主要职责,而其馆藏特色文献是衡量一个图书馆的资源地位并为读者提供特色怎么写作能力的重要指标,是图书馆为文化建设怎么写作的知识特色宝库.在当前互联网和数字技术高速发展的大环境下,图书馆原有的“藏”为主将转变为“怎么写作”的功能,因此有责任充分利用数字和网络技术的发展,将传统的特色馆藏文献纸质资源进行数字化深加工.进行数字化深加工不只是进行文献的扫描和保存,而是将文献的本元以数字化深加工的形式进行充分展示,从而为读者进行全方位的应用和怎么写作,这是现代化图书馆的一个重要使命.

图书馆重要文献资源进行数字化,可以使文献得到更有效利用和保存;进一步深加工,则可为读者深入怎么写作提供平台和工具.本文就上海图书馆从事近代期刊、古籍等特色馆藏资源数字化深加工过程认为,目前特色文献资源的数字化深加工有多种模式和类型,图书馆工作者要根据文献的特性进行分类,可以通过OCR识别、知识标引、检索系统的多功能化等手段来实现特色馆藏资源的数字化深加工.

1.馆藏特色资源的定义

图书馆馆藏特色资源类型可定义为:具有一定的地域和历史人文特色,或与地方的政治、经济和文化发展密切相关的资源.这些资源往往具有特定及一定规模的研究群体,文献研究价值大,市场需求度较高.通常按文献类型可分为:图书、期刊、报纸等;按文献种类可分为:书籍、论文、字画、照片、讲座、手稿、地图、档案、传单、广告、标本、实验、观测数据等.

2.数字资源深加工模式类型

数字资源深加工模式类型可根据不同文献需求进行不同类型的深加工.

2.1 全文识别数字化(OCR)

在图书馆馆藏特色文献中,报刊资源是一类相对比较有研究价值的文献.(1)民国时期期刊由于该类文献开本不尽相同,纸张材质和出版样式不同,繁体字样式繁多,因此在OCR过程中,要选择一个支持繁体大字库的识别软件,在图像扫描时为深度标引作好各类标识.在图像的展示上要实现放大、缩小功能,同时亦可输入百分比,控制放大缩小功能.同时要实现期刊全屏展示,全屏内容为页面内容;(2)报纸应根据出版期间不同版式、不同内容的报纸进行样本抽取和研究.由于报纸量大,特色栏目较多,需要对新闻、广告、等特色内容进行较深入研究,以确定是否在OCR过程中专门制定特色栏目内容的标识.

2.2 深度标引

特色馆藏资源通常具有显著的地域特色或者文献价值,在标引时要注意这些文献的特性.目前图书馆在进行深加工时往往只考虑到统一和跨库检索,而忽略了揭示文献的本质,因此在数据库的检索怎么写作系统的检索字段设置较为简单,检索功能有待强化,要加强标引深度.

深度标引可按学科或专业进行分类,从增加检索字段来实现多种途径检索,以提高文献的利用率.除了书名、作者、书号、类别、写作年代、地点等外,还可以根据不同文献的特点进行深度标引.例如:对文物价值较高的古籍文献中的诗进行深度标引时,可以根据它的特点设置诗体、韵、平仄、主题等;对词进行深度标引时,可以根据它的特点设置词牌名、词调结构、长短词等;对期刊进行深度标引时,可以根据期刊的研究领域设置学科、专业等;对报纸数据库,不但要展示报纸每篇文章的篇名、作者,还应根据报纸的特点设置专栏、广告、公告、新闻等.

2.3 检索系统多功能化

2.3.1 检索导航

建立强大的以全文检索为基础构造的智能化检索系统,将大大节省研究者在文献检索、辑佚方面的时间和精力,还将极大地启发和扩展其研究的广度与深度.在加工过程中目前可以借助现有的检索技术,实现条件检索、逻辑检索、模糊检索、组配检索、属性检索等多种类型的检索[1].其中属性检索对于特色文献使用者具有突出的价值和意义,可满足其特定的需要,例如以写作年代、地点、题材、体裁、事件等作为属性,即可汇集撰写于同一时间、地点的文献,采用同一题材、体裁及记载同一事件的文献.此外,根据不同类型文献的自身特点,还可针对性地开辟各种特殊的检索项目.

2.3.2 辅助检索工具

在数据库中载入辅助性工具(字词典、历史年表、电子地图等)已在部分古籍数据库中得到实现,例如在《四库全书》电子版中,设有单字字义查询、古今纪年换算、干支/公元年换算、八卦·六十四卦表等辅助工具,这样的设计使得研究者不需要为了弄清某些知识点再查阅其他资料,就可以依靠该工具迅速进行确认.但是现有的辅助性工具还很有限,因此在今后的数字资源深加工过程中可以根据各类文献的特殊情况,开发更具专业性、系统性和针对性的工具,在附带字词典、历史年表、电子地图的基础上,建立相应的知识支撑系统或专门的辅助数据库[2],例如有关历代官制、兵制(或谓军制)、科举制及历代政区等的知识系统.在设置期刊数据库的辅助检索工具时,可以设置近义词或同义词查询、刊名辅助导航、期刊聚类检索等功能.

通过这些知识系统,正确反映各个时代的政治、军事、文化、地理等方面的信息,为研究者提供具体的时空坐标和背景资料,及时解决他们在文献阅读过程中的问题,甚至有可能帮助发掘出原本隐藏在文献背后的关联信息. 2.4 知识单元链接

数字化资源不只是纸张版本的简单翻版,而应采取多种方式和技术手段,以原文本为中心进行发散和延伸,为使用者提供基于超文本的立体阅读环境.因此可采用知识单元链接的方法,该方法可分为同种文献和跨文献类型的知识链接.

2.4.1 原文与相关知识点之间的链接


在古籍文献资源中的世传经典著述通常有古代著名学者、训诂专家为其注疏,注疏包括传注、章句、义疏、集解、音义等各种不同类型[3],其中包含着丰富的内容,不仅有对字词句及篇章文义的注解,也有对名物制度、成语典故的诠释,是后人阅读和理解原文的重要纽带,也是继续研究的前提基础.在原文与注疏之间进行链接应是拓展古籍阅读内容的有效和必要方式.

除此之外,链接的内容还可包括文献本身相关内容之间、相关文献之间以及文献与相关网站之间的链接等.例如:在期刊数据库中,可以链接至期刊杂志社的网站、上海图书馆IPAC目录中的馆藏信息以及其他馆的馆藏信息等.而国家图书馆在所建特色资源库—— 敦煌遗珍中尝试链接了有关敦煌和丝绸之路、相关文献机构以及文物保护的网站,以丰富读者对数字化敦煌文献的认知,推进敦煌学研究[4].

2.4.2 文献不同版本之间的链接

这种链接包括数字图像版与文本版、不同文本版之间的对照和切换.数字图像版可以展示版本类型、版刻特征、字体、墨色等信息,满足版本研究、书史研究、文物鉴定等多种需要;不同文本版的切换则便于异文的对照和批校内容的互补互证.

2.5 检索统计研究功能

对文献有关内容及各类检索结果进行计量统计,提供科学、准确的统计数据和信息,是对数字化资源的内容补充与增值.统计结果作为许多后续研究的基础数据,不仅可以改善研究者的研究条件,而且还会带来研究思路、研究方法的变革.20世纪90年代中期,北京大学开发的古诗研究系统即专门设置了统计功能,并以图、表等直观形式显示.其中包括:诗作统计(按年代、地点、诗体、主题等分门别类地进行统计)[5]、汉字统计(各种字词信息如字数、字频、词频的统计)、总体统计(对于全宋诗整体的诗作和汉字统计).各类统计数据和信息如果具有一定规模,可进一步为它们单独建立统计知识库,为研究者展示了多个角度以供其分析问题,例如从多种词汇使用现象的统计中考察作者的创作风格,从作品中人名、地名的统计中分析作者的交游与游历情况,从某一时段词汇的引用频度变化中探讨词汇的时代分布和变迁[6].

应在各个统计知识库之间建立更密切的关联,以便于研究者将各种统计结果相互结合、参照、对比,获得更大的思考和研究空间.例如,把作者一生的游历地点与各时期撰著数量的统计相结合,与作品用词用语变化的统计相结合,与整个时代同类文献数量的统计、语言变化的统计相结合,就能对某一作者在整个时代中所处的位置、所受的影响、撰著的背景等有一立体的认知.

3.结语

特色资源的数字化深加工建设是图书馆的重要工作之一,作为一个公益性怎么写作机构,图书馆应立足于广大读者,根据特色文献的类型,选择不同的深加工模式,同时要深入分析这些文献的特性,设置最能反映文献本质的数字化检索字段,才能顺应社会和时怎么发表展的需要.

相关论文范文