基于本体的数字图书语言检索方法

更新时间:2024-04-03 作者:用户投稿原创标记本站原创 点赞:4735 浏览:13947

【摘 要 】

本文在分析目前基于关 键 词 检索技术诸多缺陷的基础上,阐述了本体技术的优点及其作用,并提出了采用一种基于本体的语义检索方法,并将该方法用于数字图书检索系统之中.该方法弥补了传统检索技术中无法对信息提供语义组织及处理等不足之处,提高了检索的查全率、查准率.

【关 键 词 】

本体;数字图书;语义检索;方法

根据图书的特性,在网上书目的查找也有着不同的方式.其中最普及的查找方式有:书名检索、作者检索、ISBN检索、年份检索、出版社检索.还有一些不常用,但又十分重要的检索方法:分类法检索、导出词检索、丛书检索、套书检索等,这些项目都可以在数字图书系统或OPAC系统里进行检索.OPAC系统的搜索引擎主要是基于关 键 词 的全文匹配和基于主题分类进行检索的,这种检索技术是基于SQL语言的,在目前的计算机硬件条件下检索速度很快.

由于用户对同一概念的关 键 词 表述形式不同,时常导致无法准确找到有用信息.人工智能领域中提出的智能搜索引擎概念,该技术是一种提高信息检索的查全率和查准率的有效方法.智能搜索技术应用于书目检索,主要是对用户提供的关 键 词 进行语义分析和理解,进行概念查询和模糊查询.本体技术(ontology)在智能化检索中扮演了一个十分重要的角色,它良好的概念层次结构和对逻辑推理的支持在基于语义的信息检索中带来广泛的应用.

一、图书信息本体的构建

在计算机领域能够被大家所接受认同的是Studer等在1998年对本体的定义,认为本体是共享概念模型的明确的形式化规范说明,其目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些术语和术语之间相互关系的明确定义.本质就是提取各个领域的相关概念知识,提供对不同领域中本质相同的事物一个共同理解,并能够从不同的角度和层次上对概念属性和概念间的关系有个共同的认识.

在实际构造本体时结合本体最终的应用领域和具体的工程要求,形成了各式各样的结合应用领域本体建立方法.本文采用斯坦福大学开发的基于web的本体编辑工具protégé进行本体构建,对中文MAC数据中书目、作者等关 键 词 进行语义分类与描述,同时结合语言学本体系统word,计算本体属性概念的相似性,建立属性之间的关联关系,构建关于检索关 键 词 的语义网.建立基于本体的图书信息描述与表示方法,构造关于书目系统检索词的本体库,是实现opac系统语义检索的前提和基础.

下面以“计算机”本体为例说明本体构建的方法.本体表示的是概念之间的关系,与“计算机”相关的概念有“电脑”,“微机”,“PC”,“CPU”,“windows”等等,它们含义相同或相近.在protégé类编辑栏中创建“计算机”类,再在“计算机”类以下创建各个子类,并且可以添加文档进行描述说明,定义数据类型,设置属性,属性值等.再利用word计算属性之间的相似度,并将结果保存到以“计算机”的OWL描述文件里.


这篇论文地址 {$getarticleurl}

二、基于本体的图书信息智能检索方法研究

一是建立概念间的语义关系,以OWL文档的格式存储.收集信息源中的数据,参照已建立的本体把收集来的数据按规定格式存储在原数据库中.

二是利用jana(Ja的语义网工具包)对OWL文件进行解析,将以一般文件存储的本体和信息资源信息从文件中读取出来存储在特定的模型中.

三、结语