改进的本体概念相似度计算模型-turnitin查重

摘要：本体映射能很好地解决语义网中的本体异构性问题,其核心在于计算本体概念的相似度.针对现有的概念相似度计算的精度和查准率不高,提出一种改进的概念相似度计算模型.首先利用本体特征之间的偏序关系建立形式背景和概念格,然后在结构层次求出概念间的交不可约元集,并通过对集合里各元素的语义关系进行量化计算出概念间的相似度.实例和分析结果表明,改进的概念相似度计算模型在FScore上有明显提高.

关键词：语义网；本体映射；概念相似度；概念格

0引言

自1998年BernersLee等[1]提出语义网以来,语义网已经用于人工智能的许多领域.本体是语义网的基础,它可以用于描述计算机处理数据的语义信息.但是关于本体的构建目前还没有统一的规范,各个领域定义了相应的本体标准,因而存在本体异构性问题.

本体映射能很好地解决本体异构性问题,它是建立两个本体的实体（概念、关系、实例和属性）之间的语义关系的过程,同时也是本体集成、本体对齐和本体合并的技术基础.本体映射的核心内容是本体概念的相似度计算,主要分为两类：基于结构的概念相似度计算和基于语义的概念相似度计算.前者以Tversky[2]提出的基于特征的方法为代表,该方法使用相同特征、不同特征的数量作为概念相似度计算的依据.后者的典型代表是Resnik[3]提出的基于信息量的方法,该方法认为两个概念共享的信息量越多,就越相似.

上述两种方法均存在一定的不足.基于特征的方法对于特征之间的结构关系没有考虑,因而导致概念相似度计算结果准确度不高.文献[4-7]基于特征的方法计算概念相似度进一步了利用概念的结构层次关系.文献[4-5]借助形式概念分析进行概念相似度计算,但由于没有考虑概念间的语义关系,精度提高仍然不明显；文献[6]利用概念间的结构距离计算概念的相似度,但对于结构复杂或者结盟后的本体来说,并不能达到较高的精度；文献[7]与文献[4-5]方法类似,只是推广到了跨本体间的相似度计算,但精度上仍然没有得到较大的提高.对于基于信息量的方法如文献[8-11],由于该方法认为所有连接边的长度相等则表示相同的语义距离,因而忽略了连接边之间语义连接强度的差异.文献[11]计算概念间的各种语义信息并利用关联规则的方法来获取概念间的结构关系,但没有更好地利用结构信息来计算相似度.实际上,本体概念间的连接边仅表明概念间具有某种特定语义关系,并不能用来量化概念间的语义距离.

本文提出一种改进的概念相似度计算模型,首先利用本体特征之间的偏序关系建立形式背景和概念格,然后在结构层次求出概念间的交不可约元集,并通过对集合里各元素的语义关系量化计算出概念间的相似度.由于同时使用了结构化信息和量化的语义关系,与相关文献中的其他方法相比,新的相似度计算模型在概念匹配性能上有明显提高.

改进的本体概念相似度计算模型

相关论文范文