基于主题词语义分词与距离的去重算法

更新时间:2024-04-03 作者:用户投稿原创标记本站原创 点赞:4891 浏览:13604

【摘 要】对主题网页去重技术进行了综述,结合已有算法的缺点,提出了一种基于主题词语义与距离的网页去重算法.该方法通过对用户输入的关 键 词进行语义标注后分词检索,计算分词子集在网页文本中的距离,来判断网页与主题的相关度以及网页之间的相似度.同时避开了网页文本向量空间维数大的不足,在一定程度上考虑到了网页的语义信息.


【关 键 词】网页去重语义分词与距离去重

目前大多数搜索引擎采用基于关 键 词的方法返回用户所需信息,这些信息的冗余度通常很高,很多不相关的信息没有进行有效的组织.因此人们迫切地希望拥有一种方法,能够自动的将与特定主题相关的信息分类汇总后,供用户查阅.主题搜索引擎的出现使得用户能够对特定主题相关信息的进行获取,然而在信息采集过程中如何对搜索回来的页面进行分类,在下一次信息采集的过程中让爬虫主动发现主题相关页面,并去除相关页面中的重复或近似重复的页面成为搜索引擎的研究热点之一.

1网页去重技术综述

搜索引擎的工作原理主要分为三个部分:网页抓取,网页处理,提供检索怎么写作.网页去重是搜索引擎预处理技术的关键部分,主要是由于web上存在大量的重复信息,有统计信息表明,网页的重复率平均为4,即用户通过一个URL在互联网上看到一篇相似网页的同时,平均还有三个URL不同的网页给出的内容相同或近似相同.因此为了提高搜索引擎的工作效率,网页去重在整个搜索引擎的工作中是必不可少的.

国外对于网页去重的研究最初主要是针对大型文件系统的近似镜像文档检测算法上的研究,后来这些算法又被拓展应用到数字化图书馆项目以及搜索引擎系统中.美国Arizona大学的研究人员对于大型文件系统中的相似文件采用了计算文档的重叠程度的方法来进行实现.国内,网页去重重点还是对网页去重的算法进行研究.大连理工大学韩冰主要研究了大规模的网页文本去重和科技论文抄袭检测.江苏大学吕霞提出了一种基于关 键 词和特征码的网页去重K-CC算法,在分析国内外目前比较通用的几种去重技术的基础上,提出了一种基于关 键 词和特征码的网页去重K-CC算法.

2基于主题词语义分词与距离的网页去重算法的背景

传统的特征码实现的精确匹配完全可以与先进的检索系统联系起来,其去重效率比较高,是一种去重的好方法.但是该方法的缺点是:

(1)特征码所实现的是精确匹配,并不能有效的检测出