网页网站相似度判别方法

更新时间:2024-01-14 作者:用户投稿原创标记本站原创 点赞:5631 浏览:20828

【摘 要】当今时代是一个以信息技术为代表的知识经济时代,各种先进的科学技术迅猛发展,给人们的生活带来了深远的影响,它极大的改变了我们的生活方式.以计算机技术和网络通信技术为代表的信息科技改变着我们的生活.在这个信息高速传播的时代,互联网已经成为用户浏览信息,搜索信息的主要来源,然而搜索引擎再采集网页时会出现许多相同或者近似的网页,这样不仅降低了用户在检索中的效率,同事也增加哦了存储空间,并且减少了用户的体验.我们就这个问题进行了讨论.

【关 键 词】相似度;搜索引擎;算法


一、引言

现代搜索引擎中的爬行程序在巨大的网络中采集网页时会搜集到许多相同或者是近似的网页,这样不仅降低了用户在检索过程中的效率,同时也增加了存储空间,并且减少了用户的体验.因此,判别网站页面的相似度并在此基础上去除重复的网页已经成为搜索引擎领域目前所研究的热点和重点问题.本文所研究的是网站页面相似度判别的方法,文中第一章分析了研究该课题的目的和意义,然后在第二章简单介绍了当前最好的检测网站页面相似度的几种算法以及它们各自的优点和缺点,对前人的研究成果作进一步的分析和学习,接着在第三章提出了一种相对先进的相似网页检测的算法,这种比较先进的算法采用的是基于最长公共子序列的相似性度量方法去判别网站页面的相似度,它能够很好地去度量出网页之间的相似程度和它们的包含关系,并能够获得较为理想的准确度.这个方法中同时也设计了一个有效的检测过程框架,此框架包含有三个步骤,可以用来保证算法运行时候的效率.

二、目的与意义

互联网诞生到现在,从共享性和开放性等特点以及对人类社会生活和工作等方面的影响来说,它无可厚非地已经成为了新世纪最伟大的创造之一.但是在网络迅猛发展的同时也给人们带来了一系列难题,最明显的就是现在的网络中已经存在着很多经过