基于网页结构的网页去噪算法设计-turnitin查重

摘要：本文对网页去噪的定义和分类、经典方法以及实验方法等进行了研究,在重定义启发式规则的基础上,针对文本类网页,设计新的算法,并用代码进行实现,在对比结果中验证,该算法能很好的解决文本类网页噪音问题.

关键字：网页去噪；DOM树；风格树；启发式规则

中图分类号：TP393.092文献标识码：ADOI：10.3969/j.issn.1003-6970.2013.08.029

本文著录格式：[1]陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34（8）：95-97

0相关研究

随网民人数和网站数目的急速增长,网络上的信息也以一种前所未见的速度增长,以满足人们对信息的渴求.但在网页中,除了主题信息以外,还存在大量与主题无关的导航条、广告信息、版权信息以及修饰信息等内容,这些内容相对于主题内容来说就是噪音内容.从大量复杂的网页中迅速、有效地获得所需信息,并清除无用的噪音成为近几年大家研究的重要问题及难点问题.当前,国内外关于噪音信息去除的研究中,大多数是基于网页本身的特点和主题信息的特征,如LINShan—hua[1]等；或是运用启发式规则,如张志刚[2]等；或是基于DOM树,如刑涛[3]等；或是运用模板；或是基于机器学习等诸多的去噪方法.

本文针对文本类网页,主要在于定义不同于上述方法的启发式规则,但又能更好地满足噪音去除需求.本方法后续可加入机器学习等更好地优化本方法.

1去噪思想

本文对文本类网页进行噪音去除,大体流程如下：首先获取网页,并通过BeautifulSoup解析器对获取的HTML网页进行解析,剩余承载网页内容、图片、链接以及非其他信息部分；其次根据网页标签分类表示成DOM树,并依据文本内容、图片、字符、链接及脚本等进行分类；最后依据定义的启发式规则对文本、图片、链接等阈值进行主体内容提取,将噪音信息去除,从而获得所需内容.其中,要点是DOM的形成和启发式规则的定义.下面对这两点分析：

1）分析HTML标签进行内容、图片、链接等分类.即一个块表达了什么形式的内容,有文字长度、链接数量、链接文字长度、图片数量、图片大小等等.例如,若是链接文字长度比上链接数量,如果大于5（可能有变化）,则该链接可能是内容的文字链接；如果小于5,则有可能是网站链接或是大标题链接.综合考虑空间特征和内容特征,可以判断出是否是我们要求的内容.为方便信息的处理,参考聂卉等人[4]对主题内容的分类方法,信息可以分成内容块、图片块、链接块、非内容块,具体表示如表1.

经分析,将HTML源代码解析成DOM树的形式,如图1所示,图的左边是HTML代码文档,右边是其生成的信息块树.

2）启发式规则

本文是针对文本类型网页周围的噪音信息,以及网页中除标题型链接之外的其余链接文字进行去除.因此,对DOM树中节点进行分析,判别如流程图2中描述.以下针对流程图中各个判断点进行描述：

①vv链接性文本比重,该节点链接性文本与该节点所有文本的比值.周边噪音信息以链接性文字和广告图片较多,链接性文本中文本长度较大,这些节点中链接性文本占大部分（图片按量计算成文本）,因此可设置链接性文本比重变量,与链接文本阈值进行比较,是否要删除该节点,以此删除链接性文本及图片.

②节点比,节点文本量与整个body节点文本量之比.为了迎合不同节点有不同的链接文本阈值,采用节点比重的概念.节点的文本量相对越大,节点的重要性就越大,成为主题信息可能性就越大.

③链接文本阈值,链接限制最小值+（链接限制最大值-链接限制最小值）*节点比重.不同的节点,链接性文字的比重会不相同.若使用单一的阈值来比较,会使得噪音去除过度或是基本没有效果,而节点比重,会决定一个节点的噪音性.因此,使用节点比重来决定链接文本阈值会使得对比值趋于实际化.

④节点链接平均长度,节点中所有链接文本的长度和与节点中所有链接数之比.为细化出标题型短链接和广告式长链接,需要利用节点中链接的平均长度和标题型短链接的最大值进行比较,若是节点链接的平均长度大于标题型短链接的最大值,则属于广告式的长链接；若是节点链接平均长度小于标题型短链接,则就属于标题型短链接.（图2）

2实验说明

（1）实验环境

搭建JA运行环境,安装Eclipse开发工具；安装Python语言,加载解析工具BeautifulSoup；安装FireFox火狐浏览器,设置写作技巧怎么写作器.

（2）实验步骤（如图3所示）

3实验结果

对网页去噪技术来说,必须对其结果进行验证,只有达到较高的准确率后才能推广应用.不同的算法需要采用不同的数据集进行验证,因此还没有统一的实验数据集,需要自己进行数据集的构建,并进行实验结果的验证.现在我们获取一定量的网页,通过数据流的处理后,在大量的实验结果集中选取两例,展示如图4,图5.由实验结果可以验证本文算法对文本类的网页去噪效果比较好.会考虑继续完善启发式规则库,并加入机器学习等方法,以期设计出一套可以处理多种网页风格的完整网页去噪方法.

基于网页结构的网页去噪算法设计

相关论文范文