基于关联规则的Web挖掘-turnitin查重

【摘要】数据挖掘技术能使我们从模糊的、不完全的、随机的、大量的数据中,提取潜在的有用的信息和知识.经过20几年的发展,数据挖掘已取得了巨大成就.Web挖掘是数据挖掘技术的一个重要分支,它是随着人工智能技术、数据库技术和网络技术的发展而提出来的.本文针对Web日志挖掘的特性,对关联规则的挖掘算法进行深入的研究,系统地探讨了关联规则挖掘算法在Web日志挖掘的应用.利用优化Apriori算法,使之更具有效率.

【关键词】数据挖掘；Web使用挖掘；关联规则；Apriori算法

1.引言

随着网络技术的不断发展,用户可以访问到的信息越来越多.如何快速地找到自己所需要的信息?这是随着网络技术的迅速发展所带来的一个新问题.为了找到自己所需要的信息,人们大多数通过搜索引擎进行检索,但由于许多搜索引擎主要是以关键字搜索为主,因此,往往用户有时候搜索出来的资料和自己所需要的信息之间存在着一定的差异.在用户访问网络的过程中,访问模式隐含了他们的爱好、兴趣等信息.为了分析、跟踪出这些信息,搜索出符合用户兴趣爱好的信息,Web数据挖掘应运而生.

2.Web数据挖掘

2.1 Web数据挖掘的含义

Web数据挖掘是利用数据挖掘、文本挖掘、机器学习等技术从Web页面数据、日志数据、超链接关系中发现感兴趣的、潜在的规则、模式、知识[3].Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻出有用的信息[2].

Web挖掘在很多方面发挥了重要作用,如：挖掘搜索引擎的结构、分析微博热点话题、探究访问者访问路径、个性化推荐等.但由于网络上的数据是非结构化的,因此传统的数据挖掘技术在Web数据挖掘上会显得力不从心.

2.2 Web数据挖掘的分类

根据挖掘对象的不同,Web数据挖掘通常可划分为以下三种类型：针对内容的Web挖掘（Web内容挖掘）、针对结构的Web挖掘（Web结构挖掘）、针对使用记录的Web挖掘（Web使用挖掘）.

3.Web使用挖掘

3.1 Web使用挖掘的含义

Web使用挖掘是从网站怎么写作器端的Web日志文件中找出有潜在的、有价值的信息.通过分析保存在Web日志文件中的信息,如：用户访问时间、访问路径、点击的超链接、访问方式等数据信息,最终发现该用户感兴趣的网络访问模式.

3.2 Web怎么写作器日志

学习者访问站点时每个页面的请求信息记录在Web怎么写作器日志里,这些信息在Web日志文件中以一条条记录储存,其中包含了他们访问站点的详细信息,比如：访问时间、用户ID、用户IP地址、用户请求访问的URL页面、请求方法、传输协议、传输字节数、用户写作技巧、错误代码等属性.通常Web日志的格式有：通用日志格式CLF和扩展日志格式ECLF,如表1.

ECLF格式的日志比CLF格式的日志多了“Referrer”和“Agent”两个字段.

3.3 Web使用挖掘的过程

一般来说,Web日志挖掘包括：数据采集、数据预处理、模式识别和对挖掘出来的模式进行分析这四个阶段.

3.3.1 数据采集

数据采集是Web使用挖掘的第一阶段,这一阶段的主要任务是获取数据.一般可以在客户端、怎么写作器端、写作技巧怎么写作器端采集数据.从怎么写作器端采集数据是一种比较常用的方式.

3.3.2 数据预处理

数据预处理是Web日志挖掘过程中非常关键的一步.它可以清除噪声数据、消除数据的残缺性、纠正数据的不一致性.Web日志挖掘中的数据预处理通常分为五个步骤：数据清洗、用户识别、会话识别、路径补充、事务识别.每个步骤的任务如下：

(1)数据清洗：主要工作是删除原始Web怎么写作器日志中与挖掘要求无关的数据,如：①URL扩展名：日志中文件中后缀为jpg、gif、jpeg、css、js等.这些记录对于挖掘来说是不需要的；对于用户来说,一般浏览的页面是后缀为.和.的文本页面,所以应该将后缀不需要的记录予以删除.②状态码：过滤掉以4、5开头的信息.③删除以“GET”除外的访问方式完成的怎么写作.

(2)用户识别：主要工作是从Web怎么写作器日志中区分出不同的用户.由于写作技巧怎么写作器、本地缓存和防火墙的存在,有效识别用户变得比较复杂,可以使用启发式规则来识别用户：

①若用户具有不同的IP地址,则认为是不同的用户.

②若用户具有相同的IP地址,但写作技巧怎么写作器不同,则可认为是两个不同的用户.

③结合访问日志和网站拓扑结构,构造用户的浏览路径.若请求的页面与浏览的页面没有任何链接关系,则认为存在多个用户.

(3)会话识别：主要工作是将用户的访问记录划分为单个会话.访问站点的一个会话是按被访问时间排序的网页序列组成,也可认为是从一个用户进入网站的时间起到他离开网站的时间止的这段时间内所访问的全部网页的有序集合.在这个时间段中,用户每次点击网页形成的点击流数据按照时间顺序就形成了本次访问的一个完整的会话过程.由于http是一个无状态协议,用户进入、离开网站都没有明显标记,因此从日志记录中识别出用户会话还是一个比较困难的问题,主要采用时间阈值法和参引页面法.

(4)路径补充：由于Cache等原因,用户会话中的记录会有缺失,因此路径补充的目的是为了将日志中没有记录的用户请求补充完整,最终形成完整的用户会话,这样才能更准确地发现用户的访问模式,为后续知识挖掘提供相对正确的数据集.可借助访问日志或站点拓扑结构推断当前所请求的页面的链接来源,最终将缺失的页面请求添加到用户的会话文件中去.

(5)事务识别：将页面访问序列（大粒度的会话）划分为代表Web事务的逻辑单元（较小粒度的事务）.它以事务为单位,只包含与事务相关的页面,这是与会话识别不同的地方.方法主要有：时间窗口法、最大向前引用法、引用长度法.时间窗口法是最简单的方法,即：定义一个时间长度,在该时间片内用户浏览过的所有页面都合并为一个事务.最大向前引用法是比较常用的方法.即：从访问的首页开始到第一个返回动作为止定义成一个事务,接下来第一个向前访问动作则引发下一事务,直到下个返回动作的产生,如此循环,将用户访问页面的序列划分为一个个小粒度事务.

基于关联规则的Web挖掘

相关论文范文