基于XML的Web数据挖掘模型的设计

更新时间:2024-02-15 作者:用户投稿原创标记本站原创 点赞:3971 浏览:10809

摘 要 现在多数网站是用HTML建立的,要准确高效的挖掘数据非常困难,XML的产生为基于Web的数据挖掘带来了方便.本文通过对 Web 数据挖掘技术的研究,利用XML在数据抽取技术上的优势,能够将半结构化数据映射为结构化数据,从而建立了一个面向多种Web数据源的XML挖掘系统模型.

【关 键 词 】数据挖掘 Web 数据挖掘 关联规则 模式

万维网是一个分布广泛、全球信息怎么写作中心, 涉及多方的信息.这里的信息都是异构的,其中含有潜在的有价值的信息,如何从这些大量Web 信息中得到有用的知识成为人们所研究的课题.为此,科学家提出数据挖掘的概念.所谓数据挖掘就是从大量数据中提取或挖掘隐含的有价值知识.用于Web网中就成为Web数据挖掘,是从Web文档和活动里筛选用户所真正感兴趣、潜在的模式和隐藏的知识信息.Web数据挖掘广义地定义为从Web中发现和分析有价值的信息,通常也把Web数据挖掘表述为从大量Web文档结构和使用的集合C中发现隐含的模式P.

1.Web 数据挖掘面临的问题

目前面向 Web 的数据挖掘面临的问题,主要有两个方面:

1.1 数据库环境的异构型

Web上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web网站就构成了一个巨大的异构数据库环境.要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识.其次,有关Web上的数据查询.

1.2 数据结构的半结构化

Web 上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性.虽然Web 上的数据形成半结构化数据.这些问题是进行Web数据挖掘所面临的最大困难.

2.XML技术在Web数据挖掘中的优势

Web 数据的异构使 Web 数据挖掘变得十分困难,通过 XML可以解决这个问题.因为XML文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面.开发人员能够用 XML 的格式标记和交换数据.XML 在三层架构上为数据的处理提供了有用的途径.利用 XML,Web设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构.基于XML的Web数据挖掘技术,能够使不同来源的结构化的数据很容易地结合在一起,解决 Web 数据挖掘的难题.

2.1 XML技术在Web数据挖掘中具体作用

利用XML技术我们在Web数据挖掘中可以完成以下几点:

2.1.1 集成异构数据源

XML是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取.XML可以搜索多个不同数据库的问题,以实现集成.

2.1.2 和异构数据进行交换


在Web数据挖掘程中,用户需要和异构数据源进行数据交换, XML通过自定义性及可扩展性来标识各种数据,从而描述从各站点搜集到的Web页中的数据.XML的出现解决了数据查询的统一接口.

2.1.3 过滤信息并显示

XML描述数据本身,可以使得定义的数据以不同的方式显示,对获取的信息进行裁减和编辑以适应不同用户的需求.以不同的浏览形式提供给不同的用户.

3.基于XML的Web数据挖掘模型

我们通过对XML及Web数据挖掘的分析,设计了一个基于XML的Web 数据挖掘模型通过提供一个 Web 数据挖掘的集成环境,提高数据挖掘系统的整体性能.其原型系统如图1所示.

工作流程如下:系统根据用户要求搜集 Web 资源,经数据转换器处理成相应的XML数据存储,提供给挖掘器使用;挖掘器则根据要求从选取相应的算法挖掘,输出挖掘结果;用户根据自己的满意度,获得需要的挖掘结果,调整挖掘要求进入新一轮数据挖掘.通过系统的维护我们可以加入新的挖掘算法,实现升级.

3.1 各模块具体功能

3.1.1 数据收集

从 Web 站点上采集数据并存储,获得挖掘内容.针对异构数据源,可以多种方式提出相关需求,挖掘的重点是Web内容和Web使用的数据.把用户访问网站留下原始日志数据进行清洗、过滤和转换处理,转变成统一处理的数据结构,构建日志数据库.

3.1.2 转换器

对检索得到的数据用XML技术进行预处理,建立半结构化数据模型,抽取其特征的元数据,用结构化的形式保存,为挖掘模块提供所需的数据.

3.1.3 挖掘器

不同的挖掘算法有不同适用情况,挖掘综合器根据具体的需求和挖掘方法的不同选择策略到挖掘算法库中去选择挖掘算法或种组合算法执行挖掘任务.随着应用的深入,知识库中的算法和规则不断的丰富.挖掘算法库是挖掘分析方法的综合库,以插拔的形式组织存放各种挖掘算法.

3.1.4 结果生成与评估

以直观的方式提交挖掘结果,便于用户的评估.通过模式分析和兴趣度度量,若结果使得用户满意,数据挖掘结束,输出用户感兴趣的内容;否则可以在此重新提出挖掘要求,重新挖掘.

3.2 系统各模块实现方法

3.2.1 数据收集

数据的收集也涉及数据挖掘的技术,其过程是:通过人工输入办法,给出查询主题,找到相关的Web页,然后,通过相应的数据挖掘的算法对训练数据集提炼,利用提炼出的数据模式,进行更大范围的搜索,以获取更多的数据源.最终形成较新和有效XML文档.

3.2.2 数据的转换处理

数据抽取转换是模型实现一个重要环节,其主要方法是把现有的Web页面转换成XML格式,并使用相关工具处理XML结构数据检索出需要的数据.在网页挖掘的过程中,首先要把HTML中含有的与主题无关的标记过滤掉,然后转化到XML的格式存储.目前Web页面到XML文档的转换,有两部分数据构成:一是XML数据,二是非XML数据.XML数据,可以直接将它们提交给下一个模块.对于非XML数据,本文的实现方法是用到Tidy以改正 HTML 文档中的常见错误并生成格式编排良好的等价文档,还可以使用 Tidy 生成XHTML (XML 的子集) 格式的文档[4].通过构造相应的 Ja 类完成将数据从 HTML 到 XML 的转换. 3.2.3 挖掘方法

(1)文本分类:文本分类是指按预先定义的主题类别,把集合中的每个文档确定一个所属类别.这样,用户能够方便地浏览文档,并限制搜索范围来使查找更为容易.利用文本分类技术对大量文档进行快速、有效地自动分类.有关的算法通常采用TFIDF和NaiveBayes等方法.

(2)文本聚类:文本聚类与分类的不同之处在于,聚类不需要预先定义好的主题类别,它是将把文档集合分成若干个簇,要求同簇内文档内容相似度最大,而不同簇间的相似度最小.Hearst等人研究表明聚类检测设,即与用户查询相关的文档通常会聚类比较靠近,而远离与用户查询不相关文档.可以利用文本聚类技术把搜索引擎检索结果分成若干个簇,用户只要考虑那些相关的簇,就能够缩小所需要浏览的结果数量.目前,常用的文本聚类算法,分为两种:以G-HAC等算法为代表的层次凝聚法,以k-means等算法为代表的平面划分法.

(3)关联分析:关联分析是指从文档集合中发现不同词语之间关系.Brin提出一种从大量文档中查找一对词语出现模式算法,在Web上寻找作者和书名的模式,从而发现数千本在Amazon网站上查找不到的新书.

(4)模式评价:Web数据挖掘中十分重要的过程就是模式评价.常用的方法有预留法和交叉实验法,将数据分成训练集和测试集两部分,学习和测试反复进行,最后用一个平均质量模型来确定模型质量的好坏.

(5)预留法:从数据集合随机抽取预定大小一个子集作为测试集,其他数据则作为训练集.

(6)交叉验证法:把整个数据集合按照所要进行的学习测试循环次数分成一定数目的子集,在每次循环中,选取其一个子集作为测试集,其它子集并集则作为训练集.

4.结束语

XML技术不仅为Web上的数据交换提供了一个标准,而且能够更好的表示数据内容,以及数据的含义.随着XML的兴起和完善,Web 页面会蕴涵更多的结构化和语义的信息,因此,基于XML技术的数据挖掘已成为目前Web挖掘的研究热点.当然Web 数据挖掘这一研究领域还有待于进一步研究.