一种基于智能过滤的Web个性化推荐模型

更新时间:2024-01-29 作者:用户投稿原创标记本站原创 点赞:11711 浏览:47314

[摘 要 ]Web个性化研究的关键技术是推荐系统,其作用是根据用户模型推荐个性化内容,当前推荐技术的研究主要包括四种模式:基于规则过滤、基于内容过滤、基于协作过滤和混合过滤模式.前三种工作模式采用的是传统技术和方法,根据当前推荐系统研究的重点和热点,提出一种Web个性化应用的智能过滤推荐模式.智能过滤推荐模式组合采用以上三种工作模式的优点、避免前三种单一模式的缺点.该方法的突出特点是根据离线学习模型提取的用户偏好特征,实现在线智能推荐.

[关 键 词 ]Web个性化推荐系统 Web挖掘 基于规则过滤 基于内容过滤 协作过滤

[分类号]G350 TP311

1 引言

Web个性化的用途主要是为用户提供独立的、特定个人偏好的、方便快捷的和满足用户需求的怎么写作.对于不同的网站来说,实现个性化的目的具有其自身发展的需要.例如,商业网站的个性化是通过提供的便捷怎么写作方式提升顾客忠诚度和吸引更多的客户,从而实现其销售业绩和商业利润最大化的需要.在公共怎么写作领域,网站为了提高其怎么写作质量,提升用户满意程度,根据用户关注的重点和信息需求,为其写作特定的个性化怎么写作.专门研究Web个性化理论和方法的国际会议1TWP组委会主席BamshadMobasher教授从20世纪90年代就开始Web个性化的研究,他认为:“在Web网站中,个性化意味着动态内容的发送,例如文本元素、链接、广告和产品推荐等,这些内容专门为特定用户或者一部分用户的需要及兴趣写作”.他把Web个性化过程看作是一个包含数据挖掘循环所有阶段的一个典型应用.这些阶段包括数据收集、预处理模式发现、性能评价和在用户和Web网站之间应用实时发现的知识.

个性化的关键技术是推荐系统,其作用是根据用户模型推荐个性化内容,主要包括四种工作模式:基于规则过滤、基于内容过滤、基于协作过滤和混合过滤模式.本文重点介绍智能推荐方法和技术,并提出一种Web个性化应用智能混合过滤推荐模型.

2 Web挖掘与个性化推荐

个性化推荐是Web挖掘结果呈现给用户的应用,其依据原理是数据挖掘理论基础.许多学者认为,Etzioni是第一个提出Web挖掘(Web mining)技术的人,他认为,Web挖掘技术可分为三种类型:Web内容挖掘(Web content mining)、Web结构挖掘(Webstructure mining)和Web使用挖掘(Web usage mining).Srivasta等人对Web使用挖掘的定义是:Web使用挖掘是应用数据挖掘技术,为了更好地理解和怎么写作基于Web应用的需要,发现Web数据的使用模式.个性化推荐系统通常对日志数据采用Web使用挖掘.

Web挖掘使用的数据可能来自Web怎么写作器访问日志、写作技巧怎么写作器日志、引用页日志、浏览器日志、错误日志、用户资料、注册数据、用户会话、用户交易、cookies、用户查询或者是用户书签数据.通过分析这些文件和文档,可以获得用户感兴趣的使用模式和信息.

目前常见的Web日志格式主要有两类:①Apache的NCSA日志格式,分为四类:NCSA普通日志格式(CLF)、NCSA扩展日志格式(ECLF)、错误日志格式和写作日志格式.②IIs的W3C日志格式,共分为8类:W3C扩展日志格式、集中记录的日志格式、NCSA普通日志格式、IIS日志格式、ODBC记录的日志格式、集中记录的二进制日志格式、错误日志格式和写作日志格式.无论是Apache还是IIS的日志格式,常用于信息分析的是扩展日志格式和写作日志格式.通常情况下,系统自动记录的日志有错误日志和访问日志,记录的文件名分别为error.1og和access.1og,除了错误日志以外的日志均称为访问日志.Apache 2.2版的扩展日志文件格式定义及示例如表1所示:

3 推荐技术

通常,个性化推荐系统分为基于规则过滤、基于内容过滤、基于协作过滤的方法以及这三种方法混合的具有智能性的推荐方法.基于规则过滤方法的特点在于采用关联规则、回归算法,找到用户对相关联对象之间的兴趣度、发现用户偏好,预测用户未来行为.基于内容的过滤推荐技术特点是,根据用户过去选择对象的特点,从对象描述、终端数据库里的对象属性关联抽取其特征,系统为其推荐相似的对象.基于内容的过滤系统最大的缺点是用户模型的建立过度依赖于用户以前选择和点击的具体对象.协作过滤推荐系统寻找与目标顾客历史吻合的顾客群组(称为近邻),利用了用户的相似性进行推荐.这些方法的基本模型如图1所示:

通常情况下,系统采用单一的推荐模型,例如,基于规则过滤的推荐系统,在离线学习阶段、数据预处理阶段需要做的工作是:应用程序在系统空闲时间段完成原始日志数据从日志文件或者日志数据库抽取,并进行清洗、转换、加载转换工作,清洗后并规范化的日志加载到日志仓库以备数据挖掘算法使用.在生成模型阶段,根据基于规则过滤采用的算法,比如关联规则使用的Apriori经典算法进行频繁模式分析,生成用户模型,根据挖掘算法计算生成用户特征组成的规则模型库.在在线推荐阶段,Web个性化推荐系统提取出当前用户的特征,查找规则模型库对应的匹配规则,根据计算结果检索当前可推荐的对象,最后以可视化的方法呈现给Web个性化用户.

当前,个性化技术研究的热点是基于协作过滤推荐,该系统面临两个主要挑战:可扩展性和确保对用户推荐的质量.可扩展性是指个性化系统在用户数量增加的情况下,推荐系统能够正常工作而不影响个性化系统整体性能.保证推荐质量是赢得顾客信任的基本要素,缺乏用户信任的个性化应用注定失败.


4 智能混合过滤推荐

针对单一的基于内容过滤或者协作过滤推荐系统存在的缺点,当前研究的重点是采用混合两种或以上的推荐算法,目的是提高推荐的效率和精度;同时,已经有相关的理论研究.例如,Burke提出的方法是混合基于内容和协作过滤技术,旨在提高推荐的质量随;Ardissono等人采用多种异构推荐技术的方法,通过收集多种用户偏好的信息实现;Mobasher等人提出一种框架,把在线用户访问Web页面的会话活动过程与在线数据准备和数据挖掘任务分开处理,采用基于聚类的技术把Web站点使用和内容模型采用统一的表示方法,用于实时的个性化操作;这种方法的优点在于Web站点的使用和内容特点集成到Web挖掘框架里,为推荐引擎提供统一的访问方式,从而提高了个性化效率;Rosenthal等人提出的研究旨在提高推荐系统在线预测精度.

笔者经分析认为,基于规则过滤和基于协作过滤技术的缺点是:通常需要离线学习训练样本生成关联规则或者用户组的分类,二者具有可扩展性差和动态变化缓慢的特点,因此,不适于在线的迅速响应,尤其不适合实时查询的响应.基于内容过滤技术的优点是响应及时,但其缺点是依赖于用户的历史操作记录,如果用户的兴趣偏好变化或者历史记录缺失,推荐给用户的结果将可能会产生严重的失真.

基于以上分析,本文结合以上三种推荐方法,提出一种Web个性化应用智能混合推荐模型,其优点是通过模型适配器智能性地、自动为推荐系统选择合适的挖掘模型,具有响应速度快、推荐准确性较高等特点(见图2).该模型的数据收集、预处理过程采用的方法与传统的推荐类似,与原有系统兼容并且进行功能扩展.数据挖掘模型可以有多种,主要分为三种类型:基于关联规则的挖掘类型、基于内容的分类挖掘类型和基于协作的聚类挖掘类型.根据实际挖掘应用环境需要和企业规模的不同,该模型可以实现某一种挖掘类型的几种具体算法,也可以实现任意两种或者三种挖掘类型的任意种算法,因此,该模型能够使用于多种用途,具有较强的灵活性.此外,由于该模型可以实现某种挖掘类型的多种算法,因此,可以进行精度比较,提高推荐的精度.

这种方法与图1所示的个性化推荐系统模型相比较而言,除了具有单一的推荐功能外,具有以下几个特点:①混合采用的多种过滤推荐技术,能够根据系统应用情况和抽取到的用户特征自动识别用户需求,是一种智能型推荐系统;②这种智能型推荐系统采用多种过滤推荐技术,具体采用哪种过滤技术由模型适配器根据用户特征和推荐内容的不同而决定;③本系统能够完成多种过滤技术的推荐.例如,一个商务网站的个性化注册用户完成交易之后,Web个性化推荐系统提取该用户的访问特征,并进行分析,为用户的个性化推荐做准备.模型适配器分析该用户当期的购物内容,使用关联规则挖掘模型发现用户的购物内容并推荐与此相关的内容,推荐可能关联的商品.使用内容过滤模型发现用户当前对哪些商品感兴趣,从而推荐更多用户可能会感兴趣的商品;使用协作过滤模型找到与该用户有相似购物内容的用户还写了哪些商品,根据用户的相似性推荐当前用户还没有发现是或者还没有购写的商品.模型适配器根据挖掘结果,可以把推荐内容呈现给用户页面,或者是推送到用户使用的电子.这些复杂的工作都由适配器自动识别并操作完成.

归纳本文提出的智能混合推荐系统模型特点如下:①自动适配功能,提供一种数据挖掘算法模型的接口,这种接口能够自动适配推荐技术,实现在线推荐;②灵活性强,可以根据实际需要加载、更换数据挖掘模型;③通用性强,不但可以用于个性化推荐,还可以用于决策支持系统(Decision Supporting System,DSS)、专家系统(Expert System,Es)商业智能系统(Business In.telligence,BI)等.

5 结语

在未来几年的个性化研究中,其关键技术依然是推荐系统.个性化推荐基于Web挖掘理论和技术而不断发展,涉及到数据挖掘、人工智能、机器学习等多个领域的理论.随着Web技术和普适计算的发展,个性化推荐系统采用的挖掘技术越来越复杂,由单一技术向混合技术和智能型方向发展.

个性化推荐进行数据挖掘需要的数据源越来越多样化,综合了日志数据、历史交易记录、用户搜藏、用户注册信息、个人评价反馈信息等.当前,关于Web日志格式的设计原则,还缺乏相关的理论研究,因此,可以考虑进行Web日志格式设计的研究.一些研究者为了提高个性化推荐系统的精度,把研究重点放在提高推荐系统的算法优化方面,但是,有针对性地写作收集用户数据进行用户模型建模,对于个性化推荐系统精度的提高有着根本性的促进作用.这些写作收集到的用户数据能准确地反映出用户的偏好,并且,用户模型建模收集到的数据越准确,就越有利于推荐系统的精度提高.同时,经过写作收集到的数据还能够有助于减轻推荐系统计算冗余数据的负载,从而提高个性化系统整体性能.

mputer Science.Berlin:Springer―Verlag,2007:377―408.

[9]Ardisson0 L,Gena c,Torasso P,et a1.User modeling and re-mendation techniques for personalized eleetronic program guides//Personalized Digital Television.Targeting Programs to IndividualUsers.Amsterdam:Kluwer Academic Publishers.2004:3―26.

[10]Mobasher B,Dai Honghua,Luo Tao,et a1.Integrating Web usageand content mining for more effective personalization.[2010―12―11].http://.省略/eontent/Tlhdxjkwmpbpda/.

[11]ITWfr2009.[2010―12―16].http://.dcs.warwick.ac.uk/~ssanand/itwp09/.[12]ITWP2010.[2010―12―16].http://lsl3-.cs.uni―dort―mund.de/homepage/1TWP2010/index.shtHll.