互联网信息智能整合系统关键技术

更新时间:2024-03-15 作者:用户投稿原创标记本站原创 点赞:6218 浏览:21288

摘 要 :互联网信息智能整合系统是为提高互联网信息的及时性、准确性、利用效率,基于自然语言处理和人工智能技术,采用.Net框架和SOA架构而设计的,面向行业基于互联网的信息智能整合平台.系统把网络蜘蛛技术、人工智能、RSS内容分析与处理技术、Agent技术等基础技术应用于互联网信息整合领域,灵活应用于互联网信息采集、信息处理和分析、信息管理等各个环节.

关 键 词 :智能;信息;整合

中图分类号:TP393.02 文献标识码:A 文章编号:1007-9599 (2012) 11-0000-01

互联网信息智能整合系统是依托中间件和人工智能技术进行互联网信息收集、处理和管理,最终提供互联网动态信息整合与务的信息系统.主要功能是自动对互联网上成千上万的政府网站、相关行业网站、竞争对手网站上的目标信息进行实时监测、采集和处理,自动完成信息的筛选、去重、分类、入库并将各个网站中不同结构和表现形式的有用信息,按照统一、规范的结构进行整理、分类,形成高质量、便于利用和检索的结构化数据库,并提供一套功能完善的信息检索、数据统计和网站发布系统.下文针对软件中所应用的关键技术作以简要分析:

一、多智能Agent技术

Agent技术是当今计算机科学的一个研究热点,它的不断发展为我们提供了一个将信息发现个性化和智能化的契机.Agent是指信息世界中的软件机器人,它是代表用户或其他程序,以主动怎么写作的方式完成一组操作的机动计算机实体.Agent技术的本质就是研究如何使一个或多个实体尽可能地不打搅用户,依靠其自身的能力,采用各种可能的方法和技术,完成用户所委托的较为复杂和繁琐的任务.Agent技术区别于传统技术的主要特征是它具有自制能力、智能和目标驱动属性,能够通过各种社交、学习、推理等方法感知和适应复杂的动态环境,具有自动追求目标的能力,它们可以理解用户的信息需求和兴趣偏好,会在用户发出请求之前就定位并搜索信息,以便在用户需要时及时提供.Agent技术是传统检索技术的发展和飞跃,具有强大的开放性、灵活性和协作性.Agent技术是解决现有WWW信息查询系统收集率低,查询和处理能力差的一个很有前途的方法.

互联网信息智能整合系统采用Multi-Agent协作区的框架结构,在该框架结构下各个Agent具有自主性,能够基于独立的知识采用机器学习的方法自主地完成一定的信息的搜集和处理任务;各个Agent具有个性化的特点,不同的Agent针对不同任务可以拥有不同的知识库、不同工作策略,以求取得最佳的工作效果;各个Agent具有学习性,通过不同的机器学习机制,可以不断提高该Agent性能和效果;各个Agent也具有协作性,可以通过协作的方式完成各种复杂的竞争情报的搜索和分析任务.

二、RSS内容分析与处理技术

RSS(也叫聚合内容,Really Simple Syndication)是一种描述和同步网站内容的格式,是目前使用最广泛的资源共享应用,可以被称为资源共享模式的延伸.RSS是互联网站点用来和其它站点之间共享内容的一种方式,用户也可以通过RSS阅读器,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容,网站提供RSS输出,有利于让用户发现网站内容的更新.目前提供RSS输出的网站越来越多,尤其是新闻类网站,已成为一种有效的方式.

信息智能整合系统采用RSS订阅方式进行信息采集,所采用的RSS内容分析和处理技术是公司独立自主研发的具有独立知识产权的技术,该技术针对国内外互联网上RSS信息源的编码繁多、格式不完整、结构错位等各种情形都进行了特殊处理,具有非常好的兼容性和适应性.

三、网络蜘蛛技术

网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止.网络蜘蛛是所有搜索技术的基础.

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先.广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页.这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度.深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接.这个方法有个优点是网络蜘蛛在设计的时候比较容易.

四、网页监测技术

网页监测技术是基于网络蜘蛛技术,可帮助用户时时监测某一网站或网站群某一页面的内容变化,对这些具有相关主题内容的网页的最新发布内容进行监视,一有更新或发生变化,就实时将这些信息报告给用户,实现人机对话和按需写作.网页监测技术同传统的网络蜘蛛技术相比,其具有以下特点:配置灵活,用户可以通过简单的配置即可达到监测目标网页的目的;高效率,由于监测的网页深度有限制,所以不存在在监测网页数量的指数级增长.这样即可以节约网络怎么写作器和带宽资源,同时也可以保证系统的实时性和高效性;监测网页动态,网页监测不仅仅能够监测网络内容,还可以监测网站内容的动态变化情况,区分出哪些是新内容.这一特点可以解决互联网信息的数量庞大、更新速度快的问题.

五、非结构化信息抽取技术

互联网信息智能整合系统在HTML网页处理技术的基础上采用了基于模版的非结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据.网页库结构化信息抽取是采用页面结构分析和智能节点分析转换的方法,自动抽取结构化的数据.可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模版,对每个网页自动实时得生成抽取规则,完全不需要人工干预.