基于联邦数据库的数据集成平台与改进

更新时间:2024-02-12 作者:用户投稿原创标记本站原创 点赞:34155 浏览:157890

摘 要:本文提出了在联邦数据库模式下增加全局映射模式来集成异构数据的方案,即通过映射规则建立自定义的全局逻辑数据库,实现逻辑数据库与关系数据库数据之间的数据映射,解决异构数据库连接平台与子数据库的数据映射抽取问题.能够根据全局映射的逻辑数据库集成操作每一个子数据库.本文所提出的方案为联邦数据库增加了全局映射模式,是联邦系统的一种改进.

关 键 词:异构数据库;联邦数据库系统;数据映射;数据集成

中图分类号:TP311.52文献标识码:A文章编号:1007-9599(2012)02-0000-02

ResearchandImprovementofDataIntegrationPlatformBasedontheFederalDatabase

LiugaoJun,BaoXiaoqi

(Xi'anTechnologicalUniversity,NorthInstituteofInformationEngineering,Beijing100041,China)

Abstract:Thispaperpresentsaglobalmappingmodetoincreaseinthefederaldatabaseschemaintegrationofheterogeneousdataprogrambymappingrulestocreatecustomgloballogicaldatabase,datamappingbetweenthelogicaldatabaseandrelationaldatabasedata,theheterogeneousthemapdatabaseconnectionplatformandsub-databasedataextractionproblem.Accordingtotheintegratedoperationoftheglobalmappingofthelogicaldatabaseforeachsub-database.Theproposalputforwardbythefederateddatabaseglobalmappingmodeisanimprovementofthefederalsystem.

Keywords:Heterogeneousdatabases,Federaldatabasesystem,Datamapping,Dataintegration

一、引言

随着计算机技术的飞速发展,数据库的得到了绝大多数国企和公司的使用,数据量越来越大.由于不同企业实体使用的数据库管理系统不同,数据库种类和数据存储的逻辑上都存在差异,这是异构数据库的由来.每个数据库系统都有独特的安全性控制、应用和完整性控制,所以无法互相访问以做到信息共享.

为了充分利用互联网共享信息,需要联通各种异构数据库,形成集成的系统来实现异构数据库之间的数据信息通信共享.每个数据库系统都拥有不同的DMBS.当前的数据集成技术的一大探索方向就是在异构系统之间进行数据交换和数据共享又不会造成数据格式冲突和冗余,并且能够实时的更新信息.

二、数据集成

(一)异构数据库特点

异构数据库主要表现为:物理系统异构、数据结构模型异构和存储逻辑异构.

物理系统异构是指怎么写作器、操作系统、网络通信机制的不同;数据结构模型异构则是指各种DMBS之间的异构;存储逻辑异构则包括命名方式不同、值异构、语义异构和数理逻辑异构等.

(二)异构数据集成的意义

数据集成的目标是实现异构数据的透明访问.

转换和标准化是异构数据库的集成的主要思想方法,包括整合网络连接、数据结构模型的转换、逻辑模式转换和集成、分布式事务同步管理等问题.数据的共享的同时也要保证不同数据库管理系统可以自治.

(三)异构数据集成的主要方法

1.数据仓库法.数据仓库从各种数据源收集信息入仓库,它将不同平台、不同操作系统的数据集成转换而成为一个统一的分析型数据集合,一般用于历史数据汇总和决策支持,一经建立一定时期内通常不允许用户更改.

2.中间件系统.中间件系统定义所有异构数据源的虚拟视图.这里的数据源可以是文本文件、网络数据源、数据库等等.系统允许用户使用虚拟视图来提交的查询,来做到透明访问.

3.联邦数据库系统.实现不同数据访问是将每种数据库的模式分别和其余所有的数据库模式添加访问接口.参与联邦集成的子数据库达到一定规模时,需要建立映射的接口数将达到非常大的数字.

本文针对传统联邦数据库的数据集成解决方案有技术上的固有缺陷,提出了改进.定义全局集成映射模式,定义局部数据结构定义到全局模式的映射,再通过全局模式映射对各个异构数据库之间数据透明访问.

三、改进的联邦数据库系统模型

系统的框架

系统三部分分为应用层,数据集成层和数据源层.

系统的工作流程

1.系统接收到来自用户的请求信息;

2.根据映射表,确定全局模式到各个数据库的映射模式;


3.根据公共模型,根据集成模块中的任务管理中制定的查询计划,将基于全局模式的查询转化为基于各个数据库的子查询;

4.数据库连接池在收到子查询后,调动内部各异构数据库的转换器开始解析子查询文档,提取出其中的查询参数,并组织成各数据库自己能识别的查询语句,由连接器执行查询;

5.由连接器连接各个异构数据库执行查询语句,并返回结果给虚拟数据库;

6.虚拟数据库参照公共模型中的映射关系,再次进行对象/关系之间的转化为可以显示查看的表,然后把转化结果传递给用户层;

7.应用系统也可以根据需要,选择不同的方式对提交的结果的显示内容进行调整和显示.

系统的实现

系统是一个可随意扩充任何类型的异构数据库的系统,对用户呈现出逻辑的虚拟数据库,而系统内部保持着各异构数据库的“自治性”,每个源数据库有自己的局部概念模式,用户可以通过建立在局部概念模式上的局部外模式访问本地库.

1.数据源.数据源主要包括同为关系型数据库系统.这些数据库构成了数据集成平台的数据源.各数据源之间存在模式异构的问题,主要是语法异构和语义异构,系统主要消除这些异构问题.系统建立全局模式,提供操作数据源数据时所必需的信息,由此确定异构数据集成系统所集成的数据源的信息及访问权限及连接模式,转换模式等.注册异构数据库时,需要各数据库管理员提供相关信息,集成管理员读取所有异构数据库己经共享的内容、权限、各表结构描述信息,并检查是否有新的异构数据库注册.

2.集成处理.(1)数据库连接池.连机池主要由转换器、连接器和DB通信接口组成.转换器用于数据库连接子查询数据进行提取和转换,解析子查询,提取其中的查询参数,并组织成数据库可识别的查询语句,连接并查询相应的子数据库.数据库连接池通过部署在信息集成平台的该数据库的相应客户端进行交互,从集成平台获取数据访问指令,解析为数据源所支持的数据访问命令,提交给数据源的怎么写作器执行,将结果返回给用户或者连接上层应用.DB通信接口使用ADO技术操作数据库,完成各数据库子成员的增删改查.(2)数据库视图:将从数据源中提取出的数据在数据库视图部分以中文形式显示,这样便于用户对数据库具体信息的了解及信息的提取与利用.(3)数据集成模块.这个部分包括集成任务调度和数据自动映射转换模块,是系统的核心部分.

任务调度包括平台宏观定义的任务调度和用户自定义的任务调度.宏观定义的任务包括对全局模式的集成,存储逻辑数据库,数据库的定时更新及同步调度等.用户自定义任务调度是根据用户需求,从数据库视图里选取的数据库信息或者表的信息,对于选中的信息,集中显示,并且支持实时调度数据库信息,如增删改查等.

交互式数据提取合并解决实时任务调度需求问题:根据用户界面交互式操作选择的表的字段,从数据库连接池读取相应的数据库的表信息,实行多表联查并合并表.并且把源表源库源字段等信息,保存到数据总控库的数据调用表中,记录数据库连接的信息,表信息,字段信息等.

数据自动转换映射模块包括异构数据表到逻辑数据库(全局数据库)的映射和异构数据源元数据到逻辑数据库元数据的映射

表的自动转换模块解决数据表不一致问题:对异构数据的分析,系统指定了若干个表作为全局映射数据字典,利用这些表实现逻辑表与局部表之间,全局属性与局部属性之间的对应关系,以提供对表集成的支持.集成平台平台的自动转换模块对注册的数据源的各个异构数据库的表依次读取,并根据系统定义的异构映射转换表对异构数据源表进行到全局模式的映射.

数据自动映射模块对通过正确性与有效性检验的SQL语法进行分析,参照数据模式映射规则,解析为各成员数据库可以识别的标准数据库操作命令,将用户的数据请求分发到相关数据源.

四、总结

本文针对联邦数据库系统在集成n个异构数据库时需要添加2*n个彼此访问的接口,提出了建立全局映射自动转换的集成模式.使得原本由2*n个映射接口,减少到了现在的一个全局映射模式自动转换,同时解决了联邦数据库系统的难扩充问题.

相关论文范文