基于通用空间连接图的适应性多元空间连接查询

更新时间:2024-03-04 作者:用户投稿原创标记本站原创 点赞:24544 浏览:108541

摘 要:标准地理数据怎么写作拓展了传统地理信息系统的应用领域和范畴,面向地理数据怎么写作的集成查询处理技术成为空间信息领域新的研究热点.多元空间连接查询是最为基础的空间信息查询之一,论文研究了面向地理数据怎么写作的集成多元空间连接查询处理技术,提出了利用通用空间连接图模型来表达任意的多元空间连接查询,并在该模型的基础上给出了多元空间连接查询的处理框架,最后给出了不同层面上查询优化策略.

关 键 词:多元空间连接查询;地理信息怎么写作

中图分类号:TP311.13

标准地理信息怎么写作拓展了传统地理信息系统的应用领域和范畴,面向地理信息怎么写作的集成空间查询处理技术成为空间信息领域新的研究热点.在空间信息领域,用户给定的空间查询涉及多个空间数据集是很常见的,因此,多元空间连接查询是最为基础的空间信息查询之一.例如要查询某区域内所有穿过农场和开发区的道路,该查询就涉及三个空间数据集:农场、开发区以及道路.当这三个空间数据集分别以三个不同的地理数据怎么写作的形态存在时,空间信息处理系统需要合并处理这三个地理数据怎么写作才能得到一个最终满足用户需求的查询结果,我们称该过程为面向地理数据怎么写作的集成多元空间连接查询.

论文研究了面向地理数据怎么写作的集成多元空间连接查询处理技术,提出了利用通用空间连接图模型来表达任意的多元空间连接查询,并在该模型的基础上给出了多元空间连接查询的处理框架,最后给出了不同层面上查询优化策略.

1基本定义与通用空间连接图模型

在利用通用空间连接图模型表达多元空间连接查询以前,这里首先明确两个基本概念:

1.1定义1多元空间连接查询

设空间连接查询JQ定义在在线的地理数据怎么写作上上,,我们称为多元空间连接查询的一个基本地理数据怎么写作和基本空间连接操作,JQ要找出D中所有满足全部查询条件的空间对象集合.

1.2定义2通用空间连接图

任意多元空间连接查询都可以用一个完全有向图来表达,该图称为通用空间连接图(SG).SG顶点集P由空间连接查询的基本操作集合组成.由于SG为完全有向图,因此,任意两个顶点都有两条方向相反的边连接.并且连接边分为实边和虚边两种类型,在SG中分别用实线和虚线表示.当两个顶点包含相同的基本输入集时,连接边为实边,否则为续边.

SG中边的方向表示空间连接操作处理的顺序,因此,任意空间连接关系的都可以用SG来表达.根据连接图的特征将空间连接划分为4个子类:团(完全图)连接、有圈连接、环连接和无圈(树形)连接.图1(a)给出了一个包含4个关系的多元连接图.该查询可以使用多个二元连接的并来实现,如图1(b)为一个左深树的查询计划,图2(b)是一个右深树,而图1(c)则是一个紧密树计划.SG的二元生成树集合构成了多元空间连接查询的计划搜索空间.因此,寻找多元空间连接查询的最优查询计划的问题就转化为SG的二元生成树的搜索问题.

2适应性多元空间连接查询处理框架

在面向网络的地理数据怎么写作环境下,多元空间连接查询能够处理多个输入集空间连接查询.尽管如今计算机设备的内存容量在不断扩大,内存在不断下降,但是对于海量的空间信息、高复杂度空间查询处理来讲,集成空间连接查询处理依然需要考虑磁盘和内存的交互问题,特别是对于在线的地理数据怎么写作,因此,适应性多元空间连接查询处理设计的基本思路是:充分利用内存容量,依赖灵活的磁盘和内存数据的调度策略,提高集成空间连接查询处理的效率.基于这样的设计理念,本文提出了适应性的多元空间连接查询处理框架,整体上将在线的地理数据怎么写作分为内存中的数据和磁盘中的数据两部分来管理,将内存和磁盘上各空间数据集都按照相同的划分方法进行划分,每个数据集的每一个划分分别对应一个数据快,数据块是一个内存和磁盘之间能够整块调度的数据段.

(1)输入对象缓冲区(InputObjectBuffer),基于内存的线性队列,用于缓存新接受到的原始空间数据.(2)内存hash表(MemoryHashTable),基于内存的hash表,每个空间关系对应一个内存Hash表.(3)磁盘hash表(Disk-residentHashTable),基于磁盘的Hash表,内存溢出时,将部分内存中的数据替换到磁盘相对应的Hash桶中.(4)路由表(RouteTable),基于内存的序列表结构,用以存放需要没有处理完的元组,包括从输入缓冲区获得的经过促使处理后得到的空间对象和探测返回的中间结果元组.其记录形式为五元组,其中RouteTag表示路由标识号,Insert表示需要插入的哈希表.(5)查询结果表(QueryResults),基于磁盘的顺序表结构,存放查询结果.

可以将多元空间连接查询的整个处理过程可分为两阶段进行:(1)仅内存连接处理阶段;(2)磁盘和内存调度连接处理阶段.

仅内存连接处理阶段,系统收集到的空间信息还有限,在内存中完全能够处理,集成查询处理软件将空间对象从新接收到的GML表达的地理信息数据包解析出来;并将该对象置入相对应的空间对象数据快中.然后使用该空间对象的空间特性按照一定的顺序去检测其它空间数据集相应的数据快,检测顺序由软件调度器来确定,仅内存连接处理阶段,软件应及时将满足查询条件的空间对象组按照用户需求累进式输出,这样,查询用户就能够在很短的时间里得到部分查询结果,辅助用户根据部分查询结果快速决定查询是否值得继续进行.如果当前正在处理的空间对象与某个给定的输入集的连接结果集为空,即可提前中止该检测进程,继而处理下一个新解析得到的空间对象.

随着软件解析的空间数据对象数目增多,系统会出现内存溢出,这时就需要将部分内存中的数据移动到磁盘上,不同的数据移动策略将导致不同的查询执行效率.通过磁盘和内存之间的调度配合,完成仅内存连接阶段未完成的空间连接查询处理.

基于该查询处理框架,软件可以在以下三个方面进行优化,使用不同的适应性处理策略来适应在线复杂的集成查询的动态变化,确保查询处理的性能:

(1)查询计划选择方面:在空间信息领域,由于空间数据较为复杂,为了提高查询的处理效率,往往会利用空间信息的几何特性,例如:MBR(最小矩形框)来提高查询的效率,但是在线的地理数据怎么写作的统计信息有可能缺失或者存在较大的误差,从而导致选定的查询计划失效.集成查询处理系统可以实时跟踪和维护系统的各种重要参数,并综合运用这些统计信息及时调整和重优化查询计划;(2)在查询的执行层面:尽管网速越来越快,但是网络上任何地理数据怎么写作都可能在传输过程中出现不可预测的网络延迟,此时,单一的查询执行计划会导致多元空间连接查询性能迅速下滑.软件为每个地理数据怎么写作维护一个查询执行计划,这样便于高效处理来自任意地理数据怎么写作的空间对象;(3)在物理操作层面:海量的空间信息,时常导致查询处理的过程中系统内存溢出,在此情况下,仅依赖操作系统自身的磁盘调度工具很难保障查询处理效率的.软件可以采用主动的替换策略来保证内存和磁盘交互进行连接处理阶段的查询效率.另外,软件还采用非阻塞的模式执行连接查询,以保证已有的查询结果快速输出.