统计部门在数据处理平台设计中应考虑的问题

更新时间:2024-01-29 作者:用户投稿原创标记本站原创 点赞:4496 浏览:10101

摘 要 :回顾历来统计部门使用过的数据采集、处理软件系统,真是种类繁多,重复开发的也不在少数.这是有其客观历史原因的:统计报表制度还没有理顺;缺乏自顶向下设计的勇气和决心;统计各专业的业务差异很大;缺乏经费.经过这么多年的发展,而今终于时机成熟,国家局决定在全国推广一套表.本文根据我市统计人员近年来使用数据处理软件的感受,结合一套表的特点对数据处理平台提出了几点建议,希望起到抛砖引玉的作用.


关 键 词 :数据处理平台;一套表

中图分类号:TP31 文献标识码:A 文章编号:1001-828X(2012)07-0-01

数据处理平台在本文中含义较为宽泛,不仅包含数据处理系统,也包含数据采集系统.在国家统计局推广全国一套表之前,统计系统应该说还没有真正意义上的数据处理平台,各专业开发自己领域的数据采集处理系统,良莠不齐,更换频繁,基层除了要处理繁忙的统计任务,还要花精力学习不同的软件操作,叫苦不迭.部分发达省份因此推出具有地方特色的平台化产品,它只涵盖少数重要的专业,虽然减轻了基层的一部分负担,但省级还需导出数据上报给国家局的各专业数据处理系统.

一、由统计部门制定数据处理平台的标准化业务规范

对统计部门来说,这听起来好像是件非常困难的事情,但必须这么做!看看以前为各专业开发的数据处理软件就知道是多么的“琳琅满目”,软件开发公司根据他们自身的特点设计出各式各样的软件,审核公式语法迥异,数据录入界面变化很大,汇总表设计方式完全不同等等.

数据处理平台,就是抛弃大部分的各种专业数据处理软件,把它们整合为统一的软件系统.对于基层用户来说,只要掌握一种软件的操作方式,就能应用到大部分的专业数据处理上.放手让公司开发,只要满足需求,好像也没什么问题.实际上不然,原因有二:第一、统一平台是全国范围内推广,涉及几乎所有的专业,换个新平台的成本非常高,不像以前可以轻松换个专业处理软件.第二、数据处理平台不是一个紧密不可分割的整体,它分为数据采集和数据处理两大子系统,由于平台规模庞大,在全国范围运行,不仅包含统计机构,还包含数量巨大的上报单位,因此数据采集和数据处理两系统不可能由同一个公司开发.为了打破垄断,光数据采集系统可能也要由不同公司竞争开发,各省统计机构自行选择哪个公司的产品.另外,在数据开发环节,地方统计机构都有自己非常个性的数据处理需求,对于统一的数据处理系统是不可能满足所有需求的.由于存在多个系统的情况,必然存在数据交换.

经过这么多年的实践,各级统计部门对数据处理软件都能提出一定的要求,无非是需要专门的机构对这些要求进行收集、整理,形成可以指导软件公司进行开发的规范.国家统计局的计算中心可以成立专门的小组负责此事,他们也可以聘请专业的咨询公司来协助.

(一)统一的指标描述方法

指标是统计数据处理软件中最小的单位.指标的信息有:指标代码、指标名称、指标数据类型、使用场合等.指标代码可以没有,表示此指标还没有标准化,只根据其名称描述.举个例子,比如对于“资产总计”这样常用的指标,如果它的内涵和外延是明确的,就可以用一个永久的代码(如G001)赋予它,这样,在任何地方看到这个G001指标,我们就知道它表示“资产总计”.它的好处是,从不同软件中导出的标准格式数据可以自动地导入到其他软件中,如果里面的指标都是标准化的.

我们还可以规定,所有的财务表、基本单位表内的有效数据都必须是预先定义的指标.即先定义指标,再定义表格.指标可以是全局通用的,也可以是只局限于某些专业使用.

(二)标准的数据交换格式

规范数据交换的格式非常重要,通过数据采集系统获得原始数据后,需要把这些数据转给数据处理系统,也可能某地方机构把这些数据导入到第三方开发的数据处理系统中,或者专业同志希望把本专业的数据转换成FoxPro或者Excel进行简单的分析.上面所有这些活动都涉及数据交换,如果双方没有约定格式,接收方就无法识别发送方的数据.

分析现有的数据交换格式,概括为两类.一类是常用格式,即这类格式是某第三方软件产品的格式,往往是大众普遍熟悉的.如FoxPro、Excel或者文本格式的CSV文件.另一类是私有格式,即每个产品都有其用于数据导入、导出的私有格式,如A公司的数据采集系统使用格式A,B公司使用格式B,他们不能识别对方.常用格式仅满足简单的数据交换,因为他们不包含也不理解指标的相关信息;私有格式通常是一种高效的格式,但无法同其他系统共享,只能用于系统内的备份还原或数据上报.

作为统计大系统,有贯彻全国的统一平台,还有未纳入平台的部分数据处理系统,围绕统一平台的各种二次开发的数据处理系统,他们之间都需要一种称为“行业标准”的数据交换格式,简称行业标准格式,这正是我们所缺的.行业标准格式本身并不复杂,里面主要包含3块信息:报表信息、指标信息,报表数据,重点是要求各软件系统都支持此格式即可.当然如果考虑数据传输的效率和安全,可以在格式规范里加入压缩和加密的概念.

(三)使用统一的公式语法

这里的公式主要指审核公式和计算公式,因为它们本质上是相同的.回顾统计各专业的数据处理软件,会发现公式的语法五花八门,有的非常抽象,晦涩难懂.如果所有的统计软件都使用相同的公式语法,统计人员只要一次学会公式语法,就可以在所有场合熟练使用,终身受益.那时几乎所有的统计人员都能独立的修改和添加审核公式和计算公式,这将大大提高统计机构的办事效率.

使用统一的公式语法的另一个好处是,公式几乎可以原封不动地导入到其他软件中使用,只需要在应用层面注意公式中的指标是否在当前系统中存在.这样,就可以把一些常用的审核公式作为知识一样存储起来,留待以后使用,如第二次经济普查中使用的审核公式,还可以留到第三次经济普查中使用,进一步完善后,下次再继续使用.具体举例来说,语法应能区别指标为空还是为0,语法要支持跨表的指标访问,以及跨调查期别和跨月份的指标访问.

二、系统规划数据处理平台要公开的接口

数据处理平台作为全国使用的平台化产品,必然会涉及到与其他系统的对接,如与名录库系统连接,与第三方开发的数据处理系统连接.如果没有这样的公开的接口,以后每增加一个系统的连接,平台开发公司就会坐地起价.全国有这么多的地方统计部门,加起来的费用可想而知.

如果说标准的数据交换格式是系统对接的静态接口,那我们所要公开的接口则是动态接口,是系统之间实时交换信息的通道,没有这样的通道,系统就不具开放性、可扩性.