据了解,目前已经制订了详细的数据规范说明(包括编码标准)和采集模板(EXCEL文件)。采集的数据最终会通过各级渠道汇集到省,最后再到部里。这种通过EXCEL文件收集数据的方式是一种广泛采用的模式。但根据我们项目中的大规模数据收集工作的经验,这种方式往往很难控制数据的质量,大大增加后期的数据校对和导入工作量。为此我们建议采用EXCEL模板和网上填报相结合的方式进行。
EXCEL模板用于省下属机构在没有相应的网络条件或技术条件的情况下使用。各省的最终数据则统一通过网络填报的方式报送。为此,需要在最终数据报送前先建立WEB形式的数据收集平台。建立WEB形式的数据收集平台的意义深远:
1. 在WEB报送系统中可以增加各种的非法格式、异常数据的检测功能,使得在一开始不合格的数据就无法进入系统。
2. 将已经编制的标准编码和名称固化在平台上,在报送时就可以对异常做出提示,从而保证编码和名称的统一化和标准化。
3. 已经编制好的内容(字典)可以用作网上填报时的快速引用,提高报送的效率。
4. 初期上报的数据难免会有错误,在数据核查工作中发现错误可以直接在网上标注,极大方便与各省人员的沟通,可以尽快更正数据。
5. 网上填报系统可以作为以后系统数据的更新和变更时的主要手段,并不是个一次性的工程。
6. 处理不规范的EXCEL数据的开销往往比开发一个网上填报系统的代价还要高。
7. 建议:对不得不使用EXCEL的情况,最好在EXCEL文件中加入必要的数据保持和简单的检验机制(EXCEL本身的功能)。
由于数据量的巨大。只采用人工检查数据的方法是不够的,应该采用数据库编程核查和人工核查相结合的方式进行。为此,在数据库的设计中增加导入数据的暂存区(参见数据库设说明)。
各省上报的数据首先导入到这个暂存区,而不是直接入库(正式数据库中)。数据导入数据库后就可以利用数据库的优势,通过程序对数据进行各种排序、比对、分类、过滤、汇总等操作,甚至可以借助商务智能系统中的工具进行进一步的排查,对可疑数据通过不同的颜色加以区分。处理后的数据再通过人工最后确认。只有这样反复才能最大程度地保证数据的准确性。
只有通过核查的数据才允许导入到正式的数据库中。正式数据库支持增量导入和差异导入;暂存区的数据可以随时更新、替换和删除。这样的操作在系统建设期间是非常实用的方法。
数据收集中的组织工作:
数据收和校对是个长期和繁重的工作。除了大量的导入/校对工作外,还包括大量的协调工作。而且在系统开发和调试过程中的很长时间内数据质量一般都不可能很快达标。所以必须建立固定的数据处理小组,专门负责数据的收集、整理及校对工作。
|