行业主题数据库设计实践

(整期优先)网络出版时间:2021-07-20
/ 2

行业主题数据库设计实践

张冬 升

上海云海万邦数据科技有限公司 上海 201112

充分管理好已有各行业数据资源,把各种行业历史数据转换成统一的、利于分析的格式,并从中采集出一个面向业务的数据集。通过建设主题库,为其他在建系统或拟建系统提供了系统建设的实践必备参考,可以有效地提高信息资源的利用率。便于行业数据集中沉淀与优化应用。同时基于数据标准的建设将各行业应用系统中的数据在统一的平台上、统一的技术架构上、统一的标准规范上进行利用,充分发挥应用系统沉淀下来的数据的价值,增强政府应对市场发展的快速反应能力,为领导进行综合决策提供数据支撑,为业务发展和创新提供强有力的支持。

  1. 行业主题库 一网通办 政务服务


    1. 建设背景

充分管理好已有的行业数据资源,把各种行业历史数据转换成统一的、利于分析的格式,并从中采集一个面向业务的数据集。面对行业数据采集和管理与实际需求相比,主要存在问题如下:

  1. 数据标准不统一。在信息化建设过程,行业在建设初期缺乏统一规划,应用系统多是从行业部门角度开发实施,缺乏全局的考虑等因素,使系统之间没有统一的数据标准,数据格式各不相同;

  2. 信息孤岛,数据无法互通共享。因标准不统一,数据存在于多个系统中,系统之间无法实现数据同步共享;

  3. 不能有效地提高行业内部的工作效率。各个应用系统只能被动等待数据,而不能主动要求数据和主动使用数据;

  4. 无法统一集中共享管理和跟踪数据。无法进行统一的存储、容灾备份,实现数据的集中管理;

  5. 无法为运营提供实时的数据;

  6. 对现有数据清洗、关联、整合等方面的治理能力不够,从数据中提取有效信息的能力较弱。

    1. 建设目标

通过建设主题库,为在建系统或拟建系统提供了系统建设的实践必备参考,可有效地提高信息资源的利用率。便于行业数据集中沉淀与优化应用。基于数据标准的建设将行业应用系统中的数据在统一的平台、统一的技术架构、统一的标准规范进行利用,充分发挥应用系统沉淀数据的价值,增强行业应对市场发展快速反应能力,为运营决策提供和行业发展和创新提供强力支持。

信息采集的功能是提供不同手段和方法把分散数据处理收集,为后期数据资源管理提供可能,通过将不同行业的数据整合到统一的数据库,可以更容易地获得分析信息,增强数据集中查询时的聚合效应,提升决策准确性和时效性。

    1. 需求分析

随着行业系统建立和使用,如政府、企业和社会公众不但对基础信息和宏观经济信息等公共信息愈发迫切,且各个行业部门对其他行业数据需求愈发强烈。目前没有统一的标准,一致性和鲜活性无法保证。要满足行业对于业务流程和信息共享的需要,不仅需统一数据标准下建立起信息资源基础库,而且需建立对基础库的管理、维护、更新使用长效机制,为整个信息资源规划和建设奠定良好基础。

    1. 数据分析

数据来源应包括主题涉及平台本身归集及跨区域、跨行业共享数据的归集,同时还需兼顾相关企业数据、互联网数据、不明确数据等,用以丰富主题库来源[1][2]

业务数据量,按照涉及系统的数量评定已归集数据,此外预计需跨行业采集数量,其他归集数据。根据数据量存储预计,现阶段判断所需使用的编目数据项数量,考虑平均需要大约 2-3 年的历史数据情况下需要的存储空间,在按照应用场景生成数据量计算并以每年增量 30%估算。

    1. 总体设计

根据主题数据库架构,设计包含专题库、应用场景的主题数据库,具体方案如下:

  1. 详细研究对比行业数据以及后续各专题库的数据安全、存储,场景模型输出数据的存储、传输的具体要求的分析。

  2. 梳理相关行业数据所涉及的专题库、应用场景的实际需求,提出所需的涉及其他行业或相关企业的数据需求清单,同时对数据需求进行总体评估,并以此为基础向相关行业进行数据采集,并将采集到的数据归集入数据湖,为相关专题库提供数据基础。

  3. 以各分类专题库为数据来源,采用据整理转换工具建立数据模型。对数据进行整理、转换、多维度交叉分类操作。对数据模型输出结果进行校验、输出的数据质量进行监测。

  4. 对于数据模型输出的结果进行归集,使模型输出结果作为主题数据库的一部分进入数据湖。同时将主题库数据按照应用场景输出。

    1. 数据架构设计

1、数据分层

主题库的数据主要分为两层:数据湖采集数据层和数据融合主题库归集数据层。采集来自行业归集数据,以及跨区域、领域及相关企业数据。专题库数据归集、通过数据结构转换规则和应用场景数据模型计算后输出的各类数据,这些数据将重新以新的数据标准和数据标签归集入数据湖。

2、数据模型

整合现有行业系统已归集的数据以及政府、社会组织、第三方机构、企业等相关数据,有效形成统一的专题库。

3、数据处理

涉及的各个主题库数据治理相关工作需要根据场景需求进行处理。

  • 数据抽取

将数据湖各数据提供方共享的指标数据,定期抽取到主题库下。抽取频率应为实时。

  • 数据清洗

根据业务需求将不符合要求的数据进行自动化修正。数据清洗主要分类为:不完整数据、错误数据、重复数据。不完整数据:主要为信息缺失和数据无法与业务对应。数据清洗阶段需根据业务要求补全不完整数据或者过滤掉不完整数据。错误数据:原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成。重复数据:即为重复的数据记录。数据清洗阶段应将重复数据记录的字段全部导出,然后以业务的角度进行逐个确认。

  • 数据转换

数据转换操作的任务主要进行:不一致数据转换的目的是将不同业务系统中相同类型的数据以统一的格式、统一的规范进行转换。不一致的数据转换可通过程序脚本进行自动化的转换。数据粒度的转换:主题数据库中存储明细的数据,数据仓库中数据作用是进一步分析和对接。数据粒度转换会将主题数据库中的数据按照数据仓库粒度、业务对接需求的粒度进行聚合。数据的映射:数据的映射主要为字段的映射,在映射的过程中需严格保证映射的含义正确且不重复。

  • 逻辑计算

数据的逻辑加工计算方面分为简单计算和复杂计算,简单计算主要为字段间的加减合并或者以公式的形式对单一字段进行计算;复杂计算则为数据聚合后的计算或者多步骤计算。

  • 数据标注

数据加载的模式应以异步加载为主,更具不同的存储介质和主题数据类型进行相应的模式调整。

数据标注是鉴于主题数据主要为文本型数据,标注则是在于主题数据的语义分析和实体标注。实体标注的普遍分类为三大类(实体类、时间类、数字类),七小类(人名、机构名、地名、时间、日期、货币和百分比),但是实际的标注以主题信息业务为基准。在数据标注的过程中需确定数据的边界和类别,并基于不同的关键词、选用特征、指向词、位置词进行规则判断。

  • 数据质量检测

主题数据库数据的整体质量要求以行业的质量要求为基准。

数据完整性检测,描述数据信息缺失的程度,是数据质量中最基础的一项评估标准。数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。

数据准确性检测,用于描述一个值与它所描述的客观事物的真实值之间的接近程度,数据准确性的检测较为困难,一般情况下很难解决,需要人工进行部分干预或者业务间进行准确性校对。

数据有效性检测,描述数据遵循预定的语法规则的程度,是否符合其定义。有效性规则包括类型有效、格式有效和取值有效等。类型有效检测字段数据的类型是否符合其定义。格式有效性检测可以通过正则表达式来判断数据是否与其定义相符。


参考文献

[1]刘佳. 软件需求工程理论、方法与实践[D].南京邮电大学,2015.

[2]屠永江.基于项目需求工程理论的软件需求管理探析[J].计算机光盘软件与应用,2013,16(02):168+170.