数据治理的具体应用

数据治理架构

图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用这 4 个部分。

(1) 数据存储:

基于分布式的大数据存储平台,具有很强的存储能力和扩张能力;

(2) 数据计算:

这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等。这些计算任务都是基于大数据分布式的计算能力,应用 MapReduce 批处理和 spark streaming 流式处理技术,通过scheduler 任务调度器,实现对调度任务的执行、管理与监控。

数据探查:通过对数据量、数据质量、数据特征等指标的分析来评估后续数据治理任务的工
作量;

数据提取:抽取分布在各个系统中的各种类型的源数据,提取元数据,基于深度学习的语音识别、
图像识别、视频处理技术,实现对非结构化的数据提取;

数据清洗:对缺失数据的处理,过滤掉重复相似的记录,清除值错误的数据;

数据转换:将不符合规范的数据,按照规范化的处理规则,转化成符合标准的数据,如编码统一、
格式统一、元数据统一等;

数据集成:将转化后的规范化数据进行整合,按照一定方式重新组织,如数据属性的融合、关系融
合、数据的主题化、标签化等; 

(3) 数据管理:

对集成后的数据统一维护与管理,包括对数据质量的检测、数据安全控制、数据血缘的监控、元素管理等。

数据质量检测:从各个维度(唯一性、准确性、完整性、合法性等)检测,并形成数据质量报告;

数据安全控制:对数据的使用与访问,进行权限的管理与控制;

数据血缘监控:追踪数据的来源与去向的整个过程; 

元数据管理:数据知识库的建立与维护,包括对代码库、标准库、标签库、模型库、图谱库等的
管理; 

(4) 数据应用:这是数据价值最直接的体现,基于自然语言处理、数据挖掘算法模型等技术对数据分析挖掘,包括统计分析、比对碰撞、关联分析、数据挖掘等,将分析结果提供给上层应用,如构建专题库、主题库、构建知识图谱等。

数据处理流程

数据处理流程是对源数据到目标数据整个处理过程的监管,并描述了数据采集、数据处理及数据展现这 3个方面所用到的技术架构和处理逻辑。处理流程中主要有8个方面:数据接入、数据预处理、数据规范化、数据清洗、数据标签化、数据主题化、构建知识图谱以及数据分析与挖掘 。

(1) 数据接入

公安系统中的源数据,包括结构化文本、关系型数据库、非结构化的文本及视频、hadoop 平台中的数据以及流式数据,经过批处理引擎或流式计算引擎,接入到统一的数据源系统中,形成最初的数据集市。

(2) 数据预处理

在对数据集市中的数据做处理前,根据数据规则库定义的规则,首先对数据进行预处理,包括数据质量的评估、空值率的计算、数据特征分析、数据格式的分析等;然后判断数据是否有治理的价值;然后提取需要治理的数据、提取元数据,经过统一的编码转换处理后,过滤掉脏、乱、差的数据;然后进行数据去重等清洗处理。

(3) 数据规范化

数据规范是将预处理后的数据,根据数据标准知识库的标准,将数据统一处理成符合行业标准、省部级标准及国标等标准的规范化数据,提高数据的可移植性、共享性及复用性。数据规范过程(标准化过程)中所依赖的数据规范来源于权威性的行业规范、国标、部标等,对数据、名称、字段及元数据等进行标准化。

(4) 数据清洗

数据清洗是对不完整的数据、不一致的数据以及异常的数据进行清洗,并过滤掉重复相似的记录。

(5) 数据标签化

数据标签根据数据标签库可以分为技术标签和业务标签:技术标签是基于表、字段的技术元数据,例如空间占用、条目数、最新更新时间、更新频率、访问频率、数据格式、字段数据类型、是否压缩等,通过规则引擎进行规则计算,为库、表、字段等打上相应的技术标签,例如最近一天更新的数据、大数据集、小数据集、频繁更新数据集、压缩文件、图片、视频等;业务标签基于库、表、字段的业务定义、描述,值域的具体内容,对于数据进行业务标签生成,例如对于库表来说,数据来源/数据种类(人口、教育、医疗等)标签、数据内容标签(姓名、组织、地址、电话、商品等)。

(6) 数据主题化

数据按照一定的主题进行关联来构造一个模型。公安数据治理分别以人、物、时空、组织、虚拟标识、案件等作为主题,分别建立模型,如图 14 所示。

以人作为主题时,提取自然人为主体进行描述的数据资源,并按照公安部的数据分类进行主题模型的构建;

以物作为主题构建模型时,提取特定的物为主体进行描述的数据资源,针对不同情况涵盖不同的内容,包括物品、物证、微小痕迹、尸体等;

以时空作为主题时,提取以时间、地点为主体进行描述的数据资源来构建时空主体模型;

以组织作为主题时,提取法人、单位、特定人群组织结构(如:户)为主体进行描述的数据资源来构建组织类主题模型。

以虚拟标识作为主题时,以一个物品的标签或者分类信息作为主题进行构建模型;

以案件作为主题构建模型时,根据执行主体的不同,案件又分为侦查调查行为和违法犯罪行为:侦查调查行为是指公安机关行使打击犯罪,维护社会治安进行侦查破案的行为;而违法犯罪行为是指犯罪嫌疑人进行违法犯罪的行为。 

(7) 知识图谱构建

知识图谱按照目标数据可以分为实体、事件、关系这 3 种类型来建立数据之间的关联关系,将数据抽象化的内在联系,以可视化的形式有效表现出来。图 15 是以人为中心实体构建的一个简单的知识图谱,以人为中心实体,建立人与电话号码所属关系、人与护照所属关系及人与人的关系,同时建立了人与航班的出行事件、人与旅馆的住宿事件。

(8) 数据分析与挖掘

对治理后的标准化数据,采用一定的数据挖掘算法模型,对数据进行统计分析、关联分析、比对碰撞、数据挖掘等,为上层应用提供数据服务。公安机关作为侦查一线的最实用的技术是数据比对碰撞分析,数据比对碰撞分析是指运用计算机对数据进行分析,将两组以上同类型的数据集进行梳理,通过关联查询,筛选数据集取交集的一种方法。

数据治理的目标

数据治理的核心目标是在降低风险的同时,为企业增加价值。合理的数据治理,能够建立规范的数据应用标准,消除数据的不一致性,提高数据质量,推动数据广泛共享,充分发挥数据对政府及企业的业务、管理以及战略决策的重要作用。大数据治理对于确保大数据的优化、共享和安全是至关重要的,有效的大数据治理计划可通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。根据上述几节的描述,数据治理包括元数据管理、数据质量管理、数据安全合规、数据模型设计以及数据的应用这 5 个基本功能。

一个组织数据治理的好坏是否达到自己预期的目标,可以通过以下几个方面进行评价。 

从数据的质量方面考虑:

a) 数据的准确性:经过数据治理后的数据应该是准确的,而不能在治理过程中给正确的数据带去
噪音;

b) 数据的完整性和一致性:数据治理之后,数据的完整程度以及数据的一致性; 

c) 数据的安全性:好的数据治理要充分地保护敏感数据;

从数据治理的效率进行考虑:使用每秒处理多少条数据进行直观对比,这直接影响到数据的及时性;

数据治理模型的成熟度:数据治理过程中,选择的数据模型的成熟度直接影响数据治理的结果;

从是否能追根溯源,找到数据质量问题产生的原因;

人工干预程度:发现质量问题以后,是系统自动处理,还是需要人工干预处理。

相关推荐

  1. 数据仓库中数据治理

    2023-12-06 03:40:04       25 阅读
  2. 数据仓库中数据治理方法

    2023-12-06 03:40:04       22 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-06 03:40:04       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-06 03:40:04       101 阅读
  3. 在Django里面运行非项目文件

    2023-12-06 03:40:04       82 阅读
  4. Python语言-面向对象

    2023-12-06 03:40:04       91 阅读

热门阅读

  1. Kibana使用指南

    2023-12-06 03:40:04       49 阅读
  2. header二

    header二

    2023-12-06 03:40:04      55 阅读
  3. LeetCode //C - 72. Edit Distance

    2023-12-06 03:40:04       59 阅读
  4. 鼠标移入移出事件

    2023-12-06 03:40:04       57 阅读
  5. Gson与FastJson详解

    2023-12-06 03:40:04       53 阅读
  6. qt 5.15.2 网络文件下载功能

    2023-12-06 03:40:04       58 阅读