【华为数据之道学习笔记】8-5设计和执行质量度量

设计质量度量

        为确保设计质量标准稳定,从信息架构的四个角度(数据资产目录、数据标准、数据模型、数据分布)进行综合评估,其范围覆盖度量期间内已通过IA-SAG评审发布的所有数据资产。当实际业务有例外场景时,可向IA-SAG专业评审团申请仲裁,若评审通过,则可采用白名单的方式进行管理。
    (1)数据资产目录
        1)业务对象需有明确、唯一的数据Owner,并对该业务对象全流程端到端质量负责,如是否有定义数据质量目标、是否有数据质量工作规划等。
        2)业务对象的元数据质量,如数据分类是否完整、业务定义是否准确、数据管家是否有效等。3)资产目录完整性。
    (2)数据标准
        1)数据标准元数据质量,如数据标准是否唯一、业务用途及定义是否准确、各责任主体是否有效等。
        2)所有业务对象应准确关联数据标准。
        3)数据标准在IT系统及其对应的业务流程中应得到应用和遵从。
    (3)数据模型
        1)开发概念模型和逻辑模型,并通过IA-SAG评审。
        2)物理数据模型设计应遵从逻辑数据模型设计,数据库中物理表的落地应遵循物理模型。
    (4)数据分布
        1)已认证数据源,并通过IA-SAG评审。
        2)交易侧完整的信息链和数据流,并通过IA-SAG评审。
        3)交易侧业务资产、数据湖、主题联接、数据服务、自助分析之间完整准确的血缘关系。
    (5)设计质量打分模型

执行质量度量

        执行质量度量主要是从数据质量六性(一致性、完整性、及时性、唯一性、有效性、准确性)评估数据内容的清洁度,涉及三个要素:客户关注重要性、法律财务风险性、业务流程战略性。业务领域也可根据阶段性的管理重点和诉求调整评估的要素。
  • 客户关注重要性:给客户运营带来直接影响的数据的客户关注重要性就高,如合同、PO、验收标准、开票数据等。
  • 法律财务风险性:与法律、财务的关联性强,一旦发生质量问题,会触犯法律或带来相关财务损失,那么该数据的法律财务风险性就高,如收入、成本等数据。
  • 业务流程战略性:数据所产生的业务流程如果是公司核心交易流程(如LTC流程或战略地位高的流程(如IPD流程),那么数据的业务流程战略性普遍会得到较高关注;如果是相关支撑或使能流程(如变革流程、IT开发流程等),那么数据的业务流程战略性相对较弱。
    1. 确定度量指标
        与度量对象一样,数据质量度量指标也往往来源于日常监控的数据质量规则,将业务属性层主规则通过叠加公式变成业务对象层度量指标。
        数据质量规则的设计应让相关业务人员参与,以满足业务的使用场景。但当某些业务场景的规则不够清晰,或当前的技术手段无法较为准确地识别异常数据时,这类数据质量规则往往只能用于警示,不建议纳入度量。例如数据标准的唯一性规则,通过判断数据标准被业务属性的引用次数来定义。当某数据标准被引用次数少于10次时,我们认为这类数据标准可能存在冗余的风险,但不能完全确定为异常数据。此类规则若纳入度量考核,后续需投入大量的人工核对成本。其次,数据质量规则应可支撑持续度量。例如某些完整性的数据质量规则,可设置必填项,一次性解决其数据质量问题,此类数据质量规则不建议纳入数据质量度量。
        数据质量指标同时参考5项原则进行设置。严重的数据,需重点考虑设计度量指标。
  • 成本效益原则:运作成熟且质量较高的数据,或度量成本很高但预期改进很少的数据,可以考虑简化度量指标或不度量。
  • 明确性原则:指标设计清晰、可衡量。
  • 分层分级原则:可根据不同层级的管理诉求,设计分层分级的指标。
  • 持续度量原则:一次性就可解决问题的数据不需要度量。
        一个业务对象下有如此多的数据质量规则,如何叠加形成数据质量度量指标呢?对于叠加公式,我们建议使用以下计算规则。
        1)逻辑实体数据质量度量指标=∑属性数据质量异常数量/∑属性数据总量,我们称之为数据格面积算法。
        2)业务对象数据质量度量综合指标=Average(逻辑实体数据质量度量指标)。
        不直接在业务对象层采用数据格面积算法,是为了避免重要的错误数据被“淹没”。我们以业务对象“采购PO”中的逻辑实体“PO头信息”和“PO行信息”为示例进行阐述。
        1)每年“PO头信息”的数据量大概为“PO行信息”的数据量的1/100。
        2)“PO头信息”中业务属性“汇率类型”异常率为50%,即100个PO头信息中有50个汇率类型错误。“PO行信息”中业务属性“品类”异常率为10%,即10 000个PO行信息中,有1000个“品类”信息。
        3)若我们在业务对象层级采用数据格面积算法作为其度量指标,则业务对象综合数据质量异常率为:(50 + 1000)/(100 + 10 000)≈10.4%。这就基本忽略了“PO头信息”中业务属性“汇率类型”这个重要异常率。
        当然企业也可根据公司自身的数据特点,制定相应的叠加公式进行综合计算。例如可以对业务对象下逻辑实体异常率进行加权平均,而权重比例可参考其数据量的差异倍数进行设置。
    2. 确定数据质量衡量标准
        数据质量衡量标准是指指标测评结果与用户质量诉求的关系。华为主要采用五个等级(差、中、良、优、满分)来衡量和拉通数据质量满足消费者的应用程度。
    3. 执行度量
        数据质量度量已流程化,因此我们可将其作为一次小型变革项目进行管理。根据度量运作机制,由公司数据管理部定期启动公司级数据质量度量。召开启动会议,明确本次数据质量度量细则,如数据质量度量目标、度量期间、度量范围、度量指标、计划进度等相关事宜,以确保数据质量度量工作有序、高效地开展,同时也确认数据质量度量结果的公正、有效。

最近更新

  1. TCP协议是安全的吗?

    2024-01-01 08:24:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-01 08:24:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-01 08:24:02       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-01 08:24:02       20 阅读

热门阅读

  1. LeetCode75| 单调栈

    2024-01-01 08:24:02       42 阅读
  2. 一篇文章认识微服务的优缺点和微服务技术栈

    2024-01-01 08:24:02       37 阅读
  3. 九台虚拟机网站流量分析项目启动步骤

    2024-01-01 08:24:02       42 阅读
  4. mac安装yum

    2024-01-01 08:24:02       33 阅读
  5. 使用Python实现简单的区块链

    2024-01-01 08:24:02       38 阅读
  6. Docker 容器命令总汇

    2024-01-01 08:24:02       37 阅读
  7. 5-Docker实例-安装tomcat

    2024-01-01 08:24:02       43 阅读
  8. React16源码: createRef与forwardRef源码实现

    2024-01-01 08:24:02       25 阅读
  9. SAT问题

    2024-01-01 08:24:02       40 阅读
  10. git常用命令

    2024-01-01 08:24:02       28 阅读
  11. iris数据集的介绍

    2024-01-01 08:24:02       36 阅读