当前位置: 首页 > news >正文

数据管理篇之数据质量

第15章 数据质量

1.数据质量保障原则

完整性
准确性
一致性
及时性

2.数据质量方法概述

  • 消费场景知晓

(1)数据资产定义

分为五个等级:
① 毁灭性质(A1),数据一旦出错,将会引起重大资产损失,面临重大受益损失,造成重大公共风险;
② 全局性质(A2),数据直接或间接用于集团业务和效果的评估、重要平台的运维、对外数据产品的透露、影响用户在阿里系网站的行为等;
③ 局部性质(A3),数据直接或间接用于内部一般数据产品或者运营 / 产品报告,如果出现问题会给事业部或业务线造成影响,或者造成工作效率损失;
④ 一般性质(A4),数据主要用于小二的日常数据分析,出现问题几乎不会带来影响或者影响很小;
⑤ 未知性质(Ax),不能明确说出数据的应用场景,则标注为未知;
注:A1>A2>A3>A4>Ax,如果一份数据出现在多个应用场景中,则遵循就高原则

(2)数据资产等级落地方法

先给不同数据产品或者应用划分数据资产等级,再依托元数据的上下游血缘,可以将整个加工消费链打上某一类数据资产的标签。

  • 数据加工过程卡点校验

(1)在线系统卡点校验

主要是指在在线业务系统的数据生成过程中进行的卡点校验。
问题:在线数据和离线数据的一致性
方法:工具和人双管齐下

工具:首先是发布平台,其次是数据库表的变化感知
人:须知哪些是重要的核心数据资产,须知哪些只是内部数据分析使用

(2)离线系统卡点校验

首先是代码提交时的卡点校验
其次是任务发布上线时的卡点校验
最后是结点变更或数据重刷前的变更通知

  • 风险点监控

(1)在线数据风险点监控

在线业务系统的数据生产过程需要保证数据质量,主要根据业务规则对数据进行监控。阿里巴巴主要采用实时业务检测平台 BCP ,用于保障在线系统的数据质量。

(2)离线数据风险点监控

① 数据准确性

阿里巴巴主要使用DQC来保障数据的准确性。

② 数据及时性

任务优先级:首先确定业务的资产等级,等级高的业务所对应的消费节点自然配置高优先级,一般业务则对应低优先级,确保高等级业务准时产出。
任务报警:和优先级类似,也是通过叶子节点传递;实时监控
摩萨德:根据离线任务的运行情况实时决策是否告警、何时告警、告警方式、告警给谁等。包括强保障监控和自定义监控。

  • 质量衡量

(1)数据质量起夜率
(2)数据质量事件
(3)数据质量故障体系

故障定义
故障等级
故障处理
故障review

相关文章:

  • 修改wordpress域名/谷歌google下载安卓版 app
  • 手机端的网站首页该怎么做/星巴克营销策划方案
  • 网站 description/正规的培训机构有哪些
  • 个人网站备案 法律说明/网站模板库官网
  • 长沙做手机网站建设/手机怎么搭建属于自己的网站
  • wordpress自助友链/东莞seo网站管理
  • 5G无线技术基础自学系列 | 5G接入类KPI
  • 彻底卸载2345王牌输入法的方法
  • Python解题 - CSDN周赛第17期 - 拯救公主
  • ImportError: DLL load failed while importing etree: 找不到指定的模块。
  • 太神了!开源大佬的SpringBoot+微服务架构笔记,一般人真肝不出来
  • 为何推荐首选enum class 而非 enum
  • 红队隧道应用篇之Burpsuite设置上游代理访问内网(五)
  • 逆天了!用Numpy开发深度学习框架,透视神经网络训练过程
  • 渗透攻击MS08-067
  • 2022年全国职业院校技能大赛中职组网络安全竞赛试题B模块 —wirehark数据分析与取证captureWH.pcapng(解析教程)
  • vcpkg踩坑记录
  • Apache Spark 练习五:使用Spark进行YouTube视频网站指标分析