质量规则配置
质量检查规则是定义质量检查的对象(库/表/字段)和规则参数。 定义直接检查任务时,从选择已定义的质量检查规则。 不同的质量规则模型,对应不同的规则参数。
质量规则模型
基本属性
属性 | 备注 |
---|---|
权重 | 用于计算规则质量分,1-9, 默认是5 |
质量维度 | 来自规则模型自动设置 |
主题域 | 来自检查表的元数据配置 |
数据分层 | 来自检查表的元数据配置 |
责任人 | 来自检查表的元数据配置 |
责任部门 | 来自责任人所在部门 |
规则配置项
配置项 | 描述 |
---|---|
源数据类型 | 选择MySQL、Hive等 |
源数据源 | 源数据类型下对应的数据源 |
源数据表 | 检查数据所在表名 |
源表检测列 | 检查数据所在列名 |
源表过滤条件 | 检查数据过滤条件 |
校验方式 | [Expected-Actual][期望值-实际值] [Actual-Expected][实际值-期望值] [Actual/Expected][实际值/期望值]x100% [(Expected-Actual)/Expected][(期望值-实际值)/期望值]x100% |
校验操作符 | =、>、>=、<、<=、!= |
阈值 | 校验公式中用于比较的值 |
期望值类型 | 固定值 日均值 周均值 月均值 最近7天均值 最近30天均值 源表总行数 目标表总行数 |
实际值名 | 为统计值计算SQL中的别名 |
自定义SQL | 用于输出实际值的SQL,必须为统计SQL,例如统计行数,计算最大值、最小值等 |
目标数据类型 | 选择MySQL、Hive等 |
目标数据源 | 目标数据类型下对应的数据源 |
目标数据表 | |
目标表过滤条件 | |
ON语句 | |
长度限制 | |
逻辑操作符 | |
正则表达式 | |
枚举值列表 | 用英文逗号,隔开多个值 |
日期时间格式 | 设置对应的时间格式 |
开始时间 | 某个时间范围的开始时间 |
截止时间 | 某个时间范围的结束时间 |
最小值限制 | |
最大值限制 | |
异常策略 | 告警:数据质量任务失败了,任务结果为成功,发送告警 阻断:数据质量任务失败了,任务结果为失败,发送告警 |
不同规则模型的配置项
规则模型 | 配置项 |
---|---|
公用 | 源数据类型,源数据源,源数据表,源表过滤条件, 校验方式,校验操作符,阈值,失败策略 |
空值检测 | 源表检测列 期望值类型 |
自定义SQL校验 | 实际值名,实际值计算SQL |
两表值比对校验 | 目标数据类型,目标数据源,目标数据表,目标表过滤条件 ON语句 期望值类型 |
两表准确性校验 | 目标数据类型,目标数据源,目标数据表,目标表过滤条件 ON语句 期望值类型 |
长度校验 | 源表检测列 字段长度限制,逻辑操作符 |
唯一性校验 | 源表检测列 期望值类型 |
正则表达式 | 源表检测列 正则表达式 期望值类型 |
及时性校验 | 源表检测列 日期时间格式,开始时间,截止时间 期望值类型 |
枚举值校验 | 源表检测列 期望值类型 |
表行数校验 | 源表检测列 |
最小值校验 | 源表检测列 最小值限制 |
范围校验 | 源表检测列 最小值限制,最大值限制 |
最大值校验 | 源表检测列 最大值限制 |
汇总值校验 | 源表检测列 |
平均值校验 | 源表检测列 |
条件校验 | 源表检测列 |
1 空值校验
2 自定义SQL校验
3 两表值比对校验
4 两表准确性校验
5 长度校验
6 唯一性校验
7 正则表达式校验
从模板选择
8 及时性校验
9 枚举值校验
10 表行数校验
11 最小值校验
12 范围校验
13 最大值校验
14 汇总值校验
15 平均值校验
16 条件校验
从模板选择
新增质量规则
新增数据质量检查规则。
编辑质量规则
编辑已有的数据质量检查规则。 只能编辑新建状态的规则,不能编辑上线、审批中、下线的规则。
删除质量规则
删除已有的数据质量检查规则。 只能删除新建状态的规则,不能删除已上线、审批中、已下线的规则。
导出
全量导出质量检查规则数据,下载Excel文件。
导入
首先,下载Excel导入模板文件。
然后,在Excel文档输入要导入的质量检查规则数据。
最后,点击导入按钮,选择准备好的Excel文件。
审批
详见 审批工单
提交上线审批
选中要上线的质量检查规则,选择审批人,系统创建审批工单。 选中的质量检查规则信息状态变为【上线审批中】。
如果审批通过,这些质量检查规则状态变为【已上线】。
提交下线审批
选中要下线的质量检查规则,选择审批人,系统创建审批工单。 选中的质量检查规则信息变为【下线审批中】。
如果审批通过,这些质量检查规则状态变为【已下线】。