质量规则模型

质量规则模型是从质量评价维度对数据质量规则的通用抽象形式,可以理解成为数据质量规则的模板。

质量评价维度

唯一性 (Uniqueness)

唯一性主要体现在一个数据集中,没有实体多余一次出现。满足实体唯一性,说明没有实体出现多余一次, 并且每个唯一实体有一个键值且该键值只指向该实体。许多组织都将可控的数据冗余作为更可行的目标。

有效性 (Validity)

有效性是指数据实例的存储、交换或展现的格式是否与数据值域一致,是否与其他相似的属性值一致。 有效性确保了数据值遵从于数据元素的多个属性:数据类型、精度、格式、预定义枚举值、值域范围芦存储格式等。 为确定可能取值而进行有效性验证不等同于为确定准确取值而进行真实性验证。

一致性 (Consistency)

一致性是指确保一个数据集的数值与另一个数据集的数值一致。一致性的概念相对宽泛, 可以包括来自不同数据集的两个数值不能有冲突,或者在预定义的一系列约束条件内定义一致性。 可以将更正式的一致性约束作为一系列定义一致性关系的规则,这些规则可以应用于属性值之间、 记录或消息之间或某一厲性的全部数值之间。需要注意的是,不能将一致性与准确性或正确性相混淆。 一致性可以定义在同一条记录中的一个属性值集合与另一个属性值集合之间(记录级一致性), 或定义在不同记录中的一个属性值集合与另一个属性值集合之间(跨记录一致性), 还可以定义在同一条记录中但在不同时间点的同一属性值集合之间(时间一致性)。

通过需求分析处理(计划)→ 检测规则定义和配置(实施)→ 邮件、短信等监控告警手段(监控)→ 处理不满足规则数据(行动)的闭环方式,持续提高数据质量。

完整性 (Completeness)

完整性的要求之一是一个数据集的特定属性都被赋予了数值。完整性的另一个要求, 是一个数据集的全部行记录都存在。要对一个数据集的不同约束类型的属性应用完整性规则, 如:必须有取值的必填属性,有条件可选值的数据元素,以及不适用的属性值。 还可以认为完整性包括数据值的可用性和适当性。

准确性 (Accuracy)

数据准确性是指数据准确反映其所建模的“真实世界”实体的程度。 通常,度量数据值与一个已确定的正确信息参照源的一致性可以度量准确性, 如:将数据值与来自数据库或其他数据表的正确的数据集比较,根据动态计算的数值迸行检査, 有时可能需要手工检査数值的准确性。

及时性 (Timeliness )

数据及时性是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系, 是影响业务处理和管理效率的关键指标。

规则模型清单

检查规则名称质量评价维度检查对象或目标规则描述检查方式
唯一性检查唯一性表数据质量检查是否有重复数据按设定PK进行判断单表查重
长度检查有效性单字段质量检查长度是否正确按设定条件判断字段长度是否符合要求单表逐条检查
正则表达式有效性单字段质量检查格式是否正确格式检查单表逐条检查
枚举值有效性单字段质量检查数值是否合格数值检查单表逐条检查
空值检查完整性单字段质量检查是否为空不一定是主键字段,可以是重要字段,也可以是全部字段单表逐条检查
两表值比对一致性表数据质量源和目标直接映射的字段值相同将源与目标的映射字段的数值型字段进行汇总比较两表汇总数比对
表行数比对一致性表数据质量检查源表和目标表的记录条数是否一致对条数进行汇总比较两表汇总数比对
及时性检查及时性表数据质量源和目标直接映射的字段值相同将源与目标的映射字段的数值型字段进行汇总比较两表汇总数比对
自定义SQL准确性单字段质量值域约束-指定有业务含义的数值值域根据业务规则定义单表逐条检查
两表准确性准确性表数据质量源和目标直接映射的字段值相同将源与目标的映射字段的数值型字段进行汇总比较两表汇总数比对
最小值检查准确性单字段质量检查表字段值的是否都大于或等于最小值将源与目标的映射字段的数值型字段进行汇总比较单表逐条检查
范围检查准确性单字段质量检查表字段值的是否都在最小值和最大值之间将源与目标的映射字段的数值型字段进行汇总比较单表逐条检查
最大值检查准确性单字段质量检查表字段值的是否都小于或等于最大值将源与目标的映射字段的数值型字段进行汇总比较单表逐条检查
汇总值检查准确性单字段质量检查表字段汇总值是否正确将源与目标的映射字段的数值型字段进行汇总比较单表统计检查
平均值检查准确性单字段质量检查表字段平均值是否正确将源与目标的映射字段的数值型字段进行汇总比较单表统计检查
条件检查准确性表数据质量检查表数据是否符合自定义条件将源与目标的映射字段的数值型字段进行汇总比较单表逐条检查

质量规则模型