大数据环境下数据质量指标体系

2023年2月17日 133次阅读来源: hzbooks

《大数据环境下数据质量指标体系》

来源：大数据技术团队

《大数据环境下数据质量指标体系》

一、数据质量评价现状

1、数据质量评价模型现状

为了清晰表达一些复杂和抽象的概念，构建科学的模型或框架是开展数据质量评价工作的首要任务，多数学者在研究时均从不同角度提出了数据质量评价的框架。一种是将信息产品与制造业产品做出对比，从而提出的数据质量评价框架中应包含管理职责、运营、成本、研究、开发、生产、分发、个人管理、合法功能等因素；一种视数据为产品，按照数据产品质量维度和数据服务质量维度，以象限矩阵的方式建立了数据质量评价模型。

数据质量评价的维度不仅需要考虑数据的价值，还需要从用户角度考虑数据的使用，因此有些学者建设了一个从用户视角出发的数据质量评价模型，模型中定义了用户类别、用户数据质量服务需求矩阵等。除了关注数据的生产过程，也有学者以数据生命周期的视角构建数据质量评价模型，如有些学者提出了可计算的覆盖整个软件生命周期的数据质量评估模型。

随着互联网资源的丰富，针对网络环境下的数据质量需求管理，有些学者构建了在Web应用中能够捕获数据质量软件需求的元模型。由此可见，国内外数据评价模型通常包括了评价方法、技术工具、评价标准、流程规范等方面，各个理论框架针对特定领域，分别采用了数据产品的视角、用户的视角以及生命周期等视角，各具特色和优势，但尚未形成广泛认可的评价模型体系。

2、数据质量评价方法现状

目前关于数据质量评价方法的研究，主要包括定性评价、定量评价以及定性定量相结合的3种评价方法。

1）定性评价

定性评价是依据专业领域知识和个人经验理解，按照一定的评价标准进行估计和推断的一种评价方法。目前的定性评价方法主要是数据质量指标量化法，许多学者认为数据质量是一个多维度的概念，因此从不同角度提出了数据质量评价的定性指标。早期，有些学者提出了数据质量评价的最基本的4个指标，即准确性、时效性、完整性和一致性，在此基础上，现在有些学者将各个现有指标归类，分为直接指标体系和间接指标体系，并采用GQM(目标一问题式)的方式构建数据质量评价指标。

2）定量评价

定量评价主要是通过数学或其他科学手段而做出的判断和分析评估，能够较好地保证评估结果的科学性和客观性，使其具有较好的信度，多数用于结构化数据库的评价，如针对关系数据库数据质量的精确性和完整性两个重要指标进行评价时，通过关系代数操作进行量化，通过数据和“最近似”间的信息量差异来定量分析；基于概率论，对数据质量的时效性指标建立评价体系．

3）定性定量相结合的评价

定性定量相结合的评价，其主要做法是在定性评价方法的基础上引入数学手段，定性问题通过人工设定的标准进行评分并做出量化处理，评分的过程都是针对事先建立的指标体系，具有部分数理统计的特征，如德尔菲法、模糊综合评估法、层次分析法等。

定性评价主要是用于满足数据用户的需求，主要是采用数据质量调查的方式构建评价指标体系；定量评价是一种客观评价方法，但一般缺少上下文的情景知识，仅是依赖于应用程序的规则或约束判断，除了常用于结构化数据的评价外，部分自动化评估技术也被应用于网络数据资源的质量评价；在数据质量的多维度评价上，定性定量相结合的评价是目前较为常见的评估方法。

《大数据环境下数据质量指标体系》

3、数据质量评价主体现状

数据质量评价涉及的3个主体角色，即数据生产者、数据管理者和数据消费者，由于数据的技术特性，早期的学者多从数据生产者或管理者的主体角度进行数据质量评价。数据质量是在特定信息用户的使用环境下，对可获取信息满足其期望的有用性或可用性的主观评价，因此这些以数据生产者或管理者为主体视角进行数据质量的评价，仅考虑了数据的价值，未考虑数据的使用。

国内外学者逐步关注数据用户的需求，尝试从用户角度实施数据质量评价，构建面向用户的数据质量概念框架，基于数据用户需求构建数据质量评价模型；类似的，有些学者为理解用户情景化的信息质量评价过程提供一个理论模型，该模型强调了信息质量评估的客观和情景因素，进一步明确终端用户在信息质量评估过程中的角色；此外，在数据用户需求确定的研究过程上，需要综合考虑语言表达的多粒度多语义的情况，对于用户需求重要度确定中引入熵的概念，一定程度上使得用户需求重要度的确定更加客观、合理。

上述主体视角各有利弊，数据生产者或管理者的视角能够较为客观地评价数据自身的本质属性特征，但欠缺用户对数据价值的需求把握，在实际运行中，常出现数据生产者所提供的认为“符合”的数据和用户认为相“符合”数据存在很大“数字鸿沟”的现象；数据消费者的视角主要关注数据的内容质量，能较充分地获取数据用户的需求，但前提也是需要满足数据库的数据约束规则。由此可见，数据质量评估是一个持续的过程，需要结合主观评价和客观评价，并且主客观标准也需要不断的完善和改进。

4、数据质量评价对象现状

按照数据质量的评价对象的数据类型划分，可以分为结构化、半结构化和非结构化数据。结构化数据的数据质量评价，主要是针对关系数据库中存储的结构化数据，其评价指标是建立在数据库完整性约束的基础上的，如准确性、完整性和一致性，并逐步扩展到可访问性和及时性等指标，结构化数据的质量评价已有较好的研究基础。

非结构化数据是指无固定格式或模型用以逻辑表达实现的数据，主要是一些文本、图片和视频等。大数据时代，非结构化数据的体量增长加快，组织中大量的数据都是非结构化数据，操作日志、聊天记录、邮件、图像和音频／视频信息中的非结构化数据蕴含了诸多组织效益提升的机会，对其进行质量评价有益于充分挖掘潜在数据价值。非结构化数据的多源特征为数据质量评价提出了诸多挑战，目前学者们主要是通过专家或用户打分进行内容质量分析，也有部分学者，尝试利用自动化评价技术，通过数据样本选择、特征提取、实验及评价过程对非结构化数据进行评价。

数据质量的评价最早始于对结构化数据的评价，主要是评价存储在关系数据库中的数据，较少考虑数据的内容质量；对半结构化的数据评价主要是针对网络数据资源，除了关注数据的本质属性外，更多关注数据的内容质量；大数据环境下，非结构化数据的质量评价面临极大挑战，如大量数据的自动化评价可能产生一定的误差，而且目前计算机在自然语言处理上还不够成熟，一些反映用户需求的主观性特征难以用计算机处理，所以多数评价采取结合专家或用户打分的方式。

《大数据环境下数据质量指标体系》

二、大数据质量评价指标构建实践

构建一套质量评价体系,首先需要对质量评价的模型进行确定。以下结合数据采集、数据集成、数据整合与清洗、数据处理与加工、数据持久化等数据流转环节的特点,构建了数据质量评估指标框架。

1、数据质量评价模型与评价方式

数据质量评价体系需至少包含以下两个方面的基本评估指标：

（1）数据对用户必须是可信的

其中包括精确性、完整性、一致性、有效性、唯一性等指标。这些指标的具体含义如下:

精确性:描述数据是否与其对应的客观实体的特征相一致。

完整性:描述数据是否存在缺失记录或缺失字段。

一致性:描述同一实体的同一属性的值在不同的系统或数据集中是否一致。

有效性:描述数据是否满足用户定义的条件或在一定的值域范围内。

唯一性:描述数据是否存在重复记录。

（2）数据对用户必须是可用的

其中包括时间性、稳定性等指标。这些指标的具体含义:

时间性:描述数据是当前数据还是历史数据。

稳定性；:描述数据是否是稳定的,是否在其有效期内。

数据质量的评价方法，有以下几种方式:

（1）简单比率法

指期望的结果(E)占总值(T)的比率即E/T,反映数据质量某些方面的好坏程度。当结果等于或接近于1时,表明数据质量情况好,否则质量情况差。该计算方式还能用来进行纵向比较,反映数据质量的改进情况。

（2）最小/最大值法

适用于衡量数据质量中需要对多种指标进行加总的维度,评价的关键是要找出各类指标中的最小值或最大值。最小值和最大值分别代表了最保守和最激进的评价方法,一般适用于比较复杂的度量体系。

（3）加权平均法

对于复杂的多指标的评价,如果评价者对每个指标在总体评价中的重要程度很容易量化,则可以使用加权平均法。根据实际情况,如果说最小值和最大值分别代表了最保守和最激进的评估方法,那么对这些指标求平均值，相对而言则是一个更稳妥、适中的评价方式。

2、指标构建与实践

根据大数据领域的大数据处理平台的特点以及数据处理流程、数据来源、用户使用数据以及数据模型等多方面影响因素,分别从数据自身质量、数据处理过程的质量和数据效能三个方面,提出了评价指标框架,对全生命周期的数据质量进行评估和度量。根据指标是否具有对所有处理环节的数据质量进行评价的共通性,分为通用指标和特定指标两大类。

通用指标指的是与数据的具体形态、处理的具体环节无关的评价指标、评价的是数据和数据处理过程本身的质量。而特定指标则和数据的形态格式与数据处理的具体环节紧密相关,在不同的实际环境中,会根据使用的数据接口、数据处理技术和功能的不同有不同的评价指标。

根据能否通过采集到的信息直接进行计算，又可以分为基础指标和综合指标两大类。基础指标是通过采集信息就可以通过简单的计算得出,而综合指标则需要结合对数据的使用需求、数据重要程度考量、指标计算的可行性等多方面因素之后形成规则,依据规则再进行计算得到的评价指标。一般使用的评价方法为最小/最大值、平均值法或加权平均法。

《大数据环境下数据质量指标体系》

（1）数据质量的评价指标

评价数据质量的指标可以选取以下几个维度：

完整性:数据的记录和信息是否完整,是否存在缺失的情况；

可用性:数据对使用者来说是否是可用的、有效的,合并了一致性、有效性和准确性;

重复性:根据指定的判重规则计算重复率。

《大数据环境下数据质量指标体系》

zip包可用率就是一个典型的特定指标。某个数据流转环节中,定义的数据接口是遵循行业规范对数据文件和数据描述文件进行压缩后的zip包,其中数据文件的命名、数据分隔符、数据描述文件的格式，里面包含的数据项内容、数据项的值等都需要遵循相应的行业标准规范。如果输入的数据不符合定义的格式和要求,那么数据将无法被解析,等同于无效数据。因此,在这个环节,zip数据包的可用率就是一个非常重要且必要的特定监测指标。

（2）数据处理过程的评价指标

数据处理的基本过程一般包括校验、传输、清洗、提取、持久化等类型。每一个处理过程都有可能带来数据处理前后的数量变化、质量变化。不同的数据处理过程不同、衡量其处理质量的指标也存在差别。同时,质量高的处理过程应该在处理时效有保证的前提下,提升输出数据相对输入数据的质量。因此,处理过程的质量也不能孤立的使用过程指标就能判定,还需要配合处理前后的数据质量才进行综合判定。

《大数据环境下数据质量指标体系》

不同环节的质量指标虽然评价的处理环节不同,但却也与具体的处理技术和细节无关。因此,如果在实际系统中,对监控更细节的处理质量存在需求,则可以根据实际情况添加更具体的评价指标。

（3）数据效能的评估指标

数据最终需要为应用、为终端用户所用才能展现价值，其质量的好坏才有意义。前面数据采集的再好、质量保证的再高、处理的再快,如果用户不用或极少使用这些数据,或者使用的效果不如用户所期望的,那么这些数据的价值也不算得到了体现,需要根据用户的需求进行调整。考虑到应用系统对数据的访问、使用情况能在一定程度上反映数据的利用价值,因此提出如下所示的指标作为评估数据最终价值也即数据效能的指标。同时也可以作为数据的使用情况反馈,为数据分析和数据处理的优化、调整提供参考依据。

《大数据环境下数据质量指标体系》