数据处理的准确性校验一直是个难题,是否存在一些针对据处理准确性的通用做法呢?
下面是一些对于数据进行计算处理后,保证数据准确性的个人实践:
对于大部分数据来说,数据处理可以分为以下五个步骤:
1.数据采集;2.数据传输(实时/批量);3.数据建模/存储;4.数据计算/分析;5.数据可视化展示/挖掘
针对上面五点分别展开介绍:
一、数据采集
通常数据处理之前会有数据采集的过程,数据采集会涉及到多数据来源,每中数据来源由于格式等不一致,需要特殊处理。
1.针对不通的数据源,需要做到每个数据源获取数据能够独立。
2.采集过程需要监控,传输之前如有条件,可以做到本地有备份数据,便于异常查找时进行数据比对。
二、数据传输(实时/批量)
数据源本地已经做到有备份的情况下,对于传输异常的时候,需要支持重试,存储端需要支持去重。
三、数据建模/存储
数据存储可以针对结果集合进行冗余分类存储,便于数据进行比对,针对存储需要进行副本备份,同时数据可以考虑按生效记录进行叠加存储,支持回溯历史的存储结构进行存储。
四、数据计算/分析/挖掘
数据进行计算,分析的时候需要进行步骤分解,便于准确性的分析和统计
1.计算之前,支持测算,同时支持数据进行分批计算,需要能导出本批次清单基础数据(例如人员或者id),便于数据核对。
2.计算之中,支持快速少量指定的典型数据测算,支持选择,是否存储参与计算过程的全部的中间变量。
3.计算之后,可以选择,支持导出本次计算过程中的所有参与变量和中间变量参数,可以线下根据数据列表对应的参数,进行计算,从而进行数据准确性的核对。
计算过程中,支持针对有问题的数据ID进行染色,染色后的数据,所有的中间过程变量全部进行打印输出。
五、数据可视化展示
可视化挖掘过程,需要主要前台图形化界面的数据量
参考:http://www.sohu.com/a/161098814_451520 如何提高计算数据的准确性