4 数据分析的开胃菜:数据清理

大数据,从小笔记开始

数据清理是很有必要的,特别是大数据年代。目前我们仅有5%的数据经过分析,而且随着数据总量越来越大,越来越多的数据需要我们去筛选、甄别和处理。

数据清理有三大点,

第一点,就是加强数据的可信度。

* 数据对我们处理的问题要有较高关联度

* 该数据要新鲜,过期的数据使用要慎重

* 要考虑技术和社会的改变与发展

第二点,简化流程,提供可处理的数据

* 识别数据

* 数据结构化

* 清理无关数据

* 增加需要的变量

* 检验统一性

* 发布数据

第三点,使之能简单地向雇员和利益相关者展示

* 混合使用数据视觉化和机器学习来简化数据

* 用你员工熟悉的工具

* 加强新技术和新工具的培训

    原文作者:麒麟桦
    原文地址: https://www.jianshu.com/p/5a5db307564a
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞