大数据,从小笔记开始
数据清理是很有必要的,特别是大数据年代。目前我们仅有5%的数据经过分析,而且随着数据总量越来越大,越来越多的数据需要我们去筛选、甄别和处理。
数据清理有三大点,
第一点,就是加强数据的可信度。
* 数据对我们处理的问题要有较高关联度
* 该数据要新鲜,过期的数据使用要慎重
* 要考虑技术和社会的改变与发展
第二点,简化流程,提供可处理的数据
* 识别数据
* 数据结构化
* 清理无关数据
* 增加需要的变量
* 检验统一性
* 发布数据
第三点,使之能简单地向雇员和利益相关者展示
* 混合使用数据视觉化和机器学习来简化数据
* 用你员工熟悉的工具
* 加强新技术和新工具的培训