带你领略那迷人的数据分析语言!

大数据时代,不少人已“变身”成为“数据科学星人”。要在大数据产业中纵横驰骋,需要什么杀手锏呢?大圣众包威客平台(www.dashengzb.cn)带大家一起领略那些迷人的数据分析语言。

一、“数据科学”的定义

基本上,我们能接触到的所有科学,都是“数据科学”,否则就称为哲学了。“数据科学”是一门通过系统观察、对照实验、贝叶斯推理的开放试验理念的科学学科。因此,“数据科学”的目标也显而易见——从数据中得出有效的统计推论。有人认为,标签“数据”和使用什么样的数据无关,但这大错特错了。这种情况的发生简直可以说是不可能,因为,做科学却没有接近或得到个人数据,理解系统自身产生的缺陷,智能灵敏地处理伴随非理想状态的数据……难道这有可能吗?

《带你领略那迷人的数据分析语言!》

另外需要说一下的是,任何有趣的数据集都至少包含以下一些项——缺失值,异常值和噪声:

缺失值:指粗糙数据中,由于缺少信息而造成的数据的聚类、分组、删失或截断。

异常值:一组测定值中与平均值的偏差超过两倍标准差的测定值,且与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。简单来说,就是由于“灵异事件”或其它原因而远远超出合理的范围的值。

噪声:产生于受海量随机(或非随机的)影响的规整数据的一部分。

《带你领略那迷人的数据分析语言!》

很多人不禁疑惑,异常值和噪声的区别在于哪里呢?噪音,一般具有相当容易理解的原因以及可测量的分布,而异常值通常是很少发生的事件的结果,因为发生频率很低使我们不能得到其分布。

而处理这类事情,鼎鼎大名的R语言以及Python等,都是极为有用的工具。

二、优秀数据分析语言的例子

数据分析面向的数据大多数是二维表。因此也就要求数据分析语言,尤其是一门优秀的数据分析语言,首先要有一个数据结构能够直接存下这个二维表,还需要有一套成熟的类SQL的数据操作接口,以及要有一套好用的可视化工具。

《带你领略那迷人的数据分析语言!》

作为一门优秀的数据分析语言,R语言就是一个极好的典范。它采用了本身能够提供足够强大的数据操作能力的内置的data.frame结构做数据的存储,另外,还有dplyr、tidyr、data.table、plyr、reshape2等库,可以提供更好用、更高效的数据操作能力。在绘图能力上,除了基本的plot功能外,它还提供了ggplot2这样一套优雅的绘图语言,还通过htmlwidget库与javascript各种绘图库建立了紧密的联系,让可视化的动态展示效果更进一步。

同样以优秀著称的Python,目前在数据分析领域也已经具备了相当可观的能力。其中,Python的pandas库实现的DataFrame结构以及pandas本身提供的数据操作能力,还有matplotlib提供的数据可视化能力,都令Python在优秀的数据分析语言中占据一席重要之位。

容易被人遗忘的Excel,也是一门优秀的数据分析语言。它具备的单元格这种灵活的结构能为数据存储做支撑,并且还有大量的函数以实现灵活的操作。不得不提的是,它的绘图系统也是十分强大的。

优秀的数据分析语言当然还有很多,以上只是粗略的列举。在共享知识年代,不妨多学几手看家杀手锏,以适应变幻莫测的社会发展洪流。

原文地址:http://www.dashengzb.cn/articles/a-249.html

(更多大数据与商业智能领域干货、或电子书,可添加大圣花花个人微信号(dashenghuaer))

    原文作者:大圣众包
    原文地址: https://www.jianshu.com/p/9286cb078056
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞