R统计笔记（三）：分组统计的几种方法

2021年4月26日 89次阅读来源: 蚁方阵

1. 使用tapply函数

# INDEX相当于groupBy
tapply(salarys$SALARY, INDEX=salarys$SEX, FUN=sum)

如果出现参数的长度不一致的错误，如下:

Error in tapply(salarys$SALARY, INDEX = salarys$SEX, FUN = max) : 
  参数的长度必需相同

请仔细检查salarys SALARY、salarys SEX的长度是否相等，尤其是检查INDEX的类型，如果是list类型，请务必转换为向量：

# 对数据进行处理,返回LIST
salarys$SEX <- lapply(salarys$SEX, function(x) switch(x, FEMALE='女', MALE='男'))
# 返回向量
salarys$SEX <- c(salarys$SEX, recursive = TRUE)

2. 使用by函数

使用by函数可以达到同样的效果，唯一需要注意的是，引用的数据必须全是数据列，例如在本例中，数据最多也只能是salarys[c(‘SALARY’, ‘ID’)]。

by(salarys[c('SALARY')], INDICES = list(salarys$SEX), FUN=max)

3. 使用aggregate函数

aggregate(x=salarys[c('SALARY')], by = list(salarys$SEX, salarys$ID), FUN=max)

聚合函数与group by更相似，例如以上语句就表示按SEX、ID进行分组，结果如下：

  Group.1 Group.2  SALARY
1      男       1  30000
2      男       2    200
3      女       3   1200
4      女       4   3500

从以上的数据可以看出，分组的唯一性由（SEX，ID）决定，所以跟SQL一模一样。

    原文作者：蚁方阵
    原文地址: https://blog.csdn.net/yiifaa/article/details/73060915
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。