很多时候我们做数据分析就是为了分析出每个变量之间的关系,并且做出相应的指导方向,落实到执行,有哪些分析方法了?
一、描述性统计分析
1)方法云集
用summary()函数来获取描述性统计量
apply()函数或sapply()函数计算所选择的任意描述性统计量
函数fivenum()可返回图基五数总括(Tukey’s five-number summary,即最小值、下四分位数、中位数、上四分位数和最大值)
Hmisc包中的describe()函数计算描述性统计量
stat.desc()函数计算描述性统计量
psych包中的describe()计算描述性统计量
2)分组计算描述性统计量
aggregate()函数来分组获取描述性统计量
by()函数可以返回若干个统计量
function(x)(c(mean=mean(x),sd=sd(x)))自定义函数
doBy包中的summaryBy()分组计算概述统计量
reshape包分组计算概述统计量
二、频数表和列联表
1)生成频数表
a.一维列表
table()函数
b.二维列表
①格式是table(A,B)
②xtabs()函数还可使用公式风格的输入创建列联表
addmargins()函数为这些表格添加边际和
③gmodels包中的CrossTable()函数是创建二维列联表的第三种方法
c.多维列联表
ftable()函数
2)独立性检验
方法:
①卡方独立性检验
chisq.test()函数对二维表的行变量和列变量进行卡方独立性检验
②Fisher精确检验
fisher.test()函数进行Fisher精确检验
注:fisher.test()函数可以在任意行列数大于等于2的二维 列联表上使用,但不能用于2×2的列联表
③Cochran-Mantel—Haenszel检验
3)相关性的度量
assocstats()函数可以用来计算二维列联表的phi系数、列联系数和Cramer’s V系数
4)将表转换为扁平格式
table2flat将表转换为扁平格式
三、相关
相关系数可以用来描述定量变量之间的关系
①包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、多分格(polychoric)相关系数和多系列(polyserial)相关系数
Pearson积差相关系数衡量了两个定量变量之间的线性相关程度
Spearman等级相关系数则衡量分级定序变量之间的相关程度
Kendall’s Tau相关系数也是一种非参数的等级相关度量
cor(x,use=,method=)函数可以计算这三种相关系数
②偏相关
偏相关是指在控制一个或多个定量变量时,另外两个定量变量之间的相互关系
pcor()函数计算偏相关系数
3)相关性的显著性检验
cor.test()函数对单个的Pearson、Spearman和Kendall相关系数进行检验
corr.test计算相关矩阵并进行显著性检验
四、t 检验(比较两种效果那个更好,有点像A/B测试)
1)独立样本的t检验
t.test(y~x,data)y是一个数值型变量,x是一个二分变量
2)非独立样本的t检验
t.test(y1,y2,paired=TRUE)
3)多于两组的情况
使用方差分析(ANOVA)
五、组间差异的非参数检验
1)两组的比较
可以使用Wilcoxon秩和检验
wilcol.test(y~x,data)
2)多于两组的比较
Kruskal—Wallis检验
Kruskal.test(y~A丨B,data)