相关性是一种统计量度,用于描述两个变量之间的相互关系,即它们是如何相互联系的。它描述了一个变量的变化对另一个变量的影响。如果两个变量同时增加或减少,则它们之间存在正相关;如果一个变量增加而另一个减少,则它们之间存在负相关;如果一个变量的变化对另一个变量没有影响,则它们之间存在零相关。相关性用于识别两个变量之间的线性关系的强度,用希腊字母ρ表示,并按照以下公式计算:
ρ(x, y) = cov(x, y) / (σx × σy)
# 加载数据集
data1 <- swiss
# 查看数据集的前四行
head(data1, 4)
# 使用ggplot2库创建散点图
library(ggplot2)
ggplot(data1, aes(x = Fertility, y = Infant.Mortality)) + geom_point() +
geom_smooth(method = "lm", se = TRUE, color = 'black')
# 测试假设(线性和正态性)
# 线性
# 从图中可以看出(真,关系是线性的)
# 正态性
shapiro.test(data1$Fertility)
shapiro.test(data1$Infant.Mortality)
# 相关系数
cor(data1$Fertility, data1$Infant.Mortality)
# 检查显著性
Tes <- cor.test(swiss$Fertility, swiss$Infant.Mortality, method = "pearson")
Tes