在现实生活中,经常需要预测一个变量的值,这通常依赖于另一个与之相关的变量。这种关系在统计学中被称为相关性,它是一种双变量统计,涉及到两个变量之间的相互作用。相关性分析是一种统计技术,用于分析两个或多个变量之间的关系。统计学家对“相关性”有不同的定义:
“相关性是两个或多个变量之间共同变化的分析”——A.M Tuttle;“相关性分析试图确定变量之间关系的密切程度”——Ya Lun Chou;“相关性分析涉及两个或多个变量之间的关联”——Simpson和Kafka。可以得出结论,任何两个变量之间的关联都被称为相关性。它是显示两个变量之间关系的数值度量。
相关性和因果关系是两个不同的概念。相关性是变量(X和Y)之间相互关系的数值度量,而因果关系则是指X是Y变化的原因,即Y的变化是X变化的结果。需要注意的是,如果X和Y相关,它们可能存在因果关系,也可能不存在;但如果X和Y存在因果关系,那么它们必定相关。
相关性可能由多种原因引起:1. 变量之间的相互依赖:两个变量可能相互影响,以至于不能将其中一个指定为原因,另一个为结果。例如,商品的价格受需求和供应的影响。2. 纯粹偶然:在小样本中,X和Y高度相关,但在总体中,X和Y并不相关。例如,个人收入与体重之间的相关性可能是由于样本波动或调查者选择样本的偏见造成的。这种关系被称为无意义或虚假关系。3. 由于第三个共同因素:两个相关变量可能受到一个或多个其他变量的影响。例如,茶叶和稻谷每公顷产量之间的相关性,它们并不直接相关,而是由于及时的降雨。
相关性的实用性包括:1. 对经济学家来说,研究变量之间的关系非常有用。2. 它有助于测量变量之间关系的密切程度。3. 还可以测试关系的显著性。4. 通过了解相关性,可以计算抽样误差。5. 它是回归研究的基础。6. 根据另一个变量估计一个变量的值。7. 它用于确定商业数据集之间的关系。
相关性可以分为几种类型:1. 正相关:当两个变量的值朝相同方向移动时,即一个变量的增加随后是另一个变量的增加,或一个变量的减少随后是另一个变量的减少,就被认为是正相关。两个变量X和Y朝相同方向移动。如果X上升,Y也上升,反之亦然。正相关的例子包括(a)年龄和收入,(b)降雨量和农作物产量。2. 负相关:当两个变量的值朝相反方向移动时,即一个变量的增加随后是另一个变量的减少,就被认为是负相关。两个变量X和Y朝相反方向移动。如果X上升,Y下降,反之亦然。负相关的例子包括(a)海拔高度和温度,(b)羊毛衣物销售和温度。
根据变化比例,相关性可以分为:1. 线性:如果一个变量的变化量与另一个变量的变化量保持恒定比例,那么相关性就被认为是线性的。例如,每当价格上涨10%,供应量就增加20%。2. 非线性:如果一个变量的变化量不与另一个变量的变化量保持恒定比例,那么它就被认为是非线性相关,也称为曲线相关。例如,每当价格上涨10%,供应量有时增加20%,有时增加10%,有时增加40%。
根据研究的变量数量,相关性可以分为:1. 简单相关:当只考虑两个变量(双变量分析)并检查这两个变量之间的相关性时,就被认为是简单相关。例如,价格和需求,身高和体重,收入和消费等。2. 多重相关:当同时考虑三个或更多变量的相关性时,就被称为多重相关。例如,当研究每公顷稻谷产量与降雨量和使用的肥料数量之间的关系时,以找出与稻谷产量的关系。3. 偏相关:当一个或多个变量保持不变,研究剩余变量之间的关系时,就被称为偏相关。在其他变量保持不变的情况下,研究两个变量之间的关系。例如,在恒定温度下,降雨量和稻谷产量之间的关系。
如何使用Python计算相关系数?步骤1:导入必要的依赖项。步骤2:使用Numpy计算皮尔逊相关系数。结论:Numpy的corrcoef()函数的输出是相关矩阵,其中对角线项给出了变量自身的相关性,非对角线项表示变量之间的相关性。这个矩阵是对称的。感谢阅读!
常见问题解答
Q1. 在机器学习中如何计算相关性?最常见的方法是皮尔逊相关系数,其范围从-1到1。正值表示正相关,负值表示负相关,0表示无相关性。