第8章 关联性分析
1. 概述:关联性和依存性
在统计分析中,研究两个变量之间的关系主要分为两种类型:
- 关联性 (Association):
- 研究两个变量之间是否存在某种联系,以及联系的程度和方向。
- 两个变量均为随机变量,地位对等,不区分自变量和因变量。
- 依存性 (Dependence):
- 研究一个变量(自变量)的变化会在多大程度上引起另一个变量(因变量)的变化。
- 即回归分析(第9章内容)。
分析方法的选择
根据变量的数据类型,选择不同的分析指标:
- 定量变量(连续变量) \(\rightarrow\) 相关分析 (Correlation Analysis) \(\rightarrow\) 计算 相关系数 (Correlation Coefficient)。
- 定性变量(分类变量) \(\rightarrow\) 关联分析 (Association Analysis) \(\rightarrow\) 计算 关联系数 (Association Coefficient)。
2. 两个连续型随机变量间的相关分析
线性相关分析基础
- 目的:推断两个连续变量之间是否存在直线(线性)相关关系。
- 散点图 (Scatter Plot):
- 第一步:在进行任何相关计算前,必须先绘制散点图。
- 作用:直观判断是否存在相关趋势、是线性还是非线性、是否存在异常值(Outliers)。
- 类型:正相关、负相关、零相关、非线性相关。
相关系数 \(r\)
-
名称:相关系数、积矩相关系数、Pearson相关系数。
-
定义:用于说明具有直线关系的两个变量间相关关系的密切程度和方向。
-
符号:总体相关系数 \(\rho\),样本相关系数 \(r\)。
-
计算公式:
即:协方差 / 标准差的乘积
-
取值范围:\(-1 \le r \le 1\)。
- \(r > 0\):正相关。
- \(r < 0\):负相关。
- \(|r|\) 越接近 1,相关性越强;\(|r|\) 越接近 0,线性相关性越差。
-
适用条件:
- 两个变量均为随机变量。
- 两个变量服从双变量正态分布。
例题:积矩相关系数的要求
计算积矩相关系数要求( )。
A. \(X\)是正态变量,\(Y\)可以不满足正态的要求
B. \(Y\)是正态变量,\(X\)可以不满足正态的要求
C. 两变量都要求满足正态分布规律
D. 两变量只要是测量指标就行
E. \(X\)是定量指标,\(Y\)可以是任何类型的数据
正确答案: C
解析: Pearson积矩相关系数要求两变量均为服从双变量正态分布的定量变量。
相关系数的假设检验
相关系数也是一个统计量,由于样本存在抽样误差,计算出的 \(r \ne 0\) 并不代表总体相关系数 \(\rho \ne 0\),必须进行假设检验。
- 建立假设:
- \(H_0: \rho = 0\) (两变量间无线性相关关系)
- \(H_1: \rho \ne 0\) (两变量间有线性相关关系)
- 检验方法:t 检验
- 统计量:\(t = \frac{r}{\sqrt{\frac{1-r^2}{n-2}}}\)
- 自由度:\(\nu = n-2\)
- 结论判断:
- 若 \(P < \alpha\)(或 \(t > t_{\alpha/2, \nu}\)),拒绝 \(H_0\),认为两变量间存在线性相关关系。
例题:相关系数假设检验结论
对简单相关系数作假设检验,若 \(t > t_\nu\),统计结论为( )。
A. 两变量不相关
B. 两变量有线性关系
C. 两变量无线性关系
D. 两变量不会是曲线关系,一定是线性关系
E. 上述说法都不准确
正确答案: B
解析: 当检验统计量 \(t > t_\nu\) 时,拒绝原假设 \(H_0: \rho = 0\),说明两变量存在线性关系。注意:这并不排除两者同时存在非线性关系的可能性,也不代表“一定是”严格的线性关系,只是说明线性分量显著。
例题:P值含义
由样本算得相关系数 \(r\),检验结果为 \(P < 0.01\),说明( )。
A. 两变量之间有高度相关性
B. 来自高度相关的总体
C. 来自总体相关系数为0的总体
D. 来自总体相关系数不为0的总体
E. 来自总体相关系数大于0的总体
正确答案: D
解析: \(P < 0.01\) 表示在 \(\alpha = 0.01\) 水平下拒绝 \(H_0: \rho = 0\),说明样本来自总体相关系数不为0的总体(即存在统计学意义上的相关关系)。注意:P值大小反映的是拒绝零假设的理由强弱(统计学显著性),而不是相关程度的强弱(\(r\) 的大小才反映相关程度)。
Spearman 秩相关 (\(r_s\))
- 适用条件:
- 不满足正态分布。
- 总体分布类型未知。
- 原始数据是等级资料。
- 数据本身有不确定值(如 >65岁)。
- 方法:先将原始数据 \(X, Y\) 转换为秩次(编秩),然后计算秩次之间的 Pearson 相关系数,称为秩相关系数 (\(r_s\))。
注意事项
- 相关 \(\ne\) 因果:两变量相关可能只是伴随关系,未必有内在联系。
- 异常值影响:离群点对 Pearson 相关系数影响很大,需慎用。
- 人为选定变量:如果其中一个变量是人为选定的(非随机),不宜作相关分析(应作回归分析)。
3. 两个分类变量间的关联分析
基本原理
- 数据结构:交叉分类的列联表(Contingency Table)。
- 分析目的:判断两个分类属性之间是否相互独立。
- 统计方法:基于 \(\chi^2\) 检验(独立性检验)。
- \(H_0\):两种属性相互独立。
- \(H_1\):两种属性相互关联。
关联系数
\(\chi^2\) 值的大小受样本含量 \(n\) 的影响,不能直接用来比较关联程度。需计算关联系数(如 Pearson 列联系数):
例题:关联性分析指标
对两个分类变量的频数表资料作关联性分析,可用( )。
A. 积矩相关
B. 秩相关
C. 关联系数
D. 线性相关
E. 以上均可
正确答案: C
解析: 积矩相关用于定量正态数据,秩相关用于等级或非正态数据。对于分类变量(名义变量)的列联表资料,衡量其关联强度应计算关联系数(contingency coefficient, \(C\) 或 \(r\))。
具体类型的关联分析
交叉分类 \(2 \times 2\) 表
- 背景:一份样本,按两个属性分类。
- 步骤:
- 建立假设(独立 vs 关联)。
- 计算 \(\chi^2\) 值。
- 若 \(P < \alpha\)(拒绝独立假设),则计算关联系数 \(r\)。
\(2 \times 2\) 配对资料
- 区别:
- McNemar 检验(第7章):关注差异性(阳性率是否不同),只利用非一致对子(\(b, c\))。
- 关联性分析(第8章):关注一致性(两种方法结果是否相关),利用所有数据计算普通 \(\chi^2\) 和关联系数。
- 公式:关联分析使用 \(\chi^2 = \sum \frac{(A-T)^2}{T}\)(同独立样本公式),而非 McNemar 的 \(\frac{(b-c)^2}{b+c}\)。
多分类资料 (\(R \times C\))
- 方法:计算 \(\chi^2\) 统计量。
- 自由度:\(\nu = (R-1)(C-1)\)。
- 关联系数:\(r = \sqrt{\frac{\chi^2}{\chi^2 + n}}\)。
4.小结
