跳转至

第8章 关联性分析

1. 概述:关联性和依存性

在统计分析中,研究两个变量之间的关系主要分为两种类型:

  1. 关联性 (Association)
    • 研究两个变量之间是否存在某种联系,以及联系的程度方向
    • 两个变量均为随机变量,地位对等,不区分自变量和因变量。
  2. 依存性 (Dependence)
    • 研究一个变量(自变量)的变化会在多大程度上引起另一个变量(因变量)的变化。
    • 回归分析(第9章内容)。

分析方法的选择

根据变量的数据类型,选择不同的分析指标:

  • 定量变量(连续变量) \(\rightarrow\) 相关分析 (Correlation Analysis) \(\rightarrow\) 计算 相关系数 (Correlation Coefficient)。
  • 定性变量(分类变量) \(\rightarrow\) 关联分析 (Association Analysis) \(\rightarrow\) 计算 关联系数 (Association Coefficient)。

2. 两个连续型随机变量间的相关分析

线性相关分析基础

  • 目的:推断两个连续变量之间是否存在直线(线性)相关关系。
  • 散点图 (Scatter Plot)
    • 第一步:在进行任何相关计算前,必须先绘制散点图
    • 作用:直观判断是否存在相关趋势、是线性还是非线性、是否存在异常值(Outliers)。
    • 类型:正相关、负相关、零相关、非线性相关。

相关系数 \(r\)​​

  • 名称:相关系数、积矩相关系数、Pearson相关系数。

  • 定义:用于说明具有直线关系的两个变量间相关关系的密切程度和方向。

  • 符号:总体相关系数 \(\rho\),样本相关系数 \(r\)

  • 计算公式

\[ r = \frac{\sum(X-\bar{X})(Y-\bar{Y})}{\sqrt{\sum(X-\bar{X})^2 \sum(Y-\bar{Y})^2}} \]

即:协方差 / 标准差的乘积

  • 取值范围\(-1 \le r \le 1\)

    • \(r > 0\):正相关。
    • \(r < 0\):负相关。
    • \(|r|\) 越接近 1,相关性越强;\(|r|\) 越接近 0,线性相关性越差。
  • 适用条件

    1. 两个变量均为随机变量
    2. 两个变量服从双变量正态分布

例题:积矩相关系数的要求

计算积矩相关系数要求( )。

A. \(X\)是正态变量,\(Y\)可以不满足正态的要求

B. \(Y\)是正态变量,\(X\)可以不满足正态的要求

C. 两变量都要求满足正态分布规律

D. 两变量只要是测量指标就行

E. \(X\)是定量指标,\(Y\)可以是任何类型的数据

正确答案: C

解析: Pearson积矩相关系数要求两变量均为服从双变量正态分布的定量变量。

相关系数的假设检验

相关系数也是一个统计量,由于样本存在抽样误差,计算出的 \(r \ne 0\) 并不代表总体相关系数 \(\rho \ne 0\),必须进行假设检验。

  • 建立假设
    • \(H_0: \rho = 0\) (两变量间无线性相关关系)
    • \(H_1: \rho \ne 0\) (两变量间有线性相关关系)
  • 检验方法t 检验
    • 统计量:\(t = \frac{r}{\sqrt{\frac{1-r^2}{n-2}}}\)
    • 自由度:\(\nu = n-2\)
  • 结论判断
    • \(P < \alpha\)(或 \(t > t_{\alpha/2, \nu}\)),拒绝 \(H_0\),认为两变量间存在线性相关关系。

例题:相关系数假设检验结论

对简单相关系数作假设检验,若 \(t > t_\nu\),统计结论为( )。

A. 两变量不相关

B. 两变量有线性关系

C. 两变量无线性关系

D. 两变量不会是曲线关系,一定是线性关系

E. 上述说法都不准确

正确答案: B

解析: 当检验统计量 \(t > t_\nu\) 时,拒绝原假设 \(H_0: \rho = 0\),说明两变量存在线性关系。注意:这并不排除两者同时存在非线性关系的可能性,也不代表“一定是”严格的线性关系,只是说明线性分量显著。

例题:P值含义

由样本算得相关系数 \(r\),检验结果为 \(P < 0.01\),说明( )。

A. 两变量之间有高度相关性

B. 来自高度相关的总体

C. 来自总体相关系数为0的总体

D. 来自总体相关系数不为0的总体

E. 来自总体相关系数大于0的总体

正确答案: D

解析: \(P < 0.01\) 表示在 \(\alpha = 0.01\) 水平下拒绝 \(H_0: \rho = 0\),说明样本来自总体相关系数不为0的总体(即存在统计学意义上的相关关系)。注意:P值大小反映的是拒绝零假设的理由强弱(统计学显著性),而不是相关程度的强弱(\(r\) 的大小才反映相关程度)。

Spearman 秩相关 (\(r_s\))

  • 适用条件
    1. 不满足正态分布。
    2. 总体分布类型未知。
    3. 原始数据是等级资料
    4. 数据本身有不确定值(如 >65岁)。
  • 方法:先将原始数据 \(X, Y\) 转换为秩次(编秩),然后计算秩次之间的 Pearson 相关系数,称为秩相关系数 (\(r_s\))

注意事项

  1. 相关 \(\ne\) 因果:两变量相关可能只是伴随关系,未必有内在联系。
  2. 异常值影响:离群点对 Pearson 相关系数影响很大,需慎用。
  3. 人为选定变量:如果其中一个变量是人为选定的(非随机),不宜作相关分析(应作回归分析)。

3. 两个分类变量间的关联分析

基本原理

  • 数据结构:交叉分类的列联表(Contingency Table)。
  • 分析目的:判断两个分类属性之间是否相互独立。
  • 统计方法:基于 \(\chi^2\) 检验(独立性检验)。
    • \(H_0\):两种属性相互独立。
    • \(H_1\):两种属性相互关联。

关联系数

\(\chi^2\) 值的大小受样本含量 \(n\) 的影响,不能直接用来比较关联程度。需计算关联系数(如 Pearson 列联系数):

\[r = \sqrt{\frac{\chi^2}{\chi^2 + n}}\]

例题:关联性分析指标

对两个分类变量的频数表资料作关联性分析,可用( )。

A. 积矩相关

B. 秩相关

C. 关联系数

D. 线性相关

E. 以上均可

正确答案: C

解析: 积矩相关用于定量正态数据,秩相关用于等级或非正态数据。对于分类变量(名义变量)的列联表资料,衡量其关联强度应计算关联系数(contingency coefficient, \(C\)\(r\))。

具体类型的关联分析

交叉分类 \(2 \times 2\)

  • 背景:一份样本,按两个属性分类。
  • 步骤
    1. 建立假设(独立 vs 关联)。
    2. 计算 \(\chi^2\) 值。
    3. \(P < \alpha\)(拒绝独立假设),则计算关联系数 \(r\)

\(2 \times 2\) 配对资料

  • 区别
    • McNemar 检验(第7章):关注差异性(阳性率是否不同),只利用非一致对子(\(b, c\))。
    • 关联性分析(第8章):关注一致性(两种方法结果是否相关),利用所有数据计算普通 \(\chi^2\)​ 和关联系数。
  • 公式:关联分析使用 \(\chi^2 = \sum \frac{(A-T)^2}{T}\)(同独立样本公式),而非 McNemar 的 \(\frac{(b-c)^2}{b+c}\)

多分类资料 (\(R \times C\))

  • 方法:计算 \(\chi^2\) 统计量。
  • 自由度\(\nu = (R-1)(C-1)\)
  • 关联系数\(r = \sqrt{\frac{\chi^2}{\chi^2 + n}}\)

4.小结

image.png