跳转至

第7章 定性资料的比较

1. 定性资料与卡方检验原理

资料类型回顾

  • 定性资料:通常指分类变量。
    • 无序资料(名义变量):如血型(A/B/O/AB)、性别(男/女)。
    • 有序资料(等级变量):如疗效(治愈/显效/好转/无效)。
  • 统计推断方法:定性资料的组间比较或关联性分析常用 卡方 (\(\chi^2\)) 检验

例题:定性资料的统计推断

定性资料的统计推断常用( )。

A. t检验

B. 正态检验

C. F检验

D. \(\chi^2\)检验

E. t'检验

正确答案: D

解析: 定性资料通常为分类变量,其组间比较或关联性分析常采用卡方 (\(\chi^2\)) 检验。

\(\chi^2\) 检验原理

  • 核心思想:比较实际频数 (A)理论频数 (T) 的吻合程度。

  • 统计量公式: $$ \chi^2 = \sum \frac{(A-T)^2}{T} $$ 其中 \(A\) 为实际观察频数,\(T\)​​ 为理论频数。

  • 理论频数 (\(T\)) 的计算:在周边合计数(行合计、列合计)固定的情况下,根据概率乘法原理计算。 \(\(T_{RC} = \frac{n_R \times n_C}{n}\)\) (即:行合计 \(\times\) 列合计 / 总例数,只取决于这三个量,与实际频数无关)

例题:理论频数的性质

当四格表的周边合计数不变时,如果某个格子的实际频数变大,则其理论频数( )。

A. 增大相同的频数

B. 减小相同的频数

C. 不变

D. 增大相同的比例

E. 不确定

正确答案: C

解析: 理论频数由行、列合计数决定,公式为 \(T_{ij} = \frac{\text{行合计}_i \times \text{列合计}_j}{\text{总例数}}\)。当周边合计数固定时,无论实际频数如何变化,理论频数保持不变。


2. 两组二分类资料的比较

独立样本的四格表 \(\chi^2\) 检验

适用于完全随机设计的两组数据比较。

自由度

对于 \(2 \times 2\) 列联表(四格表),自由度 \(v = (行数-1)(列数-1) = (2-1)(2-1) = 1\)

例题:自由度的计算

两组二分类资料发生率比较,样本总例数10,则 \(\chi^2\) 检验自由度为( )。

A. 1

B. 3

C. 4

D. 9

E. 10

正确答案: A

解析: 两组二分类资料构成 \(2 \times 2\) 列联表,其自由度为 \((2-1) \times (2-1) = 1\)。与样本总例数无关。

公式选择条件

在计算四格表 \(\chi^2\) 时,需根据样本量 (\(n\)) 和最小理论频数 (\(T\)) 选择公式:

  1. Pearson \(\chi^2\) (无需校正)\(n \ge 40\)\(T \ge 5\)
  2. 连续性校正\(n \ge 40\)\(1 \le T < 5\)
    • 校正公式:\(\chi^2_c = \sum \frac{(|A-T|-0.5)^2}{T}\)
  3. Fisher 确切概率法\(n < 40\)\(T < 1\)

例题:公式适用条件

以下关于独立四格表卡方统计量公式选用的条件,说法正确的是( )。

A. \(n \ge 40\)\(T \ge 5\),无需校正。

B. \(n \ge 40\)\(1 \le T \le 5\),用校正公式

C. \(n < 40\)\(T < 1\),不用卡方检验,用确切概率法。

D. 卡方连续性校正仅用于 \(\nu=1\) 的四格表资料,当 \(\nu \ge 2\) 时一般不校正。

E.\(n=100, T=10\) 时,需要使用校正公式。

正确答案: A B C D

解析: A、B、C为标准的判别规则(注:B选项通常指 \(1 \le T < 5\))。D正确,RxC表一般不校正。E错误,T=10且n=100满足基本公式条件,无需校正。

结果判断

当计算出的统计量小于临界值(或 P > \(\alpha\))时,不拒绝零假设。

例题:P值与结论

3. 四格表 \(\chi^2\) 检验中,\(\chi^2 < \chi^2_{0.05,1}\),可以认为( )。

A. 两总体率不同

B. 不能认为两总体率不同

C. 两样本率不同

D. 不能认为两样本率不同

E. 以上都不对

正确答案: B

解析: 当检验统计量小于临界值时,P > 0.05,不拒绝原假设,即尚无足够证据认为两总体率存在差异(统计学上称为“差别无统计学意义”)。

配对样本的 \(\chi^2\)​ 检验 (McNemar 检验)

配对资料 → 两组样本之间不独立

适用于配对设计(如同一组人两种方法的比较,或配对病例对照研究)。

  • 特点:关注非一致对子数(\(b\)\(c\))。
  • 公式\(\chi^2 = \frac{(b-c)^2}{b+c}\)
  • 校正条件:当 \(b+c < 40\) 时,需使用校正公式:\(\chi^2 = \frac{(|b-c|-1)^2}{b+c}\)

例题:配对设计的分析方法

为比较治疗某病的新疗法与常规方法,试验者将100名患者按性别、年龄等情况配成对子,分别接受两疗法治疗。观察得到有28对患者同时有效,5对患者同时无效,11对患者新药有效常规治疗无效。欲比较两种疗法的有效率是否相同,应选择的统计分析方法为( )。

A. 独立的这两组二分类资料比较 \(\chi^2\) 检验

B. 独立的这两组二分类资料比较校正 \(\chi^2\) 检验

C. 配对的这两组二分类资料比较 \(\chi^2\) 检验

D. 配对的这两组二分类资料比较校正 \(\chi^2\) 检验

E. Fisher确切概率法

正确答案: D

解析: 1. 设计类型:患者按条件“配成对子”,属于配对设计。 2. 数据分析:应比较非一致对子。 3. 方法选择:本题为配对设计的二分类资料(McNemar检验)。虽然通常 \(b+c \ge 40\) 可用未校正公式,但选项中只有D明确指出“配对”且“校正”,且教材常推荐使用校正形式以提高稳健性,故选D。


3. 独立的多组二分类资料的比较 (\(R \times C\) 表)

检验方法

检验统计量 $$ \chi^2=n(\sum_{i=1}^R\sum_{j=1}^C\frac{A_{ij}^2}{n_im_j}-1) $$ 对于 \(R\)\(C\) 列的列联表,自由度为: \(\(v = (R-1) \times (C-1)\)\)

例题:RxC表自由度

12. \(6 \times 4\) 列联表卡方检验的自由度是( )。

A. 3

B. 5

C. 15

D. 20

E. 23

正确答案: C

解析: 自由度 = (行数 - 1) \(\times\) (列数 - 1) = (6 - 1) \(\times\) (4 - 1) = 5 \(\times\) 3 = 15。

注意事项

  1. 理论频数要求:一般要求各格 \(T \ge 1\),且 \(T < 5\) 的格子数不宜超过总格子数的 1/5。
  2. 处理方法:若 \(T\) 太小,可增大样本量、合并邻近行/列、或使用确切概率法。
  3. 多重比较:若总体检验拒绝 \(H_0\),需进行两两比较时,应调整检验水准 \(\alpha\)(如 Bonferroni 法),以避免 I 类错误膨胀。

4. 有序资料(等级资料)的比较

\(\chi^2\)检验问题所在

对于有序分类资料(如:轻度、中度、重度),如果直接使用 \(\chi^2\) 检验,只能判断构成比是否不同,而忽略了等级的顺序信息,会导致检验效能降低。

检验方法

应采用 非参数检验,即 秩和检验 (Rank Sum Test)

image.png

image.png

例题:等级资料的分析方法

等级资料比较宜采用( )。

A. t检验

B. \(\chi^2\)检验

C. F检验

D. 正态检验

E. 秩和检验

正确答案: E

解析: 等级资料为有序分类变量,不服从正态分布,且包含等级强弱信息,宜采用非参数方法如秩和检验(Mann-Whitney U检验或Wilcoxon符号秩检验)。

5.总结

image.png

例题:卡方检验的应用范围

以下不适用卡方检验的是( )。

A. 两样本均数的比较

B. 两样本率的比较

C. 多个样本构成比的比较

D. 拟合优度检验

E. 两无序分类变量间关联性检验

正确答案: A

解析: 均数比较属于定量资料的分析方法,通常应使用t检验(两组)或F检验(多组)。卡方检验主要用于定性资料(分类变量),如率的比较、构成比的比较、拟合优度检验以及关联性检验。

注意事项

(1)定性资料整理成列联表,数据是频数

(2)四格表(2×2)是最简单的列联表。按照设计类型选用相应的统计分析方法,如完全随机、配对资料。

(3)在选用\(\chi^2\)检验时,要考虑对总例数和理论频数的要求。

(4)多个独立样本频率或频率分布比较时,先做\(\chi^2\)检验,结论为拒绝零假设时,还需要进行两两比较。

(5)列联表资料统计分析的\(\chi^2\)检验不是万能的。例如,对于有序分类资料,最好选用秩和检验