第4章 假设检验
1. 假设检验的概念和基本思想
假设检验的目标
在生物医学研究中,经常需要判断观察到的样本与总体之间,或者两个样本之间的数值差别是由什么原因引起的。
引起差别的原因通常有两种:
-
抽样误差所致:即来自同一个总体,差别仅仅是偶然的。
-
本质差别:即来自不同的总体,差别是客观存在的。
假设检验的目标就是利用随机变量的抽样分布规律,从有限的少量实验结果中,甄别引起数据之间差别的原因,作出具有一定置信度的统计推断。

基本思想
假设检验采用的是反证法的逻辑。
首先对总体的参数或分布作出某种假设(即无效假设 \(H_0\))。
然后,在 \(H_0\) 成立的前提下,计算出现目前样本数据以及更极端数据的概率(即 \(P\) 值)。
最后,利用概率值推断此假设是否应当被拒绝。
依据是小概率原理:小概率事件(\(P \le 0.05\))在一次随机试验中是不太可能发生的。如果发生了,就有理由怀疑原假设的真实性。
例题:统计学意义的理解
两样本均数比较,其差别有统计学意义指的是( )。
A. 两总体均数的差别具有实际意义
B. 两样本均数的差别具有实际意义
C. 两样本和两总体均数的差别都具有实际意义
D. 有理由认为两总体均数有差别
E. 有理由认为两样本均数有差别
正确答案: D
解析: 统计推断是由样本推断总体,所以结论必须关于总体(排除E)。统计学意义(显著性)代表差别不是由随机误差造成的,但不代表有实际临床意义(排除A, B, C)。
例题:假设检验的步骤
假设检验的步骤是( )。
A. 建立假设,选择和计算统计量,确定P值和判断结果
B. 建立无效假设,建立备择假设,确定检验水准
C. 确定单侧检验或双侧检验,选择t检验或Z检验,估计I类错误和Ⅱ类错误
D. 计算统计量,确定P值,作出推断结论
E. 以上都不对
正确答案: A
解析: 标准的假设检验步骤包括三个核心环节:(1)建立检验假设(\(H_0\) 与 \(H_1\))并确定检验水准;(2)选择适当的检验方法并计算检验统计量;(3)确定P值并作出推断结论。
2. 假设检验的步骤
第一步:建立检验假设并确定检验水准
零假设 (Null Hypothesis, \(H_0\)):即无效假设,通常假设差异是由抽样误差引起的,总体参数相等(如 \(\mu = \mu_0\))。
备择假设 (Alternative Hypothesis, \(H_1\)):即对立假设,假设总体参数之间存在本质差异(如 \(\mu \neq \mu_0\))。
\(H_1\) 分为双侧(\(\neq\))和单侧(\(<\) 或 \(>\))。
检验水准 (\(\alpha\)):即显著性水平,通常取 0.05 或 0.01。它是拒绝 \(H_0\) 的阈值。

第二步:选择检验方法,计算统计量
根据资料类型(定量/定性)、设计类型(单样本/两样本/配对)、数据分布特征(正态/非正态、方差齐/不齐)选择合适的统计量公式。
计算统计量(如 t 值、Z 值)对应的 P 值。
第三步:作出统计推断
P \(\le\) \(\alpha\):在 \(H_0\) 成立的前提下发生了小概率事件,拒绝 \(H_0\),接受 \(H_1\)。结论为“差异有统计学意义”。
P \(>\) \(\alpha\):在 \(H_0\) 成立的假设下发生较为可能的事件,没有充足的理由对 \(H_0\) 提出怀疑,不拒绝 \(H_0\)。结论为“差异无统计学意义”。
注意:不拒绝 \(H_0\) 不等于证实 \(H_0\) 是正确的,只是目前的证据不足以推翻它。
3. 单组样本资料的假设检验
单组样本均数
目的:推断样本所代表的总体均数 \(\mu\) 是否与已知的总体均数 \(\mu_0\) 相等。
Z检验:适用于总体标准差 \(\sigma\) 已知,或者大样本情况。
公式:\(Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}\)
t检验:适用于总体标准差 \(\sigma\) 未知,用样本标准差 \(S\) 代替,且样本来自正态总体。
公式:\(t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}}\),自由度 \(\nu = n - 1\)。
例题:单样本t检验结论
在单组样本均数与一个已知的总体均数比较的假设检验中,结果 \(t=3.24, t_{0.05,\nu}=2.086, t_{0.01,\nu}=2.845\) 正确的结论是( )。
A. 此样本均数与该已知总体均数不同
B. 此样本均数与该已知总体均数差异很大
C. 此样本均数所对应的总体均数与该已知总体均数差异很大
D. 此样本均数所对应的总体均数与该已知总体均数相同
E. 此样本均数所对应的总体均数与该已知总体均数不同
正确答案: E
解析: 因为 \(t=3.24 > t_{0.01,\nu}=2.845\),故在 \(\alpha=0.01\) 水准下拒绝 \(H_0\),说明样本所代表的总体均数与已知总体均数不同。统计推断的对象是总体,排除A、B。统计学差异不代表差异“很大”(实际意义),排除C。
例题:t统计量的意义
作单组样本均数与一个已知的总体均数比较的t检验时,正确的理解是( )。
A. 统计量越大,说明两总体均数差别越大
B. 统计量越大,说明两总体均数差别越小
C. 统计量越大,越有理由认为两总体均数不相等
D. P值就是t值
E. P值不是t值,且总是比t值小
正确答案: C
解析: t统计量的值越大,对应的P值越小,说明越小概率是偶然误差造成的,因此越有理由拒绝 \(H_0\),认为总体均数不相等。t值本身不直接代表差异的绝对大小(还需要考虑标准误)。
单组样本频率
目的:推断样本频率 \(p\) 所代表的总体概率 \(\pi\) 是否与已知总体概率 \(\pi_0\) 相等。
直接计算概率法:利用二项分布公式直接计算。
Z检验(正态近似法):适用于 \(n\) 较大,且 \(n\pi_0\) 和 \(n(1-\pi_0)\) 均大于 5 的情况。
公式:\(Z = \frac{p - \pi_0}{\sqrt{\pi_0(1-\pi_0)/n}}\)
4. 假设检验的两种错误
假设检验是依据样本信息作推断,结论具有概率性,因此可能犯错误。
I 型错误 (Type I Error)
定义:弃真错误。\(H_0\) 实际上是正确的,但检验结果拒绝了 \(H_0\)。
概率:犯 I 型错误的概率为 \(\alpha\)(即检验水准)。
控制:可以通过设定较小的 \(\alpha\)(如 0.01)来控制。
II 型错误 (Type II Error)
定义:纳伪错误。\(H_0\) 实际上是不正确的(\(H_1\) 成立),但检验结果不拒绝 \(H_0\)。
概率:犯 II 型错误的概率为 \(\beta\)。
检验功效 (Power):\(1 - \beta\)。表示当 \(H_1\) 成立时,正确地拒绝 \(H_0\) 的能力。

两类错误的关系
\(\alpha\) 和 \(\beta\) 是相互关联的。在样本量 \(n\) 确定的情况下,减小 \(\alpha\) 会导致 \(\beta\) 增大(反之亦然)。
要同时减小 \(\alpha\) 和 \(\beta\),唯一的办法是增加样本含量 \(n\)。

检验功效的影响因素
(1)总体参数间差异越大,检验功效越大
(2)标准误(标准差)越小,检验功效越大
(3)样本含量\(n\)越大,使得标准误越小,检验功效越大
(4)检验水平α设定值越大,检验功效越大
例题:两类错误的关系
样本均数比较作t检验时,分别取以下检验水准,以( )所取Ⅱ类错误最小。
A. \(\alpha=0.01\)
B. \(\alpha=0.02\)
C. \(\alpha=0.05\)
D. \(\alpha=0.10\)
E. \(\alpha=0.20\)
正确答案: E
解析: I类错误 (\(\alpha\)) 与 II类错误 (\(\beta\)) 呈反向变化关系。\(\alpha\) 越大,\(\beta\) 越小。在选项中,E选项的 \(\alpha=0.20\) 最大,因此对应的 \(\beta\) 最小。
例题:检验功效的影响因素
下列( )是检验功效的影响因素的是:
A. 总体标准差
B. 容许误差(均数差值 \(\delta\))
C. 样本含量
D. I类错误 (\(\alpha\))
E. 样本是奇数个还是偶数个
正确答案: A B C D
解析: 检验功效 (\(1-\beta\)) 受以下因素影响:1. 总体参数间的差异(\(\delta\)),差异越大功效越高;2. 总体标准差 (\(\sigma\)),越小功效越高;3. 样本含量 (\(n\)),越大功效越高;4. 检验水准 (\(\alpha\)),\(\alpha\) 设得越大,功效越高。
例题:错误类型的辨析
下列有关I型错误和Ⅱ型错误的叙述,说法正确的是( )。
A. 若“拒绝 \(H_0\)”,犯错误的可能性为 \(\beta\)
B. 若“接受 \(H_0\)”,不可能犯I型错误
C. 拒绝了实际成立的 \(H_0\) 所犯的错误为I型错误
D. 对同一资料,I型错误与Ⅱ型错误的概率大小没有联系
E. 若想同时减少I型错误与Ⅱ型错误的概率,只有减少样本含量
正确答案: C
解析: A错,拒绝 \(H_0\) 时可能犯 I 型错误(概率 \(\alpha\));B错,接受(不拒绝)\(H_0\) 时可能犯 II 型错误;D错,两者此消彼长;E错,应增加样本含量。
例题:正态性检验的错误
正态性检验,按 \(\alpha=0.10\) 检验水准,认为其总体服从正态分布,此时若推断有错,其错误的概率为( )。
A. 大于0.10
B. 等于0.10
C. 小于0.10
D. 等于 \(\beta\),而 \(\beta\) 未知
E. 等于 \(1-\beta\),而 \(\beta\) 未知
正确答案: D
解析: 正态性检验的 \(H_0\) 是“总体服从正态分布”。结论是“认为总体服从正态分布”,即不拒绝 \(H_0\)。此时如果推断错了(实际上不服从),犯的是 II 型错误,概率为 \(\beta\)。由于 \(\beta\) 取决于具体的备择假设分布,通常是未知的。
5. 案例辨析与注意事项
假设检验与置信区间的关系
联系:两者都是利用样本信息推断总体。置信区间也可以回答假设检验的问题(看区间是否包含 \(H_0\) 的值)。
区别: 假设检验推断的是“质”的不同(是否有差异),给出一个确切的概率值 P。 置信区间推断的是“量”的大小(参数的范围),不仅能判断统计学意义,还能提示实际专业意义(效应量大小)。
结论:两者结合使用,分析更完整。
例题:两样本抽样推断
甲、乙两人分别从同一随机数字表抽取30个(各取两位数字)随机数字作为两个样本,求得 \(\bar{X}_1\)、\(\bar{X}_2\),则理论上( )。
A. \(\bar{X}_1 = \bar{X}_2\)
B. \(S_1^2 = S_2^2\)
C. 由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括0
D. 作两样本均数比较的t检验,必然得出无统计学意义的结论
E. 作两样本方差比较的F检验,必然方差齐
正确答案: C
解析: 既然来自“同一”随机数字表,理论上两样本来自同一总体,总体均数差 \(\mu_1 - \mu_2 = 0\)。因此,样本均数之差的置信区间有 95% 的概率包含总体均数差(即 0)。D 选项错在“必然”,因为即使 \(H_0\) 成立,仍有 \(\alpha\)(如 0.05)的概率犯 I 型错误,得出有统计学意义的结论。
例题:差异大小的判断
两样本均数比较时,能用来说明两组总体均数间差别大小的是( )。
A. t值
B. P值
C. F值
D. 两总体均数之差的95%置信区间
E. 上述答案均不正确
正确答案: D
解析: t值和P值反映的是统计学上的显著性(是不是随机误差),受样本量影响很大,不能直接代表差异的程度。置信区间直接估计了参数差值的范围,能反映效应量(差别)的大小。
统计学意义 vs. 专业意义
统计学意义:\(P \le \alpha\),说明差异不太可能是随机误差造成的。
专业意义:差异的数值大小在临床或生物学上是否有价值。
统计学有意义不一定有专业意义(如样本量极大时,微小的差别也能得出 \(P < 0.05\))。
统计学无意义不一定无专业意义(可能是样本量太小,导致检验功效不足)。
结论表述
不能绝对化,不要用“肯定”、“一定”等词汇。
应给出具体的 P 值,而不是简单写 \(P < 0.05\)。