第3章参数估计

1. 概述

统计推断 (Statistical Inference)

统计推断是指根据统计量的抽样分布规律，由样本统计量推断总体参数的过程。它包含两个核心内容：

参数估计 (Parameter Estimation)：推断总体的数量特征（如均数、概率）。

假设检验 (Hypothesis Testing)：对总体的某种假设进行检验。

总体与样本的指标

总体参数：描述总体特征的指标，如总体均值 \(\mu\)、总体概率 \(\pi\)、总体标准差 \(\sigma\)。

样本统计量：描述样本特征的指标，如样本均值 \(\bar{X}\)、样本频率 \(p\)、样本标准差 \(S\)。

2.抽样分布与标准误

抽样分布 (Sampling Distribution)

从同一总体中，随机抽取相同含量的样本，由重复抽取的每一份样本可以计算获得每一个样本统计量（如样本均数）。

这些样本统计量（如 \(m\) 个样本均数）构成的分布称为样本均数的抽样分布。

样本均数的抽样分布

中心极限定理：当有足够的样本含量时，从任何总体中抽取随机样本的样本均数近似地服从正态分布。

分布特点：

各样本均数不一定等于总体均数。

各样本均数间存在差异。

分布中间多，两边少，左右基本对称。

变异范围较之原变量的变异范围大大缩小。

标准误 (Standard Error, SE)：

样本统计量的标准差，表示抽样误差大小的统计指标。

均数标准误计算公式：

\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)

若总体标准差未知，用样本标准差 \(S\) 估计：

\(S_{\bar{X}} = \frac{S}{\sqrt{n}}\)

例题：标准误的意义

（）小，表示用样本均数估计总体均数的精确度高。

A. CV

B. S

C. \(S_{\bar{X}}\)

D. R

E. 四分位数间距

正确答案: C

解析: \(S_{\bar{X}}\) 即均数的标准误，反映样本均数与总体均数的离散程度（抽样误差），值越小说明估计越精确。

两个样本均数之差的抽样分布

情形一：总体方差已知

若两个总体服从正态分布 \(X_1 \sim N(\mu_1, \sigma_1^2)\) 和 \(X_2 \sim N(\mu_2, \sigma_2^2)\)，则两个样本均数之差 \(\bar{X}_1 - \bar{X}_2\) 也服从正态分布。

均数：\(\mu_{\bar{X}_1 - \bar{X}_2} = \mu_1 - \mu_2\)

标准误：

\(\sigma_{\bar{X}_1 - \bar{X}_2} = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\)

情形二：总体方差未知

用样本方差估算标准误。

若方差不等 (\(\sigma_1^2 \neq \sigma_2^2\))：

\(S_{\bar{X}_1 - \bar{X}_2} = \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}\)

若方差相等 (\(\sigma_1^2 = \sigma_2^2\))：

需先计算合并标准差 \(S_c\)：

\(S_c = \sqrt{\frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{(n_1-1) + (n_2-1)}}\)

此时标准误为：

\(S_{\bar{X}_1 - \bar{X}_2} = S_c \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\)

样本频率的抽样分布

分布规律：

若总体成功概率为 \(\pi\)，样本成功频率为 \(p = X/n\)。

当 \(n\) 足够大时，\(p\) 的抽样分布接近正态分布。

均数：\(\mu_p = \pi\)

标准误：

理论值：\(\sigma_p = \sqrt{\frac{\pi(1-\pi)}{n}}\)

估计值（\(\pi\) 未知时）：\(S_p = \sqrt{\frac{p(1-p)}{n}}\)

例题：频率的标准误

样本频率与总体概率均已知时，计算样本频率的抽样误差的公式为（）。

A. \(\sqrt{\frac{p(1-p)}{n}}\)

B. \(\sqrt{\frac{p(1-p)}{n-1}}\)

C. \(\sqrt{\frac{\pi(1-\pi)}{n}}\)

D. \(\sqrt{\frac{\pi(1-\pi)}{n-1}}\)

E. \(\sqrt{\frac{\pi(1-\pi)}{n-2}}\)

正确答案: C

解析: 样本频率的抽样误差即标准误。若总体概率 \(\pi\) 已知，应使用理论公式 \(\sigma_p = \sqrt{\frac{\pi(1-\pi)}{n}}\)。

两个样本频率之差的抽样分布

对于两个二项分布样本频率差值 \(p_1 - p_2\)。

均数：\(\mu_{p_1 - p_2} = \pi_1 - \pi_2\)

标准误：

一般情况 (\(\pi_1 \neq \pi_2\))：

\(S_{p_1 - p_2} = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}\)

3.Z分布与t分布

Z分布 (标准正态分布)

如果随机变量 \(X\) 服从正态分布 \(N(\mu, \sigma^2)\)，则 \(Z = \frac{X - \mu}{\sigma}\) 服从标准正态分布 \(N(0, 1)\)。

对于样本均数：\(\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim Z\)。

t分布

当总体标准差 \(\sigma\) 未知时，用样本标准差 \(S\) 代替 \(\sigma\)，此时统计量服从 \(t\) 分布：

\(\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(\nu)\)，其中 \(\nu = n-1\) 为自由度。

图形特征：

单峰分布，以0为中心，左右对称。

自由度 \(\nu\) 越小，峰部越矮，尾部越高（数据越分散）。

当 \(\nu \to \infty\) 时，\(t\) 分布逼近 \(Z\) 分布（标准正态分布）。

例题：t分布的特征

关于以0为中心的t分布，错误的是（）。

A. t分布的概率密度图是一簇曲线

B. t分布的概率密度图是单峰分布

C. 当 \(\nu \to \infty\) 时，t分布 \(\to\) z分布

D. t分布的概率密度图以0为中心，左右对称

E. \(\nu\) 相同时，\(|t|\) 值越大，P值越大

正确答案: E

解析: t分布是单峰对称的。\(|t|\) 值越大，越靠近尾部，对应的尾部面积（概率P值）越小。

4.总体参数的估计

估计类型

点估计 (Point Estimation)：用样本统计量直接作为总体参数的估计值（如用 \(\bar{X}\) 估计 \(\mu\)）。缺点是无法反映抽样误差。

区间估计 (Interval Estimation)：结合样本统计量及其标准误，确定一个包含总体参数的区间（置信区间 CI）。

总体均数的置信区间

Z分布法：

适用条件：总体标准差 \(\sigma\) 已知，或样本量较大 (\(n>30\))。

双侧置信区间公式：

\(\bar{X} \pm Z_{\alpha/2} \sigma_{\bar{X}}\)

（若 \(\sigma\) 未知且 \(n\) 较大，可用 \(S_{\bar{X}}\) 近似）

t分布法：

适用条件：总体标准差 \(\sigma\) 未知，且 \(n\) 较小，数据服从正态分布。

双侧置信区间公式：

\(\bar{X} \pm t_{\alpha/2, \nu} S_{\bar{X}}\)

例题：均数的抽样误差

在已知均数为 \(\mu\)，标准差为 \(\sigma\) 的正态总体中随机抽样， \(|\bar{X}-\mu| > (\quad)\) 的概率为5%。

A. \(1.96\sigma\)

B. \(1.96\sigma_{\bar{X}}\)

C. \(t_{0.05/2, \nu}S\)

D. \(t_{0.05/2, \nu}S_{\bar{X}}\)

E. \(U_{0.05/2}\sigma\)

正确答案: B

解析: 95%的样本均数落在 \(\mu \pm 1.96\sigma_{\bar{X}}\) 范围内，因此落在该范围外的概率为5%。

两总体均数之差的置信区间

公式：

\((\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, \nu} S_{\bar{X}_1 - \bar{X}_2}\)

自由度 \(\nu\)：

若 \(\sigma_1^2 \neq \sigma_2^2\)：使用 Satterthwaite 近似公式计算 \(\nu\)。

若 \(\sigma_1^2 = \sigma_2^2\)：\(\nu = n_1 + n_2 - 2\)。

总体概率的置信区间

查表法：适用于 \(n \le 50\)。

正态近似法：

适用条件：\(n\) 较大 (\(>50\))，且 \(np\) 和 \(n(1-p)\) 均大于 5。

公式：

\(p \pm Z_{\alpha/2} S_p\)

其中 \(S_p = \sqrt{\frac{p(1-p)}{n}}\)

两总体概率之差的置信区间

适用条件：\(n_1, n_2\) 较大，且 \(n_1 p_1, n_1(1-p_1)\) 等均大于 5。

公式：

\((p_1 - p_2) \pm Z_{\alpha/2} S_{p_1 - p_2}\)

其中 \(S_{p_1 - p_2} = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}\)

置信区间的准确度和精确度

1.置信度(1－α)越大，～1，准确度越高，但不一定有用

2.精确度是置信区间的半宽度，越窄越好

3.抽样误差（标准误）一定时，准确度与精确度两者不可兼顾

4.增加样本含量n，可以降低抽样误差，从而提高参数估计的精确度

5.应用举例与辨析

置信区间vs参考值范围

维度	置信区间 (CI)	参考值范围 (Reference Range)
含义	估计总体参数（如总体均数）的波动范围	估计个体值（如大多数正常人）的波动范围
用途	统计推断，估计参数	统计描述，辅助诊断判断个体是否正常
计算依据	使用标准误 (\(S_{\bar{X}}\))	使用标准差 (\(S\))
公式(正态)	\(\bar{X} \pm t_{\alpha/2} S_{\bar{X}}\)	\(\bar{X} \pm 1.96S\) (95%)
宽度	随样本量 \(n\) 增大而变窄（更精确）	相对稳定，不随 \(n\) 增大而明显变窄

例题：公式辨析

某指标的均数为 \(\bar{X}\)，标准差为 \(S\)，由公式 \((\bar{X}-1.96S, \bar{X}+1.96S)\) 计算出来的区间常称为（）。

A. 99%参考值范围

B. 95%参考值范围

C. 99%置信区间

D. 95%置信区间

E. 90%置信区间

正确答案: B

解析: 公式中使用的是标准差 \(S\)，这是用于描述个体分布的参考值范围。系数1.96对应95%。

例题：置信区间的含义

95%置信区间的含义为（）。

A. 此区间包含总体参数的概率是95%

B. 此区间包含总体参数的可能性是95%

C. “此区间包含总体参数”这句话可信的程度是95%

D. 此区间包含样本统计量的概率是95%

E. 此区间包含样本统计量的可能性是95%

正确答案: C

解析: 置信区间是随机的，总体参数是固定的。95%是指如果重复抽样100次，平均有95次计算出的区间会包含总体参数，因此解释为“可信程度”最为准确。

统计推断的正确表述

案例辨析：

不能说“点估计值的95%置信区间”，应说“总体均数的95%置信区间”。

不能说“往年均数没落在置信区间内，所以有差异”，应说“置信区间没有覆盖（包括）往年均数，所以差异有统计学意义”。

例题：统计学意义的理解

两样本均数比较，其差别有统计学意义指的是（）。

A. 两总体均数的差别具有实际意义

B. 两样本均数的差别具有实际意义

C. 两样本和两总体均数的差别都具有实际意义

D. 有理由认为两总体均数有差别

E. 有理由认为两样本均数有差别

正确答案: D

解析: 统计推断是由样本推断总体，所以结论必须关于总体（排除E）。统计学意义（显著性）代表差别不是由随机误差造成的，但不代表有实际临床意义（排除A, B, C）。

偏态分布的处理

如果原始数据呈偏态分布，计算参考值范围时不能用正态分布法（\(\bar{X} \pm 1.96S\)），应使用百分位数法。但是，计算总体均数的置信区间时，如果样本量 \(n\) 足够大，根据中心极限定理，样本均数的分布近似正态，仍可用正态近似法或t分布法计算置信区间。

第3章 参数估计

1. 概述

统计推断 (Statistical Inference)

总体与样本的指标

2.抽样分布与标准误

抽样分布 (Sampling Distribution)

样本均数的抽样分布

两个样本均数之差的抽样分布

样本频率的抽样分布

两个样本频率之差的抽样分布

3.Z分布与t分布

Z分布 (标准正态分布)

t分布

4.总体参数的估计

估计类型

总体均数的置信区间

两总体均数之差的置信区间

总体概率的置信区间

两总体概率之差的置信区间

置信区间的准确度和精确度

5.应用举例与辨析

置信区间vs参考值范围

统计推断的正确表述

偏态分布的处理

第3章参数估计