跳转至

第2章 概率分布

1. 引言

频率与概率

样本分布的描述:通常使用频率分布表和直方图来描述(第1章内容)。

总体分布的描述:通常使用概率(密度)分布来描述,包括正态分布、二项分布、Poisson分布等。

二者关系:随机变量的频率密度直方图近似反映概率密度分布。样本含量越大,频率密度直方图越接近概率密度分布。

image.png

2. 正态分布 (Normal Distribution)

概念与特征

定义:正态分布是自然界最常见的一种分布,测量误差、人体的尺寸、医学中的许多检测指标都近似服从正态分布。其概率密度函数(PDF)记作 \(X \sim N(\mu, \sigma^2)\)

图形特征

在横坐标上方呈钟型曲线,两端与X轴永不相交,且以 \(X=\mu\) 为对称轴,左右完全对称。

\(X=\mu\) 处,\(f(X)\) 取最大值。\(X\) 越远离 \(\mu\)\(f(X)\) 值越小。

image.png

两个参数的意义

位置参数 \(\mu\):决定曲线在X轴上的位置。若固定 \(\sigma\),改变 \(\mu\) 值,曲线沿着X轴平行移动,其形状不变。

形态参数 \(\sigma\):决定曲线的形态。若固定 \(\mu\)\(\sigma\) 越小,曲线越陡峭;\(\sigma\) 越大,曲线越平坦。

image.png

面积分布规律

X轴与正态曲线所夹面积恒等于1(即100%)。

区间 \(\mu \pm 1\sigma\) 的面积约为 68.2%。

区间 \(\mu \pm 1.96\sigma\) 的面积约为 95%。

区间 \(\mu \pm 2.58\sigma\) 的面积约为 99%。

区间 \(\mu \pm 1.64\sigma\) 的面积约为 90%。

例题:正态分布面积规律

某资料的观察值呈正态分布,理论上有( )的观察值落在 \(\bar{X} \pm 1.96S\) 范围内。

A. 68.27%

B. 90%

C. 95%

D. 99%

E. 45%

正确答案: C

解析: 正态分布中,约95%的观察值落在 \(\bar{X} \pm 1.96S\) 范围内。

例题:正态分布单侧面积

正态曲线下,从均数到+1.64\(\sigma\)的面积为( )。

A. 45%

B. 90%

C. 95%

D. 47.5%

E. 99%

正确答案: A

解析: 正态分布是对称的,\(\mu \pm 1.64\sigma\) 包含90%的面积,因此从均数(中心)到单侧+1.64\(\sigma\)的面积为90%的一半,即45%。

标准正态分布

定义:均数 \(\mu=0\) 且标准差 \(\sigma=1\) 的分布称为标准正态分布,记作 \(N(0,1)\)

标准化变换:通过变量变换 \(Z = \frac{X-\mu}{\sigma}\),可以将任意正态分布转化为标准正态分布。

累积分布函数 (CDF):表示区间 \((-\infty, x)\) 内的累积概率,即曲线下方的面积。

正态分布变量的性质

正态分布变量之和、之差都仍然服从正态分布。

均数为两者之和或之差:\(E(X_1 \pm X_2) = \mu_1 \pm \mu_2\)

方差总是两者之和:\(Var(X_1 \pm X_2) = \sigma_1^2 + \sigma_2^2\)

正态分布的应用

制定医学参考值范围

定义:指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。

制定方法

正态分布法(双侧)

适用于正态分布资料。双侧95%参考值范围为 \(\bar{X} \pm 1.96S\)​。

因血红蛋白过高、过低均为异常。所以按双侧估计95%医学参考值范围。

百分位数法

适用于任何分布型的资料,特别是偏态分布。双侧95%参考值范围取 \(P_{2.5} \sim P_{97.5}\)​。

双侧95%参考值范围:(P2.5, P97.5)如:白细胞数无论过低或过高均属异常

单侧范围:P95以下,如血铅、血清转氨酶仅过高异常 ,或P5以上,如肺活量仅过低异常

例题:偏态分布参考值制定

在制定医学参考值范围时,若资料呈明显偏态分布,应优先采用哪种方法?

A. 均数±1.96标准差

B. 均数±2.58标准差

C. 百分位数法

D. 几何均数法

E. 中位数±四分位间距

正确答案: C

解析: 百分位数法适用于任何分布,尤其适用于偏态资料;正态分布法仅适用于近似正态分布资料。

例题:对数正态分布参考值

若正常人的血铅含量X近似服从对数正态分布,则制定X的95%参考值范围,最好采用(其中Y=lgX,Sy为Y的标准差)( )。

A. \(\bar{X} \pm 1.96S\)

B. \(P_{2.5} \sim P_{97.5}\)

C. \(lg^{-1}(\bar{Y} + 1.64S_Y)\)

D. \(lg^{-1}(\bar{Y} + 1.96S_Y)\)

E. \(P_5 \sim P_{95}\)

正确答案: C

解析: 血铅含量通常仅过高为异常,故应制定单侧上限(P95)。对于对数正态分布,先取对数转化为正态分布Y,计算单侧95%上限 \(\bar{Y} + 1.64S_Y\),再取反对数还原。

质量控制

原理:如果测量误差仅由随机误差引起,测量数据的波动应服从正态分布。

控制图:利用 \(\bar{X} \pm 3S\) 作为上、下控制限,\(\bar{X} \pm 2S\) 作为上、下警戒限。

统计方法的理论基础

许多统计方法(如t检验、方差分析)要求资料服从正态分布。对属于非正态分布的资料,要先进行变量变换。

有些统计量的分布(如t分布、\(\chi^2\) 分布、F分布等)都是在正态分布的基础上推演出来的。

二项分布和Poisson分布在样本量大时近似正态分布。

3. 二项分布 (Binomial Distribution)

定义与概率

伯努利试验:对于任意一次试验,如果只有事件A发生和不发生两种结果,概率分别为 \(\pi\)\(1-\pi\)

定义:在相同条件下进行 \(n\) 次独立重复试验,事件发生的次数 \(X\) 服从二项分布,记做 \(X \sim B(n, \pi)\)

概率公式\(P(X=k) = C_n^k \pi^k (1-\pi)^{n-k}\)

分布特征

均数与标准差

总体均数 \(\mu = n\pi\)

总体方差 \(\sigma^2 = n\pi(1-\pi)\)

总体标准差 \(\sigma = \sqrt{n\pi(1-\pi)}\)

图形形状

决定图形的两个参数是 \(n\)\(\pi\)

\(\pi=0.5\) 时,图形对称。

\(\pi \ne 0.5\)\(n\) 较小时,图形呈偏态。

中心极限定理

\(n\) 较大,且 \(n\pi\)\(n(1-\pi)\) 均大于5时,二项分布接近正态分布。

例题:二项分布的对称性

在样本例数不变的情况下,若( ),则二项分布越接近对称分布。

A. 总体率越大

B. 样本率p越大

C. 总体率越小

D. 总体率越接近0.5

E. 总体率接近0.1或0.5

正确答案: D

解析: 二项分布中,当总体率 \(\pi\) 越接近0.5时,分布越接近对称分布。

应用条件与实例

应用条件

1.各观察单位仅具有相互对立的两种结果。

2.已知某一结果的概率为 \(\pi\),且固定不变。

3.\(n\)个观察单位的观察结果相互独立。

生物医学应用:例如细胞膜上单离子通道电流的检测(利用二项分布均值和方差的关系进行噪声分析)。

4. 泊松分布 (Poisson Distribution)

定义与特征

定义:描述单位时间、单位面积或单位空间中罕见事件(Rare events)发生数的分布规律。可以看作是二项分布在 \(n \to \infty, \pi \to 0\) 时的极限

概率公式\(P(X=k) = \frac{\mu^k}{k!}e^{-\mu}\),记为 \(X \sim \Pi(\mu)\)

参数特征

\(\mu\) 是Poisson分布的唯一参数,即总体均数。

总体均数等于总体方差\(\mu = \sigma^2\)

例题:Poisson分布参数关系

Poisson 分布的均数 \(\lambda\)(即 \(\mu\))与标准差的关系是( )。

A. \(\lambda = \sigma\)

B. \(\lambda < \sigma\)

C. \(\lambda > \sigma\)

D. \(\lambda = \sqrt{\sigma}\)

E. \(\lambda = \sigma^2\)

正确答案: E

解析: Poisson分布的均数等于方差 (\(\sigma^2\)),即 \(\lambda = \sigma^2\)

分布图形与可加性

图形:随着 \(\mu\) 增大,分布趋于对称;当 \(\mu \ge 20\) 时,接近正态分布。

可加性:相互独立的Poisson分布变量之和仍服从Poisson分布。

(此处建议插入PPT中“不同均值下的Poisson分布图形”的图片)

例题:血小板计数

某实验室用显微镜计数血小板,每视野平均计数为3个。若要使计数结果近似服从正态分布,应采取什么措施?

A. 减少视野数量

B. 仅计数1个视野

C. 合并多个视野使总均数≥20

D. 使用二项分布建模

E. 改用中位数描述

正确答案: C

解析: Poisson分布在均数 \(\mu \ge 20\) 时近似正态分布。通过合并相互独立的观察单位(如多个视野),可以提高总均数,使其满足正态近似条件。

应用场景

Poisson分布常用于描述稀有事件的发生次数。例如:

1.放射性物质单位时间内的放射次数。

2.单位体积内粉尘或细菌的计数。

3.人群中患病率很低的非传染性疾病的患病数。

例题:稀有事件分布

铅作业工人周围血点彩红细胞在血片上的出现数近似服从( )。

A. 二项分布

B. 正态分布

C. 偏态分布

D. Poisson 分布

E. 对称分布

正确答案: D

解析: 铅作业工人血点彩红细胞出现数属于稀有事件(发生概率极低),近似服从Poisson分布。