跳转至

第1章 统计描述

1. 概述

统计分析的组成

统计分析主要包含两个部分

统计描述:利用统计指标和统计图表描述样本资料的分布规律及其数量特征。

统计推断:利用样本信息推断总体特征。

本章重点在于如何从数据中提取信息,通过指标和图表进行表达。

2. 定量资料的统计描述

定量资料的描述主要通过频率表、直方图以及各类统计指标来进行。

频率表与直方图

频率表用于考察资料的分布形状。制作步骤包括求全距、确定组距、划分组段、统计频数

频率表

image.png

直方图

image.png

直方图的3种纵坐标

频数(组距中的个体数)

频率(个体数/总体数,即百分比)

频率密度(频率/组距)

组段的划分原则

组段通常取10-15组。

组段必须连续且不重叠。

通常采用“左闭右开”区间(\(L \le X < U\))或特定精度下的互斥区间。

例题:频率表的编制

编制频数表时错误的作法是( )。

A. 用最大值减去最小值求全距

B. 组距常取等组距,一般分为10~15组

C. 第一个组段须包括最小值

D. 最后一个组段须包括最大值

E. 写组段,如“1.5~3,3~5,5~6.5,…”

正确答案: E

解析: 编制频数表时,组段应连续且不重叠,通常采用“下限≤x<上限”的形式(如“1.5~<3.0”)。选项E中“3”同时出现在两个组段(“1.5~3”和“3~5”),造成边界重复,易引起归类混乱。

用途

(1)考察资料的分布特性和类型

如:对称分布、偏峰分布

(2)描述频数分布的特征量

如:变异范围(全距)、数据集中的部位等

(3)便于发现一些特大或特小的可疑值

(4)便于进一步做统计分析和处理

统计描述指标

image.png

集中趋势指标 (Average Level)

描述一组变量值的集中位置或平均水平。

算术均数 (Arithmetic Mean)

定义:所有观察值之和除以观察值个数,符号为 \(\bar{X}\)(样本)或 \(\mu\)(总体)。

适用条件单峰对称分布,特别是正态分布资料。

几何均数 (Geometric Mean)

定义:n个变量值乘积的n次方根,符号为 \(G\)

适用条件等比级数资料,或经对数转换后呈对称分布的资料(如抗体滴度、细菌计数等)。

例题:几何均数的应用

以下哪种资料最适合用几何均数描述其平均水平?

A. 某地100名新生儿的出生体重(kg)

B. 某班级学生期末考试成绩

C. 某人群血清抗体滴度数据

D. 住院天数(天)

E. 某地区每日门诊量

正确答案: C

解析: 几何均数适用于等比资料或对数转换后呈对称分布的资料,如抗体滴度、细菌浓度等。

中位数 (Median)

定义:将一组数值从小到大排列后,位次居中的数值,符号为 \(M\)

特点:不受极端值影响。

适用条件偏态分布资料、一端或两端无确切数值(开口资料)、分布类型不明的资料。

例题:偏态分布的描述

描述一组负偏峰分布资料的平均水平时,适宜的统计量是( )。

A. 中位数

B. 几何均数

C. 调和均数

D. 算术均数

E. 众数

正确答案: A

解析: 负偏峰(左偏)分布中,数据左侧有长尾,算术均数受极端小值影响而小于中位数,此时中位数更能代表集中趋势,不受极端值干扰。

百分位数 (Percentile)

定义:将数据分为两部分,\(P_X\) 表示有 \(X\%\) 的变量值比它小。

常用指标\(P_{50}\) 即中位数;\(P_{25}\) 为下四分位数;\(P_{75}\) 为上四分位数。

离中趋势指标 (Variation)

描述变量值的变异程度或离散水平。

全距 (Range)

定义:最大值与最小值之差 (\(R = Max - Min\))。

缺点:仅利用了两个极端值的信息,不稳定。

四分位数间距 (IQR)

定义:上四分位数与下四分位数之差 (\(IQR = P_{75} - P_{25}\))。

意义:反映了中间50%数据的变异程度,比全距稳定。

适用偏态分布资料

例题:IQR的定义

关于四分位数间距(IQR),下列说法正确的是?

A. IQR = P90 – P10

B. IQR受极端值影响较大

C. IQR适用于描述对称分布资料的离散程度

D. IQR = P75 – P25,反映中间50%数据的变异

E. IQR的单位与原始数据不同

正确答案: D

方差 (Variance) 与标准差 (Standard Deviation)

方差:也称均方差,反映数据平均离散水平。

标准差 (S):方差的算术平方根,具有与原始数据相同的量纲。

意义:S 越小,说明数据越集中于均数附近,均数的代表性越好。

适用正态分布或近似正态分布资料

例题:均数与标准差的关系

均数和标准差S的关系是( )。

A. S越小,对样本中其他个体的代表性越好

B. S越大,对样本中其他个体的代表性越好

C. 均数越小,S越大

D. 均数越大,S越小

E. 均数必小于S

正确答案: A

解析: 标准差S反映数据围绕均数的离散程度。S越小,说明数据越集中于均数附近,均数对样本中其他个体的代表性越好。

变异系数 (Coefficient of Variation, CV)

定义:标准差与均数之比 (\(CV = S/\bar{X} \times 100\%\))。

特点:无量纲。

适用条件

比较不同量纲(单位)变量的变异程度(如身高 vs 体重)。

比较均数相差较大的同一指标的变异程度(如儿童身高 vs 成人身高)。

例题:变异程度的比较

比较5年级小学生瞳距和他们坐高的变异程度,宜采用( )。

A. 变异系数

B. 全距

C. 标准差

D. 四分位数间距

E. 百分位数P2.5与P97.5的间距

正确答案: A

解析: 瞳距与坐高单位相同但均值差异较大,或者即使单位不同,比较不同量纲或均值相差较大的变量的变异程度时,应使用无量纲的变异系数。

例题:标准差与CV的区别

标准差与变异系数的主要区别在于?

A. 标准差有单位,变异系数无单位

B. 标准差适用于偏态分布,变异系数适用于正态分布

C. 变异系数总是小于标准差

D. 标准差可用于定性资料,变异系数不能

E. 两者计算方法完全相同

正确答案: A

解析: 变异系数是标准差与均数之比,消除了量纲。

例题:离中趋势指标汇总

以下表示离中趋势的是:

A. 全距

B. 四分位数间距

C. 方差

D. 标准差

E. 变异系数

正确答案: A B C D E

分布趋势指标

偏度 (Skewness)

描述分布不对称的方向和程度。数据相对于平均值的不对称变化程度

正偏态 (Positive Skew):长尾向右(大数值方向),Mean > Median。

负偏态 (Negative Skew):长尾向左(小数值方向),Mean < Median。

正态分布:偏度 = 0。

公式:\(\frac{m_3}{s^3}\)\(m_3\)为三阶中心矩

image.png

峰度 (Kurtosis)

描述分布的陡峭或平坦程度。数据分布高耸程度的衡量指标

正态分布:峰度 = 3 (或 0,取决于算法定义)。

公式:\(\frac{m_4}{s^4}\)\(m_4\)​为四阶中心矩

image.png

3. 定性资料的统计描述

定性资料主要使用相对数指标进行描述。

常用相对数指标

频率 (Frequency)

定义:表示某一事件的发生率(如发病率、死亡率)。

公式\(\frac{\text{某事件发生的个体数}}{\text{可能发生某事件的个体总数}} \times K\)

特点:分子是分母的一部分,无量纲,取值 0-1。

例题:频率的计算

计算乙肝疫苗接种后血清抗-HBs的阳转率,分母为( )。

A. 阳转人数

B. 疫苗接种人数

C. 乙肝患者数

D. 乙肝病毒携带者数

E. 易感人数

正确答案: B

解析: 阳转率 =(接种后抗体阳转人数 / 接种疫苗总人数)×100%,分母应为实际接受疫苗接种的人数。

强度 (Intensity)

定义:单位时段内某事件的发生率,常带有时间单位(如人年)。

公式\(\frac{\text{某事件发生的个体数}}{\sum(\text{可能发生该事件的个体总数} \times \text{时间})} \times K\)

适用:大人群长时间随访资料,分母为“人时”或“人年”。

例题:强度指标的判断

某医院的院内感染率为5.2人/千人日,则这个相对数指标属于( )。

A. 频率

B. 频率分布

C. 强度

D. 相对比

E. 算术均数

正确答案: C

解析: 强度相对数表示单位时间、单位人群或单位暴露下的事件发生频率,具有“率”的性质,常带有时间或暴露单位(如人/千人日)。

相对比 (Relative Ratio)

定义:两个相关联的变量 A 与 B 之比 (\(A/B\))。

特点:A 与 B 互不包含,量纲可以不同。

例子:性别比、变异系数、相对危险度(RR)、比值比(OR)。

应用相对数的注意事项

使用相对数时需严谨,避免误用。

概念混淆:需区分频率、强度和相对比。

分母过小:样本量太小时,相对数波动大,宜直接用绝对数。

率的合并:观察单位数不等的几个率,不能直接相加求平均,应遵循“分子之和除以分母之和”的原则。

可比性:比较时需注意内部构成(如年龄结构)的影响,必要时进行标准化处理。

例题:相对数应用注意事项

应用相对数指标时,应该注意的是(可能出大题):

A. 防止概念混淆,相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于频率,强度,还是相对比等

B. 计算相对数时分母不宜过小,样本量较小时以直接报告绝对数为宜。

C. 观察单位数不等的几个相对数,不能直接相加求其平均水平。

D. 相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。

正确答案: A B C D

4. 统计图表的制作

统计表 (Statistical Table)

三线表:主要由顶线、底线、分隔线(纵标目下)组成。

image.png

制表原则

重点突出,一张表表达一个主题。

简单明了,不留空格,无数字用“—”表示,缺失用“…”表示。

注释放在表下方。

统计图 (Statistical Chart)

用几何图形形象化表达数据。

image.png

常用图形及其适用范围

图形 适用资料 特点/注意事项
条图 (Bar Chart) 组间数量对比 直条高度表示数量大小,纵轴必须从0开始
百分条图/饼图 构成比(频率分布) 面积或角度表示比例。
直方图 (Histogram) 定量变量的频率分布 面积表示频率,直条间无间隙。
线图 (Line Chart) 变量随时间或有序指标的变化 需用算术尺度坐标。
散点图 (Scatter Plot) 双变量间的相关关系
箱式图 (Box Plot) 定量变量的分布特征 箱式图用5个统计量反映数据的分布特性。展示5个统计量(Min, \(P_{25}\), \(P_{50}\), \(P_{75}\), Max),纵轴可不从0开始

例题:统计图坐标轴设置

纵坐标可以不从0开始的图形为( )。

A. 直方图

B. 单式条图

C. 复式条图

D. 箱式图

E. 以上均不可

正确答案: D

解析: 直方图、条图等用于表示绝对数量或频率的图形,纵轴必须从0开始,否则会误导视觉;而箱式图展示的是数据的分布特征(如中位数、四分位数、异常值),其纵轴反映的是数据的实际取值范围,可不从0开始。