集中量数与差异量数
本章概览
- 集中量数:分布的中间位置的情况,也叫集中趋势,用来估计和预测总体的情况。
- 差异量数:描述数据分布的变异性,是对分布的延伸和聚集状态程度的定量化描述,用来衡量估计和预测的误差大小。
学习要点
- 学会计算均值,中数和众数;
- 学会计算标准差,四分位距和全距;
- 对于给定的分数分布,学会选用适宜的集中量数和差异量数。
集中量数
算术平均数、中数、众数
算术平均数 (mean) 是最常用的,也是最容易理解的一个集中量数指标,计算公式为:
考虑集中量数时,作为首选的集中量数,相比中数和众数,算数平均数的反应最灵敏、最客观且最具代表性。此外,算数平均数还可以进行代数运算,比如,每个观测量都加上一个常数时,算数平均数也会加上一个相同的常数;而每个观测量都乘上一个常数时,算数平均数也会乘上一个相同的常数。
不过,如果数据中存在极端值,那么算数平均数的代表性会受到一定影响。
中数 (median) 又被称为中位数,它将我们所研究的数据分为数目相等的两半,其中一半的值比它小,而另一半的值比它大。
如果数列的总个数
中数只和位置有关,所以对数据变动的反应不够灵敏,不过这恰好使它不易受到极端值的影响。而且中数也不能进行代数运算。
众数 (mode) 是指出现次数最多的那个数或类目,用
众数也不易受极端值的影响,但是代表性比中数还差,也不可以进行代数运算,因而应用较少。
分布的形状与集中量数
如果将大量数据画成光滑的次数分布曲线,则可以认为:
- 算术平均数是数据分布的重心或平衡点
- 中数正好把分布分成相等的两半
- 分布的最高点对应众数
正偏态分布中,算术平均数>中数>众数;负偏态分布中,算术平均数<中数<众数;分布对称时,三个值重合。
集中量数的比较
算数平均数
优点:
- 在计算算数平均数时将所有的数值都纳入了考虑范围,反应了分布的变异;
- 算数平均数可以进行代数运算;
- 算数平均数是三种集中量数中最灵敏、最客观且最具有代表性的。
缺点:
- 算数平均数的代表性会受到极端数值的影响。
中数
优点:
- 中数只和数据所处的位置有关,因此它不受极端数值的影响。
缺点:
- 由于只和位置有关,因此中数对数据变动的反应不够灵敏;
- 中数不能进行代数运算。
众数
优点:
- 众数相对来说比较直观,容易理解;
- 众数不受极端值影响;
- 在命名型的数据中,一般来说只能用众数。
缺点:
- 反应不够灵敏,代表性差于中数;
- 不能进行代数运算;
- 要求数据分布有明显中心。
差异量数
全距、标准差、四分位距
全距 (range)
- 定义:指分布分数最大值
的精确上限和分布分数最小值X的精确下限的差值,用符号 表示,又叫极差 - 例子:若X是离散型,
;若X是连续型, - 如果分数是连续型,必须用精确上下限;全距的代表性较差,只依据两个极端值。
标准差 (standard deviation)
- 定义:描述了分布中每一个个体与某一标准偏移的距离,这个标准就是均值
- 是最重要最常用的差异量数;包含所有的信息,代表性强。
离差 (Dispersion)
- 定义:某数据点到均值的距离,
- 离差由正负符号和数值组成,如果分数的值大于均值,离差是正数;如果分数的值小于均值,离差是负数;任何一个分布中所有个体的离差值之和必然为零。
- 定义:某数据点到均值的距离,
和方 (Sum of squares)
- 定义:
- 解决了正负符号的问题
- 定义:
总体的方差和标准差
- 定义:总体的方差是和方除以总体的容量,也被称为均方,总体方差
;总体的标准差是总体方差的平方根,总体标准差 。
- 定义:总体的方差是和方除以总体的容量,也被称为均方,总体方差
样本的方差和标准差
- 样本方差的分母是
,即 ,标准差 。 - 用
作分母是用自由度来校正样本离差,以利于对总体参数的无偏差估计
- 样本方差的分母是
标准差
- 拇指原则:对于对称分布,均值常常在分布的中点,标准差常常在全距的1/4左右
- 对分布中每一个分数加上一个常数不会改变其标准差
- 对分布中每一个分数乘上一个常数,所得分布的标准差是原分布的标准差乘上这个常数
四分位距 (interquartile range)
定义:数据中间50%数据的全距,
。 是第一四分位数或者下四分位数,即比 小的数据占数据总数的25%; 是第三四分位数或者上四分位数,即比 小的数据占数据总数的75%,四分位距就是指25%和75%之间的距离。 半四分位距又叫四分差,是四分位距的一半,即
。 四分位距不易受极端分数的影响,适用于有不确定值的数据,常常使用在用中数作为集中量数的情况下。
差异量数的比较
- 极端分数:全距受影响最大,四分位距受影响最小。
- 样本大小:全距可能随n增加而增加,四分位距和标准差不会。
- 样本选取:同一总体多次选取不同样本,全距没有稳定的值,但四分位距和标准差是稳定的。
- 当存在不确定值的分布时,全距和标准差无法求得,四分位距可求。
| 优点 | 缺点 | |
|---|---|---|
| 全距 | 1. 计算便捷 | 1. 样本稳定性差 2. 受极端数值的影响 3. 可能与样本量有关 |
| 四分差 | 1. 不易受极端分数的影响 2. 适用于有不确定值的数据 | 1. 在一定程度上样本稳定性差 |
| 标准差 | 1. 样本稳定性好 2. 包含最多的信息 | 1. 受极端数值的影响 |
芷沐沐