第八讲 统计量、抽样分布
一、考试要求
1.掌握统计量的概念
2.掌握样本均值和样本中位数概念及其计算方法
3.掌握样本极差、样本方差、样本标准差和样本变异系数概念及计算方法
4.熟悉抽样分布概念
5.熟悉t分布、 分布和F分布的由来
二、内容讲解
第三节 统计基础知识(续)
三、统计量
(一)统计量的概念
样本来自总体,因此样本中包含了有关总体的丰富信息。但是不经加工的信息是零散的,为了把这些零散的信息集中起来反映总体的特征,需要对样本进行加工,图与表是对样本进行加工的一种有效方法,另一种有效的办法就是构造样本的函数,不同的函数反映总体的不同的特征。
不含未知参数的样本函数称为统计量。
[例1.3-5] 从均值为 ,方差为 的总体中抽得一个样本量为n的样本 ,其中 与 均未知。
那么 ,max{ }是统计量,而 , 都不是统计量。。
根据统计量的定义可以构造各种用途的统计量。其中有一部分是常用统计量,下面介绍描述样本集中位置与样本分散程度两类常用统计量。
(二)描述样本集中位置的统计量
对一组样本数据,可以用一些量来表示它们的集中位置。这些量中,常用的有样本均值、样本中位数和样本众数。
(1)样本均值
样本均值也称样本平均数,记为 ,它是样本数据 的算术平均数:
(1.3-1)
[例1.3-6] 轴直径的一个n=5的样本观测值(单位:cm)为:15.09,15.29,15.15,15.07,15.21,则样本均值为:
对于n较大的分组数据,可利用将每组的组中值 用频率 加权计算近似的样本均值:
(1.3-2)
[例1.3-7] 在例1.3-3中,100个罐头的净量的均值按分组计算为:
样本均值是使用最为广泛的反映数据集中位置的度量。它的计算比较简单,但缺点是它受极端值的影响比较大。
2)样本中位数
样本中位数是表示数据集中位置的另一种重要的度量,用符号 或 表示。在确定样本中位数时,需要将所有样本数据按其数值大小从小到大重新排列成以下的有序样本:
其中: 分别是数据的最小值与最大值。
样本中位数定义为有序样本中位置居于中间的数值,具体地说:
(1.3-3)
与均值相比,中位数不受极端值的影响。因此在某些场合,中位数比均值更能代表一组数据的中心位置。
[例1.3-8] 对例1.3-6中的5个轴直径数据进行按从小到大的重新排序,得到如下有序样本:
15.07,15.09,15.15,15.2l,15.29
这里n=5为奇数,(n+1)/2=3,因而样本中位数Me= =15.15。
注意,在此例中,中位数15.15与均值15.162很接近。
(3)样本众数
样本众数是样本数据中出现频率最高的值,常记为Mod。例如对例1.3-3中的罐头净量,100个数据中,344出现的次数最多,为12次,因此Mod=344。样本众数的主要缺点是受数据的随机性影响比较大,有时也不惟一。当n大时,较多地采用分组数据。在本例中第5组(343.5,346.5)的频率为0.30(见表1.3-3),是所有组中最高的,因而该组的组中值345可以作为众数的估计,注意到该数与前面定的344相差不大。
(三)描述样本分散程度的统计量
一组数据内部总是有差别的,对一组质量特性数据,大小的差异反映质量的波动。也有一些用来表示数据内部差异或分散程度的量,其中常用的有样本极差、样本方差、样本标准差和样本变异系数。
(1)样本极差
样本极差,就是样本数据中最大值与最小值之差,用R表示。对于有序样本,极差R为:
R= (1.3-4)
例如在例1.3-6,5个轴直径数据的极差R=15.29-15.07=0.22。
样本极差只利用了数据中两个极端值,因此它对数据信息的利用不够充分,极差常用于n不大的情况。
(2)样本方差与样本标准差
数据的分散程度可以用每个数据 偏离其均值 的差 来表示, 称为 的离差。对离差不能直接取平均,因为离差有正有负,取平均会正负相抵,无法反映分散的真实情况。当然可以先将其取绝对值,再进行平均,这就是平均绝对差:
(1.3-5)
但是由于对绝对值的研究较为困难,因此平均绝对差使用并不广泛。使用最为广泛的是用离差平方来代替离差的绝列值,因而数据的总波动用离差平方和
来表示,样本方差定义为离差平方和除以n-1,用 表示:
(1.3-6)
因为n个离差的总和必为0,所以对于n个独立数据,独立的离差个数只有n-1个,称n-1为离差平方和的自由度,因此样本方差是用n-1而不是用n除离差平方和。
样本方差的正算术平方根称为样本标准差,即:
(1.3-7)
注意标准差的量纲与数据的量纲一致,所以它使用频繁,但其计算一般通过先计算样本方差 获得。
在具体计算时,离差平方和也可用以下两个简便的公式:
来源:考试网-质量工程师考试