三 统计量与抽样分布
样本来自总体,因此样本中包含了有关总体的丰富信息,但是这些信息是零散的,为了把这些零散的信息集中起来反映总体的特征,我们取得样本之后,并不是直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,把样本中所包含的有关信息尽可能地集中起来,种有效的办法就是针对不同的问题,构造出样本的某种函数,这就是统计量。不同的函数可以反映总体的不同的特征。1统计量
把不含未知参数的样本函数称为统计量。一个统计量也是一个随机变量。
定义:设(X1,X2,…,Xn)为取自总体X的一个样本,g(X1,X2,…,Xn)为一个连续函数,如果这个函数中不包含任何未知参数,则称g(X1,X2,…,Xn)为一个统计量。
例如,设X~N(m ,s 2),其中m 已知,s 2未知,(X1,X2,…,Xn)为取自X的样本,则 是统计量, 不是统计量。
统计量是样本的函数,因而统计量是随机变量。
由统计量进行推断,便可获得对总体的认识,统计推断是数理统计的核心内容。
2抽样分布
统计量的分布称为抽样分布。
例5:从均值为 ,方差为 的总体中抽得一个样本量为n的样本 ,其中 与 均未知。
在此情形, 是统计量;而 , 都
不是统计量,因为后者包含 , 等未知参数。
3常用统计量
常用统计量可分为两类,一类用来描述样本的中心位置,另一类用来描述样本的分散程度。为此先介绍有序样本的概念,再引入几个常用统计量。
有序样本
设 是从总体X中随机抽取的样本,样本量为n,将它们的观测值从小到大排列为: ,这便是有序样本。其中 是样本中的最小观测值, 是样本中的最大观测值。
例6 从某种合金强度总体中随机抽取样本量为5的样本,记为 ,样本观测值为:140,150,155,130,145
解析:将它们从小到大排序后为:130,140,145,150,155,这便是有序样本,其中最小的观测值为 =30,最大的观测值为 =155。
(1)描述样本的中心位置的统计量
总体中每一个个体的取值尽管是有差异的,但是总有一个中心位置,如样本均值、样本中位数等。描述样本中心位置的统计量反映了总体的中心位置,常用的有以下几种:
①样本均值
样本观测值有大有小,样本均值大致处于样本的中间位置,它可以反映总体分布的均值。
例7 上例数据: ,样本观测值为:140,150,155,130,145。
样本均值为 =(140+150+155+130+145)/5=144。
对分组数据,样本均值的近似值为考试用书
其中 是分组数, 是第 组的组中值, 是第 组的频数, 。
例8 下表是经过整理的分组数据表,给出了110个电子元件的失效时间:
分组区间[0,400][400,800)[800,1200)[1200,1600)[1600, 2000)[2000,2400)
组中值xi2006001000140018002200
频数ni628372397
解析:
平均失效时间近似为:
= 1170.9
②样本中位数
中位数有时也记为Me。
当n为奇数
, 当n为偶数
例9 现有两组数据(已经排序):2,3,4,4,5,5,5,5,6,6,7,7,8
2,4,4,4,5,6,6,7,7,8,8,8,9,9
解析:
第一组共有13个数据,处于中间位置的是第7个数据,样本中位数即为 。
第二组共有14个数据,处于中间位置的是第7,8个数据,样本中位数即为 。
(3)描述样本数据分散程度的统计量
总体中各个个体的取值总是有差别的,因此样本的观测值也是有差异的,这种差异有大有小,反映样本数据的分散程度的统计量实际上反映了总体取值的分散程度,常用的有如下几种:
①样本极差:
例10 数据为 ,样本观测值为:140,150,155,130,145,那么将它们从小到大排序后为:130,140,145,150,155
解析:最小值为130,最大值为155,因此样本极差R=155-130=25
②样本方差:
同样,对分组数据来讲,样本方差的近似值为:
其中 表示第i组的组中值。
例11 数据为 ,样本观测值为:140,150,155,130,145
解析:
上式有两个简化的计算公式:
样本极差的计算十分简便,但对样本中的信息利用得也较少,而样本方差就能充分利用样本中的信息,因此在实际中样本方差比样本极差用得更广。
③样本标准差:
在上例中 。
在例8中,
样本标准差的意义:
样本方差尽管对数据的利用是充分的,但是方差的量纲(即数据的单位)是原始量纲的平方,例如样本观测值是长度,单位是“毫米”,而方差的单位是“平方毫米”,单位不同就不便于比较,而采用样本标准差就消除了单位的差异。
来源:考试网-质量工程师考试