统计的基本概念与计算
学习目标
1掌握总体、个体、样本及统计量的概念
2熟悉数据的整理方法
3掌握样本均值、中位数的概念与计算
4掌握样本极差、方差、标准差的概念与计算
一、总体和样本
定义 1 从全部对象中按一定方式抽取一部分对象的过程叫抽样。
要进行抽样的原因:
1.违背研究的本来目的。
2.客观上对全部对象进行观测或检验是根本不可能的。
3.对全部对象进行检测需要的成本很高,或者所需时间很长,或者两者兼而有之。
4.虽然根据抽样调查的数据来推断整体的情况必定带来误差,但在很多情况下,误差可以容忍。
定义 2 在统计学中,所考察对象的全体称为总体,而把组成总体的每个基本元素称为个体。
为了研究的方便,把所关心个体的某个数量指标称为个体,而相应的个体的集合称为总体,一般用随机变量X表示总体。
直观意义:
例如,一批灯泡是总体,其中的每个灯泡是个体;一个城市的人口是总体,这个城市的每个人是个体。
抽样的意义
人们从总体中抽取样本是为了认识总体。即从样本推断总体,如推断总体是什么分布?总体均值为多少?总体的标准差是多少?为了使此种统计推断有所依据,推断结果有效,由样本获得对总体的正确认识,需要对抽样方法有一定的要求。
如为了了解女性所占的比例,不能专门到坦克部队去取样,也不能专门到纺织厂去取样,而应当进行随机抽样。直观地讲就是抽样时,每个个体被抽到的可能性相同。
设抽取个体的次数为 ,用 表示第i次试验相应的随机变量,则共有n个随机变量,他们组成一个n维的随机向量 ,一般把这个随机向量 称作总体X的样本容量为n的样本,而把对应的抽样结果称作样本值,记为 。
定义 3记总体为X,总体的分布函数为 ,一个样本容量为 的样本 如果满足以下两个条件,则称为简单随机样本:
(1) 随机性。 与 具有相同的分布函数
(2) 独立性。 相互独立。
以后,我们把简单随机样本简称为样本。
类似地,获得简单随机样本的抽样方法称为简单随机抽样。
在实际抽样时,也应按此要求从总体中进行抽样。这样获得的样本能够很好地反映实际总体的状态。两个不同的总体,若是按随机性和独立性要求进行抽样,则机会大的地方(概率密度值大〉被抽到样本的个体就多;而机会少的地方(概率密度值小),被抽到样本的个体就少。分布愈分散,样本也就分散;分布愈集中,样本也相对集中。
抽样切忌受到干扰,特别是人为干扰。某些人为的倾向性会使所得样本不是简单随机样本,从而使最后的统计推断失效。
统计学主要的任务
简单地说,总体就是一个分布,不同总体有不同分布。统计学主要的任务就是:
研究总体是什么分布?
这个总体(分布)的均值、方差(或标准差)各是多少?
来源:考试大 例1 对某产品仅考察其合格与否,并记合格品为0,不合格品为1
分析:
总体={该产品的全体}={由0或1组成的一堆数}
若记1在总体中所占比例为P,则该总体可用如下二项分布b(1,P)(n=l的二项分布)表示:
X 0 1
P 1-P P
例2有两个工厂生产同一产品,甲厂的不合格品率P=0.01,乙厂的不合格品率P=0.08,甲乙两厂所生产的产品(即两个总体)分别用如下两个分布描述:
X甲 0 1
P 0.99 0.01
X乙 0 1
P 0.92 0.08
例3考察某橡胶件的抗张强度。它可用0到∞上的一个实数表示,这时总体可用区间[0,∞]上的一个概率分布表示。国内外橡胶业对其抗张强度有较多研究,认为橡胶件的抗张强度服从正态分布 ,该总体常称为正态总体。
例4例如某型号电视机的寿命全体所构成的总体就是一个偏态分布。
又如两个不同的正态总体混合也可以产生一个偏态总体。如将两位不同的操作工(或在不同机器上,或用不同原料,或不同转速等)生产的同一种零件混在一起,其质量特性常呈偏态分布,应该重视考察偏态分布产生的原因。
分析:用非对称分布(即偏态分布)描述的总体也是常见的。