推断性统计

如题所述

第1个回答  2022-07-11

eg: 我们要研究北京市人口年龄,我们随机抽取了200人,每天都抽取,抽取了一个月。
总体:包含所有的研究样本,在例子中就是所有北京人年龄
样本:在某天统计的200个人
样本容量:总体中抽取的所要考查的元素总称,即样本中个体
个体:某天抽取的某人都是分体

通过样本数据推断总体数量特征的方法,它是对样本数据进行描述的基础上,对统计总体的未知数量做出概率形式表述的推断

点估计就是拿样本统计量去代替总体参数
这里我们使用鸢尾花的花瓣平均长度来估计总体的均值

区间估计根据样本的统计量,计算出一个可能的区间和概率,表示总体的参数会有多少概率位于该区间。
区间估计指定的区间为置信区间,区间估计指定的概率我们称为置信度。
点估计与区间估计的区别为:点估计是使用一个值来代替总体参数值,而区间估计是使用一个置信区间与置信度,表示总体参数有多少可能会在该范围内

这样我们可以得出结论:

样本均值分布下的标准差我们称为标准误差

在正态分布中数据分布比例如下:

我们置信度度为0.95的置信区间就是以均值为中心,正负两倍标准差构成的区间则为置信区间。也就是说我们有95%的信心认为,总体的均值95%的概率会在置信区间之内。

一个案例来说明一下:
工厂抽取了100个螺丝,统计出半径均值为5.1mm,标准差为0.25mm,那么我们工厂所有螺丝的均值可能是多少呢?(95%的置信度)
5.1 加减 (0.25)/根号下100
为什么0.25还要除10,因为样本的标准差足够大,可视为样本的标准差为总体标准差

假设检验又称为显著性检验,通过样本的统计量来判断与总体的参数之间的差异。我们首先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设是否合理,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1,然后根据样本信息进行分析判断,来选择接受原假设还是备择假设。

假设检验用来检验样本的统计量与总体参数是否存在限制性差异。那么多少概率才算显著,这个概率值就是P-Value,这个概率就是支持原假设的概率,因为假设检验中,通常原假设为等值假设,因此P-Value也就代表样本统计量与总体参数无差异的概率,然后我们预先设定一个阈值,这个阈值就是显著性水平α,通常α为0.05,1-α则为置信度。 当P-Value的值大于α时,支持原假设,否则拒绝原假设

Z检验用于判别样本均值是否与总体均值具有显著性差异,Z检验是通过正态分布的理论来推断差异发生于:

t检验与z检验类似,用来判断样本均值是否与总体均值具有显著性差异。不过t检验是基于t分布的,t检验适用于:

不过随着样本容量的增大t分布逐渐接近正态分布,此时就近似于z检验了。

相似回答