方差分析(analysis of variance)基本概念

如题所述

第1个回答  2022-06-10

方差分析(analysis of variance)用于研究一个或多个 分类型自变量 与一个 数值型因变量 的关系。
方差分析通过检验多个总体的均值是否相等来判断一个或多个分类型自变量对数值型因变量是否由显著影响。

当方差分析中只涉及一个分类型自变量时称为单因素方差分析。
1)对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。但是当每个水平对应的样本量较大时,对非正态性有一定容忍度。
2)因素的每一个水平,各个正态分布总体的方差σ 2 必须相等。当每个水平或分组对应的样本数量相等或相近时,ANOVA对方差相等的要求也不是特别敏感。
3)观测值是相互独立的。
**注意:当满足假设1),那么每个水平的均值[图片上传失败...(image-6be2de-1634719989509)]

也服从正态分布,当同时满足假设2),那么在进行方差分析时,原假设各水平均值相等,等价于假设这些水平的均值来源于同一个正态分布。这是构造检验统计量的基础。**

如果存在两个分类变量,需要分析是一个分类变量对因变量起作用,还是两个变量起作用,还是都不起作用。
(1)无交互作用或无重复双因素方差分析
两个因素是独立的,不存在联系。

对于三个因素的方差分析,分析方法与双因素类似,只不过交互效应种类更多,包括1个三因素交互效应,3个二因素交互效应。对于三因素交互效应,比如A×B×C,可以拆解为A×(B×C)。可见,二因素交互作用依赖于三因素交互作用。 因此,在进行三因素方差分析时,应该先看是否有三因素交互作用,如果存在,按照某个因素(比如因素A)的不同取值拆分数据集,然后在不同数据集下分析二因素交互作用;如果不存在三因素交互作用,则对3个进行二因素方差分析,分别看是否有二因素交互作用。
而对于四个及以上的因素,进行方差分析时,由于因素组合太多了,导致不同分组均值差异的影响因素也太多了,能为我们提供的信息变得模糊。因此,四个因素及以上做方差分析意义不大。

对于一组样本,分别在不同试验条件下得出的多组数据,在观察者多组数据平均值是否有差异时,就需要使用重复ANOVA。
相比于常规ANOVA的方差分解,重复ANOVA的组内平方和包含了个体间的差异的平方和及误差两部分,因此,在构件统计量时,组内平方和需要剔除个体间平方和。原理如下图所示。

因此,如果成对样本得到的多组数据,仍然利用常规的ANOVA计算方法,结果倾向于不显著,也就是各组间无显著性差异。
重复ANOVA的统计量计算公式如下:
[图片上传失败...(image-c9a202-1634719989510)]

其中,s为组数,m为每组个体的数量。

方差分析只能告诉我们某个因素是否对结果有显著性的影响,但不能告诉我们具体哪些水平或水平组合对结果显著,因此需要进行事后检验( post-hoc test) ,最常用的方法是Turkey-Kramer检验。
统计学中有一个描述来自同一正态总体的多组数据平均值最大与最小的两组的差值的分布,叫做学生范围分布( Studentized range distribution )。Turkey-Kramer检验依据的就是这个分布,这个分布由样本量,组数,样本的平均方差决定。给定显著性水平α,依据这个分布可以计算出一个阈值,只要被比较的两组数据的平均值之差大于这个阈值,就可以认为是显著的。这个阈值的计算公式如下:
[图片上传失败...(image-26c27d-1634719989509)]

其中,q α;k;N-k 代表给定显著性水平,组数,总样本数下,通过平均值最大和最小值的两组数据计算的学生范围分布下的阈值,MSE代表样本所有数据的波动情况,n i 和n j 为两个样本的数据量大小。
由于Turkey-Kramer检验的阈值是利用样本中平均值差距最大的两组数据计算而来的,这个阈值对于其他两组数据的平均值差比较保守,因此Turkey-Kramer检验牺牲了一定的统计功效。
此外,对于多个实验组与对照组进行比较,可以利用Dunnett 检验。比如对于四组数据(三组试验组,一个对照组),Dunnett 检验只需要比较三次,而Turkey-Kramer检验需要比较六次, 所以Dunnett 检验为修正假阳性牺牲的统计功效更少。

在功效分析中,统计功效,显著性水平,效应大小和样本量,知道其中三个,另外一个就可以唯一确定。给定方差分析的显著性水平,期望达到的统计功效和效应值,就可以确定样本量。
在方差分析中,效应值一般有两种表示形式,一种是Cohen氏 f 值:组间平方和与组内平方和比值再开方:
[图片上传失败...(image-8c95a2-1634719989509)]

Cohen本人在提出f值的时候也将其大约分成了小中大三个区间,在单因素ANOVA检验中,小效应对应f值在0.1左右,中效应对应的f值在0.25左右,大效应在0.4左右。
另外一种是η 2 :组间平方和与总平方和比值再开方:
[图片上传失败...(image-55026d-1634719989509)]

在重复测量ANOVA实验设计时,采用的效应值大小应该考虑个体间差异,相应的效应值Cohen氏 f 值:
[图片上传失败...(image-be9667-1634719989509)]

</article>

0人点赞

相似回答