求问统计学里的P值是什么含义?请用通俗易懂的语言解释,谢谢!

我明白基本可以解释为原假设成立的情况下出现样本值的概率,但书上定义为在原假设成立的情况下抽到的统计量与原假设之间的距离至少等于样本计算值与原假设之间的距离,啥意思?

专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即

假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果。

当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。

扩展资料

所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。

当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。

另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。

参考资料来源:百度百科-P值

温馨提示:答案为网友推荐,仅供参考
第1个回答  推荐于2017-11-26

你需要的可能是一个故事。


从前,你有个朋友,他每月开一辆小货车去市场里采购东西,然后再把所有这些东西转卖出去。月复一月,年复一年。


但是,因为市场行情变动,每一个月他卖东西得到的毛爷爷数目并不一样,差不多有个5000块钱左右吧。你呢能看到他每个月的收入统计。


时间长了,有一次,无聊的你准备戏耍一下这个无辜的小伙伴,你偷偷在他的小货车上装了一小瓶尿。既然他肯定会在集市上卖掉所有东西,那么这一小瓶尿他一定也会卖出去,只不过这瓶尿的价格可能也就是零吧。


这一次他赚了5400块,这可比以往的平均数5000块钱还多。那问题就来了:为什么这个月他赚的比平常多呢?


有两种情况:其一,你那瓶尿很值钱,他自然会多赚;其二,你那瓶尿根本不值钱,他多赚了只是因为这个月市场上行情不错。


那到底是哪种情况呢?这个问题的实质是,你那瓶尿到底值不值钱。如果这瓶尿根本不值钱,那他卖东西和以前卖东西的情况没什么两样,只不过是市场行情影响而已。于是,你翻了他以前卖东西的纪录,算了算所有他的个人月收入超过5400块的概率,大概是0.1。也就是说在你这瓶尿没有任何价值的情况下,只靠市场行情,他只有0.1的概率卖到5400块。


所以你得出的结论是,你的那瓶尿有价值,你这个结论的p值就是0.1。


===================

故事讲完了,来分析一下。


为什么要用p值?换句话说,为什么要做推断统计?我想,p值到底是啥并不重要,我知道你做研究时多半只是负责看看p到底有没有比0.05小的。而这个问题,才是我最想告诉你的。

推断统计,之所以要“推断”,是因为我们没有办法正面验证某种情况。在这个故事中,你以前没干过偷偷把一瓶尿放在车上的事儿,他以前也没卖过你的尿,所以尽管你有的是他的销售数据,但那些旧账本没办法正面告诉你你的尿到底值不值钱。


这就是“没办法正面验证”,在这样的情况下,你就没办法了么?非也,我们可以换个角度考虑这个问题,假设“你那瓶尿毫无价值”是成立的,他卖了这瓶尿跟没卖时候没什么两样,那这一次和以往自然也没什么两样。既然这次卖东西和以往一样,那旧账本中的记录就能帮到你了。你可以算算旧账本,他在没卖过你那瓶尿的情况下,赚到5400块及以上的可能性(概率),这个概率就是“你那瓶尿毫无价值”的概率,这里也就是0.1.


这样,“你那瓶尿有价值”的概率,当然就是这个假设的相反情况,也就是0.9,这也是你的假设成立的可能性。


那这个p值到底显著与否呢?那得看市场行情。这里市场行情是随机的,所以“显著”与否简单点就是在说你那瓶尿能不能跑赢市场。业内经常以两个标准差作为衡量“显著”的标准。绝大多数情况下,作为随机变量的市场行情服从正态分布。而正态分布中,超过两个标准差的概率是0.05,这也就是为什么大家要拿0.05作为“公认”的显著性水平尺度了。


统计推断,核心就是反证法。你那瓶尿没价值的可能性越小,反而越能证明你那瓶尿有价值。


“在原假设成立的情况下抽到的统计量与原假设之间的距离至少等于样本计算值与原假设之间的距离”

这是你的书上写的定义,但是很明显,你把结尾最重要的“的概率”三个字漏掉了。正常情况下,这个定义应该是

“在原假设成立的情况下抽到的统计量与原假设之间的距离至少等于样本计算值与原假设之间的距离的概率”

不信你可以再看看你的书。


但是,怎么可以容忍这么反人类的定义?我们来用这个故事做个转换吧:

“在原假设成立的情况下” -> 在你那瓶尿不值钱情况下

“抽到的统计量与原假设之间的距离” -> 他旧账本里的销售记录

“至少等于” -> 大于或等于

"样本计算值与原假设之间的距离" -> 他这一次的销售记录(5400块)

“的概率” -> 的概率


连起来读读,p值的定义就变成:

“在你那瓶尿不值钱的情况下,他旧账本里的销售记录大于或等于他这一次的销售记录(5400块钱)(这个事件发生)的概率。”


这一次,好懂了点吗?



最后要说明,说得通俗易懂是要承担风险的,因为通俗很可能意味着不严谨,易懂很可能意味着不周全。以上有很多有失严谨之处,希望题主还要多多看书哇。


最后的最后,为什么我要用“一瓶尿”这样一个非常粗俗不雅的故事?因为所谓的p value,不就是用来证明你的pee value的么?


个人观点,仅供参考!

追问

还是想问一下,计算均值的时候为什么P值等于原假设为真时Y均值的分布位于实际计算值减去原假设均值绝对值之外的尾部面积呢?也就是为什么P=P(|Y均值-u|>|Y计算值-u|)?谢谢!

本回答被提问者采纳
相似回答