第三节违背基本假设的情况

如题所述

第1个回答 2022-06-08

本节主要包括：

在这里先给大家普及一个单词 aftermath 创伤！真的是，，，学完实变函数心灵受到了极大的创伤，，，

言归正传，接下来的几章我们会说明，在回归的 三大基本假设 不满足的情况下，会有什么解决方案。
还记得回归的三大假设嘛？他们是：

在本章中我们主要研究不满足第二条的情况我们该如何处理。

数学上说就是。现实中这样的例子也有很多，比方说收入模型，贫穷如我的人整天就会想怎么才能吃饱，就算想买点东西也买不起，穷人之间的购买力差异就很小，而富有的人的话，有的人出手阔绰，有的人比较节约，这就导致了富有的人支出差异很大。在异方差出现的时候，会有很多问题。比方说 参数不再是最佳线性无偏估计（但依然无偏），显著性检验也失效了。所以回归的效果也很不理想 。所以统计学家要想办法去侦测到它，并且努力去消除它。

因为正常情况下， ,所以异方差性是可以通过残差看出来的，这就是残差图检验的由来。

以残差ei为纵坐标，以其他适宜的变量为横坐标画散点图。
常用的横坐标有：
1.拟合值；
2.横坐标， ;
3.观测时间或序号.

在 满足假设时 残差图上的n个点散布应是随机的，无任何规律； 存在异方差 时，残差图上的点散布呈现相应的趋势.比方说我的残差长下面这个样子

这种方法简单来说就是计算自变量与残差绝对值之间的相关性，看看他们之间有没有什么系统的关系（函数关系）。注意我们采用Spearman 等级相关系数而没有采用 Pearson 简单相关系数，这是因为等级相关系数可以反映非线性相关的情况。

定义：
等级相关系数：

斯皮尔曼检验量：

在做等级相关系数检验之前需要先对模型做一次回归（虽然我们这里已经知道异方差性存在的情况下，回归没啥用了。但是如果你不做回归测试异方差性，你又怎么确定回归没用的呢？）。得到随机误差的估计值残差 .然后取残差绝对值 ,把与都按照从高到低的顺序或者从低到高排序，最后标记二者的排位（就是第几大或者第几小），算出二者等级的对应差值计算出来就是。比如说一个数据的自变量值是第8大的，但是它的对应的残差绝对值是第三大的，那么对应的。

这个检验量在的时候是近似服从 t 分布的，因此如果检验量的值，就可以认为没有异方差。否则说明与之间存在系统关系。

加权最小二乘估计是解决异方差问题的一种办法。还有Box-Cox变换法，等等。

一般来说，在最小二乘回归中，我们实际上就是要最小化。注意到的是这个和式的每一项的期望都是（因为异方差性假设存在，所以我们不再使用）。所以如果某一项方差越大，实际上这一项所占的比重就很大，那么为了最小化我们的离差平方和，就必须要让回归直线“尽量偏向”这个方差很大的数据点。

从这里也可以看出来加权最小二乘法的一个局限性： 照顾小残差项是以牺牲大残差项为代价的。

为了解决这个问题我们把平方和改一下，写成下面的样子：

按照相同的方法回归，可得：
得到啥你自己看书吧-.-！P97 4.5

所以这个回归的关键就是如何选择我们的。直观上来看，因为每一项的期望是 ,所以！只要让就可以啦~（让回归直线“尽量偏向”这个方差很大的数据点嘛，方差越大权重就小一点，回归系数就大了）

problem solved~

不好意思没那么简单，理论可行，可是是啥你不知道啊。所以如果没有电脑，我们一般是通过残差图去“猜测”应该用什么权。比方说如果与成正比，那么这个时候可以考虑拿去作为权函数。实际上我们也是 一般使用类似于这样的自变量的幂函数来构造权函数 。

如果使用 SPSS 计算就简单多了，通过寻找 m 值使得对数似然函数值最大，具体参见 P98。

多元的情况与一元十分相似，有一个问题就是我们权函数的构造，在一元中我们可以用自变量的幂函数构造。但是多元的情况，如果我们用每一个自变量的幂函数构造，那么对应的计算量可能就是级别的，所以在多元的情况下我们 一般都只使用其中一个自变量 。所以问题来了，我们用哪一个自变量呢？

这也是有一个法则的，一般来说需要计算每一个自变量与变通残差（）的等级相关系数(斯皮尔曼等级相关系数)，取最大的那个构造即可。

具体的例子见 P103

随机误差项之间存在自相关性 的意思就是。简单点来说就是误差项之间存在相关关系。

这种自相关包括 一阶自相关 与 多阶自相关 。

这在现实生活中也是很常见的。比如说金融危机一般都是要延后两三年才会有很显著的负面影响。另外时间序列模型本质上也就是一种自相关的模型。

（1）遗漏关键变量；
（2）经济变量的滞后性；
（3）采用错误的回归函数形式；
（4）蛛网现象带来的序列自相关性；
（5）对数据加工整理导致误差项之间产生自相关性。

自相关其实就相当于不满足G-M条件了，如果还是使用普通最小二乘法估计参数就会产生很多问题：
（1）参数估计值不再具有最小方差线性无偏性；
（2）均方误差（MSE）可能严重低估误差项的方差；
（3）容易导致 t 值过高，所以 F 检验、 t 检验就失效了
（4）最小二乘估计量也会对抽样的波动很敏感，意思是说在一些特定的样本中，虽然无偏，但是估计出来的值却可能严重与真实值不同。
（5）预测和分析会带来较大的方差，甚至错误的解释。

这个问题还是挺严重的，下面瞅瞅怎么把这个问题检验出来：

首先直接使用普通最小二乘法估计参数，根据回归残差项的相关性来判断随机误差项的序列相关性。一般有两种方法：

可以看出这相当于是说随着时间的推移，残差并不是散乱，而是有序，或者说以一个函数形式出现的。这就说明存在自相关性了。

但是这种定性的分析总是感觉不够精确，所以我们需要更好的方法。

自相关系数说白了就是计算随机误差项之间的相关程度总和的一个量。如果这个量超过了某个数我们就认为这些随机误差项之间有关系，也就是说存在自相关性。

首先给出 误差序列的系相关系数 定义：

这也是时间序列中一个很重要的统计量。和简单相关系数对比容易得到它的范围是。

当接近 -1 时表明误差序列存在负相关，当接近 1 时表明误差序列存在正相关 。

还是有一个问题就是，误差序列的真实值是未知的，那么我们就只能使用其估计值：残差去代替。这就可以得到自相关系数的估计值。

估计是可以的，但是这样又产生了一个问题，就是这个作为的估计值就与样本量有关了（直观来想就是样本量越多估计的越好呗），这就需要构造统计量，做一下显著性检验才能确定自相关性是否存在。一般使用下面的 DW 检验代替对的检验。

DW （Durbin-Watson）检验其实说白了就是一假设检验。要有假设，需要构造统计量，计算拒绝域，最后根据显著性水平判断。DW 检验是很常用的一种检验自相关的方法。

DW 检验有一定的 使用条件 ：

首先需要知道，随机扰动项的一阶自回归形式为：

其中为自回归系数（数值上等于自相关系数，就是刚刚刚学的自相关系数还记得吗），是满足 G-M 条件的随机误差项。

为了检验序列相关性，（其实就是检验上面的方程成立） 原假设 是：
构造的 统计量 是：

其中：是回归估计式的残差。

接下来的问题就是求拒绝域啦，首先我们来看看 DW 的取值范围：其实只需要将 DW 的分子展开一下就可以得到：

分子的第一项与第二项在 n 比较大的时候几乎是相同的（所以一般来说 DW 检验要求），而第三项与分母的比就是我们的。 所以有，换句话说。 根据以上的分析我们大约知道 DW 的取值范围为。

因而 DW 值与的对应关系表如下表所示：
在书上的P109页有一张表。（假装这里有表）

所以 确定拒绝域的方法是：根据样本量 n 和解释变量的数目 k （这里包括常数项）查 DW 分布表，得到临界值和，最后根据计算得到的 DW 值决定模型的自相关状态。 如下图所示：

行，我们费了老大劲把自相关问题检验出来了，下面看看咋处理吧，，，咋整呀，，，

在处理自相关问题的时候需要首先查明自相关产生的原因，我们顺便复习一下 5 点奥（其实我也没记住翻回去看的，逃有几个问题可以直接解决，实在不行咱再想办法：

迭代法的想法就是想办法消掉误差项中相关的那一部分（剩下的不就是不相关的），这样就可以使用普通最小二乘回归啦，最后再把所做的变量替换带回去就可以的。

我们就以一阶自相关来举例：假设我们的模型为：

其中满足 G-M 条件（期望值相等，相互独立）。

根据这个模型让时间倒退回去一点，就可以得到：
为了消除自相关性，归根结底是要让误差项回到，（谁让人家满足G-M条件嘛）

这就需要我们得到。所以我们来计算

对应的变量做换元就可以可到：。这个时候可以看出误差项就满足 G-M 条件啦。接下来就对变换后的模型使用普通最小二乘法就可以啦，然后再把变量带回去。

那么这样的方法可以看出如果真的误差项存在一阶自相关的话，那么很明显是有效的。但是实际情况并不总是如此，有时候误差项的自相关阶数是很高的，所以我们的方法是不停的迭代，直到我们的 DW 检验能够说明它没有自相关了为止，可以说是简单粗暴啊。

差分法的适用范围就更窄了，它是适用于原模型存在 较高程度一阶自相关 的情况才可使用。在迭代法的模型中我们设，就可以得到一个差分法的模型:（ 注意这个模型不带常数项 ,回归直线过原点）

其中 ,

对它做一个回归就可以得到：（注意 t = 2 开始是因为差分肯定只能从第二项开始才会有数据）。

一般来说我们先使用估计 ,(注意这里的是自相关系数，而不是普通相关系数)，如果接近 1 就 采用差分法而不使用迭代法 ，这是因为：

有时候数据中会包含一两个极端或异常的观测值，这些数据与其他数据远远分开，会引起较大的残差，影响回归效果（这可不是啥好事儿），所以呢我们就想着怎么把这些害群之马给踢了，一般对于二元三元呢，我们画一个散点图看一下就知道了，但是多元就麻烦了，这家伙，没法儿画啊，你说气不气人，想想有没有啥其他招吧。

一般来说我们会分为 x y 两个维度讨论异常值：

在数据分析中，刚开始总是要看有没有特别特别“高”的点。一般来说会认为残差超过的残差的话它就是异常值。但是问题在于，多元回归中，其中为帽子矩阵的主对角线元素，这也就说明每一个数据点的误差是不相同的。那么单纯的因为它“特别高”就认为数据异常就不合适了。因为这很有可能是残差导致的，换句话说这个数据“特别高”不是因为它异常，而是因为它“就完全有可能这么高”。换句话说，因为误差是每一个数据点的固有性质，所以如果是因为残差特别大，导致某一个数据点像异常值，那么即使你剔除掉这个异常值，也不会对回归有任何帮助。（就是你踢错人了，人家不异常）

那么应该如何去做呢？我们在之前介绍过一个学生化残差

看似通过把杠杆值的影响去除掉可以解决方差不等的问题，但是如果观测数据中真的存在异常值，学生化残差也没有什么卵用。这是因为这个时候，异常值的存在会使得回归线“偏向”它，进而使得回归的标准差实际上是偏大的。那么这样子的话，实际的学生化残差是偏小的，这就不能使用的原则来判断残差了。

为了解决异常值的问题，我们需要别的办法。

我们这么构造删除残差：针对第 i 个观测值，我们计算它的残差时，用其余 n-1 个观测值拟合回归方程，计算出第 i 个观测值的删除拟合值，那么这个值显然不会受到第 i 个值是否是异常值的影响。所以我们定义 删除残差 为:

进一步：

删除化学生残差为 ：

一般来说，认为的时候就是异常值点。

首先需要知道啥叫强影响点：还是关于残差的方差式，可以看出大的点残差小，因此如果观测值的杠杆值（）大，就会使得回归方程偏移产生影响。所以一般来说 杠杆值大的点我们叫做强影响点 ，注意它不一定是 y 的异常值。

强影响点并不总是 y 值的异常点， 此强影响点并不总会对回归方程造成不良影响 ，但是实际上，强影响点还是很需要被关注的，这是因为：

实际情况是很复杂的，所以一般使用一个粗略的标准，认为就是异常值，就是非异常值。

Box-Cox 变换也叫 方差稳定性变换 。这个方法比较特殊，所以把它单独拿出来了，说他特殊是因为它真的太！好！使！了！ B-C 变换可以处理异方差、自相关、误差非正态、回归函数非线性等情况。

够狠！

它是对 y 做如下的变换：

在实际应用时，我们一般使用计算机找到一个使得对数似然函数达到极大，也就是达到最小即可（具体的推导见 P117）

最后找到最佳的之后再把方程还原回去。下面举一个特例，考试喜欢这么出一个：

转化为原始变量方程：只需要把代入，还原为原始方程为：

相似回答

资产评估师《资产评估》的特点(5)答：第三节 资产评估的假设与原则一、资产评估的假设依据有限事实，通过一系列推理，对于所研究的事物做出合乎逻辑的假定说明就叫假设。(1)交易假设。是资产评估最基本的前提假设，假定所有待评估资产已经处在交易过程中，评估师根据待评估资产的交易条件等模拟市场进行估价。一方面为资产评估得以进行创造了条件...

高三生物说课稿:光合作用的发现答：《光合作用的发现》是人教版高中《生物》(必修)第三章第三节第一课时的内容,主要介绍了光合作用发现过程中的几个经典实验,在这其中蕴含这科学探究的一般方法,是培养学生科学素养和探究能力的好材料。依据教材和课程标准的要求,我制定了知识、能力和情感的三维目标,注重知识发现的同时,更强调了科学探究能力的培养。...

管理心理学笔记卢盛忠主编答：为取得被观察者的信任,观察员从不干涉任何事情,包括违背公司规定的事情。实验的目的是检验“每个工人都想以最高的工作效率换取最大的报酬”这种假设是否真实。霍桑实验得出的最后结论是:1.生产条件的改善并非是增加生产的第一要素。2.改善工人的工作态度及人与人之间的关系,使其愉快工作是提高工效的决定因素。3....

美国的违宪审查制度是怎样形成的?它有何特点?答：而这个政治传统之所以能在美洲形成的重要原因乃在于其地理因素延闼了历史进程,功利主义及实用主义在北美落户生根很大程度上与此有关(第二节)。至少一样重要的是它的权威地位的确立,而这是众多必然和偶然因素纠缠不清的结果(第三节)。“钻石”会引来众人窥伺,这里就牵扯到权力相争的问题,而采用什么样的斗争形式则...

你好,朋友。请问您有会计基础课件吗?发一下我的邮箱可以吗?谢谢!_百度...答：第二节会计基本假设 会计基本假设(也称会计基本前提)是会计确认、计量和报告(核算的3个环节 )的前提,是对会计核算所处的时间、空间环境所作的合理设定。一般认为,会计核算的基本假设包括:会计主体、持续经营、会计分期和货币计量四项。【例3•多选题】下列事项中,属于会计核算前提的有( )。 A.历史成本计价 ...

2012新人教版八年级下册物理动手动脑学物理答案答：可以参考后面第四章第三节的相关内容。第三章透镜及其应用一、透镜 1.怎样可以测得凸透镜的焦距?拿一两个凸透镜试一试。答案:拿两块透镜让学生测出焦距。这个问题已经演示过了,这里让再做一遍,是让学生加深印象,同时让他们知道,不同的透镜焦距是不同的。 2.如图3.1—6,A、B是两个口径相同的凸透镜,它们的...

求2011年山东省会计从业资格考试<会计基础知识><财政法规>教材格式为W...答：第三节 会计核算会计核算是会计工作的重要组成部分,是会计的基本职能之一。会计核算的法律规定是各单位进行会计核算应当遵循的基本规范。对会计核算的相关法律规定,一般包括如下几个方面:一、会计核算的基本要求(一)会计信息质量要求会计信息质量要求是会计核算必须遵循的一般原则,是进行会计核算的指导思想和衡量会计工作...

倒立着求拿大顶的求单手俯卧撑求写小说的“方法论”有高手请加QQ751...答：第一、体材:玄幻,武侠,科幻,幻想,军事,YY 第二、主题:主要情节内容,说明什么?内涵第三、内容简介: 第四、预计字数:XX万第五:环境设定环境地理:哪个世界环境,如是异时空需要说明,什么地名,越后面越远,供人物移动使用。中央: 东面: 西面: 南面: 北面: 第六、角色设定(正面角色、反面角色、中间角色和...

大家正在搜

违背基本假设的情况违背基本假设的背景原因不良后果违背假设的五种情况异方差性违背了什么基本假设因为有了什么的基本假设多重共线性违背的假设违背基本假定违背经典假设长期获利违背有效市场假设

第三节 违背基本假设的情况

第三节违背基本假设的情况