如何在R语言中使用Logistic回归模型

如题所述

推荐答案 2017-11-01

温馨提示：答案为网友推荐，仅供参考

当前网址：http://88.wendadaohang.com/zd/BgtKtKcacVSSVaSMcB.html

其他回答

第1个回答 2017-11-01

logistic回归的公式可以表示为：

�6�7其中P是响应变量取1的概率，在0-1变量的情形中，这个概率就等于响应变量的期望。
�6�7这个公式也可以写成：

�6�7可以看出，logistic回归是对0-1响应变量的期望做logit变换，然后与自变量做线性回归。参数估计采用极大似然估计，显著性检验采用似然比检验。
�6�7建立模型并根据AIC准则选择模型后，可以对未知数据集进行预测，从而实现分类。模型预测的结果是得到每一个样本的响应变量取1的概率，为了得到分类结果，需要设定一个阈值p0——当p大于p0时，认为该样本的响应变量为1，否则为0。阈值大小对模型的预测效果有较大影响，需要进一步考虑。首先必须明确模型预测效果的评价指标。
�6�7对于0-1变量的二分类问题，分类的最终结果可以用表格表示为：

�6�7其中，d是“实际为1而预测为1”的样本个数，c是“实际为1而预测为0”的样本个数，其余依此类推。
显然地，主对角线所占的比重越大，则预测效果越佳，这也是一个基本的评价指标——总体准确率(a+d)/(a+b+c+d)。�6�7
准确（分类）率=正确预测的正反例数/总数 Accuracy=(a+d)/(a+b+c+d)�6�7�6�7
误分类率=错误预测的正反例数/总数 Error rate=(b+c)/(a+b+c+d)=1-Accuracy
�6�7正例的覆盖率=正确预测到的正例数/实际正例总数�6�7
Recall(True Positive Rate，or Sensitivity)=d/(c+d)
正例的命中率=正确预测到的正例数/预测正例总数�6�7
Precision(Positive Predicted Value,PV+)=d/(b+d)
负例的命中率=正确预测到的负例个数/预测负例总数
Negative predicted value(PV-)=a/(a+c)
通常将上述矩阵称为“分类矩阵”。一般情况下，我们比较关注响应变量取1的情形，将其称为Positive（正例），而将响应变量取0的情形称为Negative（负例）。常见的例子包括生物实验的响应、营销推广的响应以及信用评分中的违约等等。针对不同的问题与目的，我们通常采用ROC曲线与lift曲线作为评价logistic回归模型的指标。
�6�71）ROC曲线
设置了两个相应的指标：TPR与FPR。
TPR：True Positive Rate（正例覆盖率），将实际的1正确地预测为1的概率，d/(c+d)。
FPR：False Positive Rate，将实际的0错误地预测为1的概率，b/(a+b)。
TPR也称为Sensitivity（即生物统计学中的敏感度），也可以称为“正例的覆盖率”——将实际为1的样本数找出来的概率。覆盖率是重要的指标，例如若分类的目标是找出潜在的劣质客户（响应变量取值为1），则覆盖率越大表示越多的劣质客户被找出。
类似地，1-FPR其实就是“负例的覆盖率”，也就是把负例正确地识别为负例的概率。
�6�7TPR与FPR相互影响，而我们希望能够使TPR尽量地大，而FPR尽量地小。影响TPR与FPR的重要因素就是上文提到的“阈值”。当阈值为0时，所有的样本都被预测为正例，因此TPR=1，而FPR=1。此时的FPR过大，无法实现分类的效果。随着阈值逐渐增大，被预测为正例的样本数逐渐减少，TPR和FPR各自减小，当阈值增大至1时，没有样本被预测为正例，此时TPR=0，FPR=0。
由上述变化过程可以看出，TPR与FPR存在同方向变化的关系（这种关系一般是非线性的），即，为了提升TPR（通过降低阈值），意味着FPR也将得到提升，两者之间存在类似相互制约的关系。我们希望能够在牺牲较少FPR的基础上尽可能地提高TPR，由此画出了ROC曲线。
ROC曲线的全称为“接受者操作特性曲线”（receiver operating characteristic），其基本形式为：
ROC曲线
�6�7当预测效果较好时，ROC曲线凸向左上角的顶点。平移图中对角线，与ROC曲线相切，可以得到TPR较大而FPR较小的点。模型效果越好，则ROC曲线越远离对角线，极端的情形是ROC曲线经过（0，1）点，即将正例全部预测为正例而将负例全部预测为负例。ROC曲线下的面积可以定量地评价模型的效果，记作AUC，AUC越大则模型效果越好。
当我们分类的目标是将正例识别出来时（例如识别有违约倾向的信用卡客户），我们关注TPR，此时ROC曲线是评价模型效果的准绳。
�6�72）lift曲线
在营销推广活动中，我们的首要目标并不是尽可能多地找出那些潜在客户，而是提高客户的响应率。客户响应率是影响投入产出比的重要因素。此时，我们关注的不再是TPR（覆盖率），而是另一个指标：命中率。
回顾前面介绍的分类矩阵，正例的命中率是指预测为正例的样本中的真实正例的比例，即d/(b+d)，一般记作PV。
在不使用模型的情况下，我们用先验概率估计正例的比例，即(c+d)/(a+b+c+d)，可以记为k。
定义提升值lift=PV/k。
lift揭示了logistic模型的效果。例如，若经验告诉我们10000个消费者中有1000个是我们的潜在客户，则我们向这10000个消费者发放传单的效率是10%（即客户的响应率是10%），k=(c+d)/(a+b+c+d)=10%。通过对这10000个消费者进行研究，建立logistic回归模型进行分类，我们得到有可能比较积极的1000个消费者，b+d=1000。如果此时这1000个消费者中有300个是我们的潜在客户，d=300，则命中率PV为30%。此时，我们的提升值lift=30%/10%=3，客户的响应率提升至原先的三倍，提高了投入产出比。
为了画lift图，需要定义一个新的概念depth深度，这是预测为正例的比例，(b+d)/(a+b+c+d)。
与ROC曲线中的TPR和FPR相同，lift和depth也都受到阈值的影响。
当阈值为0时，所有的样本都被预测为正例，因此depth=1，而PV=d/(b+d)=(0+d)/(0+b+0+d)=k，于是lift=1，模型未起提升作用。随着阈值逐渐增大，被预测为正例的样本数逐渐减少，depth减小，而较少的预测正例样本中的真实正例比例逐渐增大。当阈值增大至1时，没有样本被预测为正例，此时depth=0，而lift=0/0。
由此可见，lift与depth存在相反方向变化的关系。在此基础上作出lift图：
lift 曲线
�6�7 与ROC曲线不同，lift曲线凸向（0，1）点。我们希望在尽量大的depth下得到尽量大的lift（当然要大于1），也就是说这条曲线的右半部分应该尽量陡峭。
至此，我们对ROC曲线和lift曲线进行了描述。这两个指标都能够评价logistic回归模型的效果，只是分别适用于不同的问题：
如果是类似信用评分的问题，希望能够尽可能完全地识别出那些有违约风险的客户（不使一人漏网），我们需要考虑尽量增大TPR（覆盖率），同时减小FPR（减少误杀），因此选择ROC曲线及相应的AUC作为指标；
如果是做类似数据库精确营销的项目，希望能够通过对全体消费者的分类而得到具有较高响应率的客户群，从而提高投入产出比，我们需要考虑尽量提高lift（提升度），同时depth不能太小（如果只给一个消费者发放传单，虽然响应率较大，却无法得到足够多的响应），因此选择lift曲线作为指标。

相似回答

R语言logistic回归模型视频时间 02:11

如何在R语言中使用Logistic回归模型答：3、构建回归分析的样本。Logistic回归也是统计学里面的内容，所以必须得构建统计分析的样本。以构建滑坡风险统计分析的样本为例，先找出滑坡发生的地区，同时计算滑坡发生地区的各个影响因子的指标值。再选择滑坡未发生的地区，同时计算滑坡未发生地区各个影响因子的指标值。这样，就构建了统计样本，自变量为各个...

如何在R语言中使用Logistic回归模型答：Logistic回归主要通过构造一个重要的指标：发生比来判定因变量的类别。在这里我们引入概率的概念，把事件发生定义为Y=1，事件未发生定义为Y=0，那么事件发生的概率为p,事件未发生的概率为1-p，把p看成x的线性函数；回归中，最常用的估计是最小二乘估计，因为使得p在[0,1]之间变换，最小二乘估计不...

R语言中如何根据coef()写出回归模型的程序?答：coef不是写成回归模型的程序，而是读取你之前构建的模型回归系数。比如mylogit <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")你构建了logistic回归模型并把模型数据储存在mylogit这个对象里面。coef(mylogit)就会显示回归方程的回归系数。你也可以print(mylogit)看看有什么...

什么是广义线性模型以及什么时候使用它们?答：为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择。 2回归模型假设我们有一些带有两个属性Y和X的数据。如果它们是线性相关的,则它们可能看起来像这样: a<-ggplot(my_data, aes(x=X,y=Y))+geom_point()+ 为了检查这种关系,我们可以使用回归模型。线性回归是一种使用X来预测变量Y...

r语言logistics回归的y怎么做连续值答：（1）多重线性回归模型可视为简单直线模型的直接推广，具有两个及两个以上自变量的线性模型即为多重线性回归模型。（2）logistic属于概率型非线性回归，是研究二分类(可扩展到多分类)观察结果与一些影响因素之间关系的一种多变量分析方法。2、变量的特点多元回归分析的应变量：1个；数值变量（正态分布)...

R语言回归中的Hosmer-Lemeshow拟合优度检验答：在R语言中，我们可以通过模拟数据，拟合逻辑回归模型，并利用hoslem.test函数来执行检验。例如，我们模拟数据、拟合模型，计算预测概率，然后按照概率分组。Hosmer-Lemeshow检验的p值接近0.5，表明模型拟合良好。改变组数g值，尽管p值有所变化，但结论基本保持一致，模型适应性良好。通过模拟实验，当模型正确...

r语言中既有分类变量也有连续变量可以建什么模型来预测因变量(具体数 ...答：一般线性回归和logsitic回归都是可以的。这关键得看你的因变量，如果因变量是连续型变量，你就用一般线性回归建模，分类的自变量也是可以通过哑变量处理的；如果因变量是分类变量那就用logistic回归建模。

大家正在搜

logistic回归模型 ols回归模型回归模型有哪些回归模型分析一元回归模型多元回归模型一阶自回归模型样本回归模型建立回归模型的步骤