logistic回归模型总结_回归经验似然比-程序员宅基地

技术标签: SAS  

 logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。

一、有关logistic的基本概念

  logistic回归主要用来预测离散因变量与一组解释变量之间的关系

最常用的是二值型logistic。即因变量的取值只包含两个类别 例如:好、坏 ;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则

P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:

log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS) 即发生与不发生的概率之比

可以根据上式反求出P(Y=1|X)=1/(1+e^-L)

根据样本资料可以通过最大似然估计计算出模型的参数

然后根据求出的模型进行预测

下面介绍logistic回归在SAS中的实现以及输出结果的解释

二、logistic回归模型初步

SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数

预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行

(1)模型的整体拟合优度

主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验

1、Hosmer-Lemeshowz指标

        HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。

在SAS中这个指标可以用LACKFIT选项进行调用

2、AIC和SC指标 即池雷准则和施瓦茨准则

         与线性回归类似AIC和SC越小说明模型拟合的越好

(2)从整体上看解释变量对因变量有无解释作用

          相当于多元回归中的F检验 在logistic回归中可以通过似然比(likelihood ratio test)进行检验

(3)解释变量解释在多大程度上解释了因变量

          与线性回归中的R^2作用类似 在logistic回归中可以通过Rsquare 和C统计量进行度量

在SAS中通过Rsquare来调用Rsquare。 C统计量自动输出

 (4) 模型评价指标汇总

 统计量          趋势          拟合                         作用                                           SAS调用命令                                备注

 AIC 、SC     越小          越好      类似与多元回归中的残差平方和               模型自动输出       

似然比卡方   越大         越好        类似与多元回归中的回归平方和               自动输出                               P值越小越好

RSQUARE   越大         越好        类似与多元回归中的R^2      用RSQ选项调用

C统计量  越大  越好  度量观测值和条件预测的相对一致性    自动输出

HL统计量 越小  越好  度量观测值和预测值总体的一致性            用LACKFIT选项调用            P值越大越好

说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。AIC和

RSQUAER极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。(注:引自姚志勇的《SAS编程与数据挖掘商业案例》)

(5)以SAS帮助中例子为例对输出结果进行解释说明

data Remission;
      input remiss cell smear infil li blast temp;
      cards;

   1   .8   .83  .66  1.9  1.1     .996
   1   .9   .36  .32  1.4   .74    .992
   0   .8   .88  .7    .8   .176   .982
   0  1     .87  .87   .7  1.053   .986
   1   .9   .75  .68  1.3   .519   .98
   0  1     .65  .65   .6   .519   .982
   1   .95  .97  .92  1    1.23    .992
   0   .95  .87  .83  1.9  1.354  1.02
   0  1     .45  .45   .8   .322   .999
   0   .95  .36  .34   .5  0      1.038
   0   .85  .39  .33   .7   .279   .988
   0   .7   .76  .53  1.2   .146   .982
   0   .8   .46  .37   .4   .38   1.006
   0   .2   .39  .08   .8   .114   .99
   0  1     .9   .9   1.1  1.037   .99
   1  1     .84  .84  1.9  2.064  1.02
   0   .65  .42  .27   .5   .114  1.014
   0  1     .75  .75  1    1.322  1.004
   0   .5   .44  .22   .6   .114   .99
   1  1     .63  .63  1.1  1.072   .986
   0  1     .33  .33   .4   .176  1.01
   0   .9   .93  .84   .6  1.591  1.02
   1  1     .58  .58  1     .531  1.002
   0   .95  .32  .3   1.6   .886   .988
   1  1     .6   .6   1.7   .964   .99
   1  1     .69  .69   .9   .398   .986
   0  1     .73  .73   .7   .398   .986
   ;
run;

proc logistic data= Remission desc;

model  remiss=cell smear infil li blast temp

                       /selection=stepwise

                       lackfit

                      Rsquare;

run;

输出结果如下:红色字体是对输出结果的注释

(一)

SAS 系统

The LOGISTIC Procedure

                                                       SAS 系统

                                                The LOGISTIC Procedure


Model Information
Data Set WORK.TEST    (注:指明模型所用的数据集)
Response Variable TRAD (注:指明模型的因变量) Complete Remission
Number of Response Levels 2          (注:指明模型因变量取两类值)
Model binary logit (注:指明模型是二分类logistic回归模型)
Optimization Technique Fisher's scoring (注:指明采用的是fisher优化方法)

Number of Observations Read 165
Number of Observations Used 165


Response Profile
Ordered
Value
remiss Total
Frequency
1 1 82
2 0 83
(注:指明因变量的取值类型及取每一类变量的频数)


Probability modeled is remiss=1.(注:这个要关注 指明了模型求的是在自变量作用下因变量remiss=1的概率)
(二)
Stepwise Selection Procedure(注:逐步回归的选择过程,说明了模型是怎么一步步根据一定的原则来选择最终进入模型的变量的)

Step 0. Intercept entered:(注:第一步只包含截距项而无变量时时的结果)

Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.
(注:用来判断模型的收敛状态的,也就是说经过迭代模型是否求得了参数satisfied说明收敛了,unsatisfied说明没收敛)
-2 Log L = 228.733


Residual Chi-Square Test
Chi-Square DF Pr > ChiSq
62.1911 4 <.0001

Step 1. Effect FAC4_1 entered:(变量FAC4_1进入模型)


Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.



Model Fit Statistics
Criterion Intercept
Only
Intercept
and
Covariates
AIC 230.733 105.210
SC 233.838 111.422
-2 Log L 228.733 101.210

(注:AIC、SC和-2 Log L都变小了说明加入变量FAC4_1后模型拟合的更好了)

R-Square 0.5383 Max-rescaled R-Square 0.7178



Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 127.5226 1 <.0001
Score 58.4568 1 <.0001
Wald 37.8154 1 <.0001

(注:原假设是所有变量的参数为0 ,根据检验结果可以看出P<0.001拒绝原假设,即变量的参数不全为0)

Residual Chi-Square Test
Chi-Square DF Pr > ChiSq
11.2572 3 0.0104

接下来的跟上面的一样都是些变量的选择过程,进进出出的

(三)最终的结果如下

Note: No effects for the model in Step 1 are removed.




Step 2. Effect FAC3_1 entered:



Summary of Stepwise Selection
Step Effect DF Number
In
Score
Chi-Square
Wald
Chi-Square
Pr > ChiSq Variable
Label
Entered Removed
1 FAC4_1
1 1 58.4568
<.0001 FAC4_1
2 FAC3_1
1 2 8.9660
0.0028 FAC3_1


Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard
Error
Wald
Chi-Square
Pr > ChiSq
Intercept 1 -2.6404 0.5092 26.8906 <.0001
FAC3_1 1 -1.1846 0.4843 5.9825 0.0144
FAC4_1 1 -4.7236 0.7924 35.5318 <.0001


Odds Ratio Estimates
Effect Point Estimate 95% Wald
Confidence Limits
FAC3_1 0.306 0.118 0.790
FAC4_1 0.009 0.002 0.042


Association of Predicted Probabilities and
Observed Responses
Percent Concordant 95.1 Somers' D 0.902
Percent Discordant 4.9 Gamma 0.903
Percent Tied 0.0 Tau-a 0.454
Pairs 6806 c 0.951


Partition for the Hosmer and Lemeshow Test
Group Total trad = 1 trad = 0
Observed Expected Observed Expected
1 17 0 0.01 17 16.99
2 17 0 0.29 17 16.71
3 17 4 1.17 13 15.83
4 17 0 2.93 17 14.07
5 17 8 6.82 9 10.18
6 17 8 11.06 9 5.94
7 17 16 14.49 1 2.51
8 17 17 16.32 0 0.68
9 17 17 16.91 0 0.09
10 12 12 12.00 0 0.00


Hosmer and Lemeshow Goodness-of-Fit
Test
Chi-Square DF Pr > ChiSq
15.8290 8 0.0449


-2 Log L = 34.372


Residual Chi-Square Test
Chi-Square DF Pr > ChiSq
9.4609 6 0.1493

未完待续

三、logistic回归模型进阶

四、logistic回归模型高阶

五、logistic回归案例


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/myccc456/article/details/8226024

智能推荐

检查网线的插拔_nl_connect-程序员宅基地

1、Shell查看网线插拔状态:使用ifconfig命令,如果含有“RUNNING”,说明网线接入,否则就没有。例:ifconfigifconfig eth0ifconfig eth0|grep "RUNNING"eth0 Link encap:Ethernet HWaddr 00:30:48:xx:xx:xx_nl_connect

计算机怎么搜索隐藏的网络,电脑如何连接隐藏wifi 笔记本电脑如何添加隐藏wifi?-192路由网..._蒙霄阳的博客-程序员宅基地

笔记本电脑如何连接隐藏wifi信号?不同操作系统的笔记本电脑,连接隐藏wifi的方法会有所不同;即Windows XP、Windows 7、Windows 8和Windows 10的笔记本电脑。下面分别介绍XP、Win7、Win8、Win10笔记本连接隐藏wifi方法。温馨提示:在笔记本电脑连接隐藏wifi信号之前,用户必须要知道隐藏wifi信号的名称、密码是多少,以及wifi的安全类型是什么?并..._笔记本怎么添加隐藏wifi

Android NDK Hello-程序员宅基地

Android应用程序访问android的根文件系统中的文件时,由于应用程序的权限限制,无法访问这些文件,怎么办?这时就要用到NDK编程了,既用C/C++代码实现访问系统文件,并将其生成本地库,供android中的java代码调用,这样就可以在java代码中通过调用C/C++编写的库的接口来实现对系统文件的访问。为何要用到NDK?概括来说主要分为以下几种情况:1. 代码的保护,由于apk的java

第六章 数据同步:主从库如何实现数据一致_数据同步一致性-程序员宅基地

第六章 数据同步:主从库如何实现数据一致 ?Redis 提供了主从库模式,以保证数据副本的一致,主从库之间采用的是读写分离的方式。读操作:主库、从库都可以接收;写操作:首先到主库执行,然后,主库将写操作同步给从库。主从库间如何进行第一次同步 ?关于 replicaof 命令主从库间的第一次同步:多个Redis实例之间可以通过replicaof命令形成主库和从库的关系。例如,现在有实例 1(ip:172.16.19.3)和实例 2(ip:172.16.19.5),我们在实例 2 上执行以下_数据同步一致性

「SEO」交换友情链接的八大注意要点!-程序员宅基地

咱们都知道,做SEO难免要做友情链接交换,这个基本上是每个站长都需要面临的工作,那么交换链接有什么要注意的地方呢?今天分享一下:1、坚决不和非法站点去做友情链接道不同不相为谋,如果你做的是正规站,那么最好是不要和非法站点交换友链,否则会被百度认为你的网站也不是什么好站。当然因为现在大部分站长都反感非法站,所以这些非法站都开始进行伪装。因此我推进尽量交换友链都选择一些知根知底的网站,...

随便推点

OpenWrt Image Builder 制作带插件的HG255D固件记录_ubuntu 使用openwrt sdk交叉编译ipk包过程全纪录(超多图-程序员宅基地

使用网上下载的别人编译的Openwrt固件总会存在这样或者那样的问题,或者根本不满足自己的需要,这时候就需要自己编译固件,自己编译ipk包。可以解决很多内核版本不匹配,软件过时,路由器不稳定,固件臃肿的问题。本文从0开始详细介绍从固件编译到固件安装的每一个步骤,最后成功编译一个带ss功能和luci 后台web页面的HG255D固件_ubuntu 使用openwrt sdk交叉编译ipk包过程全纪录(超多图

【Java】基础03:DOS命令_退出dos界面的命令是-程序员宅基地

黑客操作的哪一串串字符是啥_退出dos界面的命令是

Mysql分库分表方案_数据库分库分表方案-程序员宅基地

Mysql分库分表方案 收藏凯文加内特 发表于 3年前 阅读 35230 收藏 45 点赞 9 评论 8开程序员的淘宝店!寻找开源技术服务伙伴!>>> » Mysql分库分表方案1.为什么要分表:当一张表的数据达到几千万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了。分表的_数据库分库分表方案

word转html乱码问题处理_word 转html时乱码-程序员宅基地

首先wps打开word文档,然后另存为html文件;在通过记事本打开,另存为的时候选择UTF-8编码存储为html文件即可;_word 转html时乱码

自动驾驶安全白皮书 SAFETY FIRST FOR AUTOMATED DRIVING [ADS]-2019-程序员宅基地

intro:多个单位联合发布:aptiv, baidu,FCA,Conti . etc...内容包括:3个领域: 预期功能安全SOTIF , 功能安全26262, 网络安全Cybersecurity12个原则 : fail-operation , ODD , 准守交通规则,接管请求,失效隔离(分层设计),被动安全,数据记录。职责划分清楚,etc...目标: 提供一..._safety first for automated driving

在百度云主机上使用URLOS一键安装Netdata主机监控_.wwwyw9966com-程序员宅基地

NetData是一个用于系统和应用的分布式实时性能和健康监控工具。它提供了对系统中实时发生的所有事情的全面检测。你可以在高度互动的 Web 仪表板中查看结果。使用 Netdata,你可以清楚地了解现在发生的事情,以及之前系统和应用中发生的事情。你无需成为专家即可在 Linux 系统中部署此工具。NetData 开箱即用,零配置、零依赖。只需安装它然后坐等,之后 NetData 将负责其余部分。最近看到很多小伙伴都在问,Netdata主机监控怎么安装?Netdata主机监控安装步骤是什么?今天没,我来介绍一_.wwwyw9966com