| Jiangtang's profile技止于此BlogListsNetwork | Help |
|
5/4/2007 SAS Logistic回归:一个完整例子SAS Logistic回归:代码及输出报告详解这篇将作为五一后一个讲稿的阅读材料之一,先整出来就搁这。如果没有耐心读下去,你可以立即转到以下的参考资料,该篇所有的知识都来自它们:
Logistic回归处理因变量是分类型变量如“0、1”的情形。一下就假设你至少对它模模糊糊有些印象,比如说我们用p表示正例(如输出变量为“1”)的概率,那么p/(1-p)就被称作odds ratio,对p做logit变换记做logit(p),它等于log(p/(1-p),我们回归方程的形式就如logit(p)=log(p/(1-p)=a+bx,你可以把它理解成向量形式。 假设我们有一个数据,45个观测值,四个变量,包括:
为了保持程序的可读性,以下我就直接在代码中一行一行敲入数据,在实际工作中,超过20个观测值的数据就要写程序导入了。另外,/* */之间的语句都是注释,SAS运行时会把它们忽略掉: ----------------------------------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------------------------------- 用上面这个过程步乙替代过程步甲,再运行一遍。这两个过程步的输出结果大同小异,只是过程步乙多了个forward选项。以下用的是过程步乙的输出结果,其中黑体字是输出结果本身,我做的注释语句以红笔描出,包括数字编号。 (1) The SAS System 10:47 Tuesday, May 4, 2007 1 The LOGISTIC Procedure Model Information Data Set WORK.LOGISTIC
Response Profile 1 1 25 Probability modeled is accident=1. (1) 给出了本模型的基本信息,意思大多自明。需要注意的是Response Profile 中,accident=1排在首位。前面我们说过,SAS的Logistic回归方程log(odds)默认的形式是处理那个变量值比较小的,加上descending选项后,accident=1就排在首位了。 (2) Forward Selection Procedure Step 0. Intercept entered: Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Residual Chi-Square Test Chi-Square DF Pr > ChiSq 10.7057 3 0.0134
Step 1. Effect vision entered: Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Testing Global Null Hypothesis: BETA=0 Residual Chi-Square Test Step 2. Effect drive entered: Model Fit Statistics
Testing Global Null Hypothesis: BETA=0 Residual Chi-Square Test NOTE: No (additional) effects met the 0.05 significance level for entry into the model. (2) 给出了自变量进入模型的次序。先是截距项Step 0了,不管它。Step 1 vision第一个进入模型,附带了很多评估它对因变量预测能力的指标。-2 Log L 和Score 用来检测自变量是否显著。-2 Log L中的L就是Likelihood Ratio,它的p值是0.0103,Score 的p值是0.0113,都小于0.05,故vision是一个很显著的解释变量。还有,AIC(Akaike Information Criterion)和SC(Schwarz Criterion)两个信息量标准用来比较不同的模型,它们数值越小,模型变现就越好,这个接下来我们看step2 drive变量进入模型后的情况。 我们可以看到模型的表现变好了,因为这是AIC和SC的值变小了,-2 Log L 和Score对应的p值也更小。 (3) Summary of Forward Selection (3) 总结了我们模型使用的前向选择方法,包括自变量进入模型的次序,以及每个自变量的卡方值和p值。 (4) Analysis of Maximum Likelihood Estimates (4) 给出了模型参数的估计,据此可以写出改回归方程的形式是log(odds of having an accident)=log(p/(1-p))=0.1110+1.7137*vision-1.5000*drive。我们知道,odds=p/(1-p),有p=odds/(1+odds)。假设有个哥们,视力没问题但没有受过驾车教育(vision=0,drive=0),代入方程,有log(odds)=0.1110,再odds=exp(0.110)=1.1174,p=1.1174/2.1174=0.5277,即我们说这人发生事故的概率为0.5277;又另一个,视力有问题同样没受过驾车教育(vision=1,drive=0),同样的步骤得log(odds)=1.8249,odds=exp(1.8249)=6.2022,p=6.2022/7.2022=0.8612,即这人发生事故的概率为0.8612(视力多重要)。 (5) Odds Ratio Estimates (5) 是对比率Odds Ratio的估计。这里对vision的odds ratio的点估是 5.550 ,这个比率由odds(having an accident|vision=1,drive=0)比odds(having an accident|vision=0,drive=0)得来,根据(4) 的计算,就是6.2022/1.1174=5.550.还有,对vision来说,95% 的置信区间不包括1,说明vision是一个非常显著的解释变量(比率的置信区间不包括1,就跟p值小于0.05一样是一个规则)。 (6) Association of Predicted Probabilities and Observed Responses (6) 这个东西就有些复杂,大概说些预测概率与观测道德因变量间的关联性,我们看到一致性比率Percent Concordant 为67.2 %,不一致性比率Percent Discordant 为14.0%,说明预测值与观测值在现有水平上有较强的关联性,回归模型有很强的预测能力。 最后注意到,上面我们用过程步乙得出的输出结果没有age这个自变量,用过程步甲得出的输出有,这不是因为年龄在这个预测模型中不重要,而是上面以数值型面目出现的年龄在是否出现事故的两组人中分布不均匀,为了解决这个问题,把年龄分组就是,不多说了。 Comments (5)
Trackbacks (2)The trackback URL for this entry is: http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!149.trak Weblogs that reference this entry
|
|
|