Jiangtang's profile技止于此BlogListsNetwork Tools Help

Blog


    9/19/2007

    提升指数、提升表和提升图

    --------------------

    这篇去年在我的生活博客出现过,题目叫《贴一篇读书报告:Lift,Lift Table, and Lift Chart》。不想年代久远,里面的一个表格不知道怎么没有了,现挪到自己这个(所谓)技术博客,除了补全,也算是回到正确的地方了。从本机文档中直接COPY过来,删掉一些废话。

    --------------------

    Lift, Lift Table, and Lift Chart

    提升指数、提升表和提升图(草稿)

    胡江堂,北京大学软件与微电子学院

    2006-11-5

     

    1. 什么是Lift?

    I) Lift(提升指数)是评估一个预测模型是否有效的一个度量;这个比值由运用和不运用这个模型所得来的结果计算而来。

    II) 一个简单的数字例子:

    i. 比如说你要向选定的1000人邮寄调查问卷。以往的经验告诉你大概20%的人会把填好的问卷寄回给你,即1000人中有200人会对你的问卷作出回应(response),用统计学的术语,我们说baseline response rate是20%;

    ii. 如果你现在就邮寄问卷,1000份你期望能收回200份,这可能达不到一次问卷调查所要求的回收率,比如说工作手册规定邮寄问卷回收率要在25%以上;

    iii. 通过以前的问卷调查,你收集了关于问卷采访对象的相关资料,比如说年龄、教育程度之类。利用这些数据,你确定了哪类被访问者对问卷反应积极。假设你已经利用这些过去的数据建立了模型,这个模型把这1000人分了类,现在你可以从你的千人名单中挑选出反应最积极的100人来,这10%的人的反应率(response rate)为60%。那么,对这100人的群体(我们称之为Top 10%),通过运用我们的模型,相对的提升(gain or lift value)就为60%/20%=3;换句话说,与不运用模型而随机选择相比,运用模型而挑选有3倍的好处;

    iv. 类似地,对占总样本的任何比例的人群,我们都可以计算出相应的提升指数,比如说我们可以计算Top 20%的群体的提升指数。

    III) 一个结论就是,提升指数越大,模型的运行效果越好。

     

    2. 建立Lift Table 的步骤(并画出Lift Chart),以验证信用评分模型为例:

    I) 利用已经建立的评分模型,对我们要验证的样本进行评分。样本下的每一个个体都将得到一个分数,或者是违约概率,或者是一个分值;

    II) 对样本按照上面计算好的分数进行降序排序;

    III) 把已经排好序的样本依次分成10个数量相同的群体,我们就建立了一个叫decile的变量,它依次取10个值,1、2、3、4、5、6、7、8、9、10,diclie1包括违约概率值最高的10%的个体,diclie2包括下一个10%的群体,以此类推;

    IV) 帐户总数是每个decile下的样本数,它是整个样本数的10%;

    V) 边际坏账数是每个decile内违约的人数,就是说,利用我们的评分模型,在decile1,有25个人违约,以此类推;

    VI) 累计坏账数,45表明前两个decile内共有45个人违约,以此类推;

    VII) 边际坏账率是每个decile内坏账的比率。对decile1,边际坏账率由25/100得来;

    VIII) 对每一个加总的decile,都计算一个累计坏账率,比如说,对前两个decile,也就是整个样本的20%,累计坏账率等于(25+20)/(100+100);

    IX) 在每个decile里,提升指数(Lift)就是相应的累计坏账率与平均坏账率的偏离程度,计算公式是(累计坏账率-平均坏账率)/平均坏账率,习惯上还会乘上一个100。

    X) 注:在一些处理中,提升指数直接由每个decile的累计坏账率除以平均坏账率得来,它们之间就相差1,一个是相对偏离,一个是绝对偏离。

    XI) 就我们考察的信用评分模型,它的目的就是尽可能把人群区别来开来,比如说“好”的顾客、 “坏”的顾客。提升指数越大,表明模型运作效果越好。

    表1:Lift Table

    clip_image002

    (注:该表内数字纯粹为了演示,没有任何实际背景)

     

    图1:Lift Chart

    clip_image004

    3. 参考资料

    I) Bruce Ratner, Decile Analysis Primer: Cum Lift for Response Model.

    http://www.dmstat1.com/res/DecileAnalysisPrimer.html

    II) Howard J. Hamilton. Cumulative Gains and Lift Charts

    http://www2.cs.uregina.ca/~hamilton/courses/831/notes/lift_chart/lift_chart.html

    III) David S. Coppock. Data Modeling and Mining: Why Lift?

    http://www.dmreview.com/article_sub.cfm?articleId=5329

    IV) Lift Chart. See Thomas Hill, Paul Lewicki. Statistics: Methods and Applications.

    http://www.statsoft.com/textbook/glosl.html

    V) 冯慧,“信用卡业务与系统”,北京大学软件与微电子学院,2006年秋季学期,课堂笔记

    Comments

    Please wait...
    Sorry, the comment you entered is too long. Please shorten it.
    You didn't enter anything. Please try again.
    Sorry, we can't add your comment right now. Please try again later.
    To add a comment, you need permission from your parent. Ask for permission
    Your parent has turned off comments.
    Sorry, we can't delete your comment right now. Please try again later.
    You've exceeded the maximum number of comments that can be left in one day. Please try again in 24 hours.
    Your account has had the ability to leave comments disabled because our systems indicate that you may be spamming other users. If you believe that your account has been disabled in error please contact Windows Live support.
    Complete the security check below to finish leaving your comment.
    The characters you type in the security check must match the characters in the picture or audio.

    To add a comment, sign in with your Windows Live ID (if you use Hotmail, Messenger, or Xbox LIVE, you have a Windows Live ID). Sign in


    Don't have a Windows Live ID? Sign up

    Trackbacks

    The trackback URL for this entry is:
    http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!308.trak
    Weblogs that reference this entry
    • None