专栏名称: 金科应用研院
Share Technology Happy Finance
51好读  ›  专栏  ›  金科应用研院

评分模型的目标Y变量科学选定方法

金科应用研院  · 公众号  ·  · 2024-08-29 08:31

正文

请到「今天看啥」查看全文


关注 金科应用研院 ,回复“ 礼包

领取 风控资料合集


之前我在FAL小专题第八期跟学员们分享过如何科学合理的设定模型Y变量,但发现课后还是有很多学员对于如何定Y存有疑惑。既然设定目标变量Y是大家共性的问题,我就再以本篇文章归纳总结一下目标变量Y的科学限定方法。


0 1
最佳使用场景



首先我们需要知道,本文讲解的Y变量的定义方法最佳适用于还款方式为分期贷款(每期还款金额区别不大)的金融产品。如果对于信用卡或者循环贷款等其他还款方式的信贷产品,需要在本方法的基础上做一些变形,或者直接根据场景进行主观决定。


打个比方,对于信用卡产品,其每期还款金额不同,如果按照下面讲解的方法会发现与分期类产品的数据分析走势不一致。这个时候可以按照Roll rate table假定出Y后根据场景特点确定出表现期与观察期,如经验通识M3+为坏且表现期、观察期各限定6个月。


02
俩份核心参照表



整个定Y的过程主要围绕着两份核心数据表:Roll rate table 和 Month on book。其中Roll rate table是迁徙率表,观察的时间颗粒度最好为每个月的累计资产质量分布,这里面需要注意的是累积。


Roll rate table主要目的是假定Y变量,分析上图示例1可以发现M4->M5的平均迁徙率为95.37%,预示处于M4逾期状态的客户超过95%以上会变成M5逾期状态,M5之后每个逾期状态的迁徙率逐步增加直至100%。可以暂时假定本次样本的目标变量Y为M3+(即处于M3+逾期状态的客户可以认为坏客户)。


接下来分析第二份核心数据表-Month on book(MOB)帐龄表。

此时我们通过初步分析Roll rate table假定出Y的坏客户定义为M3+,分析M3+的帐龄表,可以进一步制作出Vintage图。


从上图示例2和3可以分析发现,若想将坏客户的成熟度尽可能的表现出来(目的在于我们可以从样本里捕捉到最多的坏客户),我们至少需要设定9个月的样本表现期(即账期MOB=9)。假定从当下2019年7月开始回推表现期,我们选择样本观察点的时间横轴右边界在2018年10月(2019年7月-9个月),即只能从2018年10月及之前开始选择模型样本(如下图4)。


03
动态平衡选择




虽然通过初步分析可以假定出Y变量M3+为坏,但是通过表现期回推出建模样本后,要考察样本构建模型的基础,比如最大最小样本策略。同时也要参照观察点选定的参考依据,如就近原则、切片特征取得等实际情况,这些在课程中已经详细讲过就不在本篇过多展开。

假设通过上述方式定义的M3+样本不符合建模要求,这个时候有两种优化方式:

1)平衡性选择合适的帐期,即表现期。
2)平衡性选择合适的Y。

第一种方式的好处是不会重新定义模型目标Y变量,但是为了缩短表现期而牺牲了坏客户的成熟度;第二种方式重新定义Y变量的坏处是降低坏客户精准性和模型评分趋严,但好处不仅可以扩大坏客户样本量,还能保证坏客户的成熟度。

在综合考虑过样本容量、就近原则等一系列模型样本筛选维度后,会按照上述两者方式之一或者结合一起对Y变量二次假定进行平衡选择,直至找到最优的目标Y变量。

这个动态平衡选择的过程,仍然会参照两份核心数据表,假定出Y后选择表现期,进而确定观察点,同时考量观察点区间内的建模样本是否合格。

以上,就是对于评分模型的目标Y变量科学选定方法的总结,希望可以帮助读者朋友们。

量化风控 模型机会 创造 》3.0
如果你想
快速通过系统学习 获取模型能力
了解一些 新兴风险算法技术
补足模型短板
你可以来模型训练营⬇️

添加小金老师微信免费咨询

课程难度、职业规划

量化风控模型机会创造营3.0



感谢梁校长的精彩分享~如果你喜欢、想要看更多的干货类型的文章,可以把公众号设为星标🌟,顺便转发分享~

FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识 👉 这是一篇征稿启事

感谢您看到这里
微信公众号对话框回复 “小福利”
领取粉丝专属优惠券







请到「今天看啥」查看全文