解答:坏样本的定义都是围绕业务展开的,具体实践可以分为两种类型:
第1 种是通过“数据分析”, 也就是我们常说到的“滚动率分析”与“账龄分析”,这是最客观的分析方法,已经成为一种“标配”;
第2 种是通过“业务定义”,根据某逾期表现来直接定义,常见的有pd0、pd3、pd7、pd15、pd30等(pd代表逾期天数大于,比如pd3代表大于3 天),可能还会加上逾期金额等限制,具体需要看 场景特点,这种情况在实际应用较多,虽然是根据业务,但本质上还是来源于数据分析(也就是第一 种类型),只是最开始的时候经过分析得到,而后边由于产品业务比较稳定,好坏定义已经成为一种 默认规则,也就不需要每次去做数据分析,一般情况下,一目业务相对成熟且稳定,好坏定义也是相对比较固定的。
Q2:当策略目标是提高通过率,即对拒绝用户进行一些回捞的时候,有没有一些好的思路推荐?解答:在风控流程中,对于拒绝用户群可以单独过一个“拒绝捞回”评分模型,再根据用户的评分结果,从高到低选取一个较合理的阈值进行判断,高于阈值的便可以予以通过授信。
这里的措施建议采用“模型”策略,不要用简单且维度很少的规则,采用模型的最大好处是较大化的从多个维度的再次评估了拒绝用户的风险。
至于“拒绝捞回”模型怎么去开发,是选取存量拒绝样本来建立模型,里 边最重要的怎么定义拒绝样本的好坏标签,可以采用通过样本数据建立的模型打分,然后根据分数阈值划分得到拒绝样本的标签,后边的建模过程和平时有监督模型是一致的。此外,也可以考虑对拒绝用户走一个客户聚类模型,看分布特点进行决策,当然这个效果没有前边说的有监督模型效果更好些。
解答:在课程中,原样本指的是开发样本,新样本指的是测试样本,从时间窗划分,原样本在前,新样本在后。
一般情况下,建议开发样本的时间窗最好取3~6 个月,测试样本的时间窗最好取1~3 个 月,具体也得看实际业务情况,选取的时间窗口数据能否满足开发的需求,这是很重要的。此外,开 发样本与测试样本时间窗不要有重叠,且间隔时间最好是相邻。举个例子,开发样本1~3 月,测试样本4~5 月。
Q4:如果一个单规则区分度低会直接放弃还是会考虑再尝试做复合规则?类似的单规则效果也类似,会都配置吗?解答: 单规则区分度低,可以尝试下复合规则。即使不采用决策树算法,通过简单的两个单维度交叉形成二维决策矩阵,得到的复合规则也是有很好效果。只是在实际工作中,往往面对的字段标签挺多的,一般多数的时间是关注单维度。只有单维度的难以满足风控策略架构时,才会通过刚说到的复合规则来增加。
当然,通过决策树算法去跑,省时间而且效果,但是一定要注意的是“既然决策树这么好用,为什么还要单特征分析?”,其实决策树跑出的规则,尤其是针对很多字段生成的,虽然开 发出来有效果,但后期部署上线监测的波动性会很大的,毕竟维度太多了,有时也是看情况综合使用。
解答: 等距分箱与等频分箱在场景应用时也没有太明显的区分,毕竟都是无监督算法,只是区间展现的时候区别较大,如果应用在特征离散等方面,二者都是可以的。
重点是明确二者有什么缺点,比如等距分箱,虽然区间划分均匀便于分析,但很可能出现其中某些区间的数量为0;而等频分箱也很难保证每个区间的频率一定接近,且各区间阈值可能差异很大。当然,要是特征数据分布比较均匀,等距分箱和等频分箱的结果都是比较不错的。
Q6:如果规则的首逾7天指标区分度高,但首逾30 天逾期率区分度低,这种该怎么处理?解答: 这是由于目标变量定义口径不同,使得目标变量的分布存在很大差异,规则的区分度自然也很容易变低,但根据这种情况来说规则效果变差的话,是不太合理的。
开发某条规则,是定义好了目标才进行划分阈值确定规则的,既然是确定这条规则,说明区分度是比较好的,这和目标逾期几天没有什么关系的。
如果目标定义又发生了变化,那规则自然也得重新开发,对应的阈值一般也就发生了变化。因此,问题描述的情况从客观角度说,是不存在的,要理解一点,规则是定义好目标才开发的, 而不是开发好规则再去变化目标定义的,这不是随便可以双向变化的,而是一个单向的流程机制。
Q7:首逾的定义具体是什么?怎样从逾期客户中排查哪些是贷前规则的问题,哪些是贷中管理的问题?解答:
(1)首逾理解为客户在首次还款日没有足额支付应还款金额。
(2)对于逾期客户,不可能有针对性的识别出是贷前或贷中的问题,只能说都有问题,毕竟客户逾期是滞后的一种表现,而作为表现前的风控规则,无论是贷前或贷中是不能准确判定结果的,只是从风控角度给出一种预测可能性。
因此我们往往会根据贷后客户的逾期表现,去反向逆推风控贷前或贷中规则的区分度,并适当优化阈值或逻辑等来提高策略在未来决策的效果。
当然到时可能只是针对贷前环节某个规则来调整了,而贷中没有调整,但这里并不是说明是贷前规则问题,只能说明贷前某个规则针对当前的贷后表现可以识别某些逾期客户,而贷中现有规则没有识别度,但要是通过数据分析挖掘,必然也会在贷中环节得到相关新的规则来较准确识别逾期客户,但这里同样不能说明是贷中的问题,还是前边开始说的,贷后逾期客户情况是整个风控的问题。
解答:拒绝推论方法有很多,例如样本随机抽取法、模型赋值划分法、模型分组扩充法、特征变量聚类法、样本权重推断法、专家经验设定法等。
这里简单介绍其中最常用的一种方法,也就是模型赋值划分法,大体步骤分为:
(1)根据通过样本构建评分模型;
(2)利用通过样本模型对拒绝样本进行打分;
(3)对拒绝样本评分进行排序,确定好坏标签划分阈值;
(4)合并通过样本与拒绝样本,重新构建评分模型。
拒绝推论在风控中比较重要,也是很经典的场景,这里简单描述下,到时看大家后期的整体需求,到时可以开展专题课。
Q9:信用卡的授信规则和额度外大额现金分期的授信规则上区别在哪里,现金分期应注意什么?解答:
(1)从额度授信策略上没有固定的区别,虽然表现不同但具体决定于金融机构的风控架构与业务形态;从业务规则表现上是有明显区别。对于信用卡,往往最开始授予一个较低额度,然后根据日常消费表现与资质能力定期调整额度,然后趋于稳定额度范围,而对现金分期是针对当前授信额度进行分期,是比较固定的。
(2)现金分期从风控角度说,需要特别注意分期期数、反欺诈策略、信用模型、额度模型等。
Q10:申请评分卡的观察点是申请时点,我知道申请时点之后的是表现期,用来看贷后表现,那申请时点之前有个观察期,这个观察期是观察什么的,一般观察期定为多久?解答:观察期只是用来确定时间窗下建模样本特征数据的,不能太长也不宜太短,时间段太长了很久以前的数据分布很可能与未来数据分布有较大差异,时间段太短了样本数据的时序维度代表性较差,一般情况下观察期设定6个月~2年,具体却决于具体场景,比如对于银行信用卡,观察期选取较长,对于互联网现金贷,观察期相对较短。
FAL知识星球创办已有271天,在这期间里,一共开办过14期高质量的大咖直播课程,每期课程会配套相应的课件,相关代码等实操资料。
课程咨询找科科:kk2_fal
【第10期】央行二代征信报告的变量衍生及信贷风险策略开发
为了快速学习和搜捕信息资源,我加入过很多付费圈子,得到的很多成长和资源,让我受用至今。
我希望大家跟我一样,「混圈子也要混得明明白白」,在进入一个圈子前,大家要明确自己的诉求,而不是单纯的被焦虑所驱动,到头来变成了一颗绿油油的韭菜。
接下来,我会说说在FAL的圈子里,大家会得到什么。
大家购买的是1年的知识星球会员费,在接下来的1年内,可以畅享星球内的所有资料,并可以无限次在星球内提问,此外,这里还有定期的大咖分享和人脉链接机会。
这些,只是星球中的冰山一角。
真正庞大的是大家用心打造的知识宝库,内容才是这个星球的核心,每个人都能从中学到东西,快速进步。
另,付费后,我会把大家邀请进星球专属交流微信群,你可以随时与同频的小伙伴们在群里交流。
为了更好地服务真正想学习的人,FAL设置了699元/年的付费门槛,希望加入的同学只需每天不到2元的成本,收获超越699元的价值。
【金科应用研院】知识星球已经建设9个月了。这9个月里,我们开展了12期大咖直播分享,让上百位学员有机会与大咖近距离、同话题交流,现在报名可回看往期精彩内容。
同时,后续如有其他付费内容/活动,会优先星球会员购买或者免费参与。
作为一个新的星主,我深知这是全新的领域和挑战,初期运营可能不够完善;大家有什么问题或宝贵建议,欢迎提出来,我会努力改进。
在这里,希望每一个付费的人,都是奔着更好的自己而来~