专栏名称: 雷帅快与慢
经验让工作更简单,风控让人生更自由。
目录
相关文章推荐
湖北经视  ·  突然公告:两人已办理离婚! ·  2 小时前  
湖北经视  ·  辽宁一造纸厂突发大火 ·  17 小时前  
湖北经视  ·  痛别!“阿庆嫂”走了 ·  2 天前  
51好读  ›  专栏  ›  雷帅快与慢

一个让风控模型工作如此简单的决策逻辑

雷帅快与慢  · 公众号  ·  · 2025-03-11 15:13

正文

模型训练,就是模式识别,模型本身是一个复杂的函数。模型越复杂,你就可以理解这个函数最强,模式识别地越精准。

一个想法值不值得做,你只需要判断它有没有信息增益,以及大概有多大,后者尤其重要。建模是其实现,想法本身的价值是模型价值的上限。

而判断一个想法有多大的信息增益,基本都可以在事前,不需要建模去试。

如果你知道这一点,并且掌握基本的事前判断能力,你的风控模型工作就必然是如此之简单。

本文要做的就是阐述这两点。如果此番决策逻辑被清晰地阐述,就必然得出了一个让很多人羞愧的结论:如果你做模型做得很忙很累很头大,不仅不能说明你牛逼你努力,反而说明的是你不懂风控。

很好,我写了一个很有力的开头。‍


常常引发无数模型同学熬夜加班掉头发的困扰,大概都在三点优化上:特征、标签和客群。

我们一个一个说。


1、特征优化

开发新特征、引入新的数据源,在已有的特征域上进一步衍生特征,都在此列。这三点优化,对模型KS有多大的提升?你可以结合你的经验思考这个问题。

如果说引入一个新的数据维度,模型效果提升10%,那么对该数据维度过度衍生特征,其增益还得乘10%。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

例如你引入了银联银杏分,把它融合进你的A卡模型里,效果提升10%,这是很合理的大致范围,KS从30变成了33;假如你去银联联合建模,定制一个模型,再把它融合进你的A卡模型里,也许KS能更高一点,例如34;假如你嫌弃银联底层变量不够,你硬要强行衍生更多变量,再建模型,融入A卡,那KS几乎还是34,可能是34.1、34.3、34.5,绝对不会变成35。‍‍‍‍‍‍‍‍‍‍‍‍

再例如征信数据,从几百个变量,衍生到几千个变量,到几万个变量,对KS的提升,顶多有一次10%,很快就边际递减到1%,到忽略不计。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因为信息增量随着特征数量边际递减。纬度爆炸的价值是那个1%,不是10%。

1%的价值做还是不做?如果不麻烦,当然可以做。但如果这个1%只能用在很小的客群分支上,那就不用做了。

例如,一个很新奇的想法,它可能有点用,但是因为做法过于奇怪,有较大的操作风险,策略最多会在一个特别小的分支流量上应用,1%的增益,叠乘一个10%的流量,再加上策略应用对模型性能的折损,这个项目你做吗?


2、标签优化

涉及标签优化的模型工作,主要就是换不同标签做不同的模型。长期风险表现做一个模型,短期风险表现做一个模型,例如mob12和mob6,甚至mob3、FPD。

既然有长期短期,进一步就有长短期,短期好长期坏怎么办?是不是要建三个模型?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

长短期、长期、短期,它们有等式关系,这意味着其中任意两个的信息量就是全部的信息总量。建两个模型就等于三个模型,f_长短期=g(f_长期, f_短期),这个g是简单的,留给策略就好了。

甚至我们还可以这样理解,短期的坏最坏,长期的坏比短期的坏略好,长期的好最好,二分建模的时候,长期还是短期,无非是二分的gap大小的问题。

长期和短期的信息量也不过是10%这个级别的差异而已。两个模型相比一个模型,也不过是10%这个级别的增益而已。

基于此逻辑,如果一个模型在一个标签下好于另一个模型,那就是各种标签下都好。你不用关心他们的建模目标是什么。当然,我们说的是一般情况。

从朴道、百行那里给你10个评分产品,你去测试,完全不需要考虑这些产品是基于什么样的标签做成的。你只关心绝对效果及其可靠性,和价格。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍


3、客群优化

这里主要包括,分客群建模和常规化的迭代模型,他们本质上都是样本即客群的差异化。‍‍‍‍‍‍‍‍‍‍

两个完全不同的客群分别建模是有必有的,例如12%、24%、36%这样不同定价的客群,例如花呗、借呗这种不同类型的产品。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍







请到「今天看啥」查看全文