AI技术快速发展,风控作为金融机构的生命线,其模型选择一直是业内专家广泛讨论的话题。传统上,以
逻辑回归
为基础的评分卡模型和以
XGBoost
、
LightGBM
为代表的树模型占据了风控建模的主流地位。然而,随着深度学习在图像识别、自然语言处理等领域取得惊人成就,以及大模型如DeepSeek的横空出世,一个自然的问题浮现出来:为什么国内信贷风控领域较少采用深度学习算法,而出海金融科技公司都在积极探索和应用大模型?本文将探讨这一现象背后的技术原因。
(P.S:我尽量用大白话讲技术。
视频(次条)更科普更易懂,保证人人听的懂
)
如果您觉得好,别吝啬三连;有其他观点,评论区一起交流。
数据决定算法
准确的说,是数据特性决定算法选择。信贷风控的核心在于对借款人违约风险的准确预测,而这一预测主要依赖于借款人的个人信息数据。这些数据大致可分为两类:
静态信息(如年龄、学历)和动态信息(如收入变化、消费习惯)
。尤其是动态信息,对风险预测至关重要。
信贷机构获取这些动态信息的渠道主要有两种:内部和外部。
内部动态信息包括用户在平台上的浏览轨迹、申请记录、还款表现等;外部动态信息则来自央行征信报告、多头借贷记录以及第三方数据服务商提供的互联网行为数据等。
然而,需要注意的是,这些所谓的"动态"信息,对信贷机构而言实际上是"静态"的截面数据。因为金融机构通常只在用户申请贷款时查询这些信息,获取的是申请时刻的"快照",而非连续的时间序列。这就导致
风控建模时面对的多是表格形式的结构化数据,每一行代表一个用户,每一列代表一个特征。
表格这种对于我们人类最好看的数据格式,深度学习表示自己真不擅长。
为什么深度学习在处理图片和文字时表现出色,但在处理信贷表格数据时却显得平平无奇?这和它们内部的"偏好"有关。
想象一下,深度学习模型就像是专门训练的运动员,每种模型都有自己的"特长":
特长1:图像处理的"特长"
处理图像的卷积神经网络(CNN)有两个关键特长:
这些特长让CNN在识别图像时非常出色,因为图像中的物体特征恰好符合这些特点。
特长2:文本处理的"特长"
处理文本的循环神经网络(RNN)同样有其独特优势:
这些特长让RNN在理解文本时表现突出,因为语言天生就是有序的,上下文关系丰富。
嘚,这时候你再看表格数据的"特点"
-
无固定位置关系:在表格中,"年龄"和"收入"这两个特征之间没有位置上的关联,它们可能是任意排列的两列。
-
无明显顺序:特征之间通常没有明确的先后顺序,"信用评分"放在第一列还是最后一列并不影响其含义。
-
复杂的非局部关联:一个借款人是否违约可能同时与多个互不相邻的特征有关,比如同时考虑"年龄"、"职业"和"历史还款记录"。
-
特征重要性差异大:"收入"对预测违约可能极其重要,而"手机品牌"可能几乎无关紧要。
简单说,深度学习模型就像专攻短跑的运动员,只在田径场上表现出色;而当我们要求它打高尔夫球时,它的特长就发挥不出来了。表格数据更像是高尔夫球场,需要人情世故加技术。
国内信贷风控领域对模型可解释性有着极高要求,这也是评分卡和树模型受青睐的重要原因。逻辑回归评分卡模型能清晰展示每个变量对风险的贡献度,便于解释和调整;树模型虽然复杂些,但其决策路径仍可追踪,变量重要性也能量化评估。