专栏名称: 金科应用研院
Share Technology Happy Finance
目录
相关文章推荐
51好读  ›  专栏  ›  金科应用研院

国内vs出海风控模型出现分歧?(技术分析篇)

金科应用研院  · 公众号  ·  · 2025-03-17 08:33

正文

关注 金科应用研院 ,回复“ 礼包
领取“ 风控资料合集
文末还有惊喜小福利,记得看到底呦

AI技术快速发展,风控作为金融机构的生命线,其模型选择一直是业内专家广泛讨论的话题。传统上,以 逻辑回归 为基础的评分卡模型和以 XGBoost LightGBM 为代表的树模型占据了风控建模的主流地位。然而,随着深度学习在图像识别、自然语言处理等领域取得惊人成就,以及大模型如DeepSeek的横空出世,一个自然的问题浮现出来:为什么国内信贷风控领域较少采用深度学习算法,而出海金融科技公司都在积极探索和应用大模型?本文将探讨这一现象背后的技术原因。

(P.S:我尽量用大白话讲技术。 视频(次条)更科普更易懂,保证人人听的懂 ‍‍‍








如果您觉得好,别吝啬三连;有其他观点,评论区一起交流。


01
数据决定算法 ‍‍‍‍‍


准确的说,是数据特性决定算法选择。信贷风控的核心在于对借款人违约风险的准确预测,而这一预测主要依赖于借款人的个人信息数据。这些数据大致可分为两类: 静态信息(如年龄、学历)和动态信息(如收入变化、消费习惯) 。尤其是动态信息,对风险预测至关重要。

信贷机构获取这些动态信息的渠道主要有两种:内部和外部。


内部动态信息包括用户在平台上的浏览轨迹、申请记录、还款表现等;外部动态信息则来自央行征信报告、多头借贷记录以及第三方数据服务商提供的互联网行为数据等。


然而,需要注意的是,这些所谓的"动态"信息,对信贷机构而言实际上是"静态"的截面数据。因为金融机构通常只在用户申请贷款时查询这些信息,获取的是申请时刻的"快照",而非连续的时间序列。这就导致 风控建模时面对的多是表格形式的结构化数据,每一行代表一个用户,每一列代表一个特征。



表格这种对于我们人类最好看的数据格式,深度学习表示自己真不擅长。


02
深度学习的归纳偏置


为什么深度学习在处理图片和文字时表现出色,但在处理信贷表格数据时却显得平平无奇?这和它们内部的"偏好"有关。


想象一下,深度学习模型就像是专门训练的运动员,每种模型都有自己的"特长":


特长1:图像处理的"特长"

处理图像的卷积神经网络(CNN)有两个关键特长:

  • 位置不重要:无论猫出现在照片的左上角还是右下角,CNN都能认出这是猫。这就像篮球运动员不管站在球场哪个位置都能投篮一样。

  • 关注局部关系:CNN特别擅长处理相邻像素之间的关系。就像拼图游戏,它关注的是每块拼图如何与周围的拼图匹配,而不是与远处拼图的关系。


这些特长让CNN在识别图像时非常出色,因为图像中的物体特征恰好符合这些特点。


特长2:文本处理的"特长"

处理文本的循环神经网络(RNN)同样有其独特优势:

  • 顺序很重要:"我喜欢这部电影"和"这部电影我喜欢"意思相近,但"我不喜欢这部电影"含义则完全相反。RNN擅长捕捉词语顺序的重要性。

  • 上下文理解:RNN能理解"苹果"在"我吃了一个苹果"和"苹果公司发布新手机"中的不同含义,因为它考虑了上下文。


这些特长让RNN在理解文本时表现突出,因为语言天生就是有序的,上下文关系丰富。


嘚,这时候你再看表格数据的"特点"

  • 无固定位置关系:在表格中,"年龄"和"收入"这两个特征之间没有位置上的关联,它们可能是任意排列的两列。

  • 无明显顺序:特征之间通常没有明确的先后顺序,"信用评分"放在第一列还是最后一列并不影响其含义。

  • 复杂的非局部关联:一个借款人是否违约可能同时与多个互不相邻的特征有关,比如同时考虑"年龄"、"职业"和"历史还款记录"。

  • 特征重要性差异大:"收入"对预测违约可能极其重要,而"手机品牌"可能几乎无关紧要。


简单说,深度学习模型就像专攻短跑的运动员,只在田径场上表现出色;而当我们要求它打高尔夫球时,它的特长就发挥不出来了。表格数据更像是高尔夫球场,需要人情世故加技术。


03
模型要不要解释


国内信贷风控领域对模型可解释性有着极高要求,这也是评分卡和树模型受青睐的重要原因。逻辑回归评分卡模型能清晰展示每个变量对风险的贡献度,便于解释和调整;树模型虽然复杂些,但其决策路径仍可追踪,变量重要性也能量化评估。







请到「今天看啥」查看全文