国内vs出海风控模型出现分歧？（技术分析篇）

金科应用研院 · 公众号 · · 2025-03-17 08:33

正文

关注 “ 金科应用研院 ” ，回复“ 礼包 ”

领取“ 风控资料合集 ”

文末还有惊喜小福利，记得看到底呦

AI技术快速发展，风控作为金融机构的生命线，其模型选择一直是业内专家广泛讨论的话题。传统上，以 逻辑回归 为基础的评分卡模型和以 XGBoost 、 LightGBM 为代表的树模型占据了风控建模的主流地位。然而，随着深度学习在图像识别、自然语言处理等领域取得惊人成就，以及大模型如DeepSeek的横空出世，一个自然的问题浮现出来：为什么国内信贷风控领域较少采用深度学习算法，而出海金融科技公司都在积极探索和应用大模型？本文将探讨这一现象背后的技术原因。

（P.S：我尽量用大白话讲技术。视频（次条）更科普更易懂，保证人人听的懂）

如果您觉得好，别吝啬三连；有其他观点，评论区一起交流。

01 ‍

数据决定算法 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍‍‍‍‍

准确的说，是数据特性决定算法选择。信贷风控的核心在于对借款人违约风险的准确预测，而这一预测主要依赖于借款人的个人信息数据。这些数据大致可分为两类： 静态信息（如年龄、学历）和动态信息（如收入变化、消费习惯） 。尤其是动态信息，对风险预测至关重要。

信贷机构获取这些动态信息的渠道主要有两种：内部和外部。

内部动态信息包括用户在平台上的浏览轨迹、申请记录、还款表现等；外部动态信息则来自央行征信报告、多头借贷记录以及第三方数据服务商提供的互联网行为数据等。

然而，需要注意的是，这些所谓的"动态"信息，对信贷机构而言实际上是"静态"的截面数据。因为金融机构通常只在用户申请贷款时查询这些信息，获取的是申请时刻的"快照"，而非连续的时间序列。这就导致 风控建模时面对的多是表格形式的结构化数据，每一行代表一个用户，每一列代表一个特征。

表格这种对于我们人类最好看的数据格式，深度学习表示自己真不擅长。 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

深度学习的归纳偏置 ‍ ‍ ‍ ‍ ‍ ‍ ‍

为什么深度学习在处理图片和文字时表现出色，但在处理信贷表格数据时却显得平平无奇？这和它们内部的"偏好"有关。

想象一下，深度学习模型就像是专门训练的运动员，每种模型都有自己的"特长"：

特长1:图像处理的"特长"

处理图像的卷积神经网络(CNN)有两个关键特长：

位置不重要：无论猫出现在照片的左上角还是右下角，CNN都能认出这是猫。这就像篮球运动员不管站在球场哪个位置都能投篮一样。
关注局部关系：CNN特别擅长处理相邻像素之间的关系。就像拼图游戏，它关注的是每块拼图如何与周围的拼图匹配，而不是与远处拼图的关系。

这些特长让CNN在识别图像时非常出色，因为图像中的物体特征恰好符合这些特点。

特长2:文本处理的"特长"

处理文本的循环神经网络(RNN)同样有其独特优势：

顺序很重要："我喜欢这部电影"和"这部电影我喜欢"意思相近，但"我不喜欢这部电影"含义则完全相反。RNN擅长捕捉词语顺序的重要性。
上下文理解：RNN能理解"苹果"在"我吃了一个苹果"和"苹果公司发布新手机"中的不同含义，因为它考虑了上下文。

这些特长让RNN在理解文本时表现突出，因为语言天生就是有序的，上下文关系丰富。

嘚，这时候你再看表格数据的"特点"

无固定位置关系：在表格中，"年龄"和"收入"这两个特征之间没有位置上的关联，它们可能是任意排列的两列。
无明显顺序：特征之间通常没有明确的先后顺序，"信用评分"放在第一列还是最后一列并不影响其含义。
复杂的非局部关联：一个借款人是否违约可能同时与多个互不相邻的特征有关，比如同时考虑"年龄"、"职业"和"历史还款记录"。
特征重要性差异大："收入"对预测违约可能极其重要，而"手机品牌"可能几乎无关紧要。

简单说，深度学习模型就像专攻短跑的运动员，只在田径场上表现出色；而当我们要求它打高尔夫球时，它的特长就发挥不出来了。表格数据更像是高尔夫球场，需要人情世故加技术。

03 ‍

模型要不要解释 ‍ ‍ ‍ ‍ ‍ ‍ ‍

国内信贷风控领域对模型可解释性有着极高要求，这也是评分卡和树模型受青睐的重要原因。逻辑回归评分卡模型能清晰展示每个变量对风险的贡献度，便于解释和调整；树模型虽然复杂些，但其决策路径仍可追踪，变量重要性也能量化评估。

国内vs出海风控模型出现分歧？（技术分析篇）

正文

特长1:图像处理的"特长"

特长2:文本处理的"特长"

嘚，这时候你再看表格数据的"特点"

请到「今天看啥」查看全文