专栏名称: 雷帅快与慢

经验让工作更简单，风控让人生更自由。

一次联合建模

雷帅快与慢 · 公众号 · · 2024-12-23 15:10

主要观点总结

本文主要描述了雷帅慢银行与雷帅快大厂在消费信贷业务合作中进行联合建模的过程，包括立项、数据准备、模型建立、模型部署和需要注意的问题。文章还强调了站在多方角度思考问题和确保全程信息透明的重要性。

关键观点总结

关键观点1: 雷帅慢银行消费信贷业务面临困境，决定与雷帅快大厂合作寻找优质资产。

经济低迷、消费下滑、监管持续趋严、竞争日益加剧，雷帅慢银行的消费信贷业务面临增长压力。为了改善状况，银行决定与擅长消费信贷业务的快大厂合作，共同开发产品分润。

关键观点2: 双方在合作中遇到挑战，通过成立专项小组解决。

在合作过程中，雷帅慢银行和雷帅快大厂在联合建模上遇到许多挑战，如特征数据的处理、样本的选取和模型的建立等。为此，双方成立专项小组，各自指定负责人对接模型开发工作。

关键观点3: 模型建立过程中的重要问题以及解决方式。

在模型建立过程中，双方负责人对特征数据、样本数量、模型类型等问题进行了多次沟通。经过反复商讨，最终确定了建模所需的样本和特征数据。但模型的建立并不是一帆风顺的，慢A和快B在此过程中都面临了很多挑战，包括数据处理、变量脱敏等。

关键观点4: 模型部署中的问题和注意事项。

在模型部署阶段，双方需要解决模型的复杂度和打分作业的耗时问题。快B指出了模型中一些不必要的复杂度和低效之处，提出了改进措施。最终模型被成功部署并经过一致性校验。

关键观点5: 离线打分与实时打分的区别及重要性。

文章强调了离线打分和实时打分的区别以及重要性。离线打分再推送分数到线上接口相较于实时推送特征计算分数更加容易控制。离线打分的模型复杂度不那么重要且计算作业耗时不是问题，但实时打分则需要考虑模型的复杂度和推送大量特征到线上的困难。

关键观点6: 团队合作的重要性及站在多方角度思考问题的必要性。

文章总结了团队合作的重要性并强调了在联合建模或其他项目中站在多方角度思考问题的必要性。通过站在对方的角度、我方角度和项目角度思考问题能够更好地理解项目目标并实现更好的合作。

正文

最近 雷帅慢银行 着实愁坏了，行内消费信贷业务新增客户越来越少，活跃度也越来越低了，余额规模一降再降。

经济低迷消费下滑，监管持续趋严，竞争日益加剧，资产规模和质量都开始面临很大的增长压力。维持已成困难，谬谈增长。

雷帅慢银行寻思，这么下去不是办法，形势再差，也要人为，得主动出击去找优质资产。

怎么找，流量和质量都掌控在互联网大厂手上。

于是，找到了 雷帅快大厂 ，你把优质用户给我，我们来做款产品，一起分润。

互联网公司都是在做流量变现，雷帅快大厂就爽快同意了。

win-win。

那快大厂怎么把优质用户给慢银行呢？

快大厂虽然自己也做消费信贷业务，也有内部风险评分。但风险是由用户和产品决定的，慢银行想要的是适合他们产品的优质用户，快大厂筛选的优质用户虽然不错，但不是最优。

这就涉及到合作中最重要的一环， 联合建模 。

慢银行提供一批有风险表现的用户给快大厂去匹配特征，风险是慢银行的，特征是快大厂的。

由慢银行同学去建模，有了模型之后就可以对快大厂的流量做精准风险评估了。

一般来说，谁用模型谁建模。

于是慢银行和快大厂分别成立了一个小组，两方各自指定了个负责人，专项对接该模型开发工作。

1、立项会议

小组成立之后，马上开了一次语音会议，聊这个模型怎么建。

两方负责人先拉了个微信群，把慢银行和快大厂这次联合建模相关的人员都拉进去了。

慢银行一堆问题就跟机关枪一样发射了：

你们有多少特征，能回溯到什么时候？
需要用什么主键去匹配特征？
你们的数据能不能传给我们，我们直接在行内建模？
我们要建xgb模型，你们xgb模型怎么部署？
……

快大厂心里很不爽，你们急个毛线。 ‍

我们数据多着呢，近两年都可以回溯，身份证和手机号做主键，我们上千个特征，不出库，我们准备好电脑和建模环境，你们带标签过来。然后开始反问了： ‍ ‍

你们准备多少样本建模，最好多带点？
你们标签怎么定义的，建什么模型？
你们准备建几个模型，输出几个字段？

一来二回，都觉得对方不给力。

慢银行嫌快大厂特征数据不出库，还要他们派模型同学驻场建模。

快大厂嫌慢银行能带出的样本太少了，建模效果不好的话还要怪数据质量。

但好歹，一些事情还是确定下来了。

慢银行指定了一个干活的模型同学（慢A），快大厂也指定了个干活的同学（快B）。

然后，慢A去准备建模需要的10w样本，走申请流程带出。

快B就去准备了两台电脑，搭建建模环境。

2、数据准备

慢A同学在慢银行苦心经营，找了许多相关方开了许多会，终于确定了如何选取这10w样本。

又写了几十行代码抽取这些样本，写了好几天，还请同事帮忙进行了review。

然后走起了漫无边际的审批流程，匹配加密的主键，样本出库等。

这个时候的慢A觉得自己是张骞。

此时，快B同学在快大厂申请了两台旧电脑，确保了无网络访问权限，然后安装了下必备的Python包。

然后开始准备怎么做都有问题的特征，从特征库里选择了几张合适的稳定有效的特征表，开始做一些脱敏处理。

变量的值要脱敏，例如分段处理，变量的含义也要做脱敏，巴不得改名为变量1、变量2……还有缺失值要处理。可谓无所不用其极。

这个时候的快B觉得自己是SB。

最后，还要计算变量的分布，确保分段处理后的变量分布逐月稳定且合理。

3、无穷无尽的拉扯