正文
信用风险当然是。无信不立,信用是可以看作是用户的某种属性的。虽然具体的计算口径往往是多长时间内逾期多少天,虽然其表现形式不完全等同于信用风险,但所谓本质不改。
欺诈风险也是,但要次之。因为你只能用
fpd
近似,但欺诈和
fpd
不是等同关系,并不是
fpd
逾期的都是欺诈,也不是所有的欺诈都会
fpd
逾期,也可能是养号。
收入也算,但它不一样。收入在各种场景里都算得上是用户的关键标签,在所有场景都可靠的指标当然适合建模。当你对收入建模时,你不是预测未来的收入,而是预测当下的收入。按理说当下的信息不是预测,而是识别,只是因为确切的收入指标就那么几个源头:社保、公积金、个税等,用少量样本确切的指标建模来推断全量,不失为好办法。
业务里非常关注三个指标:额度、余额和额度使用率。如果要当建模目标,余额比额度好,比额度使用率好。同理,消费金额也还行。但凡
c=f(a,b)
的,预测
c
都不如预测
a
或
b
,如果你想要两个,那就预测
a
和
b
,不要预测
c
。例如
额度使用率=f(额度,余额)
,那就预测余额。
也就是说,因变量不是一个好目标,策略变量当然也不是好目标,例如额度,那是策略结果。
什么时候变坏也不是一个好目标,因为这和什么时候出账有关,出账又由什么时候支用决定。预测什么时候变坏不如预测什么时候支用。
有很多数据服务商,为了让自己的数据产品版图好看一点,唬人一点,会做非常多的产品。但实际上很多产品是无效的。一套相同的特征,你可以对任何目标建模,但好目标没那么多。
例如有做响应评分的,这其实不是一个好目标,因为响应不是用户的基本特性,是用户和产品共同的结果,当然风险严格意义也是,但程度明显不同。在
A
产品的响应和
B
产品上的响应压根儿不是一回事。
即便是风险这样的好目标,适用性也是要考虑的。例如下面是某款数据产品的效果说明,你能读出点什么呢?