前阵子,小编专门就商业银行引进外部数据做了探讨,发了两篇文章:
《
原创|商业银行引入外部数据的五项原则和五项策略
》、
《
原创|商业银行引入外部数据的几种可能的模式
》,取得了良好的反响,本篇将就该问题,展开进一步的探讨。
商业银行在制定外部数据引入规范的时候,要在坚持小编之前所阐述的5项原则的基础上,进行深入的研究,要牢牢把住数据价值导向,具体的外部数据引入验证规范可能需要考虑以下内容:
一、数据合法性验证
数据合法性是外部数据验证规范的重中之重,应当通过设置外部数据合法性验证指标来保证数据的合法性,具体如下:
1、是否取得用户授权。主要检查数据提供商的用户授权协议,包括到数据 提供商数据库中检查总授权协议书数量、与客户数据的匹配率,设置匹配率阀值。
2、是否取得源数据合作协议。对于数据集成商,需要验证其是否取得源数据提供商的合作协议,最好能留存复印件备查。
二、数据质量验证
数据质量的验证需要对数据的缺失水平、数据的可持续性、数据的准确性等方面进行验证。
1、数据覆盖水平。通过样本数据验证客户数据的可调用水平,也就是数据对商业银行客户的覆盖水平。
2、数据的缺失率。银行要采购的外部数据是否存在大量缺失的情况,需要通过抽样的方式进行验证,最好的方法是由银行派出专家到数据供应商数据库中就数据分布情况进行验证,并根据不同的业务使用场景建立缺失率容忍标准。比如,对于建模使用的数据,要结合数据的业务含义来确定缺失率容忍标准,一般而言,过高的缺失率不能作为模型的变量。
3、数据的可持续性。数据的可持续性包括数据字段值的可持续更新及数据口径的稳定。一是银行派出专家到数据供应商数据库验证一定周期(一般要24个月的历史数据)内的数据分布、波动情况并验证其数据口径的一致性;二是对于要用于建模的数据,可以利用一些通用的衡量变量稳定性的技术标准指标对数据进行验证。数据的可持续性关系到业务的连续性,是数据质量验证的重要一环。
4、数据的准确性。数据的准确性包括数据是否符合现状、常理以及是否能够具备预测能力等。一是通过抽取部分银行较为熟悉的客户样本来验证数据的准确性,通过银行掌握的信息和数据表现做比对验证;二是如果用于预测性建模,可以考虑用衡量变量预测能力的技术指标对数据进行验证。
三、数据价值验证
在做完上述验证的基础上,数据价值如何定义?如何科学合理的定价,避免数据供应商漫天要价,需要制定相应的数据价值验证规范。
1、数据价值评价。数据价值的评价要与具体的应用场景相结合。如果是用于营销上,通过采用对照的方式,将一组使用了外部数据的营销样本和一组没有使用外部数据的营销样本分别应用于业务中,看两组的营销表现,在同样的条件下,使用了外部数据的营销样本的转化率是否高于未使用外部数据的营销样本的表现。如果是用于风险上,则同样需要通过业务调查对比的方式,看两组样本的风险表现。不论是营销还是风险上的验证,都需要设置一定的标准来评价数据价值,比如,应用了外部数据的样本在营销转化率上需要较未使用外部数据的样本提升50%。
2、数据价格标准。采购的数据的价格确定是个难题,需要在上述数据价值评价成果的基础上,科学定义价格测算标准。比如,以营销应用来看,可以用(外部数据样本收益-无外部数据样本收益)/外部数据样本记录数确定单条记录的潜在价值,以此为基础,通过调研业界类似单条记录的成本,进行合理定价。
延伸阅读: