十二、互联网保险展望
在国家政策的大力支持下,互联网保险具有很好的前景。但是当前的互联网保险市场险种单一,需要均衡种类。另外,报价自动化和信息核实自动化目前还面临较大的困难,需要解决。其次,持牌的保险机构系统需要改造基础系统,以更加符合当前的市场发展和监管要求。
问答精选
Q:对PCA的输入需要做归一化吗?
A:需要看情况,有的时候做归一化效果很好,因为它把数据拉到了同一个尺度上,但有时候归一化会扭曲了数据的分布,所以要看具体情况。有时候你可以做一版有归一化的,做一版无归一化的,两者对比看效果。是否归一化是一个要仔细考虑的问题。有些极端分布会扭曲归一化后的数字,我们尽量做些预处理来看。大部分情况我们会做归一化,特殊的变量我们会另外考虑。
Q:国际疾病分类标准icd-10大概有几千条疾病分类,那需要对这几千种疾病每一种都建立一套用药逻辑吗?
A:这个要看你的数据量。通常来讲我们会用疾病类别,而不是具体的疾病条目。几千种疾病会被合并到几十种疾病类别中。
Q:一些老年人可能同时患多种疾病,如糖尿病,伴随高血压、感冒,但医生处方单据上只会记录一种比如糖尿病,但开的药中可能有板蓝根等明显不是治疗糖尿病的药。表面上看,用药逻辑很不合理,但深入查诊疗结果会觉得用药逻辑是合理的。这是否会引起医疗保险反欺诈的误判?
A:我们做的是模型,而不是规则。你刚讲到的思路是规则的思路,如果怎样,则怎样。模型最大的好处是有一定的完整性,是全局去调整的。老年人和年轻人的信号是不一样的。像你刚刚讲到的并发症的情况,会使老年人的用药分布可能不那么集中,会相对来讲更平均。在这样的情况下,给予这样的指标的权重会小一些。这是可以通过模型去学习、调整的。但你讲到的这个的确是一个问题。由于数据比较零散,可能模型不能很好地识别欺诈。只能说模型不能作为识别欺诈的唯一指标,它只是一个参考指标。我们会有人工审核系统,以模型给出的评分作为参考,并根据模型结果的引导去进一步看相关的数据,更准确地做出欺诈识别。
Q:实际工作中模型做出的结果是否一定要加上人工的再次审核?
A:现阶段建议这么做。因为数据的标签本身就不是特别准确,所以模型更多地是做参考依据,提高人工审核的效率。但在很多其他行业,模型对欺诈的判断是非常准确的,例如支付行业模型检测可以完全取代人工审核。
Q:半监督学习在反欺诈方面如何发挥作用?
A:现在比较标准的主要还是监督学习,好坏比较容易区分。半监督学习和无监督学习现在还处在探索性的阶段。所以我见到的更多的还是classification这种问题。半监督学习在医疗上面还是有不少的应用,但在反欺诈领域的话我见到的主要还是监督学习或无监督学习的应用。这可能跟涉及的行业有关,例如支付行业,付钱还是不付钱,非常容易区分;在医疗保险行业,硬性欺诈很容易区分,但软性欺诈的行为很不容易区分出来,倒不是处于半知道、半不知道的状态,更多时候就是处于不知道的状态,只能通过人工分析把它学一遍,或者用聚类这样的方法去找一遍,看是否存在有noise案例。