专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

【独家】中国互联网下的医疗保险费用欺诈识别（视频+PPT+课程精华笔记）

数据派THU · 公众号 · 大数据 · 2017-05-18 20:56

正文

［导读］为了让清华大学大数据能力提升项目的学生在基础学习和科研的基础之上，更好地了解大数据技术行业领域中的应用，清华-青岛数据科学研究院支持开设了金融大数据方向《量化金融信用与风控分析》课程（课号：80470193）。

本课程由清华大学交叉信息研究院助理院长、清华大数据能力提升项目教育指导委员会委员徐葳老师开设，并且聘任加州大学伯克利分校计算机博士黄铃和美国卡内基·梅隆大学高性能计算研究教学中心创始人、联席总监种骥科博士联袂任教。

在讨论课上，同学们会深度接触互联网金融行业中建立信用和风控模型的理论和实践案例，并了解关键学术挑战和应对挑战的解决方案。同学们还将亲手设计实现信用和风控模型，通过讲座了解世界上最先进的信用分析和反欺诈的方法，优秀项目成果还有望投稿一流的学术会议。

本文来自该课程中的第二次讲座内容。

以下为课程视频，建议在wifi条件下观看。暂时看不了视频的朋友，可观看下面的图文实录哦！

注：本文为精华摘录，回复“清华大数据”，可下载本节课程PPT全文。（限时七天，不想错过更多内容，就请持续关注数据派THU！）

中国医疗保险行业高度发展，但保险欺诈作为行业毒瘤，不仅损害了保险消费者权益，造成保险服务资源浪费，还增加了保险公司运营管控成本，破坏了正常的市场秩序。然而高效地识别出欺诈案件是保险健康发展的痛点。针对上述问题，排列科技联席CEO陈薇女士在讲座中与听众分享了她多年以来的行业经验。

陈薇，排列科技联席CEO，负责公司的运营和风控产品和模型的开发。排列科技是一家专注风控管理的高新科技初创公司。陈薇现应邀参与中国互联网金融协会金融信息共享平台设计建设。陈薇毕业于清华大学计算机系人工智能国家重点实验室，赴美学习获得计算机博士，毕业后任职于PayPal总部，负责线上支付系统反欺诈模型的研发，后加入Pre-IPO 的LendingClub，在风控部门领导开发p2p网贷风控系统的模型和相关技术。

PPT+课程精华笔记

一、互联网保险的现状

互联网保险是指保险机构依托互联网和移动通信技术，通过网络平台提供的保险服务。只有持牌的保险机构可以提供保险服务。诸如淘宝、京东的第三方销售平台，可以对比和推荐多家保险机构的保险产品。

保险的经营范围包括销售、承保、理赔和退保等，其中理赔环节需要识别是否存在欺诈行为，进行合理的赔偿。

二、与传统保险的区别

互联网保险通过系统性的改造，降低运营成本，提高效率。
互联网保险具备非常广的数据维度，从而利用这些数据优化服务体验。
互联网保险具有互惠共享的理念。

三、主要业务模式

当前互联网保险的主要业务模式主要有两类，分别是保险机构的自营平台，和第三方销售平台。但是自营平台的访问流量较低，一般需要由高流量的第三方网络平台，引导用户前往保险机构的自营平台办理业务。

第三方平台可分为如下三类：

需要牌照的专业经代平台。
兼业代理平台，这类平台的主页不是用来推销保险产品的，往往根据服务场景推荐保险。例如携程网上和旅游相关的保险。
比价平台，这类平台在美国较多，在中国也发展迅猛。

目前互联网保险市场的保额总值呈现指数型增长，并且可以看到市场的增长远高于机构的增长，因此这一领域还有许多发展机会。

四、互联网保险业务的基本面

目前的互联网保额市场约2000多亿人民币。在财险市场中，车险占绝对的主导地位，覆盖了93.2%。在人险市场中，则是人寿保险一枝独秀。这是因为车险和人寿保险的办理非常标准化，容易迁移到互联网平台。另外，还有一些比较独特的互联网保险，例如极具中国特色的退运险和碎屏险。健康险和意外险则属于最容易出现欺诈的险种，后面将详细分析这两类险种的欺诈行为和检测。

五、互联网保险面对的风险

当前互联网保险市场面对的风险很多，主要分为以下5种：

欺诈风险，60%-70%的不良业务由欺诈引起，并且这些欺诈行为对市场的发展有较大的负面影响；
信息安全风险，例如最近爆发的WannaCry病毒事件的广泛传播；
信用风险，保险公司需要判断客户是否会按时上交保费,这就涉及到用户的信用信息。例如，在国外买车险时需要看本人的财产记录、还款记录等信用信息。可是国内征信覆盖率只有40%，征信数据的缺失是互联网保险面临的一大风险；
互联网市场资金快速流动导致的流动性风险；
第三方平台引入的跨行业风险，其他行业风险通过网络渗透到保险业来，比如最近证券市场的风险对保险行业的间接影响。

六、医疗保险费用欺诈识别

医疗保险中的欺诈在中国非常普遍，例如拿他人的医保卡就诊买药等。这些欺诈行为扰乱了市场秩序，损害了消费者的权益，浪费了资源。更重要的是，这些无声的毒瘤可能导致保险公司加价或者退出市场。

七、医疗理赔中的反欺诈

医疗理赔中的欺诈主要有硬性欺诈和软性欺诈两种。一般团伙作案、引发刑事案件的欺诈行为是硬性欺诈。更为普遍的欺诈行为是软性欺诈，例如就诊时故意选择昂贵的药品，或者勾结医生高估费用事后分成。

在反欺诈里，是否归一化是一个要仔细考虑的问题。有些极端分布会扭曲归一化后的数字，我们尽量做些预处理来看。大部分情况我们会做归一化，特殊的变量我们会另外考虑。

八、医疗理赔的流程

在医疗理赔的流程中，与欺诈检测有关的两大环节是调查程序和理赔计算。在调查程序环节中，现场调查越来越少，事后票据调查越来越多。而在理赔计算过程中，理赔师会进行人工审核，从证据中发现矛盾之处，从而发现欺诈行为。可以看到无论是调查还是理赔计算，都处于整个流程的尾端，使得人工成本极大增加，准确性下降等。随着互联网保险市场中受保人群的急剧增加，未来应当把欺诈的检测嵌入医疗理赔的各个环节。

九、欺诈的识别

在医疗理赔的欺诈识别中，存在如下三个难点。首先是欺诈标签难以获取，尤其是过度医疗等软性欺诈难以界定。其次是欺诈标签的不准确，例如缺乏经验的理赔师可能忽略某些欺诈行为，导致标签不准确。最后是有些险种的欺诈绝对概率比较小，但是金额大，难以处理。

十、通用的解决方案

应用人工智能和机器学习检测欺诈行为可分为supervised learning和unsupervised learning两种。在supervised learning中，欺诈的检测是经典的分类问题，可以使用logistic regression和gradient boosting tree进行分类。一般会利用AUC，KS，IV指标选取特征，利用ROC比较模型。在unsupervised learning中，有如下两种思路协助欺诈的检测。第一种是学习理赔业务人员的检测流程，得到规则，这特别适合检测伪装得很好的案例。第二种是利用规模化、自动化的聚类，筛选出离群点交给业务人员，从而提高人工审核的效率。

此外在整个检测过程中，引入第三方的数据源十分重要。一般数据的增加比模型的选取更能提高整体的表现。最后，引入人工智能的审查系统，将提高互联网保险市场的整体效率，有助于其规模发展。

十一、欺诈识别方法探究

在欺诈检测过程中，根据研究结果发现了最有效的5种特征：

个人信息和财务指标，例如欺诈分子往往会取比较大众的名字；
用药逻辑，一般来说相同的病因，常用药较为相似，通过对比实际处方和常用药，可以发现欺诈行为；
滥用指标；
收费构成；
其他指标。

十二、互联网保险展望

在国家政策的大力支持下，互联网保险具有很好的前景。但是当前的互联网保险市场险种单一，需要均衡种类。另外，报价自动化和信息核实自动化目前还面临较大的困难，需要解决。其次，持牌的保险机构系统需要改造基础系统，以更加符合当前的市场发展和监管要求。

问答精选

Q：对PCA的输入需要做归一化吗？

A：需要看情况，有的时候做归一化效果很好，因为它把数据拉到了同一个尺度上，但有时候归一化会扭曲了数据的分布，所以要看具体情况。有时候你可以做一版有归一化的，做一版无归一化的，两者对比看效果。是否归一化是一个要仔细考虑的问题。有些极端分布会扭曲归一化后的数字，我们尽量做些预处理来看。大部分情况我们会做归一化，特殊的变量我们会另外考虑。

Q：国际疾病分类标准icd-10大概有几千条疾病分类，那需要对这几千种疾病每一种都建立一套用药逻辑吗？

A：这个要看你的数据量。通常来讲我们会用疾病类别，而不是具体的疾病条目。几千种疾病会被合并到几十种疾病类别中。

Q：一些老年人可能同时患多种疾病，如糖尿病，伴随高血压、感冒，但医生处方单据上只会记录一种比如糖尿病，但开的药中可能有板蓝根等明显不是治疗糖尿病的药。表面上看，用药逻辑很不合理，但深入查诊疗结果会觉得用药逻辑是合理的。这是否会引起医疗保险反欺诈的误判？

A：我们做的是模型，而不是规则。你刚讲到的思路是规则的思路，如果怎样，则怎样。模型最大的好处是有一定的完整性，是全局去调整的。老年人和年轻人的信号是不一样的。像你刚刚讲到的并发症的情况，会使老年人的用药分布可能不那么集中，会相对来讲更平均。在这样的情况下，给予这样的指标的权重会小一些。这是可以通过模型去学习、调整的。但你讲到的这个的确是一个问题。由于数据比较零散，可能模型不能很好地识别欺诈。只能说模型不能作为识别欺诈的唯一指标，它只是一个参考指标。我们会有人工审核系统，以模型给出的评分作为参考，并根据模型结果的引导去进一步看相关的数据，更准确地做出欺诈识别。

Q：实际工作中模型做出的结果是否一定要加上人工的再次审核？

A：现阶段建议这么做。因为数据的标签本身就不是特别准确，所以模型更多地是做参考依据，提高人工审核的效率。但在很多其他行业，模型对欺诈的判断是非常准确的，例如支付行业模型检测可以完全取代人工审核。

Q：半监督学习在反欺诈方面如何发挥作用？

A：现在比较标准的主要还是监督学习，好坏比较容易区分。半监督学习和无监督学习现在还处在探索性的阶段。所以我见到的更多的还是classification这种问题。半监督学习在医疗上面还是有不少的应用，但在反欺诈领域的话我见到的主要还是监督学习或无监督学习的应用。这可能跟涉及的行业有关，例如支付行业，付钱还是不付钱，非常容易区分；在医疗保险行业，硬性欺诈很容易区分，但软性欺诈的行为很不容易区分出来，倒不是处于半知道、半不知道的状态，更多时候就是处于不知道的状态，只能通过人工分析把它学一遍，或者用聚类这样的方法去找一遍，看是否存在有noise案例。

量化金融信用与风控分析

课程号：80470193

课程简介

金融与互联网行业的深度结合带来了金融信贷模型的变革，这些变革对于普惠金融、个人和企业信贷带来了很多便利和新的市场形式。然而，新的互联网数据源也给征信模型的设计带来了新的科研问题，同时，互联网中广泛存在的欺诈行为也给这一新的信用模式带来了挑战。该课程目的在于让学生理解这一领域的科研和实践最新进展，为学生开展这一方向的深入研究打下基础。

本课程包括的模块有：

信贷模型的架构与设计；
反欺诈模型的架构与设计；
行业实践案例。

在这一课程中，学生需要平均每周阅读2篇本领域最新论文，并且实际动手设计两个项目，包括一个基于LendingClub信贷数据的信用数据建模项目和一个自由选题的团队研发项目。

任课教授

种骥科博士，现任宜信宜人贷首席数据科学家。曾任美国卡内基·梅隆大学教授与博士生导师，开创了卡内基·梅隆大学高性能计算研究教学中心，任联席总监。种骥科有多年互联网、大数据及金融创新经验。在加入宜人贷之前，曾任职于美国Simply Hired招聘平台，创建了数据科学部，并应邀为白宫科技办公室参谋大数据技术产品设计。种骥科曾就职于美国Silver Lake 私募公司任Kraftwerk基金数据科学架构师，负责大数据技术应用。种骥科持有加州大学伯克利分校电子工程和计算机科学系博士学位，卡内基梅隆大学电子和计算机工程系硕士及本科学位，并持有9项专利。

黄铃博士，AHI Fintech创始人、CEO，加州大学伯克利分校计算机博士。黄铃是DataVisor 公司创始成员和大数据总监 (2014-2016)，曾在美国英特尔研究院任资深科学家七年(2007-2014)。黄铃在人工智能、大数据分析和金融科技相关领域有近十五年的研究和开发经验，在世界顶尖会议上发表近50篇论文，总引用超5000次。当前研究兴趣包括：自然语言金融投研、大规模用户画像、风险评估和欺诈检测、基于深度学习的图像分类、目标检测和内容的理解。

历次讲座嘉宾

（以活动当天出席嘉宾为准）

5/08：吴中，Datavisor全球技术总监

5/15：陈薇，排列科技联席CEO，前LendingClub Head of Data Science

5/22：高思宇，凡普金科集团战略部负责人、小爱征信CEO，前宜信风险委员会成员

5/29：陈雷，TalkingData FinTech总经理

后续讲座，请持续关注数据派THU的活动通知。

注：本文为精华摘录，回复“清华大数据”，可下载本节课程PPT全文。（限时七天，不想错过更多内容，就请持续关注数据派THU！）

课程内容整理：刘昕

问答内容整理：王国赛

校对：杨学俊

编辑：刘文清

刘昕

清华大学交叉信息研究院硕士研究生，研究方向为图算法在反欺诈领域的应用，同时对机器学习有一定兴趣。

王国赛

清华大学交叉信息研究院博士生，研究兴趣包括云计算系统分析与优化、数据中心管理、分布式计算和机器学习。

为保证发文质量、树立口碑，数据派现设立“错别字基金”，鼓励读者积极纠错。
若您在阅读文章过程中发现任何错误，请在文末留言，或到后台反馈，经小编确认后，数据派将向检举读者发8.8元红包。
感谢一直以来您的关注和支持，希望您能够监督数据派产出更加高质的内容。

转载须知

如需转载文章，请做到 1、正文前标示：转自数据派THU（ID：DatapiTHU）；2、文章结尾处附上数据派二维码。

申请转载，请发送邮件至[email protected]

公众号底部菜单有惊喜哦！

企业，个人加入组织请查看“联合会”

往期精彩内容请查看“号内搜”

加入志愿者或联系我们请查看“关于我们”