👇 连享会 · 推文导航 |
www.lianxh.cn
温馨提示:
文中链接在微信中无法生效。请点击底部
「阅读原文」
。或直接长按/扫描如下二维码,直达原文:
作者
:罗宇恒 (北京协和医学院)
邮箱
:[email protected]
编者按
:本文主要整理自下文,特此致谢!
Source
:Einav, L., Finkelstein, A., Mullainathan, S., & Obermeyer, Z. (2018). Predictive modeling of U.S. health care spending in late life. Science, 360(6396), 1462–1465. -Link- -PDF- -Google- -Appendix-
1. 引言
“临终关怀”并不是一种浪费。
在美国,四分之一的医疗支出发生在生命的最后 12 个月,这笔支出常被视为浪费。然而,这一观点的前提是能够准确预测哪些人会死亡及其去世时间,而这一前提并不总是成立。因此,本研究基于医疗保险报销数据 (Medicare claims) 建立了机器学习模型,以预测个体的年死亡风险,并分析预测死亡率对支出的影响。研究发现,死亡具有高度的不确定性,因此以往的评估方式并不一定能被视作“浪费”。
2. 研究背景
在美国,医疗保健支出的分配问题一直以来是人们关注的热点话题。以往的研究表明,尽管每年美国仅 5% 的医保受益人离世,然而高达四分之一医疗资源用于患者寿命终止前的最后 12 个月,此现象常被视为医疗资源严重浪费及管理效率低下。如《纽约客》所言,“大多数人生病到最后阶段,如癌症末期、逐渐衰竭的器官或老年病患...都会面临死亡,但确切何时仍是未知数。” 类似地,《纽约时报》质疑,老年人在生命最后一年占据四分之一的医保支出是否合理?尤其是在某些几乎可以肯定将在短期内死去的病例中,大部分医疗费是否被大量投入,而仅仅换来了短期的经济效益?
但此类观点存在统计学上的谬误,其混淆了实际死亡 (end up dying) 和预估死亡 (sure to die)。事后看来,支出看上去集中在最终死亡的人身上,仅仅因为我们在那些病得更严重因而死亡率更高的病人身上花费更多 (哪怕假设我们不在那些注定会在一年内死亡的病人身上花钱)。这一事实表明应该用预测死亡率 (predicted mortality) 而非事后死亡率 (ex post mortality) 来评估临终支出是更为合理的方式。
根据实践经验,建议采用预估死亡率而非事后死亡率作为临终支出的评估标准。因此,本研究从事前角度对临终支出进行了分析。为更准确地评估临终医疗支出,研究采用了一种基于机器学习的方法,通过对近六百万医保参保者的随机抽样样本进行分析,预测每个个体在未来 12 个月内的死亡概率,进而分别研究支出与预测死亡率及事后死亡的关系。
3. 数据
3.1 数据来源
本研究主要使用医疗保险报销数据中随机抽样的 20% 参保者的报销记录,重点分析在 2008 年 1 月 1 日健在,且在 2007 年全年及 2008 年持续交纳医保的人群。核心变量包括年龄、性别、种族、医疗补助覆盖范围(作为社会经济地位的替代指标、所有住院护理、门诊护理及医师服务,以及所有记录的疾病诊断结果。
数据来源包括以下三个部分:
医疗保险和医疗补助服务中心 (Centers for Medicare and Medicaid Services, CMS):提供医保受益人中随机抽样 20% 的报销申请记录,本研究的基本分析使用 2007 年和 2008 年的数据。
主要受益人档案 (Master Beneficiary Summary File, MBSF):作为所有医保受益人的基础,利用住院病人、门诊病人和医疗服务提供者的档案构建医疗保健使用、支出和健康状况的详细指标。
慢性病档案 (Chronic Conditions File, CCF):用于判断医保受益人在年度结束时被诊断的慢性病,本研究使用了 2007 年和 2008 年的慢性病档案。
文中的初始样本为 2008 年所有美国联邦医疗保险 (Medicare,针对 65 岁以上人士及残障人士) 受益人,约 950 万人。作者按照以下标准进行了样本筛选:
剔除 2007 年或 2008 年参加医疗保险优势计划 (Medicare Advantage, MA) 的受益人,因为未找到此类样本的医保申请记录,约 280 万人被剔除。
剔除在 2007 年和 2008 年期间未加入联邦医疗保险 A 和 B (Medicare Parts A and B) 的患者,约 110 万人被剔除。
分析样本如下:
基本样本包括约
560 万医保受益人
,这些受益人在 2008 年 1 月 1 日仍然健在,并且在 2007 年及其存活的 2008 年期间连续参加了 Medicare Parts A 和 B。本研究测量的是 2008 年 1 月 1 日后的人群死亡率,而 2007 年的数据用于预测 2008 年 1 月 1 日的死亡率。
3.2 变量选择
所有的时变变量都是相对于 2008 年 1 月 1 日的。主要使用的变量分为以下 5 个方面:
3.2.1 死亡
本研究根据患者 MBSF 档案中的死亡日期,建立与 2008 年 1 月 1 日后各时段的死亡率。通过划分为两大类别——死亡及存活,本研究对数据进行分类分析。具体而言,将 2008 年 1 月 1 日后 1 年内死亡者视为死亡类别;而那些在此时间段内存活者,则归属于存活类别。
3.2.2 医保支出
定义:根据 Hogan et al. (2001) 和 Research Data Assistance Center (2015) 的衡量标准,医保支出被定义为在住院病人、门诊病人和医疗服务提供者档案中支付的费用总和。这一支出不包括某些类别 (如家庭医疗服务和 Medicare Part D 的处方药支出),以及养老院费用等非医保支出。
为了构建预测算法,支出来源进一步细分为以下三类:
住院支出
:住院期间的所有费用 (从入院到出院);
自付支出及其分项数据
:包括总自负额和住院、门诊各自的自负额,主要指患者需自行承担的部分,来源于个人支付、补充保险或未偿还的医疗债务等;
代为支付费用
:包括非医疗保险主要付款人代为支付的医疗保险受益人费用。
在分析 2008 年 1 月 1 日之后的医保支出时,本研究对存活者和死者采用了不同的衡量标准。对于存活者,研究衡量的是 2008 年 1 月 1 日之后 12 个月内的支出;而对于死者,则使用 backfilled 支出计算方法,按照 Hogan et al. (2001) 的描述,计算死亡前 12 个月内的支出。
本研究采用 unadjusted 死者支出计算方法,以 2008 年 1 月 1 日至逝世之日间的消费为基准,衡量死者的 unadjusted 支出。这一参照标准与存活者的方法类似,但在个体去世后,该计算方式的结果为 0。
3.2.3 卫生保健利用率
本研究对卫生保健利用率的评估主要采用以下六项指标:
住院患者就诊次数
:通过住院患者的入院与出院日期定义其住院时长,以入院日期作为时间划分标准。
住院天数
:计算每位患者在医院的累计就诊天数,以得出平均住院时间。具体方法为:住院天数等于出院日期减去入院日期再加一天。
住院患者手术次数
:根据住院病人档案,每份报销单 (相当于一次住院就诊) 最多包含六个手术代码,本研究将每个可查询的手术代码视为一次手术。
住院患者急诊次数
:根据住院病人档案,定义至少向急诊室收取过一次费用的住院患者就诊次数。本研究参考 Silva et al. (2006) 使用收入中心代码 0450-0459 和 0981 来识别相关费用。
门诊患者急诊次数
:利用门诊病人档案,定义急诊室门诊就诊人次。急诊就诊的标准为门诊报销单中至少有一项费用向急诊室收取。与住院急诊就诊相同,本研究也参考 Silva et al. (2006) 的收入中心代码,并允许每天最多有一次急诊室门诊。
医生出诊次数
:根据医疗服务提供者档案中的理赔申请,定义为初级保健与专科保健出诊次数的总和。每位患者每日最大接受一次初级保健和一次专科就诊,依据与前述门诊急诊就诊相同的理由。本研究遵循 Research Data Assistance Center (2015) 的标准,但不包括某些医保支出类别 (如家庭医疗服务和医保 D 部分的处方药支出),也不考虑养老院等非医保支出 (参见 Tabak et al. (2014) 的方法)。全科医生和专科医生的定义依据《达特茅斯地图集》(Dartmouth Atlas),并与 CMS 数据中的专科代码列表进行比对。
3.2.4 健康状况
本研究对健康状况的评估主要采用以下四项指标:
加涅病症示性变量
:本研究依据 Gagne et al. (2011) 提出的基于 ICD 编码的数据处理方法,使用超过 30 种指标预测老年患者的死亡风险,涵盖 Covid-19、呼吸系统疾病等严重疾病,并纳入如酗酒、心脏病等合并症的老年人。研究借鉴了“合并症指数”(Charlson 和 Elixhauser)的理论框架,同时利用 ICD 编码方法对缺血性中风进行研究,以获取更全面的结果。
其他诊断指标示性变量
:本研究将约 15,000 个 ICD-9 诊断代码与 3,000 多个临床诊断 (如肺炎、背痛、跌倒) 进行映射,主要基于 AHRQ 的临床分类软件 (Avati et al. (2017)) 的初步分类,并由一位具有丰富临床经验的医学博士 (ZO) 进一步梳理,以提升数据分类效率。同时,我们建立了更细致的类别体系,以区分肺栓塞与其他肺心病及一些难以明确界定为“病症”的症状 (如呼吸急促、恶心、虚弱等)。详细信息见 Makar et al. (2015)。
慢性病指标
:本研究使用 2007 年 MBSF 文件的数据,以判断患者在 2007 年末是否存在 27 种慢性病。这些病症的分类参考 CMS (医疗保险和医疗补助中心) 的标准,根据过去 1 至 3 年的确诊编码进行判别,包括后天性甲状腺功能减退、急性心肌梗死、贫血等,具体可参见 Finkelstein et al. (2016)。
HCC 分数
:HCC 分数由医疗保险和医疗补助服务中心 (CMS) 定义,用于预测医保支付。该分数基于人口统计数据 (包括年龄、性别和医疗补助资格) 以及 2008 年 1 月 1 日之前 12 个月内的住院、门诊和医疗服务提供者索赔数据中的诊断编码。研究中的 HCC 分数推导参考了 Song et al. (2010)。
3.2.5 人口学统计指标
本研究使用 MBSF 文件构建以下人口统计学变量:
年龄
:截至 2008 年 1 月 1 日的患者年龄;
地理位置
:基于 2007 年的邮政编码信息,将每位患者映射到其医院转诊区域(RR),详见 Pirracchio et al. (2015) 和 Genevès & Calmant (2017);
医疗补助享用
:确定个人是否在 2008 年 1 月 1 日之前的 12 个月内享受过医疗补助。
4. 机器学习模型构建策略
4.1 建模框架
如下示意图展示了整个模型构建的流程:
本研究采用随机森林、梯度提升回归树和 LASSO 构建集成预测模型,并利用贝叶斯准则进行校正,以解决预设样本与测试样本比例不均衡的问题。以下为具体步骤:
步骤一:训练集与测试集划分
本研究将 2/3 的样本作为训练集,其中 90% 用于模型训练,2.5% 用于计算模型集成权重,7.5% 用于模型校准。剩余的 1/3 样本作为测试集,以防止模型过拟合。开发和优化预测算法后,模型应用于测试集以预测死亡率,主要结果基于这组测试样本得出。
步骤二:数据增强
由于样本中死亡率较低 (2008 年仅 5% 的医保受益人死亡),本研究在“平衡样本”上训练预测算法。随机选择一部分存活者,仅抽取约 1/19 (即 5/95) 的存活者,以确保最终平衡样本中死者和存活者人数相等。
步骤三:模型训练与调参
本研究将最终平衡样本随机分为 5 折 (每折约 68,000 名受益人),进行交叉验证以优化预测算法。最终得到的预测模型为随机森林、梯度提升回归树和 LASSO 的集成模型。考虑到模型是基于平衡样本拟合的,本研究进一步利用贝叶斯法则对集成模型进行校准,并将其应用于测试集。
4.2 潜在预测因子和特征选择
本研究构建的潜在预测因子主要分为以下三类:人口统计学信息、以往医疗保健使用情况的衡量指标和健康状况指标。
人口统计学信息
:本研究纳入的变量包括年龄 (以年为单位)、性别、种族 (是否为白人)、医疗补助状况以及居住地 (使用 306 个医院转诊区域 (Hospital Referral Region, HRR) 指标)。
医疗保健使用情况
:本研究使用受益人在 2008 年 1 月 1 日之前 12 个月的医疗保健使用信息,详细记录受益人的医疗保健使用情况及其时间轨迹,从而捕捉潜在预测因素的水平和趋势。
健康状况指标
:本研究纳入了约 3,000 个诊断编码,构建了一套丰富的健康指标体系。
4.3 模型参数调优
为获取准确的预测,本研究采用了广泛认可的机器学习技术,主要包括
随机森林、梯度提升回归树和 LASSO
。在调优每种算法时,本研究使用了五折交叉验证。在每次调参过程中,舍弃一折样本作为测试集,以计算最优参数的性能。评价标准为受试者工作特征曲线下的面积 (AUC)。
4.3.1 随机森林调整的参数
其中,树的数量和重抽样样本大小对模型效果影响不大,因此调参主要集中在后两个参数上。当每次拆分时考虑的不同变量数量为 500,节点中观测值 (受益者) 的最小数量为 50 时,AUC 达到最大值。
4.3.2 梯度提升回归树调整的参数
梯度提升回归树的参数调优使用的是
xgboost
。当梯度提升过程中使用的树的数量为 100,每棵树的深度为 4 以及学习率为 0.1 的时候 AUC 最大。
4.3.4 Lasso 算法调整的参数
惩罚项系数
。当
时,AUC 最大。
4.4 集成模型构建
为了计算集成模型中不同模型的权重系数,本研究使用 2.5% 的训练样本进行权重计算,集成模型公式如下:
其中,
代表算法
的预测值,
代表该算法的预测权重。
首先,本研究在完整的平衡训练样本上计算每个单独模型 (随机森林、梯度提升回归树和 LASSO) 的预测。随后,基于上述模型对独立样本的预估死亡风险进行计算,未调整模型的参数。最后,通过对每种算法预测的死亡率进行 OLS 回归,计算集合预测器的权重,最终得到梯度提升回归树的权重为 0.807,随机森林的权重为 0.127,LASSO 的权重为 0.066。
4.5 不平衡训练数据集处理
当样本中死亡者与存活者数量大致相同时,机器学习算法更易于训练,但这可能导致模型在原始不平衡数据中预测的死亡率偏高。因此,模型需要对原始不平衡样本进行调整。本研究依据 E. B. French 和 J. McCauley (2017) 的方法,使用贝叶斯法则纠正估计概率的偏差。具体方法如下:
记
为死亡事件的示性变量,
为存活事件的示性变量,
为样本被纳入平衡样本的示性变量。设
为死亡者人数相对于存活者的比率,由贝叶斯公式可以得到:
注意上面得到的仅仅是平衡样本中的
的预测估计量,为了得到
,本研究令
且
,经过调整后最后可以得到:
文章附录图中假设了
(和基本样本中的真实
是相近的),绘制了如下图展示这一关系。
在分析过程中,贝叶斯法则可能不适用于实际数据。因此,本研究采用了 7.5% 的平衡样本作为校准样本进行调整,以确保预测结果与实际情况相符。针对校准样本,本研究从经验出发,映射平衡样本中的预测死亡率与测试样本中的预测死亡率,最终拟合了一条三次函数曲线以描述预测死亡率与实际死亡率之间的关系。最终,本研究的预测模型在测试样本中的 AUC 达到了 0.867。
文章中的表 S2 展示了测试样本的年死亡率预测分布情况:
该表展示了测试样本中不同分组的预测死亡率汇总统计。可以看出,预测结果与已知风险因素 (如年龄或癌症诊断) 之间的差异符合预期。每行数据包括医保受益人数、年死亡率及年死亡预测概率,同时提供了预测死亡率分布的第 75、95 和 99 百分位数,以及在未来 12 个月内死亡且年死亡预测率超过 50% 的医保受益者比例。