专栏名称: 中国药物经济学
《中国药物经济学》杂志是由中国农工民主党中央委员会主管,中国中医药研究促进会主办,国家相关部门给予政策指导、全面介绍药物经济学理论知识与实践案例的专业性学术期刊,经国家新闻出版总署批准,2006年6月正式创刊,面向全国公开发行。
目录
51好读  ›  专栏  ›  中国药物经济学

健康效用值映射法转换的研究现状

中国药物经济学  · 公众号  ·  · 2019-01-17 17:28

主要观点总结

本文综述了国内外关于映射法在健康效用值测量中的应用研究,并对现有研究进行了分类总结。重点介绍了疾病特异性量表与普适性量表之间以及普适性量表之间的映射研究,同时探讨了影响映射模型性能的因素,如样本量、解释变量的选取、模型的构建方法等。结论指出,应拓宽靶向量表的种类,采用多种回归方法构建映射模型,加大样本量,合理利用解释变量,并拓宽研究领域。本文的研究为健康效用值的测量提供了科学的方法论支持。

关键观点总结

关键观点1: 国内外映射法研究概况

国内外学者对映射法在健康效用值测量中进行了大量研究,主要聚焦于疾病特异性量表与普适性量表之间的映射以及普适性量表之间的映射。

关键观点2: 映射法的研究对象

研究对象包括健康人群和患病人群,疾病范围广泛,样本量差异大,多数数据来源于临床试验。

关键观点3: 映射模型的构建方法

构建映射模型时,多选用OLS、GLM、CLAD等回归方法,并根据实际情况选用不同的解释变量。

关键观点4: 映射模型性能的评价指标

常用的评价指标包括R2、MAE、RMSE等,用于评估模型的拟合能力和预测能力。

关键观点5: 研究展望

建议拓宽靶向量表的种类,应用多种回归方法,加大样本量,合理利用解释变量,并拓宽研究领域,以提高映射模型的性能。


正文

孙权  张方

沈阳药科大学工商管理学院


摘要 目的 系统综述国内外健康效用普适性量表与疾病专属性量表之间以及普适性量表之间运用映射法进行结果转换的研究文献,为该领域研究提供可资借鉴的方法和科学依据。 方法 检索于2007—2018 年发表在Springer、中国期刊全文数据库、中文期刊全文数据库和万方数据知识服务平台等中英文数据库中的发表有关映射法在健康效用值测量应用研究的相关文献,汇总并整理。 结果 共计检索出958 篇中英文文献,通过排除筛选,纳入50 篇符合要求的研究文献,按照具有明确函数关系、未有明确函数关系、疾病特异性量表与普适性量表之间的映射、普适性量表之间的映射四个方面进行分析总结。 结论 对研究量表的选取应综合考虑各量表的特点和适用性,拓宽研究量表的选取种类;多数研究的最佳映射模型为OLS(最小二乘法)回归结果,对新型回归方法的应用较少,学者应以多种回归方法构建映射模型,进行性能对比;目前研究的样本量较少,研究结果可信度不高。应加大样本量,并在映射模型的构建中建立多个回归模型以检验不同指标变量组合的模型性能;研究范围应进一步扩展,对不同年龄、不同性别的人群等进行研究。对普通疾病的相关研究较少,应在普通疾病的映射研究领域多进行探索。

关键词 映射法;健康效用值;函数关系式;成本-效用;回归分析

药物经济学评价中最常用的方法是成本-效用分析,该方法的核心在于健康效用值(健康效用)的测量。健康效用值指的是某一水平健康状态或健康状态有所改善的值,按照社会或个体对某一健康状态的偏好程度来测量。健康效用值的测量方法有直接和间接测量两类。直接测量法操作复杂,在大样本的情况下难度较大,而间接测量法以普适性效用量表测量为主,包括欧洲五维健康量表(EuroQol five dimensions questionnaire, EQ-5D)、六维度健康调查简表(Short form six dimensions questionnaire, SF-6D)等。量表多数是普适性的,即任何疾病患者都可以使用该量表,与疾病的关联性较低。因此,在疾病的临床研究中两类方法的应用均存在一定缺陷,在很多研究中很难准确地得到健康效用值。由此需要对临床常用的疾病专属性量表与效用测量的普适性量表之间进行科学换算,既保证测量的结果能够转化为效用值,又能够贴切地反映患者的疾病特有状态 [1] 。当健康状况效用值不能直接用于经济评估时,将健康状况指标映射到基于通用偏好的指标成为一种常见的解决方案。Brazier JE、Longworth L [2] 等国外学者对映射法做出了定义:指非效用值测量工具,即非基于偏好的健康状态条件特异性测量工具和普适性测量工具,对已有的效用值测量方法的映射,通过估计两种测量工具的回归关系将非偏好生命质量信息转化为同等效力的基于偏好的效用值单一指数。目前,映射法已被公认为国内外健康效用值测量的首选方法之一,国外已有大量学者从事映射法研究,国内的研究还处于起步阶段。本研究通过文献研究,对近11 年国内外有关映射法在健康效用值测量中的应用研究文献进行归纳与总结。


1  检索与归类


1.1  检索方法

以“mapping”“Cost-utility”“health utility value”作为关键词在Springer 数据库网站上,以2007—2018 年为检索年限,检索出951 篇英文文献。以“映射”“成本-效用”“健康效用值”为检索关键词,在中国期刊全文数据库(CNKI)、中文期刊全文数据库和万方数据知识服务平台检索同期的中文文献,共计检索到中文文献7 篇。


1.2  分类归纳

对958 篇中英文文献进行初步筛选,剔除非实证研究文献、会议和报纸文章、明显不符合主题的文献和重复文献,最终选出映射法研究的中英文实证研究文献50 篇 [3-52] 。文献筛选过程见图1。


2  映射法国内外相关研究进展


通过对国内外对映射法的研究文献进行搜集与整理,纳入46 篇符合要求的研究文献,按照具有明确函数关系、未有明确函数关系、疾病特异性量表与普适性量表之间的映射、普适性量表之间的映射四个方面进行分析总结。各类文献的详细情况如图2所示(“普-普”代表普适性量表之间的映射研究;“特-普”代表疾病特异性量表与普适性量表之间的映射;“T”表示有明确函数关系;“F”表示未有明确函数关系)。

2.1  疾病特异性量表与普适性量表之间具有明确映射函数式的研究

近十余年来,大多数映射法研究是在疾病特异性量表和普适性量表之间构建映射模型,部分学者在映射研究中已给出明确的映射模型,检索到的此类文献共29 篇 [3-31] ,详见表1。


2.1.1  国外研究

Gang Chen 等 [3] 以924 例糖尿病患者和1760 例健康公民为例,分别通过OLS(Ordinary least squares,广义最小二乘法)和GLM(Generalized Linear Model, 广义线性模型)对糖尿病功能评价39问题量表(Diabetes-39, D-39)和15D、AQoL-8D、EQ-5D、HUI-3、QWB 和SF-6D 六种目标量表进行映射研究,以R 2 、MAE 和RMSE 作为评价模型性能的指标。结果显示,15D、SF-6D、AQoL-8D 三种目标量表与D-39 的映射模型性能较好,其中AQoL-8D与D-39 的关联性最好,两种方法构建的模型相比,OLS 构建的算法更佳。由此可以认为,此算法能够准确地将D-39 映射到AQoL-8D 上。

Garry R Barton 等 [4] 以389 例骨关节炎患者的临床数据作为研究样本,以西安大略省和麦克马斯特大学骨关节炎指数(Western Ontartio and McMaster Universities Osteoarthritis Index, WOMAC)整体得分以及性别和年龄等人口统计学特征作为解释变量共构建五个OLS 模型,并以调整R 2 、MAE 和RMSE作为评价映射模型性能的指标进行对比。结果显示,以WOMAC 整体得分、年龄和性别赋值(男性性别赋值为0,女性为1)为解释变量的WOMAC 模型能够准确地映射到EQ-5D 上。Feng Xie 等 [5] 对258 例膝关节骨关节炎患者进行WOMAC和EQ-5D 问卷调查,以疼痛、功能、硬化等指数作为解释变量,通过OLS 和CLAD 构建映射函数模型,并根据MAE值评价其性能。结果显示,相比于CLAD,运用OLS构建的WOMAC 和EQ-5D 之间的映射模型性能更好,该算法能够将WOMAC 映射到EQ-5D 上。Bilbao A等 [6] 对西班牙748 例髋关节或膝关节炎患者填写的EQ-5D-5L 和WOMAC 问卷数据进行整理,以疼痛(P)和功能(F)作为解释变量构建GAM(GeneralizedAdditive Model, 广义相加模型)进行线性回归和β回归,得出WOMAC 与EQ-5D-5L 之间的映射模型,以MAE 和RMSE 作为映射模型性能的评价指标。结果显示,线性回归模型的性能更好,该方法可以将WOMAC 映射到EQ-5D-5L 上。

Robert L.Askew 等 [7] 以273 例黑色素瘤癌症患者的黑色素瘤癌症功能评估量表(Functional Assessment of Cancer Therapy-Melanoma, FACT-M)和EQ-5D 临床问卷数据为例,以FACT-M 量表总体指标为解释变量分别构建CLAD 和OLS 模型探寻映射关系,以R 2 作为评价模型性能的指标。结果显示,通过OLS回归得出FACT-M 与EQ-5D 之间的映射模型的性能要好于CLAD 构建的映射模型。Eric Q.Wu 等 [8] 以2002 年至2004 年期间进行的来自7 个国家的280 例转移性HRPCA 患者的癌症治疗的一般功能评估量表(Functional Assessment of Cancer Therapy-General,FACT-P)数据、欧洲癌症生活质量研究、治疗组织问卷调查表(European Organization for Research and Treatment of Cancer Quality of Life Questionnaire,EORTC QLQ-C30)和EQ-5D 量表数据作为研究样本,分别以FACT-P 和QLQ-C30 整体和量表子问题作为解释变量构建多个映射模型,以R 2 作为性能评价指标进行模型对比。结果显示,不含有EORTC QLQ-C30 指标变量的,除FACT-P 交叉验证项之外的全部样本构建的与EQ-5D 之间的映射模型性能最好。但是Eric Q.Wu [8] 指出,只有样本数据全部来自于健康生命质量调查(HRQoL)时,该模型才适用。David Cella 等 [9] 使用Eric Q.Wu 等 [8] 的研究数据,构建剔除年龄和BMI 预测变量的优化模型。结果显示,R 2 的置信程度有一定的提升,以此算法能够更好地构建FACT-P 与EQ-5D 之间的映射模型。

Martin J.Buxton 等 [10] 以克罗恩病临床试验的3300 多例炎症性肠炎患者填写的炎症性肠病问卷 (Inflammatory Bowel Disease Questionnaire, IBDQ)、克罗恩病活动指数(Crohn’s Disease Activity Index,CDAI)、EQ-5D 和SF-6D 四份问卷数据为研究样本,以年龄、性别、IBDQ 总体得分以及其平方项等 作为解释变量构建四个有限最大似然法( Reserved Eaximum Likelihood, REML)映射模型,以R 2 作为评价指标进行模型性能对比研究。结果显示, IBDQ与SF-6D 之间的关联性要好于IBQD 与EQ-5D 之间的关联性。由此可得,以该方法构建的IBDQ 与SF-6D 之间的映射模型更好。

Stefan Sauerland 等 [11] 以893 例减肥手术患者的MA-Ⅱ(Moorehead-Ardelt Ⅱ)问卷以及EQ-5D 和 SF-6D 两份通用问卷的健康相关生活质量(HRQoL)数据进行了研究。以MA-Ⅱ得分、年龄和性别等人口统计变量为解释变量对两个目标量表各构建四个多元回归映射模型,并以R 2 为评价指标进行模型性能对比。结果显示,在MA-Ⅱ与EQ-5D 和SF-6D 之间的映射模型中,都是以情绪、身体功能、社会关系、工作能力和性行为指数作为解释变量的函数模型性能最好。由此得出,该算法可以准确地将MA-Ⅱ映射到EQ-5D 和SF-6D 上,且情绪、身体功能、社会关系、工作能力和性行为是构建映射模型的重要因素。

在对慢性阻塞性肺病的映射研究中,Helen J.Starkie 等 [12] 以6112 例慢性阻塞性肺病患者的圣乔治呼吸问卷(the St. George’s Respiratory Questionnaire,SGRQ)和EQ-5D 问卷数据为研究样本,以性别、年龄、SGRQ 整体及其变式等作为解释变量,运用OLS、GLM 和TPM(Two-part models 两部分模型) 各构建了六个映射函数模型,并以 R 2 MAE 和RMSE作为性能评价指标进行模型选择。结果显示,通过OLS 构建的SGRQ 与EQ-5D 之间的映射模型性能最好,能准确地将SGRQ 映射到EQ-5D 上。Christopher K.Hoyle 等 [13] 1658 例慢性肺阻塞患者的慢性阻塞性肺疾病评估测试[Chronic Obstructive Pulmonary Disease (COPD) Assessment Test, CAT]临床数据进行研究,通过OLS 和多元Logistic 回归以及二者的组合共建立六个映射模型,并以R 2 、调整 R 2 MAE和RMSE 作为性能评价指标进行模型性能对比。结果显示,通过OLS 建立的以能量、自信心、活动和胸部紧迫感指数为解释变量的模型能够更好地将CAT 得分映射到EQ-5D-3L 上。

Maria Ko towska-Hgstr 等 [14] 以3005 例生长激素缺乏症患者的EQ-5D 和成人生长激素缺乏症生活质量评估( Quality of Life Assessment of Growth Hormone Deficiency in Adults, QoL-AGHDA)调查问卷数据为例,以年龄、性别、教育程度、QoL-AGHDA问卷总体及其变式等作为解释变量,分别构建简单 和复杂的多元回归模型,以R 2 作为映射模型的性能评价指标进行对比分析。结果显示,以QoL-AGHDA、性别和年龄为解释变量的复杂回归模型性能更好。

Marie Lindkvist 和Inna Feldman [15] 通过对瑞典和英国的17000 余名受访者的自评心理健康一般健康 12 问题问卷(General Health Questionnaire-12, GHQ-12)和EQ-5D-3L(MAUI EuroQoL)问卷数据为样本,以GHQ-12 指标作为定量变量,自评健康、年龄和性别指数为相关变量建立GHQ-12 与EQ-5D-UK、GHQ-12 与EQ-5D-SW 两个OLS 回归模型。结果显示,这两个回归模型都展现出良好的性能,GHQ-12与EQ-5D-SW 的映射模型性能更好,认为该算法构建的模型可以很好地进行GHQ-12 与EQ-5D 之间的映射。

Attila J.Pulay 等 [16] 使用匈牙利75 例18 岁以上注意力缺陷多动障碍患者的临床数据进行截面研究,以年龄指数和临床严重程度评分为解释变量,采用多元回归方程构建康纳斯成人ADHD 评定量表(Conners’ Adult ADHD Rating Scale, CAARS)与EQ-5D 指数和EQ-5D 视觉模拟量表(EQ VAS)之间的映射函数模型,并以R 2 和调整R 2 来对比两个映射模型的性能。结果显示,CAARS 与EQ-5D 的映射模型能够更准确地进行匈牙利成人注意力缺陷多动障碍患者的健康效用值转换。

Christine Blome 等 [17] 在先人研究的基础上对德国1511 例银屑病患者的临床截面数据进行了重新分析,以皮肤病生活质量指数(Dermatology Life Quality Index, DLQI)整体得分以及DLQI 双变量指数为解释变量,各构建一个多元线性回归模型,并以R 2 作为模型性能评价指标进行对比分析。结果显示,两种映射模型都展示出较好的性能,包含DLQI 双变量指数的模型性能更好。由此得出,此算法能够准确地建立DLQI 与EQ-5D VAS 之间的映射。Rachel Meacock 等 [18] 以320 例系统性红斑狼疮患者的狼疮生活质量问卷(LupusQoL)和SF-6D 问卷数据为样本,以身体健康、疼痛、情绪健康和疲劳相关指数为解释变量,使用OLS 构建LupusQoL 和SF6D 之间的映射模型,并以R 2 、MAE 和RMSE 作为模型性能评价指标进行对比分析。回归结果显示,LupusQoL的四个选定相关指数可以解释70%以上的SF-6D 效用得分。由此得出,该算法可以准确地把LupusQoL映射到SF-6D 上。X. Badia 等 [19] 运用23 个欧洲国家的508 例库欣综合症患者的临床数据,通过对库欣综合症健康生活质量问卷(Cushing Quality of Life Measure, CushingQOL)的问题进行不同赋值,构建四个ORL 模型,并以R 2 、调整R 2 、MAE 和RMSE作为评价指标进行模型性能的对比分析。结果显示,该方法建立的映射模型可以解释50%以上的EQ-5D效用值,可以很好地将CushingQOL 映射到EQ-5D上。Emese Herédi 等 [20] 对200 例连续成年中重度银屑病患者的EQ-5D 调查量表和皮肤病生活质量指数问卷(Dermatology Life Quality Index, QLDI)的截面数据为例,以问卷总体得分为解释变量,通过双变量和多变量回归算法建立EQ-5D 与DLQI 之间的映射模型,并以调整R 2 作为指标评价模型的性能。结果显示,EQ-5D 和EQ-5D VAS 和DLQI 之间的关联性均不理想,并不能很好地建立相关映射模型。

Ay-Yen Hua 等 [21] 运用87 例跟腱断裂患者的阿基 里斯肌腱断裂评分( Achilles Tendon Rupture Score,ATRS)和EQ-5D 问卷数据,以ATRS 各项问题赋值为解释变量,采用OLS 分别通过直接映射和交叉验证来构建ATRS 和EQ-5D 之间的映射函数模型,并以R 2 作为模型性能评价指标进行对比分析。结果显示,以小腿跟腱 /脚疼痛、日常生活活动和在不平地面行走等指数作为解释变量的OLS 模型能够准确建立ATRS 和EQ-5D 之间的映射模型。

Yongjun Zheng 等 [22] 以272 例慢性颈痛患者的临床数据为例,在先人研究基础上,以颈部残疾指数 (Neck Disability Index, NDI)整体得分作为解释变量,使用OLS、GLM、CLAD 和Tobit 回归构建NDI与SF-6D 之间的映射模型,并以R 2 作为模型性能评价指标进行不同回归方法的对比分析。结果显示,以上回归方法构建的的映射模型中,在解释变量中包括NDI 娱乐项目的OLS 回归模型的性能最好,能够较为准确地建立NDI 与SF-6D 之间的映射。

Gang Chen 等 [23] 以澳大利亚177 例特发性膀胱过度活动症患者的临床调查数据为例,分别以无创性生活质量评分(Incontinence Quality of Life, I-QOL)量表总体和I-QOL 子量表得分作为解释变量,通过OLS、稳健MM 估计和GLM 进行模型性能评估。结果显示,通过GLM 回归的以I-QOL 量表总体为解释变量的模型性能最好,能够准确地将IQOL 映射到生活质量八维评估问卷(Assessment of Quality of Life 8D, AQoL-8D)上。Anthony James Hatswell 等 [24] 在先人研究的基础上以439 例阿片类药物引起便秘患者的临床研究数据,通过OLS 分别以便秘生活质量评分总体以及子量表分数为解释变量建立映射模型,并以调整R 2 和RMSE 作为模型性能评价指标进行分析。结果显示,该模型的R 2 和RMSE 均较差,不足以将便秘生活质量评估量表(Patient Assessment of Constipation Quality of Life, PAC-QOL)映射到EQ-5D-3L 上。Mark Parker 等 [25] 以5000 余例阿片类药物引起便秘患者的检查在慢性便秘普卢卡必利临床试验中产生的便秘患者评估量表(Patient Assessment of Constipation-QOL, PAC-QOL)以及EQ-5D 和SF-6D 量表数据为分析样本,通过构建多元回归模型分别以PAC-QOL 总体得分以及子项目得分为解释变量构建映射模型,并以调整R 2 、RMSE 作为评价模型性能的指标。结果显示,PAC-QOL 与EQ-5D 之间的相关性更好,以PAC-QOL 总体得分与EQ-5D 构建的映射模型的指标最优,但并不能满足临床应用要求,且部分指标的选取并不恰当,仍需进一步优化。

Y.B.Cheung 等 [26] 以324 例帕金森病患者的研究数据为例,以八项帕金森病调查问卷(EightitemParkinson’ s Disease Questionnaire, PDQ-8)的子问题得分作为解释变量,分别通过OLS 和CLAD 构建映射模型,以MAE 作为模型性能评价指标进行对比分析。结果显示,OLS 构建的映射模型性能更好,能解释50%以上的EQ-5D 效用值,说明该方法可以较准确地将PDQ-8 映射到EQ-5D 上。

Badia X [27] 以245 例肢端肥大症患者的AcroQoL和EQ-5D 评分数据为研究样本,以AcroQoL 总体得分及其子问题赋值为解释变量,以调整R 2 和MAE作为模型性能评价指标构建TPM、Tobit 模型和GAM(Generalized Additive Model, 广义相加模型)进行对比研究。结果显示,以GAM 回归构建的映射模型性能最好,可以建立AcroQoL 和EQ-5D 之间的高相关性映射模型。

在当前研究中针对青少年人群的特异性研究较少,能检索到给出明确映射关系的是疾病特异性量表与普适性量表之间的映射研究,仅有3 例。Carlos King Ho Wong 等 [28] 以227 例青少年特发性脊柱侧凸 AIS)患者数据为例,通过OLS,以精编脊柱侧凸研究学会22 问题量表(Refined Scoliosis Research Society 22-item, SRS-22r)子问题得分和人口统计学指标作为解释变量进行组合,构建三个模型对SRS- 22r 和EQ-5D-5L 进行映射。结果显示,以功能/活动、疼痛、外观、精神健康以及Cobb 角指数作为解释变量的模型与EQ-5D-5L 关联性最好,能够较为精确地将青少年AIS 患者的非偏好生命质量信息转换为 EQ-5D-5L 健康效用值。Gang Chen 等 [29] 590 名澳大利亚11~17 岁青少年的KIDSCREEN-10 和儿童保健九维效用量表(Child Health Utility 9D, CHU- 9D)数据为例,以KIDSCREEN-10 子项目得分作为解释变量,构建OLS、CLAD、MM 估计和GLM 模型,并以MAE和RMSE作为模型性能评价指标进行对比分析。结果显示,MM 估计模型和OLS 模型的预测性能较好,可以准确地将KIDSCREEN-10 映射到CHU-9D 上。Helen Dakin 等 [30] 以217 例中耳炎与积液儿童的临床数据为研究样本,以中耳炎问卷8-30问题(Otitis Media Questionnaire 8-30, OM8-30)的各个项目以及年龄、性别等人口统计学指标作为解释变量,通过OLS、GLM 和两步回归法,以R 2 MAE作为模型性能评价指标进行OM8-30 与HUI-2 和HUI-3 之间的映射研究。结果显示,以代表听力水平(HL)的九个OM8-30 子问题以及年龄和性别指数作为解释变量的OLS 模型性能最好,且OM8-30 与HUI-3 之间的映射模型性能要好于OM8-30 与HUI-2之间的映射模型。


2.1.2  国内研究

付希婧等 [31] 以我国676 例肺癌患者的基本信息、肺癌治疗的功能评估量表(Functional Assessment of Cancer Therapy-Lung, FACT-L)中文版(V4.0)及中文版EQ-5D 数据为例,以基本信息、FACT-L 中文版(V4.0)及中文版EQ-5D 数据为研究样本,以FACT-L 各项得分与年龄和性别指数为解释变量,运用OLS、GLM、Tobit 模型、CLAD 以及分位数回归模型分别采用中、日、英版效用值积分体系进行映射研究,以R 2 、MAE 和RMSE 作为模型性能评价指标进行对比分析。结果显示,基于我国人群构建的FACT-L 与EQ-5D 之间的映射模型的预测能力良好,能够较为精确地将我国肺癌患者的非偏好生命质量信息转换为健康效用值。这是目前能检索到的我国唯一关于映射法的实证研究。


2.2  已给出明确函数关系式的普适性量表之间的映射研究

一部分学者对普适性量表之间的映射模型进行研究,并得出了映射函数,此类研究相对于疾病特异性量表与普适性量表之间的映射研究来说要少得多,给出映射函数的研究更少,查阅到的文献中仅有2 篇 [32-33] 属于此类文献,全部来自国外研究,见表2。


Ara.R等 [32] 使用12 个临床研究期间收集的6350 例结肠癌患者水平数据,以SF-36 的不同子问题为解释变量建立七个OLS 模型,将R 2 、MAE 和RMSE 作为评价模型性能的指标进行不同映射模型的对比分析。结果显示,以身体功能(PF)、社会功能(SF)、身体问题(RP)、情绪问题(RE)、心理健康(MH)、活力(VT)、疼痛(BP)和总体健康(GH)感觉得分为解释变量的SF-36 模型与EQ-5D 的关联性最好。由此可得,该算法构建的映射模型能够较为精确地将结肠癌患者的生命质量信息转换为EQ-5D 健康效用值。

Agata Carreño 等 [33] 根据美国风湿病学会诊断标准,以244 例年龄在18 岁及以上的西班牙类风湿性关节炎患者的残疾健康评估指数(Health Assessment Questionnaire-Disability Index, HAQ-DI)、卫生健康指数第3 版(Health Utilities Index-3, HUI-3)和EQ-5D三个通用HRQoL 问卷数据为研究样本,以性别、年龄等人口统计学变量以及临床活动指数作为解释变量,构建两个线性回归模型预测HUI-3 和EQ-5D 对HAQ-DI 的评分,并以调整R 2 作为评价模型性能的指标进行对比分析。结果显示,人口统计学变量对映射模型的性能无影响,HAQ-DI 与HUI-3 之间的映射模型综合性能比HAQ-DI 与EQ-5D 的映射函数模型更好。


2.3  未给出明确函数关系式的疾病特异性量表与普适性量表之间的映射研究

在当前疾病特异性量表与普适性量表之间的映射研究中,一部分学者没有得出明确的映射函数,或者因为模型性能不好无法得出。共检索到的此类文献共16 篇 [34-49]

Yin-Bun Cheung 等 [34] 以558 例新加坡癌症患者临床数据为例,以躯体、情感和功能状况维度得分作为解释变量,分别通过OLS 和CLAD 对癌症治疗功能评价量表FACT-G 的中、英文两版与EQ-5D 进行映射,以R 2 和MAE 作为模型性能评价指标进行对比研究。结果显示,FACT-G 的社会和家庭维度与EQ-5D 效用指数关联性差。两种模型相比,CLAD构建的算法性能更佳,能够精确地将中、英两版FACT-G 效用值映射到EQ-5D 上。Seon Ha Kim 等 [35] 以893 例韩国癌症患者为研究对象,根据收集的临床数据通过OLS 以欧洲癌症研究和治疗组织生活质量核心-30 问卷(European Organization for Research and Treatment of Cancer Quality of Life Questionnaire Core-30, EORTC QLQ-C30)的躯体、角色、情绪和疼痛指数作为解释变量构建多元线性回归模型,选取RMSE 作为评价模型性能的指标。结果显示,此算法可以很好地建立QLQ-C30与EQ-5D 之间的映射模型,能够用于韩国癌症患者的效用值转换。Eun-ju Kim 等 [36] 以韩国199 例转移性乳腺癌患者的临床研究数据为研究样本,以EORTC QLQ-C30 和欧洲癌症研究和治疗组织生活质量乳腺癌23 问卷(European Organization for Research and Treatment of Cancer Quality of Life Questionnaire Breast Cancer-23, EORTC QLQ-BR23)问卷的子项目作为解释变量,通过OLS构建六个模型,以R 2 、MAE 和RMSE 作为评价模型性能的指标进行QLQ-C30、QLQ-BR23 与EQ-5D 之间的映射研究。结果显示,使用QLQ-C30 的子项目得分的回归模型性能最佳,具有良好的预测有效性。Nick Kontodimopoulos [37] 以671 例乳腺癌、骨髓瘤、结肠直肠癌、淋巴瘤、骨髓癌、前列腺癌、肺癌和胃肠癌的患者数据为研究样本,以OLS、GLM、CLAD 和贝叶斯加性回归(Bayesian additive regressionkernels)构建回归模型,并将调整R 2 作为评价模型性能的指标进行QLQ-C30 与SF-6D 的映射模型对比研究。结果显示,QLQ-C30 的全球健康项目、身体、情绪和社会功能量表、疲劳、疼痛和腹泻症状是所有模型的重要预测指标,而对于健康状况最差的患者,所有模型对公共事业都存在过度预测。由此可得,该算法虽可以建立QLQ-C30 与SF-6D 的映射函数,但其性能需要进一步提升。

Evangelos Kalaitzakis 等 [38] 以英国牛津郡和瑞典西约塔兰省的所有原发性硬化性胆管炎患者的SF-6D 和慢性肝病调查问卷(Chronic Liver Disease Questionnaire, CLDQ)数据为研究样本,将CLDQ问卷中的疲劳、全身症状和情绪困扰等指标得分作为解释变量,构建OLS、GLM、中值和核回归模型,并以调整R 2 、RMSE 以及Pearson 的r 系数和预测值与观测值之间的MAE 来评价模型性能。结果显示,通过OLS、广义线性回归和中值回归模型性能均表现良好,可认为此算法能够准确地将CLDQ 映射到SF-6D 上。

Faraz Mahmood Ali 等 [39] 以4010 例皮肤病患者的临床数据为例,以年龄、性别和皮肤病生活质量指数(Dermatology Life Quality Index, DLQI)的所有子项目作为解释变量,构建十个OLR(序数逻辑回归)模型,以MAE 和MSE 作为评价模型性能的指标进行DLQI 与EQ-5D 之间的健康效用映射研究。结果显示,该算法构建的映射模型的预测性能良好,能够较为精确地将皮肤病患者的生命质量信息转换为EQ-5D 健康效用值。

Irina Proskorovsky 等 [40] 以英国和德国的154 例多发性骨髓瘤患者的研究数据为例,以骨髓瘤生活质量20 问卷(Quality of Life Questionnaire Myeloma-20,QLQ-MY20)总体及其子项目得分为解释变量,建立多变量回归模型并进行交叉验证。结果显示,在包括QLQ-MY20 总体评分的模型中,以健康状况/生活质量、身体功能、疼痛和失眠为解释变量的回归模型性能最好,不包括QLQ-MY20 总体评分的模型中,以健康状况/生活质量、身体功能、疼痛和情绪功能的模型性能最好。两个模型均可以有效地将QLQ-MY20 映射到EQ-5D 上。

Sarah Acaster 等 [41] 以401 例英国囊性纤维化患者的囊性纤维化问卷修订版(Cystic Fibrosis Questionnaire-Revised, CFQ-R)、EQ-5D 和背景调查数据为研究样本,以CFQ-R 所有项目及其平方项等虚拟变量作为解释变量,运用OLS、Tobit 和TPM 共构建八个模型,以RMSE 作为模型性能的评价指标进行评估。结果显示,以CFQ-R 所有项目和以角色及情绪功能、活力、饮食紊乱、体重、消化症状等为虚拟变量的两个模型性能最好。可以采用该算法进行CFQ-R 与EQ-5D 之间的健康效用值映射。

Yingsi Yang 等 [42] 以553 例中国结肠直肠肿瘤患者的健康调查数据为研究样本,对经过三次样条平滑(Cubic spline smoothing and multiple imputation)后的数据通过OLS、Tobit 和TPM 构建映射函数,并以R 2 作为模型性能评价指标与以原始数据构建的映射模型进行性能对比。结果显示,与原始数据模型相比,拟合三次样条平滑变换数据的模型在拟合度和预测能力方面具有更好的性能,且OLS 模型的拟合优度和性能最佳。以此种方法可以很好地构建结肠直肠癌治疗的功能评估量表(Functional Assessment of Cancer Therapy-Colorectal, FACT-C)与SF-6D 之间的映射模型。

Padraig Dixon 等 [43] 以482 例黄斑变性患者的实验数据为例,以黄斑变性生活质量量表(Macular Degeneration Quality of Life, MacDQoL)的23 个子项目得分以及加权值为解释变量,使用OLS、CLAD、Tobit 和TPM 构建MacDQoL 与EQ-5D-3L 之间的映射,并以MSE 作为模型性能的评价指标进行对比分析。结果显示,TPM 具有最佳的预测性能,以此算法构建的MacDQoL 与EQ-5D-3L 之间的映射模型有一定的临床应用价值,但其对EQ-5D-3L 的上下两端的预测性能一般,仍需要进一步优化。

Patrick J. Gillard 等 [44] 以多国家的8000 余例偶发性和慢性偏头痛患者的数据为研究样本,通过OLS 构建回归模型以与头痛影响 6 问题测试(Headache Impact Test-6, HIT-6)和偏头痛特异性生活质量问卷 2.1 版(Migraine-Specific Quality-of-Life Questionnaire version 2.1, MSQ)子项目得分作为解释变量,以 R 2 作为评价映射模型性能的指标进行 EQ-5D 与HIT-6和MSQ 之间的映射模型的对比分析。结果显示,两项研究的总体性能均表现一般,均不能很好地建立与EQ-5D 之间的映射模型,且偶发性偏头痛研究的映射模型的性能不及慢性偏头痛的映射模型。

Ben F. M. Wijnen 等 [45] 以荷兰和英国两个临床试验的509 例癫痫患者数据为例,以癫痫生活质量-31 页( Quality of Life in Epilepsy, QOLIE-31P)量表各项目得分及其加权变量作为解释变量,使用OLS 和CLAD 构建QOLIE-31P 与EQ-5D-5L 之间的映射模型,并以调整R 2 作为模型性能的评价指标进行对比研究。结果显示,两个映射模型研究的显著相关性均一般,具有平方项的 OLS 回归模型性能相对较好。

Rafael A. Pinedo-Villanueva 等 [46] 以1759 例髋关节手术患者的临床数据为例,构建以牛津髋关节评分(Oxford Hip Score, OHS)总体作为连续回归因子的线性回归、以12 个OHS 问题的响应作为分类预测因子的OLS、TPM、相应映射模型进行OHS 与EQ-5D 之间的映射研究,并以MAE 作为映射模型的性能评价指标进行各个模型的对比研究。结果显示,OLS 模型的性能最好,可以很好地将OHS 映射到EQ-5D 上。

Ning Yan Gu 等 [47] 以2842 例有失眠问题的成年美国居民的截面数据为研究样本,分别以失眠严重 程度指数( Insomnia Severity Index, ISI)的七个子项目、ISI 总分、临床类别和失眠症状得分作为解释变量,构建GLM进行失眠严重程度指数(ISI)与EQ-5D之间的映射,并以MAE 和MSE 作为评价映射模型的指标进行对比研究。结果显示,包含失眠症状的模型在对EQ-5D 效用值的预测能力上展现出最好的性能。

Ola Ghatnekar 等 [48] 以瑞典272 例脑卒中患者的健康相关的生活质量(Health Related Quality of Life,HRQoL)临床数据为例,以穿衣(dressing)、上厕所(toileting)、活动(mobility)、情绪(mood)、一般健康(general health)和代理响应(proxy-responders)指数等为解释变量,通过OLS、Tobit 和CLAD 进行将脑卒中健康指标与EQ-5D 的映射研究,并通过预测性能指标MAE 和MSE 对不同方法构建的映射模型进行对比分析。结果显示,各模型均存在估计偏差问题,性能均不是很高,无法很好地构建脑卒中健康指标与EQ-5D 之间的映射模型。

Daniel Collado-Mateo 等 [49] 以西班牙129 例纤维肌痛女性患者的EQ-5D-5L、15D、AQoL-8D 和SF-12四份普适性问卷以及特异性疾病量表纤维肌痛影响问卷(Fibromyalgia Impact Questionnaire, FIQR)的数据为研究样本,以各个量表的子项目得分为解释变量构建OLS 和GLM 映射模型,并以MAE 作为评价模型性能的指标进行映射模型的对比分析。结果显示,FIQR 与EQ-5D-5L、15D、AQoL-8D 和SF-12之间的GLM 映射模型性能更好,能够准确地进行健康效用值的转换。


2.4  未给出明确函数关系式的普适性量表之间的映射研究

在普适性量表之间的映射研究中,学者对样本的选取有所不同,可以以多种疾病的数据集合作为样本,也可以以一种疾病的数据作为研究样本。目前,关于普适性量表之间的映射研究较少,且映射模型的性能普遍不好,无法满足临床运用要求,这也是此类研究较少的原因,在检索的文献中仅有3 篇 [50-52] 属于此类文献。

Quang A. Le [50] 使用来自2003 年医疗支出小组调查的19 678 名成年人的样本数据,通过实施五重交叉验证,采用多项Logist 回归、OLS 和CLAD 构建映射模型,以R 2 、MAE 和RMSE 评估贝叶斯网络(Bayesian networks)的概率映射的预测性能。结果显示,使用贝叶斯网络的概率映射法优于其他映射方法,可以准确地建立SF-12 与EQ-5D 之间的映射。Donna Rowen 等 [51] 以3100 余项临床数据为例,以SF-36 维度总体以及交互项构建三个GLS 映射模型,并以MAE 和MSE 作为模型性能评价指标与先前的研究结果进行比较。结果显示,在三个模型中,具有平方项和交互项的模型性能最好,但总体拟合程度一般,且平均绝对误差也相对较高。因此,该算法构建的模型并不能很好地将SF-12 映射到EQ-5D 上。

Seon-Ha Kim [52] 以韩国2211 例结肠癌患者的数据为例,使用OLS、TPM 和使用八个量表得分的多项逻辑建模分析预测模型,以总得分和SF-36 的交互项作为解释变量进行SF-36 与EQ-5D 之间的映射研究,并以R 2 和RAE 作为指标衡量标准。结果显示,以OLS 模型(包括身体功能、身体疼痛、社交功能、角色情绪和心理健康)得出的映射模型性能最佳,能够准确地将SF-36 映射到EQ-5D 上。


3  国内外映射法研究概况


通过对当前国内外的实例研究文献进行分析,总结归纳出当前研究的主要对象、初始量表和靶向量表的选取、解释变量与因变量、计量经济学方法以及性能评价指标情况如表3 所示。


3.1  数据源及研究对象的选择

从研究对象来看,健康人群和患病人群均为研究的样本对象,当前对患病人群的研究较多。研究疾病包括糖尿病、癌症、帕金森综合症、关节炎等;从样本选择来看,样本量从数十例到几万例不等,大部分数据的来源为临床试验,受试者主要来源于社区居民以及医院的就诊人群。


3.2  测量工具的选择

从初始量表来看,大多数研究选用疾病特异性量表,如成人生长激素缺乏症的生活质量评估量表QoL-AGHDA、类风湿性关节炎生活质量评估量表HAQ-DI 等,因为疾病特异性量表能够更好地反映相关指标,一小部分学者选用普适性健康状态测量量表,如SF 系列量表等;从目标量表来看,目前选用最多的是英国的EQ-5D 效用值体系计算健康效用值,也有一部分研究以AQoL-8D、HUI-2、HUI-3 或SF-6D 作为目标量表。


3.3  指标变量的选取及建模方法

在检索到的映射研究文献中,模型的构建多以人口统计学指标、疾病分级、总分、维度得分、量表条目得分以及各条目水平虚拟变量作为解释变量,以效用指数和各维度得分为因变量,常用的计量经济学模型有OLS、Tobit、CLAD 等。除此之外,一些学者经常运用TPM、多分类逻辑回归(Multinominal logit model)、广义线性回归、分位数回归、潜类别混合模型、受限混合模型等进行映射研究。为了更精确地得出映射模型,一些学者会采用多种模型同时构建效用值的方法,这样能够通过对比得出最优的映射方法。在对映射 性能的评价指标选择上,根据拟合能力和预测能力分为两类:拟合能力一般以显著性、回归系数、 R 2 、调整 R 2 Ramsey RESET 检验、Jarque-Bera 检验等作为评价指标;预测能力多采用稳健标准误差、均方误差、平均绝对误差、观测值与预测值散点图和相关系数等指标进行评价 [53] A.Tscuhiya [54] 学者根据初始量表和目标量表的选取情况,将当前映射研究中各类模型分为六大类型,见表 4。


解释变量A 为初始量表总分,M 为靶向量表效用指数,μ 为干扰项。d 为初始量表维度个数,i 为 初始量表条目项数, 1 为条目等级个数,M d 为靶向量表各维度得分;模型 2 和5 中的A x 为各维度的分, 模型 3 中的A x 为各条目得分,模型 4 中的A xy 为条目 x 的等级y,是虚拟变量。在最后对预测模型进行调整时,还可以加入平方项和交互项以提高预测精度 [31]


4 建议


4.1  拓宽靶向量表的选取种类

目前国内外的相关研究中,多数学者选择EQ-5D 系列作为靶向量表,但很多研究的结果显示,以EQ-5D 系列量表作为靶向量表的映射函数性能并不能达到临床应用标准。因此,建议学者在选择靶向量表时,应根据该研究的情况综合考虑各个靶向量表的特点和适用性进行选择,以求得到和更好的映射结果。


4.2  尽可能运用多种回归方法构建映射模型,并进行性能对比

目前国内外的相关研究中,多数的映射结果是通过OLS 方法获得,其次是GLM 方法。也有学者的研究结果表示,最优的映射是通过CLAD、QR、Tobit 和TPM 等回归方法获得,但此类研究数量较少。建议学者在回归方法选择上应多探索新方法,以不同回归方法构建多个函数模型,采用相关的拟合指标和预测指标进行映射模型的性能对比。


4.3  加大样本量,合理利用解释变量

目前国内外的相关研究中,大部分研究的样本量较少,研究结果的可信度不高,建议学者加大对样本数据的收集,降低研究误差;在构建回归模型时,解释变量的选取会对映射模型的性能有很大影响,而目前大多数研究并没有对不同指标变量的影响程度进行分析,这是导致部分学者研究结果不理想的原因之一。Stefan Sauerland [11] 、Emese Here’di [20] 以及Anthony James Hatswell [24] 这三篇文献虽然给出了映射模型, 但性能不理想,无法达到临床应用标准。模型性能在很大程度上与解释变量的选取有关,建议在解释变量选取时应根据实际情况建立多个回归模型检验不同解释变量组合的模型性能,以获得最优的映射模型。


4.4  拓宽研究领域,开展全面深入研究

在研究目标的选择上,多数研究选择全人类为样本,针对特定年龄、性别等人口统计学变量的相关研究很少,在查阅到的国内外文献中仅有一例关于女性 [49] 、三例关于儿童 [28-30] 的研究。建议学者拓宽研究领域,对不同年龄、不同性别的人群进行特异性研究,使得映射模型更好地进行临床运用;现有的研究中对重大疾病和慢性疾病的研究较多,对普通疾病的相关研究几乎没有,建议学者在普通疾病的映射研究领域多进行探索。

在检索中发现,大多数映射模型都是建立在普适性量表与疾病特异性量表和两种普适性量表之间,对疾病特异性量表之间映射关系的实证研究尚未检索到相关文献,Emese Herédi 等 [20] 给出了两种疾病特异性量表之间的相关性指标,但并未做深入分析。构建针对同一种疾病的特异性量表之间的映射模型在临床应用中有重要的意义。


5  结语


目前,国内映射法研究偏重于映射法的叙述研究。在相关实证研究中,国外的相关工作已经很成熟,已构建了多种疾病的映射模型。与国外相比,国内对于映射法的相关研究极少,对映射法的实证研究仅有一例。建议研究人员对映射法进行多方面、多领域的研究,探索不同计量经济学方法、模型类型。随着社会各界的关注以及国家对映射法研究的大力支持,我国的映射法研究一定会有重大的的突破和进展。



参考文献

[1] 付希婧,梁敏洪,孙茂,等.映射法在健康效用值测量中的应用研究[J].中国卫生经济,2014,33(10):32-35.

[2] Brazier JE,Yang Y,Tsuchiya A,et al.A review of studies mapping(or cross walking)from non-preference based measures of health to generic preference-based measures[J].Eur J Health Econ,2010,11(2):215-225.

[3] Chen G,Iezzi A,McKie J,et al.Diabetes and quality of life:Comparing results from utility instruments and Diabetes-39[J].Diabetes res clin pract,2015,109(2):326-333.(http://dx.doi.org/

10.1016/j.diabres.2015.05.011).







请到「今天看啥」查看全文