YYDS！国产CHARLS数据库+机器学习！学到就是赚到！北京护理学院王翠丽团队教你轻松拿捏SCI！

生信图书馆 · 公众号 · · 2024-07-12 19:00

正文

叮咚！阿星又来啦，阿星最近翻遍各个期刊，给大家带来了一本“独门秘籍”- 公开数据库+机器学习就可以轻轻松松get SCI 论文，而且50天见刊，不用再苦苦回答大佬们提出的意见，非常适合想要的同学们！

阿星今天给大家带来的这一篇SCI论文，是发表在International Journal Of Medical Informatics的一篇文章，来自北京护理学院王翠丽教授团队。整篇文章只需要 CHARLS数据库，以及 4种机器学习方法就可以轻松拿下，简直是so easy！现在，就让阿星带大家一起去揭秘一下吧！

1.这项研究首次基于大规模队列研究，利用四种机器学习方法开发了一个可以用于识别高风险老年人（早期）衰弱的临床支持系统。

2. 本项研究综合运用了逻辑回归、随机森林、支持向量机和XGBoost等多种算法，并通过参数调优和交叉验证来优化模型，提高了预测的准确性。（PS：想通过挖掘临床公共数据库来完成KPI的朋友或者面临毕业还没有文章的同学快来找阿星呀！）

定制生信分析

云服务器租赁

加好友备注“66” 领取试用

题目：一个初步临床支持系统的开发和验证，用于测量社区居住的老年人发生2年(早期)衰弱的概率:一项前瞻性队列研究

杂志： International Journal Of Medical Informatics

影响因子： IF=4.9

发表时间： 2023年9月

研究背景

人口老龄化已成为一种全球现象,中国是老年人口最多的国家。衰弱是一种与增龄相关的老年综合征,常见于高龄和共病的老年人,表现为对应激的应对能力降低, 发生跌倒、失能和死亡的风险增加,给我国的医疗系统和社会造成了沉重的负担。（早期）衰弱是一个可逆的过程, 预防和干预（早期）衰弱症或衰弱症是保持老年人独立性和生活质量的最有效手段。因此早期识别衰弱高危人群并有效干预是延缓和降低老年人疾病发生的重要手段。因此本研究基于中国健康退休纵向研究（CHARLS）数据，基于多种机器学习方法，构建了一个（早期）衰弱预测系统，帮助预测社区老年人在未来两年内成为（早期）衰弱的概率，从而促进识别高风险的（早期）衰弱人群。

数据来源

数据来自2013年和2015年中国健康与退休纵向研究（CHARLS），CHARLS每两年进行一次（2011年、2013年、2015年、2018年），最近的一次是在2018年，但未进行体力测量，因此无法评估（早期）衰弱状态。因此，作者使用了2013年和2015年的数据，通过排除60岁以上参与者、衰弱程度不足的参与者，以及死亡参与者，最终有 2802名参与者作为分析样本。

图1 技术路线

研究思路

首先从CHARLS中获取数据，排除年龄在60岁及以上的参与者。同时利用已构建和验证的身体衰弱表型量表，排除衰弱程度不足的参与者和基线时已有（早期）衰弱表现的参与者，选择健康的老年人基线样本。同时排除在2015年，死亡的参与者与衰弱测量不足的参与者，为了防止可能的过拟合问题，采用保留法将分析样本随机分为两组，比例为8:2，最终得到构建预测模型的训练队列（n = 2241）和验证模型性能的内部验证队列（n = 561）。基于最小绝对收缩和选择算子（LASSO）选择14个重要预测变量来构建（早期）衰弱预测模型重要的预测变量。使用逻辑回归（LR）、随机森林（RF）、支持向量机（SVM）和极端梯度提升（XGBoost）构建（早期）衰弱预测模型。通过CHARLS 2011-2013调查使用时间验证方法对所有模型进行外部评估。

研究结果

1. 老年人 (早期)衰弱的预测性能

在派生队列中，随机森林RF和XGBoost对（早期）衰弱显示出可接受的区分能力，而SVM和LR的AUC值较低（表1）。 RF与其他模型之间，以及XGBoost与其他模型之间存在显著的AUC差异，（图2A和表2）。所有模型的整体预测表现都较为理想（表1），并且在风险阈值设定为0.15至0.80时，所有模型相较于默认策略都显示出更好的净收益(图3A)。

在内部验证队列中， XGBoost显示出可接受的区分能力（表1）而 XGBoost与LR之间以及XGBoost与RF之间存在显著的AUC差异，但其他模型之间没有显著差异（图2B和表2）。所有模型的临床实用性（图3B）均较为理想，但只有XGBoost在预测概率与实际观测值之间有良好的一致性。