各位小伙伴们大家好呀!这里是每日为您提供最新高分生信分享的生信图书馆馆长!转眼间2024年已然过半,不知道大家的文章进度如何?如果还是抓耳挠腮找不到任何思路,不妨看看馆长今日份分享!
馆长今日分享的主题是:
人工智能+机器学习!
毫无疑问,2024年最热门的研究关键词便是人工智能,而基于人工智能所建立的机器学习算法,又能和生信擦出什么样的火花呢?
馆长这就给大家上篇例文!
来自安徽医科大学的张超学教授团队,选择了
甲胎蛋白和肝细胞癌
作为研究主题,再利用多
达6种机器学习算法
,成功发文
6分+《Journal of Translational Medicine》
!
还不用做实验验证!
馆长悄悄告诉大家,这本杂志对纯生信十分友好,推荐大家记下!那么这篇文章的亮点都有哪些呢?
本文最大的亮点便是:AI+XGBoost算法+5种机器学习算法!
极端梯度提升(XGBoost)是一种较新的集成学习算法,已被用于癌症患者的有效生存预测,然而,它很少用于预测 AFP 阳性 HCC 患者的预后!
新方法的应用有助于文章冲击高分!
PS:在生信数据批处理、结果分析上遇到困难?馆长来帮您!感兴趣的同学敬请扫码联系!
定制生信分析
云服务器租赁
加好友
备注“66”
领取试用
其次,作者团队采用了多达2038名HCC患者的数据集!
大样本的队列是文章结果可信度的基础!
此外,想发高分生信的同学更可以留意作者团队所应用的SEER数据库!
该数据库是美国国家癌症研究所的一项重要的人群项目,覆盖约30%的美国人口!
l
题目:开发基于机器学习的模型来预测甲胎蛋白阳性肝细胞癌的预后
l
杂志:Journal of Translational Medicine
l
影响因子:6.1
l
发表时间:2024年5月
公众号回复“原文”二字可以领取本文献,文献编号240706
研究背景
肝细胞肝癌(HCC)是最常见的原发性肝癌,预后极差。AFP阳性的HCC患者通常具有更恶劣的生物学行为和更差的预后。与AFP阴性HCC患者相比,AFP阳性HCC患者更容易出现更高的临床分期、TNM分期、肝纤维化评分和更多的血管侵犯。既往研究显示,无论是手术还是辅助治疗,AFP阳性HCC患者的中位总生存时间明显低于AFP阴性HCC患者。因此,针对AFP阳性HCC患者建立准确的预后预测模型,对于回答患者对生存的关切,制定个体化管理具有重要意义。
数据来源
数据来源
|
内容
|
数据库
|
SEER (Surveillance, Epidemiology, and End Results) 数据库
|
数据范围
|
诊断时间:2004年至2015年
|
数据筛选
|
排除以下患者: 1. AFP 阴性肝细胞肝癌患者 2. 有多发原发肿瘤的患者 3. 缺失以下信息的患者:肿瘤大小、种族、生存数据、AFP、肝纤维化评分、分级、死因、婚姻状况、保险状况、家庭收入中位数 4. TNM分期未知的患者 5. 是否手术治疗未知的患者
|
最终样本
|
共2,038例 AFP 阳性肝细胞肝癌患者
|
主要结果
1、患者特征
作者从 SEER 计划中获得了 2,038 名符合条件的 AFP 阳性 HCC 患者的信息。
AFP阳性HCC患者的1年、3年和5年总生存率分别为60.7%、28.9%和14.3%。
训练集和测试集的基线特征如表1所示。
在这些患者中,76.3%为男性,63.4%为白人。平均年龄为61.07岁。III级或IV级肿瘤患者占23.3%。
在婚姻状况方面,约57.9%的患者已婚。有1,509名(74.0%)患者投保。
大多数患者(74.0%)的纤维化评分较高(纤维化评分5-6分,即重度纤维化或肝硬化)。肿瘤大小方面,≤3cm、3-5cm、≥5cm的肿瘤分别占患者的33.3%、27.2%和39.5%。
表1 基线特征
2、特征预测变量选择
每个特征在 XGBoost 预后模型中的重要性如图1所示。
研究结果显示,在1年预后模型中,影响预后的前5个变量是手术、AJCC分期、肿瘤大小、婚姻状况和家庭收入中位数。其中,手术是XGBoost的1年、3年和5年预后模型最重要的变量。
图1 每个特征在 XGBoost 预后模型中的重要性
3、AI预测模型的构建
作者团队将总病例随机分为训练集(n = 1,428)和测试集(n = 610),比例为7:3,分别用于构建和验证AI预后模型。
在训练集中,作者使用十倍交叉验证进行迭代测试和调整,并反复测试和调整模型。最后,关键的参数终于得到确认。
4、评估用于估计 AFP 阳性 HCC 患者预后的预测模型
通过ROC 曲线分析,作者计算了训练集和测试集的相应 AUC。
XGBoost 模型在预测 AFP 阳性 HCC 患者在1年、3 年、5年的生存率方面表现良好(图2A-C)。
在ROC曲线分析中,
训练集中的LR、SVM、RF、KNN、ID3的1年AUC值分别为0.758、0.703、0.761、0.746和0.762。在3年预后模型中,训练集中的LR、SVM、RF、KNN、ID3的AUC值分别为0.756、0.687、0.760、0.744和0.752(表2)。
图2 XG Boost 模型评估
表2 机器学习算法构建的预后模型在训练集和测试集中的性能
5、混淆矩阵评估
此外,作者通过构建混淆矩阵评估了 XGBoost 模型的准确性(图3)。
对于1年、3年和5年生存预测,训练集和测试集的准确度分别为0.709和0.726、0.721和0.726以及0.778和0.784。
上述结果表明,XGBoost 模型相关校准曲线在训练中实际观察和模型预测之间的 1 年、3 年和 5 年生存概率具有良好的一致性。同时,训练集中 1 年、3 年和 5 年生存期的DCA(决策曲线分析)曲线也显示出良好的临床效用,并表现出更优的正净获益(图4)。
图3 混淆矩阵构建
图4 训练集和测试集中 XGBoost 模型的决策曲线分析曲线
文章小结
作者团队的研究开发了六种基于机器学习的新型预后模型,用于 AFP 阳性 HCC 患者的生存。其中,XGBoost模型表现出良好的预测性能,可为医生提供早期医疗干预的有效工具,提高患者生存率。
馆长认为,作者团队在文中所应用的六种机器学习算法值得大伙学习!分别是:XGBoost、LR、SVM、RF、KNN 和 ID3算法,朋友们可以在自己的文章中应用!
PS:如果你也想像作者一样发表6分+的机器学习文章,却不知道怎么设计实验,欢迎您扫码联系馆长!馆长这里有最新鲜的实验设计思路和最强大的生信团队!定能让您事半功倍!
注:本文原创表明为原创编译,非声张版权,侵删!
馆长会持续为大家带来最新生信思路,也可以
提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务
,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!