专栏名称: 生信图书馆
深入解读最新生信文献,分享研究思路和方法,提供专业生信分析服务,帮助您把握生物信息学的最新动态
目录
相关文章推荐
传媒招聘那些事儿  ·  SMG上海广播电视台!新媒体运营中心内容运营编辑 ·  昨天  
传媒招聘那些事儿  ·  小红书:商业化 - PM广告媒介&项目管理 ·  昨天  
传媒招聘那些事儿  ·  淘天集团:1688-AI产品运营 ·  2 天前  
传媒招聘那些事儿  ·  字节跳动:高级公关经理-业务BP方向 ·  2 天前  
51HR派  ·  给外卖员交社保,困境不止一个 ·  2 天前  
51好读  ›  专栏  ›  生信图书馆

思路大升级!SEER数据库+6种机器学习算法+2038名患者样本,安徽医科大团队手把手教你纯生信发6+!过时不候!

生信图书馆  · 公众号  ·  · 2024-07-06 19:00

正文

各位小伙伴们大家好呀!这里是每日为您提供最新高分生信分享的生信图书馆馆长!转眼间2024年已然过半,不知道大家的文章进度如何?如果还是抓耳挠腮找不到任何思路,不妨看看馆长今日份分享!

馆长今日分享的主题是: 人工智能+机器学习! 毫无疑问,2024年最热门的研究关键词便是人工智能,而基于人工智能所建立的机器学习算法,又能和生信擦出什么样的火花呢? 馆长这就给大家上篇例文!

来自安徽医科大学的张超学教授团队,选择了 甲胎蛋白和肝细胞癌 作为研究主题,再利用多 达6种机器学习算法 ,成功发文 6分+《Journal of Translational Medicine》 还不用做实验验证! 馆长悄悄告诉大家,这本杂志对纯生信十分友好,推荐大家记下!那么这篇文章的亮点都有哪些呢?

本文最大的亮点便是:AI+XGBoost算法+5种机器学习算法! 极端梯度提升(XGBoost)是一种较新的集成学习算法,已被用于癌症患者的有效生存预测,然而,它很少用于预测 AFP 阳性 HCC 患者的预后! 新方法的应用有助于文章冲击高分! PS:在生信数据批处理、结果分析上遇到困难?馆长来帮您!感兴趣的同学敬请扫码联系!

定制生信分析

云服务器租赁

加好友 备注“66” 领取试用

其次,作者团队采用了多达2038名HCC患者的数据集! 大样本的队列是文章结果可信度的基础! 此外,想发高分生信的同学更可以留意作者团队所应用的SEER数据库! 该数据库是美国国家癌症研究所的一项重要的人群项目,覆盖约30%的美国人口!

l 题目:开发基于机器学习的模型来预测甲胎蛋白阳性肝细胞癌的预后

l 杂志:Journal of Translational Medicine

l 影响因子:6.1

l 发表时间:2024年5月

公众号回复“原文”二字可以领取本文献,文献编号240706

研究背景

肝细胞肝癌(HCC)是最常见的原发性肝癌,预后极差。AFP阳性的HCC患者通常具有更恶劣的生物学行为和更差的预后。与AFP阴性HCC患者相比,AFP阳性HCC患者更容易出现更高的临床分期、TNM分期、肝纤维化评分和更多的血管侵犯。既往研究显示,无论是手术还是辅助治疗,AFP阳性HCC患者的中位总生存时间明显低于AFP阴性HCC患者。因此,针对AFP阳性HCC患者建立准确的预后预测模型,对于回答患者对生存的关切,制定个体化管理具有重要意义。

数据来源

数据来源

内容

数据库

SEER (Surveillance, Epidemiology, and End Results) 数据库

数据范围

诊断时间:2004年至2015年

数据筛选

排除以下患者:  1. AFP 阴性肝细胞肝癌患者  2. 有多发原发肿瘤的患者 3. 缺失以下信息的患者:肿瘤大小、种族、生存数据、AFP、肝纤维化评分、分级、死因、婚姻状况、保险状况、家庭收入中位数 4. TNM分期未知的患者 5. 是否手术治疗未知的患者

最终样本

共2,038例 AFP 阳性肝细胞肝癌患者

研究思路

主要结果

1、患者特征

作者从 SEER 计划中获得了 2,038 名符合条件的 AFP 阳性 HCC 患者的信息。 AFP阳性HCC患者的1年、3年和5年总生存率分别为60.7%、28.9%和14.3%。 训练集和测试集的基线特征如表1所示。 在这些患者中,76.3%为男性,63.4%为白人。平均年龄为61.07岁。III级或IV级肿瘤患者占23.3%。 在婚姻状况方面,约57.9%的患者已婚。有1,509名(74.0%)患者投保。 大多数患者(74.0%)的纤维化评分较高(纤维化评分5-6分,即重度纤维化或肝硬化)。肿瘤大小方面,≤3cm、3-5cm、≥5cm的肿瘤分别占患者的33.3%、27.2%和39.5%。

表1 基线特征

2、特征预测变量选择

每个特征在 XGBoost 预后模型中的重要性如图1所示。 研究结果显示,在1年预后模型中,影响预后的前5个变量是手术、AJCC分期、肿瘤大小、婚姻状况和家庭收入中位数。其中,手术是XGBoost的1年、3年和5年预后模型最重要的变量。

图1 每个特征在 XGBoost 预后模型中的重要性

3、AI预测模型的构建

作者团队将总病例随机分为训练集(n = 1,428)和测试集(n = 610),比例为7:3,分别用于构建和验证AI预后模型。 在训练集中,作者使用十倍交叉验证进行迭代测试和调整,并反复测试和调整模型。最后,关键的参数终于得到确认。

4、评估用于估计 AFP 阳性 HCC 患者预后的预测模型

通过ROC 曲线分析,作者计算了训练集和测试集的相应 AUC。 XGBoost 模型在预测 AFP 阳性 HCC 患者在1年、3 年、5年的生存率方面表现良好(图2A-C)。 在ROC曲线分析中, 训练集中的LR、SVM、RF、KNN、ID3的1年AUC值分别为0.758、0.703、0.761、0.746和0.762。在3年预后模型中,训练集中的LR、SVM、RF、KNN、ID3的AUC值分别为0.756、0.687、0.760、0.744和0.752(表2)。

图2 XG Boost 模型评估

表2 机器学习算法构建的预后模型在训练集和测试集中的性能

5、混淆矩阵评估

此外,作者通过构建混淆矩阵评估了 XGBoost 模型的准确性(图3)。 对于1年、3年和5年生存预测,训练集和测试集的准确度分别为0.709和0.726、0.721和0.726以及0.778和0.784。 上述结果表明,XGBoost 模型相关校准曲线在训练中实际观察和模型预测之间的 1 年、3 年和 5 年生存概率具有良好的一致性。同时,训练集中 1 年、3 年和 5 年生存期的DCA(决策曲线分析)曲线也显示出良好的临床效用,并表现出更优的正净获益(图4)。

图3 混淆矩阵构建

图4 训练集和测试集中 XGBoost 模型的决策曲线分析曲线

文章小结

作者团队的研究开发了六种基于机器学习的新型预后模型,用于 AFP 阳性 HCC 患者的生存。其中,XGBoost模型表现出良好的预测性能,可为医生提供早期医疗干预的有效工具,提高患者生存率。 馆长认为,作者团队在文中所应用的六种机器学习算法值得大伙学习!分别是:XGBoost、LR、SVM、RF、KNN 和 ID3算法,朋友们可以在自己的文章中应用! PS:如果你也想像作者一样发表6分+的机器学习文章,却不知道怎么设计实验,欢迎您扫码联系馆长!馆长这里有最新鲜的实验设计思路和最强大的生信团队!定能让您事半功倍!

注:本文原创表明为原创编译,非声张版权,侵删!


馆长有话说





馆长会持续为大家带来最新生信思路,也可以 提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务 ,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析







请到「今天看啥」查看全文


推荐文章
传媒招聘那些事儿  ·  小红书:商业化 - PM广告媒介&项目管理
昨天
传媒招聘那些事儿  ·  淘天集团:1688-AI产品运营
2 天前
传媒招聘那些事儿  ·  字节跳动:高级公关经理-业务BP方向
2 天前
环球科学  ·  五位世界冠军联手,再负AlphaGo
7 年前
品牌几何  ·  北京 | 【完美时空】营销策划
7 年前
正反读书  ·  最最遥远的路:柴静写给白岩松
7 年前