专栏名称: 生信图书馆
深入解读最新生信文献,分享研究思路和方法,提供专业生信分析服务,帮助您把握生物信息学的最新动态
目录
相关文章推荐
91运营网  ·  91运营网vip会员早鸟票抢座ing!! ·  18 小时前  
运营研究社  ·  《运营总监实战手册3.0》包邮送,真香 ·  22 小时前  
运营研究社  ·  第一批转战支付宝的财经博主,已有人月入百万 ·  22 小时前  
运营研究社  ·  2元管饱的县城地头蛇,集体打退网红店 ·  4 天前  
51好读  ›  专栏  ›  生信图书馆

2024你一定要吃上机器学习红利!学会“TCGA +5种机器学习算法”思路,8分+期刊手到擒来!手快有手慢无!

生信图书馆  · 公众号  ·  · 2024-08-03 19:00

正文

大家好呀!很高兴又和大伙见面咯!最近这个天气,馆长一出门就是一身汗,不过,咱们的每日必备生信分享还是要做的,毕竟不能辜负各位朋友们的期待! 馆长今天带来的新宝藏方法可厉害了,有个老外团队开发出了一种机器学习改进方法,其预测效能远远好于现有算法! 那么咱们废话不多说,赶紧上文章!

来自埃及的老外团队,于6月18日在斯普林格旗下高分杂志 《Journal of Big Data》 上发表了题为 《Feature reduction for hepatocellular carcinoma prediction using machine learning algorithms》 ,该团队提出的新算法令馆长垂涎三尺!!因此,特地拿来给大家分享!此外,本文还具有一系列值得复现的亮点!

1、基于特征减少思路改进的机器学习算法! 作者团队采用流行的 特征减少技术 ,如 加权特征、隐藏特征相关性、特征选择和优化选择 等,以提取减少的特征子集,来捕获与 肝细胞癌最相关的特征。

2、TCGA患者队列+5种机器学习算法对比! 作者团队运用了5种机器学习算法来比较其开发的新型算法,并验证了新算法验证结果的准确性! (ps:动动手指扫描二维码!快速联系馆长!专业团队手把手带你设计创新性极高的机器学习路线,还能帮助解决让你抓不着头脑的实验问题,专业团队服务保证一流~)

定制生信分析

云服务器租赁

加好友 备注“99” 领取试用


题目:利用机器学习算法预测肝细胞癌的特征
杂志:Journal of Big Data
影响因子:8.6
发表时间:2024年7月
公众号回复“666”即可领取原文献,文献编号240803
研究背景
肝细胞癌(HCC)是一种高发的肝癌类型,需要准确的预测模型来实现早期诊断和有效治疗。机器学习算法在医疗诊断领域展现出了良好的表现。本研究提出了一种综合方法,通过比较在应用特征减少方法前后不同机器学习算法的性能,来预测HCC。
数据来源
数据特征
描述
肝细胞癌数据集
来自癌症基因组图谱(TCGA)数据库的临床患者数据
数据规模
共包含377个患者的77个特征
数据标签
表示肿瘤状态,可以是"无肿瘤"或"有肿瘤"
数据处理
采用均值插补法填补缺失值
研究思路
主要结果
1、数据预处理
该数据集最初由 77 个特征组成。在数据清洗过程中,“TUMOR status”列中有 28 个值未知的条目被替换为“With TUMOR”。 此外,作者还引入了两个新功能以供进一步分析:基于体重指数(BMI)的“最佳体重”,分为正常、超重或肥胖,以及“年龄阶段”,分为中年、成年晚期或青年期。 图1说明了肥胖患者与有癌症病史的家庭成员数量之间的关系。研究结果表明,肥胖患者的家庭成员中有这种病史的数量最多。
图1 肥胖患者与有癌症病史的家庭亲属人数的说明
2、功能重要性
在数据清洗后,使用 RapidMiner 替换缺失值后,使用不同类型的权重运算符对剩余的 59 个特征进行加权。 首先,作者应用了“信息增益加权”。为了确定每个属性与类属性的相关性,Weight by Information Gain 运算符使用一种称为信息增益的计算。
其次,作者使用“减轻重量”运算符。Relief 被认为是评估特征质量最有效、最直接的算法之一,已获得广泛认可。 Relief 背后的基本概念是根据特征区分同一类实例和附近不同类实例的能力来衡量特征的质量(图2)。
图2 Relief 算法部分代码
3、隐藏的特征相关性
相关性加权(Weight by Correlation)是Rapid Miner Studio框架内采用的一种特征选择方法。 这种方法的重点是通过量化特征与目标变量的相关性来确定特征的显著性。通过为各个特征分配权重,如图3所示,根据它们的相关系数,“按相关性加权”优先考虑那些表现出更强相关性的肝癌特征。
图3 根据相关系数为各个特征分配权重的图示
4、功能选择
归一化是一种用于重新调整值以适应特定范围的技术。在处理具有不同单位和尺度的属性时,这一点尤为重要。 数据归一化在开发精确预测模型中的重要性已经在多种机器学习算法中得到了研究,包括最近邻(NN)、人工神经网络(ANN)和支持向量机(SVM)。而优化选择是 RapidMiner 中使用的一种有价值的技术。这种方法通过自动识别和选择给定数据集中最相关的特征子集,在简化模型构建过程方面发挥着至关重要的作用。 在特征减少之前,机器学习模型经常面临高维和冗余或不相关的特征等挑战,然而,在应用特征缩减技术(例如降维或特征选择)后,模型在准确性方面的性能有所提高(图4、图5)。
图4 在特征约简方法后,在TCGA LIHC临床变量数据集上用于HCC预测的算法的性能
图5 用于HCC预测的算法执行时间,特征约简方法前后执行时间
文章小结
目前,研究界已经开发了多种机器学习算法来预测肝细胞癌。该研究探索了使用机器学习技术(集成学习)的组合来预测肝细胞癌(HCC)患者的生存时间。该模型考虑了可能影响生存率的各种因素,包括患者位置、风险因素和临床试验的细节 。而馆长认为,这篇文章创新性的提出了一种新型的机器学习算法,其预测肝细胞癌患者预后所使用时间较一般算法显著减少,因此,同学们也可以在自己的文章中应用该方法!该方法创新性很高! PS:如果您还想了解更多一手的生信研究方法,敬请扫码联系馆长!馆长这里有大量前沿的生信方法供您挑选!

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!







请到「今天看啥」查看全文