此次抗击新冠肺炎疫情,可以说是举国之力,每个人都积极投入到防御工作中,但相较于“非典”时期,还是发生了很多显著的变化。
从宏观的
流动人口管理,实时疫情地图更新,政务平台云审批
,到无聚集、非接触的生产、生活秩序安排,都体现出了对大数据的爆炸式需求。
但是现在每天产生的大量数据,有很多是没有价值的。
如何让数据发挥应有的威力,医疗行业尤其是流行病的疾控和预警表现的最为明显也最急切,因此
对“慢数据”的挖掘显得尤为重要
。
大数据时代真正的大数据技术应该是可以提前预测疾病情况,并在防疫和疫情控制当中产生更大的作用。
如果你恰好从事数据分析相关工作,或者掌握Python基础语法,熟悉Numpy,Pandas,Scikit-learn库的简单使用,那么确认过眼神,你是对的人,下面
集成模型应用项目
非常适合你来了解。
简单的说就是通过血压、血氧、胸部CT等医学指标,实现机器学习的分类情况,挖掘和不断优化模型,最终初步筛选是否患有新冠肺炎。
其中涉及到架构系统项目的流程、特征对于模型的变化趋势,逻辑回归(LR)和随机森林分类算法(RF)的应用,模型解释工具包等问题。
具体内容欢迎关注
金子老师
带来的《
抗疫当前,用集成模型告诉你如何提升安全感
》。
原新浪广告事业部支撑架构师,中国移动数据挖掘总工程师。
1. 架构系统项目流程
2. 特征对于模型的变化趋势
3. 逻辑回归和随机森林分类算法的应用
4. 竞赛利器:模型解释工具包
1. 实现逻辑回归算法(LR)、随机森林算法(RF)在项目中应用
2. 掌握特征在建模前后变化趋势
3. 掌握在竞赛和企业中的工具包
4. 熟练使用模型解释工具包:
eli5、shap和pdpbox
随机森林算法(RF)
作为一种高度灵活的机器学习算法,RF拥有广泛的应用场景。
既可以用来做市场营销模拟的建模,统计客户来源、保留和流失,也可用来预测疾病的风险和病患者的易感性,因此可广泛应用于市场营销和医疗行业。
在最近几年的国内外大赛中,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,RF因其较高的准确率,进入答辩阶段的参赛者使用占比非常高。
“逻辑回归算法”的名字里虽然带有“回归”二字,但实际上逻辑回归算法是用来解决分类问题的算法,主要有以下特点:
LR能以概率的形式输出结果,而非只是0,1判定、可解释性强,可控度高、训练快,feature engineering之后效果赞、因为结果是概率,可以做ranking model。