问耕 发自 凹非寺
量子位 报道 | 公众号 QbitAI
匿名电子病历(EMR)是越来越受欢迎的研究数据来源。然而,这些数据集通常缺少人种和种族信息。这给人类疾病的研究人员造成了困扰,因为人种和种族对许多健康风险和治疗结果有着重要的影响,另外也跟人口特异性遗传变异密切相关。
为此,来自普林斯顿大学的Ji-Sung Kim,以及来自芝加哥大学的Andrey Rzhetsky共同展开了一项新的研究,并把研究工具RIDDLE进行了开源。
RIDDLE是一个开源的Python2库,用于使用深度学习方式在匿名电子病历中估算人种和种族信息。
Kim和Rzhetsky使用了来自芝加哥和纽约的EMR数据集,总共描述了超过150万名患者,约有1.5万个特征,包括:性别、年龄、临床事件观察(编号为ICD9代码)。
在这个研究中,他们发现深度神经网络比其他方法(例如逻辑回归、随机森林)能更准确的补全缺失的人种和民族信息,在所有考察标准上都得到了更好的分类性能:精度、交叉熵损失(误差)等。
实验结果表明,RIDDLE的平均精度为0.671,最高的两个准确度为0.865,测试数据的交叉熵损失为0.849,这个结果显著优于逻辑回归和随机森林分类器。
他们用这些训练过的神经网络模型来识别、量化和可视化预测人种和种族的医学特征,并使用这些特征来进行人种和种族差异性疾病模式的系统比较。事实上,临床病史对人种和种族的估算信息可能反映出:
-
跨越种族和族裔的蓝领、白领职业的偏态分布
-
可能的生活习惯变化,例如饮食习惯
-
易患疾病的遗传背景和变异差异
RIDDLE通过运行并行化的TensorFlow/Theano后端来高效训练模型,以及使用预处理数据和分批训练的方式来避免内存溢出。
RIDDLE使用Keras来指定和训练潜在的深度神经网络,并用DeepLIFT来计算“特征到类别”的贡献值。
目前的RIDDLE Python模块与TensorFlow和Theano一起作为Keras的后端。默认架构是一个深度的多层感知器(深度MLP),使用二进制编码的特征和目标。当然,你可以自己编写model_module文件来指定任何神经网络架构和数据格式。
想要进一步了解RIDDLE,可以访问如下地址:
https://github.com/jisungk/riddle
相关论文可以访问这个地址查看:
https://arxiv.org/pdf/1707.01623.pdf
【完】
一则通知
量子位读者5群开放申请,对人工智能感兴趣的朋友,可以添加量子位小助手的微信qbitbot2,申请入群,一起研讨人工智能。
另外,量子位大咖云集的自动驾驶技术群,
仅接纳研究自动驾驶相关领域的在校学生或一线工程师
。申请方式:添加qbitbot2为好友,备注“
自动驾驶
”申请加入~