7月1日,在由武汉国家生物产业基地建设管理办公室主办、火石创造承办、光谷健康智慧园协办的医疗大数据与医学人工智能高峰论坛上,丁香园创始人兼董事长李天天
做了题为《大数据在慢病管理和皮肤病智能诊断中的应用》的演讲。
文|程聪
7月1日,在由武汉国家生物产业基地建设管理办公室主办、火石创造承办、光谷健康智慧园协办的医疗大数据与医学人工智能高峰论坛上,丁香园创始人兼董事长李天天做了题为《大数据在慢病管理和皮肤病智能诊断中的应用》的演讲。他认为,
数据质量可能是中国大数据和人工智能面临的最特殊挑战。
丁香园通过多种渠道获取高质量医疗数据,助力实现深度学习。并在现场分享了丁香园的两个案例:
数据驱动的糖尿病患者管理服务
以及
AI辅助皮肤病临床诊断和患者管理。
本文系根据李天天先生在火石创造承办的《医疗大数据与医学人工智能高峰论坛》上的精彩分享整理而成。根据嘉宾意见,分享内容已删去部分敏感观点及内部信息。
丁香园创始人 李天天
数据质量可能是中国大数据和人工智能面临的最特殊挑战
除了很多专家提到的数据缺失、数据孤岛、数据安全、隐私等问题之外,李天天在会上提出一个不太一样的观点,即
数据的污染
。
“中国过去三十年,医疗行业的‘以药养医’政策,直接导致医疗数据,特别是治疗数据被污染。”和医生群体接触密切的丁香园常常可以看到数据污染的情况,这带来的很大的挑战就是——临床数据清洗几乎成为一个不可能完成的任务。在做技术研发时,技术人员没有能力判断一个处方到底是不是规范的,到底是不是循证医学支持的。
丁香园如何解决数据质量问题?
丁香园从医生端、企业端、患者端收集数据,“整个思路是找到
高质量的数据集
,哪怕数据量没有那么大,通过各种渠道拼出来,但一定要
在前端把数据质量控制住
。最后拿高质量的数据先做一些小的训练。”
过去在中国17年,作为中国最大的医生专业社交平台,丁香园覆盖了中国超过70%的医生。据卫生部官方最新数据统计,中国职业医师共300多万,在丁香园活跃的医生差不多有200万人左右,会员覆盖所有临床治疗领域和各个级别。
光有这些信息还不够,还要拿
医生的行为数据
,包括:医生在网站上以及移动端搜索什么词、看了什么文章、停留时间、转发次数、点赞次数等等。“在分析医生行为数据时,我们发现医生行为数据有时跟医生表达出来的意愿不一样。”在这种不标准的情况下,
了解医生的需求
就显得尤为重要,丁香园通过医生行为数据了解他的偏好,设计出来的内容更贴近实际。
李天天表示,患者端的问题会更难处理。首先,他们很难通过详细数据采集把患者行为全部抓取下来,而且患者个人信息采集也比较敏感。所以丁香园设计了一套ICE模型,从信息到交流到互动,设计了不同的产品组合,希望比较综合采集患者的需求方面数据。
ICE 模型收集患者数据
丁香园目前获得的数据主要有三类:
1.用户行为数据
通过
系列微信公众号和知乎运营
获得用户行为数据。
2.患者问诊数据
通过
丁香医生
APP上
患者和医生间的咨询
获得患者问诊数据。
李天天表示在线咨询平台有很多,丁香园通过采取人工智能控制医生回答的质量,保证医生回答的高可靠性。
3.从患者诊疗数据到第三方诊所数据
诊所关注基础诊疗和慢病,丁香诊所可提供全面的基本医疗服务,以获得患者诊疗数据。在成立诊所之后,丁香园又做了丁香云管家
诊所信息化管理系统
,目前已经覆盖了数千家第三方中小诊所。
“丁香云管家是云存储,以SAAS为模型的操作系统,通过这个系统可以对自己诊所业务进行很好关联,每天都可以看到后台上传大量的病历,我们也在用这些数据进行基础训练。”