今天,我们已跨入“大数据”时代,数据的价值蕴含在“数”里行间,让数据说话,将成为人们的“习惯”做法。上海科学院和上海产业技术研究院基于自主开发的“科技发展动态分析平台”,聚焦制造、信息、能源和健康等四大领域,应用大数据技术在互联网上收集相关数据信息,对产业技术发展动态进行跟踪和分析。本期以2017年上半年相关数据信息的地域属性为标识,绘制我国健康领域技术热度版图(即健康技术热度榜)。
本篇呈现的2017年上半年我国健康领域技术热度版图,是根据上海科学院/上海产业技术研究院“科技发展动态分析平台”采集到互联网上数据信息,以2017年上半年数据信息的地域属性为标识、以专业关键词为线索,围绕相关产业技术领域,用计量方法,汇总统计个人涉及量和机构涉及量,并参考百度搜索指数。以这三组数据信息为基础,提出产业技术热度值算法,根据此算法得到计算结果,绘制而成的我国健康领域技术热度版图(即健康技术热度榜)。
1、
健康领域范围界定
由五个一级关键词界定涉及范围,它们分别是:健康医疗、数字健康、基因检测、生物医学和转化医学等,每个一级关键词涉及六个二级关键词。
2、
计算公式
要综合考虑事件的主动性和事件的被动性。可从三个观察点入手,做到既要关注事件发起引领者的因素,用个人和机构的主体行为次数来表示;也要关注事件参与执行者的因素,用社会公众搜索行为(百度搜索指数)来表示。由于对这三个观察点研究有待深入,在此暂取等权重值。
热度值=100*(个人次数/最大个人次数+机构次数/最大机构次数+百度搜索指数/最大百度搜索指数)/3
1、个人涉及量
2、 机构涉及量
3、百度搜索指数
根据健康领域涉及的五个关键词情况汇总整理得到下表结果
1、 健康技术热度版图
基于上述基础数据,根据热度值计算式可得热度榜(Top20)
由此绘制成我国健康技术热度版图。
2、情况说明
上面版图包括港澳台在内的全国34个地域,作为重点在热度榜只展示前二十位情况。如何看待上述结果,应注意如下三个方面:
参考度
。由于数据信息的来源仅局限于互联网,所包含内容不一定全面、观察角度不一定精准,因而绘制的热度版图可能与实际情况有偏差;但作为分析全局问题的一份基础资料,还是有相应的参考价值。
关联度。
从排序情况看,北京一般总是名列前茅,这是由于其作为我国的首都,是各类资讯的发源地,体现了全国信息枢纽港作用(信息的集聚和扩散),而不一定是相关产业技术领域状况的标量。但不可否认:热度值与相关产业技术水平和产业发展状况具有正关联性。
认可度。
对上述分析计算结果的解读,需要大量的背景资料支撑,而此热度值,仅是一种数量的标识。对此,各方专业人士肯定会有不同的理解、不同的认可度,欢迎大家共同讨论研究。
沈跃栋,上海科学院研究员、上海产业技术研究院战略咨询部主任;
姜凌,上海科学院工程师。
“数”里行间 | 2017年上半年我国信息技术热度版图
“数”里行间 | 2017年上半年我国能源技术热度版图
“数”里行间 | 2017年上半年我国制造业技术热度版图
“数”里行间 | 2016年第四季度信息领域发展动态数据分析报告