编者按
今天,我们已跨入“大数据”时代,数据的价值蕴含在“数”里行间,让数据说话,将成为人们的“习惯”做法。上海科学院和上海产业技术研究院基于自主开发的“科技发展动态分析平台”,聚焦制造、信息、能源和健康四大领域,应用大数据技术在互联网上收集相关数据信息,对产业技术发展动态进行跟踪和分析。本期以2016年底为基准点,以半年为一个时间跨度,通过TOP2000热词列表分析,来动态描述2017-2018年我国信息领域技术发展态势和若干关注点变化轨迹。
一、研究工作概述
1
、基本思路
基于平台“热词分析”功能,以一千五百多万条舆情数据为基础,通过数据挖掘与分析,及时发现捕捉热点,对领域技术变化发展做出研判。热词分析就是对舆情数据源进行分词,精准的分词是热词分析的基础;通过关键词提取、词关联计算,再综合考虑信息的转发量、浏览量和评论量等各种因素得到领域技术热词列表,来研判领域技术发展态势。
2、
信息领域范围界定
由五个一级关键词界定涉及范围,它们分别是:
信息网络、大数据、云计算、物联网和智慧城市等。
二、数据信息汇总
1、热词列表
统计数据的时间点为五个(2017年1月1日、2017年7月1日、2018年1月1日、2018年7月1日和2019年1月1日),总时间跨度为二年。本表汇总了TOP2000的热词,作为研究分析基础数据。
2、领域技术发展态势
对于领域发展态势描述,需要由相应时间点上的关键词来标注,在此以特定领域热词为关键词。为定量反映领域技术发展态势,以上述列表为依据,逐个分析有效热词,以2017年1月1日为基准点,标注出相应排序变化。此案例分析围绕Top20领域热词列表展开。
3、领域内若干关注点
热词列表内涵丰富信息,类别种类繁多、无效数据不少,作为数据清洗方法,根据分析研究者需要,对Top300领域热词列表进行取舍梳理,汇总得如下若干关注点列表。
三、结果分析与情况说明
1、结果分析
我国信息领域技术发展态势
基于Top20领域热词列表,根据前面提出算法原则,设定不同权重值,计算得到我国信息领域技术发展态势图:
2017-2018年间大格局不变,仅仅呈现要素结构变动。
领域内若干关注点
基于若干关注点列表,具有代表性的关注点呈现三种情景:上升、持平和下降。尤其值得重视是排序上升的关注点:
人工智能、金融、数字和生态
等,特别是
区块链
的排序上升最大。
2
、情况说明
基准点:
上海科学院/上海产业技术研究院“科技发展动态分析平台”是2016年初投入试运行,较为完整采集互联网数据信息从2016年下半年起。所以,本项研究工作以2016年底为基准时点。
本研究局限性:
就数据来源而言,本研究仅仅是社会舆情的分析,是众多分析维度中的一种。结合其他专业数据源,可构成综合型技术分析指数,也是我们今后努力的方向。
(责任编辑:沈跃栋)
沈跃栋,上海科学院研究员、上海产业技术研究院战略咨询部主任
姜凌,上海科学院工程师。