专栏名称: 大数据文摘
普及数据思维,传播数据文化
51好读  ›  专栏  ›  大数据文摘

不容小觑,数据语言势必预测未来(附讲座视频、图文实录)

大数据文摘  · 公众号  · 大数据  · 2017-05-25 14:55

正文

本文转自THU数据派( datapi

主笔 | 朱玲 校对 | 丁楠雅



[导读]

从智库大数据、资讯大数据、传统文化大数据、意识形态大数据、中文语义大数据到社会治理大数据等多个方面,基于数据在线,使我们与世界的关系发生了巨大的变化,而媒介这种传播载体,从传统形态转变至新形态,也积极地见证并参与了这场全球互连数据大战。本期 数据科学研究院 举办的 清华大数据“应用·创新”系列讲座 ,邀请到清华大学新闻学院的 沈阳 授。他是一位致力于微博、微信舆情研究分析的新媒体应用领域的专家,与我们分享 大数据与新媒体连接进化背后的驱动力和未来技术升级 那些事。


沈教授还介绍了 清博舆情系统 ,这套系统可整合传统的门户网站、微信、微博、论坛、海外媒体等舆情信息。 数据科学研究院 为支持校内跨学科交流合作,也在讲座现场宣布 重磅福利 :为鼓励校内师生使用该系统辅助科研,数据院将统一购买后 免费 向师生开放该系统的使用功能。

以下为课程视频,全长56分钟,建议在wifi条件下观看。暂时看不了视频的朋友,可观看下面的图文实录哦!




“大数据的终极目标是连接人,连接世间的万世万物。”

“思想的连接和认知的连接,是可以跨越时空的。”


沈阳教授在讲座一开始,就给我们打了一剂吗啡。他提到:“随着连接进化中量的积累,连接的质已经发生演变,它依赖于平台生态以及相关利益圈。在整个连接进化过程中,会从弱连接走向强连接,乃至于脑的直接的超级连接。”


互联网可以被理解具备四种能力,一是超级连接能力,二是构建新的虚拟社会形态、三是超强的资本驱动力、四是极致的人像刻画能力。 技术的逐步发展会把原来人类社会的各种连接关系重新做一次解构和重塑,这是透过数据进行连接的深度思考。


在互联网里面有个理论叫云管端,从数据的角度来看其实也是有类似的对应关系,社会的脑、社会的体、社会的肢。我们可以发现目前的互联网会有两个明显的特征,一个特征是自选择,第二个特征是云托管,就像滴滴一样,滴滴把我们对小轿车的需求给托管到云端了,共享单车也是诸如此类。


数据与社会的连接需要遵循数据连接之道,即前端轻如鸿毛,后端重如泰山,就是后端需要的数据量越大越好。



针对大数据应用,沈教授对由表及里的数据对接做了一个非常形象的比喻,他说:


“我把大数据整个划分成五层。

第一层叫做 表一层数据 ,主要是搜索引擎能抓到的数据。

表二层数据 是行业垂直大数据,是在移动手机里面的,比如说你是做电影分析的,你最好的数据可能在猫眼电影里面,猫眼电影里面这种数据百度一般是抓捕到的,所以我们把它叫表二层数据。

里一层数据 是每个单位内部的数据。

里二层数据 是每个人的数据。

里三层数据 是每个人基因的数据,所以我们是按照隐私性和数据的可获得性把它做了一个划分。”

“努力的方向”也是这场报告中,沈教授提到的最多的字眼。比如:当他提到大数据一个优势就在于多层级的数据关联时,他介绍了诸如数据交易,舆情、流量分析、精准营销、地理定位之类的很多行业性的应用平台,也提到了团队要致力于此;另外,在做微博指数、信指数、客户端指数、网页指数等这些单一指数多年后,沈老师又想到要架构一层融合指数,通过这些指数做比较精准的分析,可以使其成为决策用的指南针,但要成为GPS仍需努力。




“公开一切可公开的、要公开的、能公开的数据。”


针对这几天勒索病毒爆发,沈教授也提出了推断:“随着时间推移,我们从“PC互联网”到“移动互联网”再到“智能互联网”,最后我们可以看到的趋势一定是脑连网,就是大家的大脑会跟网络进行连接,到那时候进入黑客的话就很麻烦了,所以在安全和隐私方面的机制还要加强。”


数据其实是一种语言,是人类认识世界的更加精致的语言 ,但是语言本身并不能商业化,你只有用这个语言表达一个故事才能商业化,所以要用大数据表达一个很好的故事,要用大数据挖掘万事万物跟规律之间的连接,我们去发现一些规律,这些规律可以用于指导我们的实践。”


沈教授对于未来论文写作也提出了积极的设想,他说:“未来写论文的研究综述是不需要自己动手的,你只需要输入,中文也有英文也有,按照时间序列观点聚类帮你弄好了,那时候你就更多地是去了解和分析了。”



“大数据终极的用法是什么,大数据就是算命,随时随地能够算到未来会发生什么,随时随地能够帮你做一些未来的预测。”


沈教授带领的清博舆情团队,针对抢盐事件、赵薇删帖事件等,运用了分词模块、议题的分化和聚合等技术,通过数据挖掘透析舆论的攻防战,并有望将这些分析过程自动化,甚至要做到舆论预报。 “我希望未来在舆论场里面,在数据平台当中有一个跟天气预报员一样的人,每天跟你预报一下舆情。” 沈教授非常看重对数据真实性的还原,他认为,大数据真的是需要指导性,需要计算未来的变化,这是沈教授和他带领的团队正在努力的方向。


在报告现场,沈教授用清博舆情模拟了数据搜索的过程,以范雨素为例,很快就出来了303条数据,并且实时分析了感情色彩的正负面、情感走势,包括热词,并且数据量持续攀升,可以看出是一个实时的大数据平台。


“我们可以实现我们前人没有实现过的研究的思路,这是非常有价值的。”沈教授的话也同样激励和鼓舞着我们,在追梦路上的数据科学探索者们!









请到「今天看啥」查看全文