精彩问答:
问:清博舆情平台能不能用来阅读上市公司的企业年报,就是根据相应的要求,摘除年报里面的一些词频什么的?
沈教授:我们现在的数据,目前它的颗粒度仅仅到篇章级别,你刚才说得年报是一篇文章里面的结构化内容,我们现在还没有做到这一步,下一步我们希望往这个方向努力。未来很重要的一个方向,大数据一定会进入颗粒度越来越细的程度,我个人觉得我们在10月份会进入这样一个时间点,在这个方向上非常具有挑战性,我乐意接受这种挑战,希望去尝试。
问:舆情监测的时间涵盖的大概是什么情况,是从一开始还是只是对近期的搜索?
沈教授:我们现在可能在下个月迭代一次功能,叫无限回溯,但是那个功能消耗资源很大,因为它要在全网当中任意一个地方都会去找,所以那个可能是一个付费可能。你如果有付费的意愿,你需要这样一种功能,至少互联网里存在过的最近的接近20年的只要在网上存在的,我们都把它给扒回来。
但是有点可惜的是,中国的网站信息十几年前的中国人自己基本上没有保存,就是说你现在想看比如清华大学十年前的首页是什么样子,可能你在中国境内找不到了,但是美国有一些研究机构还保存着。所以说互联网的信息具有很强的流失性,就像半衰期一样,有这样的规律,很多页面过一段时间就不见了。所以我们还是要重视,看上去价值密度很低的东西,随着时间的推移它真的会越来越宝贵。
问:您前面讲到,现在大数据大部分都是从抓取到统计,我们下一步是要做预测,我觉得我们预测现在比较多的是内容的精准投放,您觉得除了精准投放以外,大数据的预测还能做到哪些事情呢?
沈教授:我个人觉得可以预测很多事。举个简单的例子,对网红的分析,我们曾经做过一点网红大数据,把这些网红的ID简单做过一些分析,网红的关键点从大数据角度来说就两个,一是这个网红到底能卖什么,他的电商属性是什么,比如罗振宇曾经卖过月饼,有的人说他是亏本的,但是他卖书我估计是赚的。
第二个就是分析他的潜力,到底哪一个网红是能够快速崛起的,这是需要数据分析的。再比如IP大数据,它的分析跟网红大数据完全一样,你拿到任何一个IP,这个IP的商业转换在哪里,社会价值在哪里,这是我们首先通过数据去分析的,二是这个IP的成长性是什么样的,往往一个东西很火了大家去卖,这时候利润空间就很低了, 我们要买的就是它将起未起之时,做风投也是一样的。所以我们刚才强调对人的分析方面是有非常多的点可以做的。
另一方面,从个体的研究到群体的研究,到整个人类的研究,我觉得都非常有意义,从人文社会科学的角度来看都非常有价值。比如说对群体的分析,假设你是做文化研究、民族研究的,你现在能不能告诉我,全球不同文明之间的整体的话语权的涨跌,这种东西需要更加庞大的数据。再举个离生活近一点的例子,有一次我去看一个房子,刚开始看的时候没注意,后来发现旁边放了一个特别大的变电器,如果有大数据能够把这些东西快速地帮你分析出来,告诉我哪些地方噪音是多少,这就非常有价值了。
当然现在不仅仅是人跟环境,而且是对人自身内部的改造,这也是有价值的,我们未来会有两个跟人本身密切相关的设备,除了手机之外还有智能眼镜,还有一个我认为是衣服的智能化,这是非常值得期待的,因为衣服是跟你24小时在一起的,可以拿到非常多的关于你身体的数据,这时候你可以预测自己,比如心跳是否正常,假设心跳有一些不太正常的情况的话,你可以预先吃药。所以我觉得这个预测包括很多方面,非常有意思,我们团队还是聚焦在把全域大数据结构化、行业化,这也是我们短期内的目标。
问:听了您刚才的预测,我感觉以后要失业了。您对大数据以后的担忧有没有,比如刚才说到热点的预测,现在如果大数据都可以做到预测,以后一些行业您是怎么看的?
沈教授:我们去看人类社会的演化历史会发现,往往重复性的劳动很容易被取代,所以我的一个判断,当机器人大规模普及以后,当能源价格大幅度下降以后,就是核聚变,然后又可以做大量的机器人,这时候就会产生很明显的社会变化,如果你不想工作了机器人每天就做一个最简单的汉堡给你吃喽,这是我们可以看到的一个变化。
在这种情况下你会发现,对于人类原来擅长的很多工种,在人工智能加大数据的冲击下面某种程度上也会消失,比如说翻译,未来肯定会出现能够实时翻译的系统,这时候翻译是没必要存在了。但是作为文学创作来说这个难度更大一点,现在写诗的系统已经有了,自动写一首诗或词,我们清华也做过写词的软件。但是整体上来说,不管是对新闻热点的预测也好,包括医疗行业等等,离真正被取代的时间还有一段路程。我观察到一个有趣的现象,有很多行业的人当他面临机器对自己的迭代的时候,他是一种强烈的反抗的心态。首先是反抗,然后是被迫接受,最后是赞扬。
我就碰到过一个老学者,有一天很神秘地跟我说,你知道吗?最近有一个软件很火,我说什么软件?他说微信。这时候他是一种接受的角度了。有一个老师参加医疗类大数据的会,发现有的人就不接受,说医疗人工智能大数据软件给出的诊断报告是不太对的,后来这个老专家又去参加一个翻译类的大数据的会,当场就有很资深的翻译家说,这个软件翻得不好,因为翻译讲究信达雅!
所以你会发现今天电脑的技能或者大数据的技能某种程度上还是赶不上人类,但是我们要记住一点,它的进化比我们更快,就像我自己对我们团队功能的进化还是比较满意的,在上上周我们还没有刚才看上去比较好看的传播路径的分析,这一周就有了。当我有了这个功能之后马上我就觉得这个功能不好玩了,我需要更新的功能。所以说软件本身的迭代速度是快于人类的,从这个角度来说人类的灭亡是有它的必然性的。
问:是否可以用表情来判断他的情感?
沈教授:我觉得大数据的问题还得依靠大数据来解决,如果要判断情感准确的话,我们可能需要更多的语料,更多的分析。比如说现在怎么样去判断一个谣言,其实很难,一扫描,这篇文章是不是谣言看不出来,但是大数据系统能够在抓取这篇文章过程中把下面的社会网络对这篇文章的评价,它马上就知道这篇文章是谣言,这个犯错的概率是很低的。然后它可以经过长期的学习发现,这个人每次说得话,下面的网友都说是谣言,那说明这个人是比较倾向于传播谣言的,它马上可以对这个ID号进行认证—谣言贩子。
我印象最深刻的一篇谣言,就是光绪皇帝在京师大学堂的演讲,这篇文章很多媒体都在发,因为比较符合媒体的心态,后来有网友指出来这篇文章是一个网络小说写手写的一篇穿越小说,说某个年轻人被雷劈了一下就穿越回去当了光绪皇帝,然后就在京师大学堂里面做了这个演讲。因为写得很好所以媒体都喜欢引用。你如果用软件自动分析,分析不出来这是虚构的内容。所以大数据的问题需要大数据加人工智能联合解决。人类社会表现出来的智能性和机器所必须的智能性都是非常有意思的话题,如果我们能够把它结合起来,这真是一种我们说的数据之美和人工之美的结合。
问:数据抓取版权的规避问题怎样处理?
沈教授:像微博的数据,我们的渠道主要来自几方面,一个是我本身跟微博的合作比较多,微博的很多活动我也经常参加,它有一些数据跟我们有一些战略合作来提供给我们,还有一部分我们也买了它的商业接口,还有一部分我们也抓取一点,因为我买了它的接口,所以它看我抓它也就不管我了。
微信的情况,腾讯在3Q大战以后心态有很大的变化,3Q大战以前别人做任何一个东西它可能反应很快很激烈,别人做了一个好的它也开始复制山寨,但是3Q大战以后,腾讯更多的讲究生态性,目前看来,腾讯数据方面,可能的一种态度是你有能力抓就抓一点,你没有能力抓那就算了,但是它会经常升级它的反抓取系统,让很多人都很难受。所以对微信公号的数据抓取是个技术难点,能抓到的团队不多,在中国我估计不超过50家,因为中国很大,有做各行各业的。网页的数据抓取现在是跟成熟的。如果从规避版权的角度来说,更多的是可能需要提供一些抓取服务,而不是抓取的结果,这也是我们需要做一些调整的。