八天长假期间,在权威纸媒上看到一篇文章,题目是《不能让算法决定内容》。文章说,随着大数据、人工智能的广泛应用,一些商业网站、移动新闻客户端,包括直播平台、浏览器、搜索引擎、影音软件等,都在运用算法这个“读心术”,为用户量身打造信息,结果是大量来路不明、藏污纳垢的信息横行在网络空间。文章说,算法是时候回归服务内容这个本源了,而不能本末倒置,让内容被算法牵着鼻子走。算法不是王法,算法决定内容更不是王道,只有算法回归到服务内容的角色,才能使网络空间碧波荡漾,激发出源源不断的正能量。
滴滴出行大数据绘出的全国400城24小时出行热力变化图
应该说,文章提出的网络乱象确实存在,但这个锅不该让算法来背。算法是什么?百度百科说:“指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,代表着用系统的方法描述解决问题的策略机制。”360百科说:“可以理解为有基本运算及规定的运算顺序所构成的完整的解题步骤。或者看成按照要求设计好的有限的确切的计算序列,并且这样的步骤和序列可以解决一类问题。”其实,简而言之,算法就是计算的方法。在大数据时代,算法就是对庞大、浩瀚数据进行计算和处理的方法。一种算法能解决一定的问题,也只能解决一定的问题。针对不同的问题,运用不同的算法,得出相应的结果。发明和制定算法的是人,使用和运用算法的也是人。应该用加法的时候偏要用乘法,关键在人,不在“算法”。
而实际上,纵观种种网络乱象和虚假数据,鲜见算法先行、把算法作为颠扑不破的真理、让内容服从算法的案例,倒是不时可见为了目的不择手段、置算法的规则于不顾、甚至将算法弃之一旁的现象。从当年“放卫星”到长期以来披露的统计弄虚作假案件,都是为了目的或是内容,违背数字计算方法的结果。如果对“算法”有一些敬畏之心,就不会做出违背科学、违背规律的事情。而大数据背景下,如果尊重算法、算法至上,或还真不至于出现诸多网络乱象,甚至整个网络空间也可碧波荡漾。而那些量身打造、来路不明、甚至藏污纳垢的信息,那些没有多少选择余地的强行推送,有多少是尊重算法的结果呢?前几天,某直辖市一项非常正规且高规格、正能量的评选活动启动网络投票后,便有某些网络公司找到候选人,表示可以通过技术手段使票数突飞猛进,当然前提是“有偿服务”。试想,靠水军和刷单创造的动辄“10万+”,难道还有什么科学的算法可言吗?
百度搜索曲线曾经呈现一张经典的曲线图,就是以“大数据”为关键词的搜索曲线,在从2012年到2013年的时间段内有了一个陡升,表明大数据在中国的应用和被关注程度有了一个质的提升。5年来,电子化产生、规模大大超过传统数据,作为数据与技术集成的大数据,在规模快速增长的同时越来越多地覆盖乃至替代了传统数据。因此,必须尽快有效遏制网络乱象,才能防止数据失真及对决策的误导。而如同整治传统数据弄虚作假的重点不在统计方法一样,治理网络乱象的重点同样不在于跟算法较劲,因为网络乱象的根源不在算法,而在态度。
所以,一方面要做的是加快立法,有针对性地设定相应的法律条款进行管理。法律对传统数据造假的责任者和执法者的确定都非常明确,而大数据的生产者发布者使用者众多,且很多不需要向政府统计部门报送,因此有关法律必须充分考虑其特点,使相关条款指向明确、可操作性强,且对违法者造假者的查处更加严格,使违法者付出其付不起的代价。另一方面要通过行政、技术手段,加强对网络数据造假的监控和防范。加强行政手段,就是要明确主管部门及其职责;加强技术手段,就是要像管理交通那样管理网络,及时发现刷单、灌水、无中生有等现象和行为。
道高一尺魔高一丈。虽然网络乱象滋生于网络,主体多元、形式各异,但也正因为其必须基于网络而生存和生长,所以也为通过技术手段加以防范提供了重要基础和条件。(潘璠)