专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
OSC开源社区  ·  谷歌将“杀死”ChromeOS,计划将其合并 ... ·  4 天前  
OSC开源社区  ·  通义灵码SWE-GPT:从静态代码建模迈向软 ... ·  5 天前  
OSC开源社区  ·  OSC源创会·上海站「AI Agent构建与应用」 ·  4 天前  
51好读  ›  专栏  ›  待字闺中

“杀熟”是数据公平问题,还是算法效率问题?

待字闺中  · 公众号  · 程序员  · 2024-11-25 11:50

正文

近日从媒体看到《四部门联合行动:严禁利用算法实施大数据“杀熟”》的消息,直指信息茧房、刷榜、大数据杀熟、时间剥削等各种互联网平台乱象,这无疑出于保护互联网用户利益的良好动机,但“算法作恶”是否是造成平台问题的根本?值得商榷。能用于“算法作恶”,一般证明算的准,算的快,算法效率高。如果简单处罚算法,就会造成算对要罚,算错不管;算好了有错,算不好无罪的错误结果。

我们认为,算法追求精准高效是应该坚持的基本方向,否则数字经济的生产率无法提升。考察“杀熟”类问题的产生机制是两种,一种是使用数据(用户、商家、劳动者、商品、服务)获取平台利益最大化,一种是通过伪造数据获取不当利益(商家、平台)。共性都在于“数据”,而非“算法”。算法存在的目的,是实现数据价值与使用效率的最大化。今天最著名的人工智能LLM语言大模型,就是一种互联网数据的深度学习算法。通过行政手段去控制和干预算法,既难以实践奏效,又违背了数字世界的基本规律。要降低算法效率,是不是干脆要求所有CPU降频50%来得更直接有效?

所以造成今天互联网上述各种不公平问题的根本,不在于追求效率的算法工具,当然更不在于CPU这样的计算工具,而在于数据这个生产要素的配置问题,在于“数据公平性”。联合执法,还应该增加大数据局,从数据基础入手,就抓住了“算法作恶”的根本因素。

伪造数据属于违法行为,恰恰应该鼓励通过高质量算法去识别、监督、纠正、防范、消除,正如各种网络安全算法,就是为了识别和抵御掺杂在正常流量中的恶意攻击、伪装访问等。这种违法行为先不讨论。

“杀熟”问题,本质来自于对个人数据的搜集、关联、用户画像、偏好分析、商品推荐这一系列行为的合法性。最高效精准的数据搜集、数据分析、用户画像、推荐匹配算法,既是数字经济企业的动力和核心竞争力,也的确容易成为“算法作恶”的工具。但不应通过控制算法的目标和效率,作为约束“算法做恶”的方法,而是应该从算法依赖的数据入手。全流程检查数据的采集使用管理,是否符合国家“数据二十条”,尤其是十六字方针“数据产权、流通交易、收益分配、安全保障”的要求?是否符合国家有完善的各级法律法规如《个人信息保护法》、《数据安全法》《网络安全法》等的要求?管理数据、算法、数字经济的工作应依法办事,从现成的法律框架中拿出数据治理武器,而无需从约束算法这样的数学工具动手。

因此,要彻底解决各种“杀熟”问题,关键不仅仅是打击“算法作恶”之末,而是通过系统性解决数据流通过程的透明性、公平性、合法性,从根本上解决“数据公平”之根。其中,我们认为一个关键抓手在《个人信息保护法》中明确规定的“个人数据可携带权”的充分实现。个人数据可携带权,保障每个人能够从各个生成自身数据的社交、电商、外卖、出行、金融交易、固定资产、学习、医疗等等平台上无门槛无成本地获得自身数据,并且能够自主管理数据授权、查看追溯数据的使用情况、获取数据“被使用”产生收益的合理部分。只有公民普遍实现各平台的个人数据可携带权,才能打破平台数据垄断,打破数据使用黑箱。数据确权是有效进行数字治理的基础。

具体方法建议:

一、要求所有平台,按照互联网开放数据交换格式(json、markdown或者其他国家规定标准)提供每位用户自主查看、下载全部在该平台的数据,并能够随时将数据转移离开平台。这就是“个人数据可携带权”的实现。

举例:用户随时可以查看在微信的全部聊天记录,并且下载脱离微信的程序和平台,通过标准格式查看读取,进而可以在其他社交软件平台如钉钉等继续使用。类似的,用户可以随时下载在淘宝、抖音、百度、美团、滴滴等平台的浏览、搜索、商品购买等全部个人数据,并携带转出平台自主使用。

二、在此“数据可携带权”实现的基础上,增加用户对平台使用自身数据对平台的分级授权、实际使用追溯、商品推荐等级控制、推荐收益分配等各种数据使用管理。

三、再进一步,每个个人能够具备极低成本的手段,能够自主搜集、关联、分析来自各个平台的数据,形成自身的数据资产,不依赖于平台进行资产授权使用、资产交易等,从而自主实现自身数据价值。

只要数据的来龙去脉在众目睽睽之下像上市公司财务帐本一样清清楚楚,让每个数据产生者的利益与算法的公正性息息相关。解决了“数据公平”之源,就能建立起全民监督约束“算法作恶”的长效机制。

通过这样三个步骤,将真正落实“数据二十条”,做到“还数于民”“还权(数据所有权、收益分配权)与民”,每个平台用户,都会成为平台数据使用、数据变现、数据管理的参与者、受益者和监督者。不仅不要限制平台的算法,反而应该鼓励平台发挥算力和技术能力,使用最新的隐私计算、联邦计算、人工智能等技术,更好地满足用户的数据使用和数据资产收益需要,真正为国家数字经济转型和升级发挥作用。