“杀熟”是数据公平问题，还是算法效率问题？

待字闺中 · 公众号 · 程序员 · 2024-11-25 11:50

正文

近日从媒体看到《四部门联合行动：严禁利用算法实施大数据“杀熟”》的消息，直指信息茧房、刷榜、大数据杀熟、时间剥削等各种互联网平台乱象，这无疑出于保护互联网用户利益的良好动机，但“算法作恶”是否是造成平台问题的根本？值得商榷。能用于“算法作恶”，一般证明算的准，算的快，算法效率高。如果简单处罚算法，就会造成算对要罚，算错不管；算好了有错，算不好无罪的错误结果。

我们认为，算法追求精准高效是应该坚持的基本方向，否则数字经济的生产率无法提升。考察“杀熟”类问题的产生机制是两种，一种是使用数据（用户、商家、劳动者、商品、服务）获取平台利益最大化，一种是通过伪造数据获取不当利益（商家、平台）。共性都在于“数据”，而非“算法”。算法存在的目的，是实现数据价值与使用效率的最大化。今天最著名的人工智能LLM语言大模型，就是一种互联网数据的深度学习算法。通过行政手段去控制和干预算法，既难以实践奏效，又违背了数字世界的基本规律。要降低算法效率，是不是干脆要求所有CPU降频50%来得更直接有效？

所以造成今天互联网上述各种不公平问题的根本，不在于追求效率的算法工具，当然更不在于CPU这样的计算工具，而在于数据这个生产要素的配置问题，在于“数据公平性”。联合执法，还应该增加大数据局，从数据基础入手，就抓住了“算法作恶”的根本因素。

伪造数据属于违法行为，恰恰应该鼓励通过高质量算法去识别、监督、纠正、防范、消除，正如各种网络安全算法，就是为了识别和抵御掺杂在正常流量中的恶意攻击、伪装访问等。这种违法行为先不讨论。

“杀熟”问题，本质来自于对个人数据的搜集、关联、用户画像、偏好分析、商品推荐这一系列行为的合法性。最高效精准的数据搜集、数据分析、用户画像、推荐匹配算法，既是数字经济企业的动力和核心竞争力，也的确容易成为“算法作恶”的工具。但不应通过控制算法的目标和效率，作为约束“算法做恶”的方法，而是应该从算法依赖的数据入手。全流程检查数据的采集使用管理，是否符合国家“数据二十条”，尤其是十六字方针“数据产权、流通交易、收益分配、安全保障”的要求？是否符合国家有完善的各级法律法规如《个人信息保护法》、《数据安全法》《网络安全法》等的要求？管理数据、算法、数字经济的工作应依法办事，从现成的法律框架中拿出数据治理武器，而无需从约束算法这样的数学工具动手。

因此，要彻底解决各种“杀熟”问题，关键不仅仅是打击“算法作恶”之末，而是通过系统性解决数据流通过程的透明性、公平性、合法性，从根本上解决“数据公平”之根。其中，我们认为一个关键抓手在《个人信息保护法》中明确规定的“个人数据可携带权”的充分实现。个人数据可携带权，保障每个人能够从各个生成自身数据的社交、电商、外卖、出行、金融交易、固定资产、学习、医疗等等平台上无门槛无成本地获得自身数据，并且能够自主管理数据授权、查看追溯数据的使用情况、获取数据“被使用”产生收益的合理部分。只有公民普遍实现各平台的个人数据可携带权，才能打破平台数据垄断，打破数据使用黑箱。数据确权是有效进行数字治理的基础。

具体方法建议：

一、要求所有平台，按照互联网开放数据交换格式（json、markdown或者其他国家规定标准）提供每位用户自主查看、下载全部在该平台的数据，并能够随时将数据转移离开平台。这就是“个人数据可携带权”的实现。

举例：用户随时可以查看在微信的全部聊天记录，并且下载脱离微信的程序和平台，通过标准格式查看读取，进而可以在其他社交软件平台如钉钉等继续使用。类似的，用户可以随时下载在淘宝、抖音、百度、美团、滴滴等平台的浏览、搜索、商品购买等全部个人数据，并携带转出平台自主使用。

“杀熟”是数据公平问题，还是算法效率问题？

正文

请到「今天看啥」查看全文