专栏名称: 数据保护官
DPOHUB数据保护官俱乐部的官微:一个聚焦数据隐私和数据安全的非营利性高端学术平台;一个整合法律、技术及管理的专业数据合规生态体;一个制造干货、相互赋能及塑造职业品牌的数据合规共同体。 合作WX:heguilvshi
目录
相关文章推荐
深圳市消费者委员会  ·  你以为占了便宜?背后隐藏的“猫腻”让你惊呆! ·  昨天  
深圳市消费者委员会  ·  你以为占了便宜?背后隐藏的“猫腻”让你惊呆! ·  昨天  
广西新闻频道  ·  “猪生巅峰”!南宁一女士家养300多斤宠物猪 ... ·  2 天前  
广西新闻频道  ·  “猪生巅峰”!南宁一女士家养300多斤宠物猪 ... ·  2 天前  
51好读  ›  专栏  ›  数据保护官

《纽约时报》:为人工智能提供动力的数据正在迅速消失

数据保护官  · 公众号  ·  · 2024-07-25 16:56

正文

CAIL报名

点击 欧盟人工智能法合规落地课程

个保审计试点

咨询微信:heguilvshi 项目介绍

Europrivacy认证

文末扫码咨询 详细介绍

来源:数据经济评论

仅供学习,如有侵权,请联系删除!

近年来,构建强大人工智能系统的数据来源逐渐枯竭。麻省理工学院领导的研究组织Data Provenance Initiative的一项新研究表明, 许多用于训练人工智能模型的最重要的网络资源在过去一年中限制了数据使用。这种限制通过设置robots.txt文件阻止自动爬虫抓取数据。
研究发现, 常用数据集中的高质量数据有25%受到了限制,C4数据集中多达45%的数据受服务条款限制 。这一趋势对人工智能公司、研究人员和学者造成了影响,因为他们依赖公共数据集进行训练。
随着生成式人工智能的崛起,出版商和在线平台对数据使用的控制越来越严格,包括 设置付费墙和更改服务条款 。像Reddit和StackOverflow等网站开始向人工智能公司收费获取数据,甚至采取法律行动限制数据使用。虽然一些人工智能公司通过达成协议继续访问内容,但广泛的数据限制仍对需要高质量数据的公司构成威胁。
数据限制对较小的人工智能机构和学术研究人员尤为不利,他们通常 无法负担直接从出版商获得数据许可的费用 。虽然一些公司尝试使用合成数据进行训练,但目前的人工智能系统生成的 高质量合成数据仍不足以替代失去的人工数据
研究人员建议需要新的工具,为网站所有者提供更精确的方式来控制数据使用,以便 区分商业和非商业用途 。此外,人工智能公司也应认识到长期利用网络数据的局限性,并 回报数据所有者的价值
资料来源:
https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html






请到「今天看啥」查看全文