专栏名称: 企业专利观察
聚焦和分享全球各领域大中小微型企业的知识产权理念、经验与策略,既有战略规划,又有战术应对。有原创,有转载,有海外经验,有中国实践。世界500强,中国500强,独角兽500强……,统统都到碗里来!!
目录
相关文章推荐
武汉本地宝  ·  情人节,武汉结婚登记预约指南来了!附入口及流程 ·  16 小时前  
武汉本地宝  ·  武汉公积金账户的钱可以全额提取吗? ·  2 天前  
武汉本地宝  ·  武汉居住证网上办理指南 ·  5 天前  
武汉本地宝  ·  元宵节,武汉长江大桥、汉江桥限号吗? ·  3 天前  
51好读  ›  专栏  ›  企业专利观察

AI训练数据抓取引发全球知识产权争议,OECD发布最新指导报告

企业专利观察  · 公众号  ·  · 2025-02-10 23:59

正文

作者:DeepSeek、黄莺



2025年2月9日, 经济合作与发展组织(OECD)发布了一篇题为 《人工智能基于抓取数据的知识产权问题》 的专题报告,该报告 深入探讨了人工智能(AI)技术快速发展背景下,数据抓取(Data Scraping)在模型训练中的应用及其对知识产权(IP)体系的冲击。 报告指出,随着生成式AI的爆发式增长,数据抓取已成为获取海量训练数据的主要手段,但这一过程频繁涉及版权、商标、数据库权利等法律争议,亟需全球协调的政策框架与技术创新应对挑战。
数据抓取:AI创新的双刃剑
报告将“数据抓取”定义为“通过自动化工具从第三方网站、数据库或社交媒体平台提取信息的行为”。其核心流程包括数据收集、预处理、存储及模型训练。例如,大型语言模型(如GPT-3)的训练数据中,超过80%来自Common Crawl等公开网络抓取数据集。这类数据为AI模型提供了多样化的语言表达和跨领域知识,但也埋下隐患——抓取内容可能包含受版权保护的书籍、文章、图像,甚至个人隐私信息。
数据显示,当前约70%的AI训练数据集缺乏清晰的来源许可信息。2023年一项对1800个常用数据集的审计发现,部分数据集包含盗版内容,如“Books3”数据集涉嫌收录17万本未经授权的书籍,被用于训练Meta的Llama等知名模型。此类争议已引发多国诉讼。美国作家协会、《纽约时报》等机构已对OpenAI、微软等企业提起诉讼,指控其未经许可使用受版权保护内容训练AI;欧盟、日本等地也出现类似案件。
法律困境: 全球规则碎片化
报告强调,现行知识产权法律体系多制定于AI技术普及之前,难以适应数据抓取引发的复杂问题。各国法律对“合理使用”“文本与数据挖掘(TDM)例外”等关键概念的解释存在显著差异:
- 欧盟 通过《数字单一市场版权指令》允许研究机构在合法获取数据的前提下进行TDM,但版权所有者可通过合同或技术手段“选择退出”(Opt-out);
- 日本 《著作权法》允许出于“非娱乐目的”的TDM,包括商业用途;
- 美国 依赖“合理使用”原则,需通过司法案例逐案判断;
- 新加坡 2021年修订的《版权法》新增“计算数据分析例外”,明确允许基于数据分析的机器学习,但禁止衍生内容用于其他目的。
这种法律碎片化导致跨国企业面临合规难题。例如,欧盟《人工智能法案》要求通用AI模型提供者遵守欧盟版权法,即使模型在境外训练,只要输出用于欧盟市场即需担责。这种“长臂管辖”凸显了国际协调的必要性。
政策工具箱:行为准则、技术工具与公众教育
为平衡AI创新与权利保护,OECD提出四大政策方向:
1. 自愿行为准则 :制定跨国“数据抓取行为准则”,明确术语定义(如区分数据抓取、网络爬虫等技术细节),要求企业披露训练数据来源、尊重技术保护措施(如网站robots.txt协议),并建立违规登记与追责机制。准则可参考G7《广岛AI行为守则》,区分商业与非商业用途,鼓励平台采用“数据集卡片”(Dataset Cards)标注数据许可信息。
2. 标准化技术工具 :开发支持版权管理的技术方案。例如,改进现有robots.txt协议,设计机器可读的“选择退出”标识;探索数据访问控制工具,允许版权方通过API授权使用,并集成自动付费系统。欧盟正推动此类工具研发,以配合《人工智能法案》的透明度要求。
3. 标准合同条款 :针对数据提供者与AI开发者的合作协议,设计兼顾灵活性与合规性的模板条款。例如,OpenAI与美联社、Shutterstock等机构的内容授权协议,或成为行业参考范式。
4. 公众意识提升






请到「今天看啥」查看全文