专栏名称: 君合法律评论
君合律师对法律实务、立法动态和热点法律问题的评析与探讨。
51好读  ›  专栏  ›  君合法律评论

君合法评丨人工智能训练数据的版权争议及合规方案

君合法律评论  · 公众号  ·  · 2025-02-11 14:42

正文


作者:张传磊 顾劭宇 周峻宇


2025年1月20日,中国人工智能模型DeepSeek-R1正式发布,以远低于其他AI巨头的研发成本做到性能比肩投入数亿美元的OpenAI o1模型,仅上线半个月左右,DeepSeek应用便登顶15个国家和地区的应用商店下载排行榜,为AI行业投下了一颗“震撼弹”,再一次引发了人们对AI大模型崛起的关注。

目前,以文生图、文生文、文生视频等为创作形式的生成式人工智能最为普遍,其基于现有大规模数据集及模型,根据使用者的输入,生成新的文本、程序代码、图像、视频及音频等,能够应对多种场景需求,其模型本质系通过学习大量数据来发现数据中的模式及规律。因此,必须保证丰富及优质的数据供应作训练素材,才能使人工智能生成更准确、更细节的结果。

利用海量数据训练人工智能模型过程中,难以避免使用到他人享有版权的作品作为训练素材。由于模型训练通常涉及数据的收集、清洗、标注、调整等处理,使用文本、音频、视频、图片等受我国《著作权法》保护的作品种类时,难免陷入构成侵犯他人复制权、改编权等著作权的争议。随着AI行业飞速发展,如何平衡保护创作者权益和推动AI产业发展的天平已经成为不可回避的问题,而人工智能训练数据的版权争议正是这一矛盾的体现。

本文将结合国内现行立法及在先判例,参考国外相关立法实践,梳理人工智能训练数据的版权争议并探讨合规方案。

一、人工智能训练数据的版权争议


目前,各界对于人工智能训练数据行为是否构成著作权侵权存在诸多争议,大致可以归为支持及不支持构成侵权的以下两类派别:

(一)AI训练数据不构成侵权——主张“合理使用”或“非表达性使用”


人工智能模型训练需要摄入海量数据,考虑到各项成本,从事AI研发的企业或平台在实践中不可能做到对他人享有版权的训练素材去逐一取得授权,但若未经授权使用版权作品又将面临侵权风险,如此人工智能技术的发展便被套上了使用数据成本与侵权风险的两难枷锁。

为更快地促进我国AI产业发展,避免错失机遇,该等观点主张应将人工智能训练数据的行为纳入我国《著作权法》规定的“合理使用”情形。其主张人工智能作为普惠性技术,其模型对训练数据的使用属于对这一底层技术资源的发掘,具备公共属性,受益者为公众,并且从结果论上,仅作为输入端的训练行为并未进行商业营利,未影响到版权作品的正常使用或侵害他人合法权益,应纳入合理使用的范畴 1 。这一观点得到了2024年9月杭州互联网法院在“奥特曼起诉触手AI侵犯信息网络传播权”案件中判决书的支持。

此外,部分观点认为,人工智能在训练数据的过程中,对版权作品的使用,并非像人类一样基于某种特定观念或角度来阅读、欣赏或理解作品,AI模型通常会将训练数据作为可区别的独立对象,进行机械的分析拆解,从而分析归纳数据中的逻辑规律、语义模式等,其不产生类似于人类那样对作品表达的阅读及理解行为,并非现有《著作权法》框架下的使用作品行为,因此自然不会构成现有法律框架下的著作权侵权行为 2

以上观点更多是站在促进AI产业发展,偏向维护AI从业者利益的立场,认为人工智能训练数据行为不构成侵权。

(二)AI训练数据构成侵权——不应归为“合理使用”的场景


与之相反,也有观点主张:人工智能训练过程中需要将大量数据输入到系统中以供训练学习,将大量有版权的作品复制并传输到计算机内存或存储设备中,甚至有可能继续增加副本反复训练,已构成对原作品的复制操作。AI模型通过对有版权的作品学习分析,将原作品表达转换为其他形式表达或生成实质性相似的新内容,或在不同设备、网络平台中传输共享,这些行为在未经版权人许可的情况下,均已构成对作品复制权、改编权及信息网络传播权的侵犯 3 。在现行《著作权法》未明确将AI模型训练数据列为合理使用情况下,对合理使用盲目做扩大解释有失偏颇,AI模型未经授权使用版权作品规模庞大,情节严重,危害广泛,不仅不应予以豁免,反应当予以严厉制裁,否则对花费巨大成本获取授权,重视数据合规工作的其他企业而言也是不公平的。对于上述“非表达性使用”的观点,其也认为是否属于“思想-表达”二分法的“表达”并不取决于使用作品的主体,作品的表达即为各种要素的组合搭配,无论是人的感知或是机器的逻辑,其对作品的使用均是通过作品要素的排列组合所理解、阅读,均属于对作品“表达”的使用,若坚持“非表达性使用”的主张,则会将天平过于倾斜向AI产业方,而严重威胁到现有的版权保护框架 4 。此外,扩张合理使用有悖《著作权法》的激励初衷,合理使用的制度目的在于通过限制著作权人利益从而促进知识流通和产生,如若将数据训练行为全部归入合理使用范畴,反而会因对权利人排他性权利的剥夺令开发者能低成本、无节制地抓取和使用作品,进而使“机器生成内容市场”替代“人类创作作品市场”,导致版权人生产积极性受挫。

这类观点更偏向于维护著作权人合法权益,维持现有版权保护框架的立场,主张人工智能未获授权训练数据的行为应构成侵权。


二、人工智能训练数据版权问题的国内立法及判例


我国现行法律法规对人工智能训练数据的版权问题没有直接、具体的规定,少量相关内容分散在各规范文件中。2023年7月公布的《生成式人工智能服务管理暂行办法》第七条规定:“开展预训练、优化训练等训练数据处理活动的,不得侵害他人依法享有的知识产权” 5 ,《生成式人工智能服务安全基本要求》进一步规定:“数据用于训练前,应进行知识产权侵权风险识别,不使用存在知识产权侵权风险的数据进行训练;应建立知识产权问题的投诉举报渠道;并在用户服务协议中告知用户使用生成内容的知识产权风险及关于知识产权问题识别的责任与义务”。我国《著作权法》目前列举的合理使用及法定许可场景中,并没有能直接涵盖人工智能训练数据的条款。

同时,伴随生成式人工智能的蓬勃发展,我国正在积极地探讨通过立法保障其训练数据的相关权利,2024 年 4 月发布《网络安全技术 生成式人工智能预训练和优化训练数据安全规范(征求意见稿)》 6 ,要求 GenAI 服务提供者不应在预训练和优化训练中使用存在知识产权侵权问题的数据。2024 年 4 月发布《人工智能示范法 2.0(专家建议稿)》 7 ,第 18 条提出建设人工智能领域数据库的倡议,以建立人工智能训练数据合理使用制度保障人工智能领域数据要素供给。2024 年 7 月发布《人工智能法(学者建议稿)》, 第 24 条提出了人工智能训练数据的合理使用规则,即当人工智能开发者使用他人享有著作权的数据进行模型训练时,如果该使用行为与数据原本的使用目的或功能不同,且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于合理使用,人工智能开发者可以在表明来源的前提下对数据进行使用 8 。上述文件体现了我国对于人工智能训练数据的预期规制方向。

司法领域,早在2023年10月,四位插画师就因发现小红书平台推出的AIGC工具Trik生成的图片在色调、构图、风格等与自己作品相似,而向小红书及Trik软件主体公司提起诉讼,指控其未经授权采集存储其作品并将其作为AI训练素材,生成类似图片的行为侵犯了其复制权、信息网络传播权等多项权利。这是我国首件AI模型训练数据版权纠纷案件 9 。近期,国内人工智能公司MiniMax也被爱奇艺指控其未经授权使用了爱奇艺享有版权的影视素材进行AI模型训练,导致其名下AIGC工具“海螺”生成了侵犯其作品版权的内容。值得一提的是,MiniMax在海螺AI的用户协议中已事先明确“用户在使用海螺AI软件时上传的内容均应系原创或已合法授权”、“海螺AI对自有内容享有知识产权”、“由此导致的侵权风险和责任由用户承担”等格式条款 10 ,此案件的最终判决必然会对AI模型训练数据的行为定性以及法律责任作出示范性的裁判,对AI模型训练行为的版权争议具有里程碑性质的指导意义。遗憾的是,两件案件目前都在进一步审理当中,并未有任何进展,令人拭目以待。

此外,广州互联网法院和杭州市中级人民法院于2024年判决了两件上海新创华文化发展公司诉某AI公司侵犯其“奥特曼”系列作品著作权的案件 11 ,是我国目前为数不多的AIGC著作权纠纷的判决。相较于前述案件,这两件案例更多侧重于判断被告公司的平台责任,其是否履行了关键词过滤、内容审核的平台义务。但值得一提的是,一方面,在杭州互联网法院审理的“奥特曼起诉触手AI侵犯信息网络传播权”案件中,法院认定:“在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用” 12 。另一方面,在杭州市中级人民法院对上述案件的二审判决中,法院将人工智能服务提供者的过错认定划分为了输入端和输出端的注意义务两个维度,并认为若要求人工智能服务提供者在输入端的训练数据活动中对每一份数据逐一审查验证,既不具备可行性,也会加重开发监管负担,阻碍人工智能发展。以上裁判对我国司法领域现阶段对 AI训练版权数据是否属于合理使用作出了示范,值得讨论与研究。

由上述案例可见,人工智能训练数据的版权问题越发常见,相关纠纷愈发增多,现行法律法规已难以应对AI行业的迅速发展及随之而来的版权争议,无论是AI平台方还是创作者或公众都亟需更加完善的法律法规及规范指引,来更好地保障各方的自身利益,以确保在AI技术发展的大潮下平衡好利益的天平。


三、人工智能训练数据版权问题的域外立法实践


相较于国内,其他国家及地区对人工智能训练数据的版权争议有相对更多的探索。日本在2018年修订其《著作权法》时引入了第三十条之四,规定“在非享受目的使用作品的场景下,原则上,用于信息解析的行为属于权利限制,不应构成侵犯著作权。但存在两个前提条件,一是在必要范围内,二是不得不当损害著作权人利益” 13 ,此外,其第四十七条之五规定:“与计算机数据处理及提供该等结果相关的轻微利用等,在必要限度内属于著作权的限制范围”,这对于更聚焦于技术层面而非复制传播作品内容的AI模型训练数据的行为无疑开通了绿灯。但由于其修订时AI技术尚处于起步阶段,在AI技术突飞猛进的数年后,这种法律框架遭到了创作者和部分学者的严厉批评。2024年3月日本发布《AI与著作权法的思考》,将人工智能的使用划分为了“学习开发阶段”及“生成使用阶段”,并强调并非所有训练行为均为合理使用,特殊场景下仍构成侵权 14 。但总体看,日本的政策更倾向于让利于促进AI产业的发展,削弱对作品权益的保护。

欧洲在人工智能训练数据版权方面,主要通过欧盟层面立法及成员国国内法的转换适用进行规范,欧盟颁布的《单一数字市场版权指令》规定了文本和数据挖掘的版权例外情形,包括“以科学研究为目的”及“在作品合法获取且权利持有人未有效保留权利”等情形 15 ,此外,《欧盟人工智能法案》虽未直接界定训练数据版权归属,但规定训练数据需符合版权等法律,且创建数据集训练AI模型适用TDM例外,要求企业确保数据来源合法、标注版权信息,以规范数据使用。但从立法层面看,欧盟对人工智能训练数据的版权保护相对其他法域更加严格,保护力度更大。但2024年9月德国汉堡地区法院审理的LAION案中,LAION未经授权使用摄影师作品用作AI训练数据,法院认定其构成“以科学研究为目的例外”,不构成侵权 16 ,为AI训练数据版权纠纷的审理提供了参考,说明在司法实践中,欧盟对AI产业的监管仍存在权衡及松动。

美国版权法第107条规定了判断合理使用需考虑的四个要素 17 ,其可适用于人工智能训练数据的版权判定,若人工智能训练数据并未具有商业性质,未损害原作品的市场价值或未使用原作品的实质性表达或核心内容,可能会被认定为合理使用。目前,美国已经有多起相关案例,2024年3月,包括《纽约时报》《芝加哥论坛报》等多家媒体起诉微软和OpenAI,指控其非法复制数百万篇文章训练其AI产品,包括Copilot及ChatGPT等工具生成了内容高度相似的假文章 18 ;Getty Image起诉Stability AI案中,Stability AI被指控未经许可复制超1200万张图片及元数据训练其AI模型Stable Diffusion,甚至篡改版权管理信息 19 ,虽然目前这些案件尚未有进展及结果,但鉴于美国版权法赋予了判定合理使用的灵活四要素,法院最终作出何种裁决都具备可能性。目前,在其他相关案件中,美国司法对合理使用四要素的具体评判态度并不明朗,如在Westlaw诉Ross Intelligence案中,法院在论证第一要素时指出,转换性使用是否成立取决于实际使用性质,若人工智能是通过学习语言模式生成新文本,而非刻板复制,可认定为转换性使用 20 。然而,考虑到美国作为AI产业龙头的先导地位,很有可能会以让利于AI产业发展,否定训练数据的过度版权保护为其主流倾向。







请到「今天看啥」查看全文