专栏名称: 知识产权杂志
《知识产权》是由国家知识产权局主管,中国知识产权研究会主办的学术期刊,是中国中文法律类核心期刊、AMI核心期刊和中文社会科学引文索引(CSSCI)扩展版来源期刊。投稿网站:https://zscq.cbpt.cnki.net
目录
相关文章推荐
51好读  ›  专栏  ›  知识产权杂志

张韬略:使用开源代码训练大模型的著作权法评价——以全球首例机器学习诉讼为研究样本

知识产权杂志  · 公众号  ·  · 2025-04-09 15:50

正文

请到「今天看啥」查看全文



使用开源代码训练大模型的 著作权法评价——以全球首例机器学习诉讼为研究样本


张韬略:同济大学法学院副教授


内容提要


从法解释论视角评价使用开源代码训练大模型行为的著作权法合法性时,应先分析在先许可协议对开源代码使用的约定。尽管大模型开发商可能违反了开源许可协议,且在模型训练或者输出阶段可能存在复制、修改、传播开源代码乃至删除作品来源信息的行为,但训练数据集不公开在多方面限制了著作权侵权认定。司法机关以大模型输出端为规制对象并以合理使用为利益调节器的务实思路,向大模型产业传递了友好信号,刺激了降重技术的开发,并可能进一步降低著作权人提起侵权诉讼的概率和理论正当性。个案分析过程还暴露出我国著作权法在应对大模型训练著作权侵权问题时的优缺点。我国亟需修正合理使用制度以应对大模型开发对数据训练的需求,同时应从立法和技术角度推动训练数据著作权权属信息的透明化,以保护作者著作人身权和电子权利管理信息。


关 键 词


开源代码 大模型 机器学习 著作权侵权 合理使用



一、 选题的缘由


随着ChatGPT、DeepSeek等生成式人工智能的到来,“大模型”成为当下时髦的名词。根据ChatGPT自己的解释,大模型“本质上是一个使用海量数据训练而成的深度神经网络模型”“其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能”。大模型必须通过海量数据训练才能具备泛化和预测未见过的数据的能力,而训练数据集往往包含受著作权保护的语料,因此很容易引发大模型开发商与训练语料著作权人之间的利益冲突。从已报道的机器学习著作权纠纷来看,所涉作品类型众多,最早的涉讼案件为2022年美国围绕开源代码著作权保护的Matthew Butterick v. GitHub案(以下简称Copilot案)。该案所涉大模型产品是OpenAI公司的人工智能编码助手Copilot,被告是微软公司及其子公司GitHub、业务合作伙伴OpenAI公司。


与历史上的印刷机、互联网等颠覆性技术一样,大模型的出现使既有著作权制度再次陷入两难境地,迫使政策制定者在著作权人与大模型产业的利益冲突中作出艰难取舍。一方面,如果大模型开发商无法获取大量训练数据,大模型开发和技术创新将受到阻碍。正如OpenAI公司在2024年初向英国政府提交的一份文件中所言:“如果无法获得版权作品,我们的工具将无法运作。”GitHub公司也承认,其于2021年6月发布的Copilot在训练时使用了“数十亿公开代码”,其中可能包含大量受著作权保护的开源代码。为顺应大模型产业使用海量著作权语料的需求,日本于2018年修订《著作权法》并于2024年3月15日发布《关于AI与著作权相关问题的意见》,将合理使用规则扩大到非针对特定作者作品的机器学习的数据处理方法,力图为技术研发和产业发展扫清著作权障碍。另一方面,如果任由大模型开发商无偿使用他人受著作权保护的数据集开发出具有替代性的创作工具,似乎对著作权人显失公平,所以有些国家和地区很快表明了相关立场。欧盟《人工智能法案》在序言明确指出,人工智能模型的开发和训练中,任何对受著作权保护内容的使用都须获得权利人授权,除非适用相关的例外和限制,例如出于科学研究目的进行的文本和数据挖掘。在法国,谷歌公司因其人工智能机器人Bard在模型训练阶段使用了法国出版商和新闻机构的受保护内容,被法国竞争管理局处以2.5亿欧元的罚款。我国《生成式人工智能服务管理暂行办法》第7条也明确规定,生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,“使用具有合法来源的数据和基础模型”“涉及知识产权的,不得侵害他人依法享有的知识产权”。


与不同的立法趋势相吻合,学界提出了诸多新型规则的建构方案,具体包括加大损害赔偿救济、构建新型法定许可、适用并扩张合理使用制度、适用非作品性使用理论以及针对不同类型机器学习适用不同规制手段的混合模式。这些相互碰撞的学术思考为我国政策制定者提供了具有建设意义的参考。值得注意的是,与立法论视角的丰硕研究相比,我国学界较少关注机器学习著作权纠纷的个案细节。虽诚如学者所言,“著作权制度的使命不能局限于厘清个案中的是非对错”,但依本文拙见,如果法律研究忽视个案的法律适用,势必会错漏具体规范在现实社会适用的真正问题,对具体法律制度的理解难达深刻。当前,我国著作权法“在立法论和解释论上都面临着深层次的新问题”“需要在立法论和解释论两个层面同时推进”。加大对著作权纠纷的个案研究,显然有助于从解释论层面构建以尊重既有规则和基本法理为基础的法教义学范式。


鉴于此,本文拟以Copilot案作为个案研究样本,将其置于中国现行法律框架下,从法解释论角度分析大模型产业使用开源代码训练机器的著作权法问题。选取Copilot案作为研究样本,主要不是因为该案作为全球首例机器学习著作权诉讼具有宣传效应,而是基于如下现实和理论的考量。


第一,虽然该案发生在美国且尚未审结,但是GitHub网站上有大量中国企业和程序员贡献的开源代码,并且Copilot、DeepSeek等同类产品已在我国软件开发环境中推广,理论上不排除我国企业、公民以匿名身份参与该集团诉讼,也不排除国内会出现针对Copilot或DeepSeek等大模型产品的侵权指控。目前我国已成为全球第二大开源软件项目贡献国,许多企业在开源方面有抢眼表现,从解释论角度分析我国法律对Copilot案的评价,有助于我国本土企业提前做好著作权维权或防御的预案,有利于维护本国企业利益。


第二,在大模型训练著作权纠纷所涉各类作品之中,软件源代码虽被国际条约纳入“文字作品”范畴,但作为我国《著作权法》单列类型的“计算机软件作品”,其著作权保护规则具有特殊性。一方面,软件源代码具有功能性,一些国家的著作权法不承认程序员对源代码享有类似视觉艺术作品的著作人身权。另一方面,源代码知识产权保护通常借助软件许可制度加以延展,明示或默示的著作权许可协议的存在,直接影响到著作权侵权认定。例如,开源代码的发布通常都伴随着一份经过“开源倡导组织”(以下简称OSI)认证的开源许可证。各类开源许可证中,最引人注目的莫过于具有传染性的“版佐许可”(copyleft license),其要求专有代码与开源代码组合的衍生作品(结合在一起的更大作品)在对外发布或云服务商内部使用时必须遵循同样的许可条件,以防止开源代码被转为闭源的专有代码。鉴于软件许可协议的便捷生效机制,使用开源代码进行模型训练者通常都是被许可人,因此在评价是否构成著作权侵权之前,必须先考察系争行为是否违反了许可协议。


第三,正如全球软件自由保护协会(以下简称SFC)在其针对Copilot案的立场文件中所指出的:“由微软公司的GitHub在Copilot产品中首先引入的、通过机器学习模型实现的计算机辅助编程的软件作者身份,对开源社区所倡导的软件自由的未来提出了严峻的挑战。”Copilot的出现容易让公众产生软件代码自由的幻想,以为我们迈入了一个代码自由生成、获取、修改的乌托邦社会,但如果在大模型训练和代码输出阶段都不披露训练的开源代码来源,而且允许用户将输出内容转为专有代码,那么开源软件运动借助软件许可机制确保开源代码持续扩大和传播的核心目的就会落空。从这个意义看,Copilot案代表了软件自由开源社区与技术资本扶持下的专有软件新形态之间的新一轮博弈。



二、 Copilot案的基本事实和法律关系


(一) 基本事实的梳理


GitHub公司是一家位于美国的营利性公司,自2009年起在GitHub网站提供基于云的免费在线代码托管服务,全球软件开发人员在注册后都可以在GitHub网站上便捷地存储、发布、跟踪和控制代码的修改,因而吸引了全球最多的开源项目,活跃用户量超过1亿。2018年微软公司收购GitHub公司后不久就开始开发Copilot,并依次在2021年、2022年发布了限制版和付费订阅版。Copilot包含了人工智能代码生成模型Codex,后者是由OpenAI公司于2015年开发的产品,能帮助Copilot提供实时的代码和功能建议。Codex可以根据复杂的概率运算,从训练数据中辨别出代码结构的统计规律从而形成“模型”,然后根据用户提示,预测“最可能的编码解决方案”。“当这些项目以某种方式加权,以调整模型所确定的任何相关变量时,[它]基本上会返回它在大多数[编码]项目中找到的解决方案。”Codex不仅能够模拟人类的推理,进行与人类相同的模式识别和综合,还能进行统计分析和预测,其功能、效率和灵敏度远远超过人脑。然而,Codex“不理解代码的含义”,也不像人类那样“理解代码的语义和上下文”。


GitHub在官方声明中提到,Codex在训练过程中使用了“数十亿行他人编写的公共代码”。虽然GitHub拒绝公开其训练集的软件源列表,但几乎可以肯定,Copilot的Codex模型大量使用了GitHub网站上(包括以“版佐许可”方式发布)的开源代码,因为GitHub承认“在训练过程中,系统遇到通用公共许可证(GPL)的副本超过70万次”。此外,Copilot在向用户输出代码时,不论输出的代码与模型学习过的代码是否构成相同或者实质性相似,都不会提示代码的来源。Copilot实行“输出结果属于操作者”的政策,且为用户提供“Copilot版权承诺”,即微软公司有义务保护用户免受与Copilot输出内容有关的第三方著作权侵权索赔。


2022年11月3日,律师兼开源程序员马修·巴特里克(Matthew Butterick)代表匿名的开源程序员向美国加利福尼亚州北区地方法院提起集团诉讼,起诉三个被告实施了删除版权管理信息、违反和侵扰开源许可协议、欺诈平台用户、反向假冒、不当得利、不正当竞争、违反数据和隐私保护协议等行为。为支持上述诉请,原告特别提出如下观点:Copilot输出受著作权保护的材料时未遵守相关许可证的条款;Copilot在训练时使用了受相关许可证约束的著作权材料;尽管Copilot有产生非法输出的倾向,但还是被正式投放使用;被告微软公司有藐视开源许可证要求的历史等。2023年5月,法院拒绝了被告要求驳回原告两项最重要索赔的请求,并同意原告继续保持匿名。2024年10月7日,经地方法院批准,原告向美国联邦第九巡回上诉法院提起中间上诉(interlocutory appeal),请求对美国《数字千年版权法》(DMCA)的版权管理信息规定(第1202条b款)的法律适用问题进行法律解释。目前该案仍在审理之中。


(二) 法律关系的解析


美国一些媒体将Copilot案视为一起软件著作权侵权案件,称Copilot“在不注明出处的情况下,大量使用了互联网上受到开源许可证约束的开源代码”,属于“规模空前的软件盗版”行径。国内也有学者将其视为机器学习的软件著作权侵权案。然而,原告诉状的多项诉讼请求中恰恰没有著作权侵权指控。这种令人不解的情况,可能源自诉讼策略的考虑:一是美国著作权法并不承认源代码作者享有著作人身权,导致该案原告难以像在我国一样直接起诉署名权侵权;二是如果起诉侵犯著作财产权,则须举证存在未经许可的代码复制、修改等行为,且可能面对被告胜算较大的合理使用抗辩。


如果我们抛开中美著作权法的差异以及实际诉讼策略的考虑,将Copilot案置于我国著作权法框架下,就可以先从违约和侵权两个视角审视原被告之间可能存在的法律关系(见图1)。第一,原告与被告GitHub公司之间存在网站用户协议,双方约定了代码上传、托管、使用的相关权利义务。原告作为GitHub网站的注册用户,享有被告提供的开源代码存储和托管等服务,而GitHub公司为了提供该服务,获得了使用用户代码的许可,具体包括存储、展示、复制和分发等。如果GitHub公司超过许可范围使用代码,则可能存在违约行为和著作权侵权行为。如果被告GitHub公司与OpenAI公司合作提供Copilot服务时,输出了与原告开源代码实质性相似的代码,也可能构成违约和著作权侵权。第二,原告与OpenAI公司之间存在开源许可协议。原告代码在GitHub网站上以开源许可协议(如MIT、GPL)形式发布,一旦OpenAI公司在训练Codex模型时使用了原告这些开源代码,则可能成立合同关系。如果OpenAI公司未遵守相应的开源许可协议,那么可能构成违约,继续使用代码的行为可能构成著作权侵权。第三,被告之间在研发和提供Copilot服务方面存在合作关系。GitHub公司与OpenAI公司合作开发Copilot时,GitHub公司提供模型训练的代码数据,OpenAI公司负责训练模型Codex,微软公司既是OpenAI公司的投资方和技术合作方又是GitHub公司的母公司,因此三个被告有可能就Copilot的著作权侵权行为承担连带责任。

图1 Copilot案各方法律关系



三、 使用开源代码训练大模型是否违反著作权许可协议


由于诉讼两造事先缔结的合同——GitHub网站用户协议和开源许可协议——很有可能已就开源代码著作权作出过某种许可安排,因此在判断使用开源代码进行大模型训练和/或输出代码是否构成著作权侵权之前,必须首先审查是否存在这些许可条款,然后从管辖、法律适用角度判断相关协议在我国是否成立及生效,最后再判断具体使用行为是否落入著作权许可范围之内。


(一) 基于GitHub网站用户《GitHub服务条款》的分析


GitHub网站的协议众多,其中与本文主题关联最密切的是《GitHub服务条款》。根据《GitHub服务条款》D节“用户生成内容”的规定,用户保留对其生成代码的所有权和责任,但就GitHub网站提供服务之所需,免费向其授予一系列著作权许可,具体包括:(1)将用户提交的代码复制到GitHub公司的数据库进行备份、向用户展示、将内容解析为搜索索引或在服务器上进行其他分析、与其他用户共享、在内容为音乐或视频的情况下进行表演;GitHub公司为存档目的还可以允许合作伙伴在特定公共存储库中存储和存档这些内容;但“不授予其在提供的服务之外以其他方式分发或使用这些内容的权利”;(2)用户对其上传、发布或提交到服务任何部分的代码保有精神权利,包括保护作品完整权和署名权,但放弃对GitHub公司主张这些权利,以使其能够合理行使前述授权,例如“不注明出处的情况下使用用户内容的权利,以及在提供服务时对用户内容进行合理改编的权利”;(3)GitHub公司可以在未取得用户同意的情况下,将前述许可转让、委托给第三方。此外,如果GitHub网站用户在上传源代码时,将其GitHub网站页面和资源库设置为可公开查看,就相当于授予网站其他用户非独占的全球免费许可,允许他们通过GitHub网站服务使用、展示和执行这些代码,并在GitHub网站上分叉、复制这些代码。由于网站其他用户可能包括了同样在GitHub网站具有注册账户的OpenAI公司和微软公司,因此上述许可也影响被告对开源代码的使用权限。最后,如果用户选择在包含有特定许可证信息的GitHub网站代码版本库发布内容的,则视为采取相同的许可条款,除非明确采取其他单独许可协议。这意味着用户可以在GitHub网站上另外选择代码发布的许可证,从而更改用户与GitHub网站及其他用户之间的许可关系。


如果我国GitHub网站用户与GitHub公司围绕《GitHub服务条款》的著作权许可出现争议,我国法院必须首先查明案件是否适用我国法律。答案应该是肯定的。由于网站用户是中国公民或企业,且争议发生在中国境内,根据《民法典》的规定,我国法院对案件具有管辖权,可对这类涉外民事案件适用中国法律。尽管GitHub公司注册地和网站服务器均在美国,且《GitHub服务条款》约定适用美国联邦法律和加利福尼亚州法律,但根据我国《涉外民事关系法律适用法》第4条有关“强制性规定优先”和第5条有关“公共秩序保留”的规定,如果相关争议出现在我国,我国法院可以从保护我国消费者权益或公共利益角度适用我国相关法律。


其次,我国法院可以根据《民法典》关于合同成立要件、电子格式条款效力的相关规定,评价合同成立和效力问题。就合同成立而言,我国公民在GitHub网站注册账号并发布代码的行为,足以与之成立合同关系。《GitHub服务条款》属于典型的网络服务合同,从其内容包含代码托管、数据使用授权、免责声明等多重权利义务的角度看,属于混合合同;从其由GitHub公司预先拟定,用户仅能选择接受或拒绝的形式看,属于格式合同。从GitHub网站用户注册场景角度看,其过程具备合同成立的要约与承诺以及真实意思表示等要件。例如,GitHub公司通过网站向用户展示《GitHub服务条款》可构成要约邀请,用户勾选同意并完成注册可视为发出要约,GitHub公司通过系统自动接受网站用户注册可视为承诺。在这种过程,如果用户是自愿注册并同意服务条款,无证据表明存在欺诈、胁迫等情形的,则符合意思表示真实的要求。


就相关条款是否生效,我国法院可从缔结合同的形式公平和内容公平两方面审查。在形式公平上,对涉及用户重大利益的条款(例如用户内容许可范围、限制用户对代码作品的精神权利),GitHub公司必须履行显著提醒的义务,例如采取弹窗、加粗文字和“足以引起对方注意的文字、符号、字体等特别标识”。从内容公平角度,法院可以审查系争条款是否公平合理地分配了双方的权利义务,如果相关条款单方免除GitHub公司自己的责任或加重网站用户的义务,可认定为无效条款。如果GitHub公司已履行相应条款的提醒义务,则可聚焦《GitHub服务条款》许可内容的公平性。如前所述,GitHub公司在向用户提供代码托管服务的同时,就用户上传的代码获得一项非独占的全球免费著作权许可,具体包括存储、复制、修改、备份、公开展示、与其他用户共享、演绎甚至转让前述许可。总体看来,《GitHub服务条款》的许可内容并没有显失公平的地方。一方面,尽管著作权许可范围较宽,但用户并不许可GitHub公司在提供代码托管服务之外以其他方式“分发或使用这些内容”。有评论指出,GitHub网站协议“与所有精心起草的服务条款一样”,约定了GitHub公司包括其所有关联公司可以基于“运营、提供、改进和推广”服务以及“研发新产品和服务之目的”,将用户上传内容用于“已知或未知的目的”。但查证GitHub网站并没有发现这种过宽的约定。还有观点指出,可从宽解释《GitHub服务条款》的表述“提供服务”的范围,以涵盖GitHub公司提供的所有服务(包括Copilot)。但我国《著作权法》第29条已明确规定,著作权许可使用合同中著作权人未明确许可的权利,“未经著作权人同意,另一方当事人不得行使”。《计算机软件保护条例》同样不支持软件合法复制品所有人在未经软件著作权人许可的情况下向第三方提供软件。而且,按照格式条款存在争议时应以不利于条款提供者的方式加以解释的规则,同样应认为GitHub公司无权将用户上传的代码提供给关联企业训练大模型并对外提供服务。另一方面,《GitHub服务条款》虽然限制了代码作者向平台主张某些精神权利,例如署名权和保护作品完整权等,但这是从便于平台提供相应服务的角度出发,例如方便其他用户的编辑、使用和分叉代码。就此而言,该条款没有不合理地剥夺用户的基本权利。


最后,根据Copilot案基本事实,判断涉案许可条款是否得到遵守。从《GitHub服务条款》看,GitHub公司确实获得了使用用户代码的多项权限,但并不因此获得这些代码的著作权。许可条款虽然使用了“分发”(distribute)这一较为宽泛的术语,甚至允许将许可转让给第三方,但都严格限定在服务目的所需的范围,并未明确提到可将其交给合作伙伴用于其他用途。在这种情况下,如果GitHub公司将用户上传的代码提供给关联公司用于训练大模型,按照通常理解,属于超出用户合理预期。因为用户上传代码的主要目的是用于托管、展示以及其他用户的修改使用,而非用于训练商业大模型并最终对外提供服务。有争议的是,《GitHub服务条款》要求用户允许平台在“不注明出处的情况下使用用户内容”或放弃主张署名权,这种要求能否适用于GitHub网站将用户提交的代码用于Copilot的模型训练并对外提供代码生成服务?本文认为,按照从严解释的思路,此类使用方式超出了提供代码托管平台服务所真正需要的范围,因此不能适用不注明出处的约定。此外,即使用户授予GitHub一定的使用权限,后者在使用开源代码时仍须遵守相应的开源许可协议。这些开源许可协议对使用开源代码所设置的限制性条件,构成对《GitHub服务条款》以及GitHub和OpenAI的代码使用自由的进一步限制。下文详细分析。


(二) 基于典型开源许可协议的分析


规范的开源软件在发布时,通常都包含了开源许可协议、版权声明(Notice)、自述(Readme)等文档。开源许可协议是计算机软件研发人员与用户之间就计算机软件代码的使用目的、方式、义务等内容达成的许可协议。正式的开源许可协议是指经过OSI认证的开放源代码的软件许可证,其核心内容是软件代码著作权人以许可的方式,允许软件用户自由访问、使用、修改并传播软件源代码。目前经国际认证的开源许可协议已超过110多种,大部分来自美国,近年来也有一些来自欧盟、中国等国家和地区。根据近年统计报告,GitHub网站使用量最多的前三种开源许可协议分别是MIT、Apache License 2.0和GPL 3.0。前两种属于宽松型许可证,没有向下游衍生代码提出开源的互惠性要求。GPL 3.0作为自由软件基金会的通用公共许可证之一,属于典型的“版佐许可”。由于Copilot案诉状恰好提到原告根据MIT和GPL 3.0许可证发布了开源代码,我们可据之分析其许可范围和附带条件。


GitHub用户根据MIT许可证发布代码时,通常将版权声明合并其中,从而发挥如下信息告知功能:(1)表明软件作品作者,或声明版权人身份;(2)告知开源代码的许可使用方式(包括使用、复制、修改、合并、分发、分许可、销售复制件等);(3)告知使用开源代码的限制,即“本软件副本或者其实质部分,都必须包含上述版权声明以及许可声明”。可见,根据宽松型开源许可证发布的开源代码依然享有知识产权,尊重开源代码贡献者的作者身份是最基本的游戏规则。相比之下,GPL 3.0的许可条款和限制更多。除了有要求在传播代码时保留原版权声明、许可证等限制条款,还有“开源传染性”的版佐条款——其第5条要求,如果开源代码用户传播修改之后的源码版本,必须附带GPL 3.0许可证,确保“任何拥有被传播作品的人,包括其修改版本或基于本程序的部分,均被赋予本许可证所授予的权利”。


在了解系争开源许可协议对Copilot案被告所划定的许可范围之后,本文逐一探讨我国法律的可适用性、开源许可协议的成立和生效以及是否被有效遵守的问题。


首先是我国的GitHub用户与美国被告之间的开源许可证纠纷是否可以适用我国法律。答案同样是肯定的。由于开源许可证MIT、GPL 3.0都没有直接规定适用哪国法律,当事人也没有选择法律的明示或默示的合意,根据我国法律,应“适用履行义务最能体现该合同特征的一方当事人经常居所地法律或者其他与该合同有最密切联系的法律”。从合同履行义务的特征看,普通软件许可之中,许可人的权利授予是特征性能,被许可人的付款是附随性能。在开源软件许可中,由于开源授权是合同的基础,许可方的义务(授权行为)也更有可能被认定为特征性履行,因此可将我国著作权人所在地法律推定为与开源许可有最密切联系的法律。此外,考虑到开源许可证纠纷的著作权人往往进一步主张著作权侵权,法院需要查明代码著作权权属和内容,因此我国法律的关联性就更加密切。


其次是根据我国法律判断我国GitHub网站用户与美国被告之间的开源许可证是否成立且有效。就合同成立而言,我国企业在GitHub网站以开源许可证发布开源代码的行为,因许可内容条件明确且有受约束意图,符合我国《民法典》规定,可以视为合格要约;网站用户如果明确声明遵守“版佐条款”,或在后续分发软件时附带同样开源许可证文本的,构成明示承诺;如果通过复制、修改、分发开源代码实施了许可,可视为以行为承诺的方式接受了开源许可证。就效力而言,开源许可证的核心条款,例如保留版权和许可证信息、保持开源义务、禁止附加限制等,原则上符合我国《著作权法》有关著作权人自由行使财产权、自愿许可的原则,不违反中国法律或公序良俗,可以认定为有效条款。在特殊情况下,如果开源许可证的特定条款涉嫌违反竞争法、网络安全法等强制性法律的,例如强制开源敏感代码可能涉及危害公共安全的,可认定无效。总而言之,尽管开源许可证的法律性质在学理上存在单方法律行为说、附解除条件的合同说等争议,但从全球司法实践看,开源许可证的成立和主要许可条款的效力已得到广泛承认。


最后是Copilot案被告使用开源代码训练机器并提供代码输出是否构成违约。如前所述,虽然开源许可证授予用户众多使用开源代码的权利,但也提出了若干限制:一是用户应当尊重代码作者的著作人身权,即表明代码来源、保留版权声明和许可证信息;二是独属于“版佐条款”的互惠义务,即衍生代码在传播时应继续使用相同许可证以确保代码开源。我们可以借助MIT和GPL 3.0开源许可证的限制性条款,结合大模型开发和应用的主要过程,分析这些合同义务在Copilot案中是否得到有效履行。


就履行信息告知义务、尊重代码作者著作人身权而言,MIT许可证第二段明确要求,“在本软件的所有副本或实质性使用中,都必须包含以上版权声明和本授权声明”。根据该条款的字面表述,似乎只要制作任何代码副本,不论用户是内部使用或对外分发,都必须包含相应信息。相比之下,GPL 3.0对信息告知义务的要求就比较宽松。其第4条提到的完整保留版权声明、免责声明、本许可协议等义务,仅仅针对“分发”副本的情况,且在第9条明确规定了“一旦修改和传播一个受保护的作品,就表明您接受本协议”。由此可见,机器内部训练行为,只要不对外分发、传播开源代码,并不会违反GPL 3.0的信息告知义务,但在MIT许可证之下仍有争议。然而,如果在大模型训练结束之后,Copilot输出了与训练过的开源代码完全相同和实质性相似的代码,而且未履行信息告知义务,则很有可能违反了开源许可证。


就独属“版佐条款”的开源互惠义务而言,该义务的触发以开源代码的后续传播为前提,因此内部的模型训练行为不可能触发该义务。但是,如果在模型训练结束后,Copilot输出了与学习过的开源代码相同或实质性相似的代码,并将其“分发”给用户,则可能触发开源互惠义务。GPL 3.0许可证第10条“对下游接收者的自动授权”规定:“每当您分发本协议所涉作品时,接收者会自动获得来自初始授权人的授权,得以依照本协议运行、修改和传播该作品。您没有要求第三方遵守本协议的义务。”据此,随着Copilot输出的开源代码流向其用户,许可证将自动在开源代码发布者与Copilot用户之间生效。因此,即便Copilot用户借助《GitHub服务条款》获得了输出代码的所有权利(权益),一旦该输出代码是源自开源代码,Copilot及其用户依然负有开源互惠的合同义务。如果Copilot及其用户将这些源代码闭源,转为私有代码,有可能违反“版佐条款”的开源互惠义务。


综上,就使用开源代码训练大模型并提供代码输出是否构成违约这一问题,可以作如下结论:第一,Codex模型在训练阶段对GitHub网站用户开源代码的使用方式,有可能超过GitHub网站用户协议所许可的范围而构成违约;第二,由于在模型训练阶段不存在对外分发、传播开源代码的行为,Codex模型训练阶段的行为不受开源互惠义务的约束,信息告知义务对其约束也非常小,所以违反MIT和GPL 3.0开源许可证的可能性很小,可免受著作权侵权指控;第三,在Codex模型训练后,一旦Copilot提供的代码输出与开源代码相同或实质性相似,则大概率违反GitHub网站用户协议和开源许可协议,可能面临违约和著作权侵权的双重指控。当然,由于合同约定是灵活的权利配置方式,各方当事人可能调整合同具体条款,从而影响将来行为的合法性,导致上述结论不再适用。



四、 使用开源代码训练大模型是否侵犯著作权


接下来,本文在Copilot案被告构成违约的假设之上,从我国著作权法出发并适当结合比较法,分析大模型使用开源代码进行训练和提供代码输出的著作权侵权问题。


(一) 大模型训练对开源代码的复制、修改、传播等使用行为


根据我国《著作权法》第10条和《计算机软件保护条例》第8条的规定,开源代码著作权人享有发表权、署名权、修改权、复制权、发行权、出租权、信息网络传播权、翻译权和应当由其享有的其他权利。通过分析Codex、AlphaCode等自动生成代码的大模型在训练各阶段对开源代码语料的使用情况,可以初步认为其涉及复制、修改、信息网络传播等行为样态。


第一阶段是大模型训练前的数据预处理。模型开发者首先需要根据编程语言的类型,收集训练所需的代码数据,例如从GitHub和GitLab等网站的公开代码仓库、技术文档、论坛讨论区获取;接着得对数据进行清洗,去除重复代码、不相关注释、空白字符等;然后是分割代码片段,将完整代码文件拆分为函数、类或代码块;最后是数据标记化,将代码转换为模型可处理的数字标记序列。在这个过程中,模型开发者有可能将开源代码下载、存储到训练数据集,形成开源代码副本。在目前技术条件下,无论是“搜刮”互联网公开数据,还是获取其他来源的数据,都必须形成训练数据集,否则计算机无法处理数据并从中提取相关信息。这种复制是字面复制,如果从物理复制行为角度,通常符合相同或实质性相似的判断标准。但在美国判例法之下,这类复制行为通常属于不对外公开的“中间复制”或“非表达性复制”,大模型开发商往往可以主张合理使用。


第二阶段是大模型训练过程。此时大模型通过神经网络,借助标记化数据的喂养和各种强化、监督学习,掌握代码统计规律,形成可以在机器运行时控制不同神经节点进行输出的“权重”。由于大模型训练并不记忆具体的代码,大模型训练所得的模型参数也不存储原始代码而仅保存抽象模式(如概率分布),而且大模型公开发布的权重并不包括代码,因此模型训练和成型阶段通常不涉及制作训练代码的副本,也就不存在《著作权法》规定的复制行为。但仍有两个问题值得进一步讨论。一是模型分析、转换代码的过程,能否类比源代码到目标代码的转化过程,从而构成代码复制或翻译行为?之所以提出该问题,是因为虽然模型对代码的分析并不涉及对代码语义或结构的实质性修改,但涉及将代码转换为数学表达,而源代码与目标代码之间同样可以视为具有一一对应的数学表达关系。从复制行为角度看,本文认为,即便模型分析过程可能产生与代码有一一对应关系的另一种“数学表达的副本”,但该“复制”同样属于不对外公开且临时制作的“中间复制”或“非表达性复制”,具有转换性使用的性质,不落入复制权的控制范围。从翻译行为角度看,软件著作权人的翻译权指将原软件从一种自然语言文字转换成另一种自然语言文字的权利,而将代码转换为数学表达的行为显然不属于这种情况。二是能否根据自由软件基金会或部分学者的观点,将根据开源代码训练完成的模型定位为“基于开源代码的衍生作品”,从而要求其履行开源互惠义务,开源整个大模型(包括但可能不限于源代码)。如果这个思路是正确的,那么根据我国著作权法的规定,Copilot大模型就是经由开源代码“改编”或“修改”而来的。但本文认为这种观点同样站不住脚。首先,具有代码生成能力的大模型与输入和输出的代码是两码事,工具本身的独立地位并不必然受到输入内容的影响。就像复印机不会因为复制了某本书就成为该书的衍生作品,创作了衍生作品的工具本身也不会因之而成为衍生作品。其次,衍生作品的意思是“基于”在先作品的新作品,但大模型本身并没有再现任何在先代码的独创性表达,而“仅仅是许多训练作品的元信息以及它们之间关系的综合体现”,因此并非“基于”开源代码的衍生作品。自由软件基金会主张将模型本身视为“基于”训练作品的衍生作品,并尝试将其纳入演绎权(无论是改编权还是修改权)控制范围,与著作权法以独创性表达为保护对象的基本原则相悖。


第三阶段是代码输出。训练完的模型可以根据用户提示,按概率生成最可能的代码序列。从输出结果来看,大模型有可能结合多个代码模式生成新逻辑,这种情况可能会产生全新的代码,但也有可能因用户提示了常见问题而生成与训练数据高度相似的片段。根据专家的说法,Copilot在训练时会使用训练集的注释,运用随机梯度下降的优化技术,生成与注释描述相似的代码,但也会使用某些降重技术,确保模型生成的新代码不是学习过的代码。这种既要模仿但又追求表达不完全相同的做法在具体实施时肯定存在一定困难,因此才会出现专家所提到的,大模型“存在一定程度的记忆通常是不可避免的”“Copilot有时会生成与训练集一样的代码”。也是从这个角度出发,有观点认为,“Copilot在向用户提供现成解决方案方面做得越好,其输出就越有可能向用户提供受著作权保护的软件”。可见,由于代码输出这个阶段出现了对外提供(分发、传播)代码的行为,如果大模型输出了与训练数据相同或者实质性相似的代码,就可能涉及软件著作权人的复制权和信息网络传播权。而当输出的代码不构成相同或实质性相似时,软件著作权人在理论上还可以主张修改权,即主张大模型输出的存在某种相似度的代码是“基于”训练用的开源代码的衍生作品。以保护范围更大的演绎权作为维权基础的思路,已经出现在美国诉讼案件中。例如在Andersen v. Stability AI案中,原告在承认“Stable Diffusion软件根据特定文本提示所输出的任何图像都不可能与训练数据中任何特定图像近似匹配”的同时,仍坚持辩称不论输出内容以任何方式参考在先作品,都应认定实施了演绎行为。但该观点并未得到法院支持。


(二) 大模型训练对权利管理信息的删除


从大模型训练过程来看,在代码清洗、模型训练和代码输出等不同阶段中,开源代码最初附带的版权、许可证信息通常都会被清除掉,因为这类信息与模型训练所要达到的技术效果即代码语义理解、代码文本对齐等功能是不相干的。由于开源软件文档的版权信息往往包含了软件开发者的身份信息,这种将代码与其信息文档隔离的做法,可能涉嫌侵犯软件著作权人的署名权。与美国法不同,我国和欧洲一些国家的著作权法明确承认软件著作权人享有署名权,所以开源代码作者有权在开源软件上署名以表明自己为代码贡献者,有权要求代码用户遵守保留作品来源信息的义务,并追责违反该义务的用户。


与作者署名权不同但又密切关联的是著作权法对权利管理信息的保护。权利管理信息是指以电子形式标注的用于识别作品、作者、著作权人、使用条件等信息的标识,例如嵌入作品的数字水印、版权声明、标注在软件中的作者姓名、许可条款、使用限制、免责声明、自动生成的版权标识(如网页底部的“©”声明)等。权利管理信息虽然不属于受著作权保护的作品,但作为著作权辅助保护措施,对落实开源代码著作权保护起着重要作用。首先,权利管理信息能直接维护作者署名权,如果删除开源代码作者的电子信息,不仅侵犯其署名权,而且损害其累积声誉、提升流量和孵化开源项目的经济利益。其次,这类信息的存在能帮助公众识别开源代码来源、权利人及使用条件,促进开源代码的合法使用,大大提升权利透明度。最后,这类信息(如数字水印等技术性标识)还可以协助追踪非法传播行为,防止代码侵权和盗版蔓延。鉴于权利管理信息在著作权保护生态中的重要地位,各国著作权法都给予高度重视,将其作为独立于著作权侵权的违法行为加以规制。我国著作权法亦禁止未经许可故意删除、改变作品权利管理信息的行为(由于技术上的原因无法避免的除外),并规定了相应的民事、行政和刑事责任。


鉴于作者信息、版权信息及许可证信息通常都是在代码传播环节才能发挥信息告知功能,在不对外公开的内部数据训练阶段,清除这类信息或将其与代码隔离开,理应不违反立法保护权利管理信息的初衷。然而,需要特别强调的是,如果这类经过清洗的数据集出现后续流转并再次使用,则有可能违反我国著作权法,除非事先获取作者的许可。当然,由于数据收集、流通和大模型训练的隐秘性,现实中我们只能看到针对代码输出阶段主张作者署名权或者保护权利管理信息的纠纷,如同Copilot案的争议一样。另外,如果机器输出了不相同的代码,例如没有完全复制或修改了原来的代码,这种情况是否仍继续适用保护权利管理信息的规定?美国判例法在这点上仍存在争议:有的地方法院认为,根据美国《数字千年版权法》第1201条b款第1项和第3项的规定,只有复制、传播完全相同的作品才适用版权管理信息条款;但也有法院持反对态度,认为非完全复制或修改也会产生该法律责任。我国著作权法虽无直接规定,但从尊重作者人身权益角度出发应从宽解释,只要传播的部分代码属于原作品的独创部分,就必须保留这些信息,除非由于技术上的原因无法继续保留,例如格式转换导致的技术性丢失,但须证明其不可避免。


(三) 大模型训练数据不公开对著作权侵权认定的制约


尽管大模型训练和部署使用过程存在复制、修改、信息网络传播开源代码,或者存在删除开源代码的作者署名、权利管理信息的情况,但是由于大模型训练数据的不公开和不透明,开源代码著作权人在主张著作权侵权时,存在诸多障碍。


第一,大模型开发商为了避免法律风险,通常不公开训练数据集,这导致开源代码著作权人很难发现大模型开发商存在涉嫌侵权的行为,即使有所怀疑也难以取证和举证。虽然目前有不少大模型声称自己是开源的,例如ChatGPT的早期版本或者DeepSeek-R1,但也仅开放到模型权重、参数、架构等组件的层面,鲜有直接开源训练数据集的。由于技术黑箱的存在以及缺乏有效的代码溯源技术,人们很难通过逆向工程或代码审计来确认特定模型是否使用了受著作权保护的特定代码。


第二,由于只能借助机器输出端的生成代码来证明侵权行为的存在,开源代码著作权人的权利范围和权利基础被大幅削弱。首先,个案之中机器输出的代码数量有限,开源代码作者主张其在GitHub网站上传的所有开源代码的著作权受到侵犯,存在举证难题。其次,受限于大模型输出代码的行数,如果已发现的系争代码数量较少,则其著作权保护在司法实践中很可能受到微量表达、必要场景原则、功能性表达等独创性判断标准的限制。这种限制甚至影响到违约层面的分析。例如,GPL 3.0第2条就明确规定:“受保护作品的运行输出,仅当其内容构成一个受保护作品时,才会为本协议所约束。”


第三,即便行数有限的代码具备独创性,开源代码作者仍须面对“接触+实质性相似”的举证困境。一方面,由于训练数据集不公开,著作权人往往无法证明模型开发者“接触”过其代码;另一方面,大模型生成的代码可能并非直接复制训练数据,而是通过学习逻辑结构和编程模式生成的“新代码”,是否构成实质性相似取决于个案事实。例如,在Tremblay v. OpenAI案中,原告指控被告复制其版权书籍用于训练,而法院在比较了ChatGPT生成内容与原告作品之后,认为不存在实质性相似,驳回了原告诉请。这也解释了为什么在Copilot案的诉讼过程中,原告采取了非常具体和刁钻的提问方式。其目的正是让大模型输出完全一样或实质性相似的代码,从而满足“接触+实质性相似”的要求。而被告对此针锋相对地提出,这是原告在缺乏真实损害实例的情况下,将其代码输入编辑器或让Copilot依其建议生成代码,属于故意“在正常使用之外制造(原告代码被复制的)例子”。实际上,目前大模型开发商正积极研发和应用各种降重技术,降低机器输出实质性相似内容的概率,其基本思路就如芝加哥大学计算机科学院Aloni Cohen教授所说的,在差分隐私等净室技术作用之下,“如果生成模型与训练数据集元素之间不共享著作权保护的表达,那么模型用户的任何侵权行为就都只是用户的过错”。


(四) 著作权限制和例外制度对著作权侵权认定的限制


根据著作权法的基本逻辑,即便开源代码著作权人能够克服前述举证难题,顺利证明Copilot案被告实施了落入其著作权排他权控制范围的行为,被告依然能够求助于著作权法的著作权限制和例外制度进行豁免。在目前法定许可制度、版税补偿金这类立法论建议遥不可及的情况下,合理使用制度显然成为机器学习著作权侵权案被告们的最后一个盾牌。例如,Copilot案被告GitHub公司就在其网站上公开宣称:“在公开可用的数据上训练机器学习模型被认为是机器学习社区的合理使用。”支持这种观点的学者认为:“如果法院宣布不接受在公开数据上训练模型(构成合理使用),那么训练人工智能的难度和成本将直线上升。这将严重阻碍人工智能的研发和创新——而这正是版权所要促进和保护的。”目前合理使用抗辩已经成为美国学界主流观点,也是大模型开发商在实际诉讼中极其强大有效的防御利器。而开源社区作为倡导限制著作权的群体,实际上也不反对合理使用制度与开源许可的共存。这意味着一旦大模型开发商的行为落入合理使用的范围,则其同时获得开源代码著作权人的豁免。


然而,各国的合理使用制度在法律规范层面往往有较大不同,且目前可能处于应急修法阶段,法律适用出现不确定性的概率较大。以Copilot案的实际管辖地法即美国版权法的“合理使用四要素分析法”为例,美国司法实践已倾向于支持使用作品训练大模型的复制行为符合“转换性使用”的“中间复制”标准,从而构成合理使用。但前提是相关模型仅是学习在先作品中自然语言内含的模式、相关性等,然后根据用户提问输出不同于被训练语料作品的新内容,不能“只是将原作品复制存储进人工智能模型,然后以类似检索工具的方式,根据用户提问输出与原作品相同的内容”。美国合理使用判例法的灵活和弹性,使之成为利益各方争讼的核心。首先,如果大模型训练是为了开发竞争性、替代性的产品,可能无法构成合理使用。例如,在Ross Intelligence案中,被告利用Westlaw法律数据库的案例摘要制作了机器学习的问答数据,进而开发了具有竞争性和替代性的法律研究工具,该系统可以在用户输入一个法律问题时,反馈已经撰写好的法律意见。美国特拉华州地区法院比巴斯法官在2025年2月11日的意见备忘录里指出,这一过程类似Westlaw数据库使用其摘要和关键字来反馈相应的案例列表,这种使用方式不构成“非转换性使用”,不构成合理使用。尽管该判决指向“非生成式人工智能”的大模型训练场景,侵权输出借助“检索”即可从输入的训练语料(案件摘要)中获取,而且法官还特别强调了文字作品与代码的功能性不同,但该裁判思路也可能将合理使用抗辩在大模型领域的适用严格限制在没有商业竞争的场景。其次,支持开源社区的学者认为,美国学术界支持使用开源代码训练大模型构成合理使用的观点大多依赖Google v. Oracle案,但该案的代码使用方式与Copilot案是有区别的。Google v. Oracle案涉及应用程序编程接口代码,美国联邦最高法院是在将其区分为声明代码(declaring code)与执行代码(implementing code)之后,才进一步认定谷歌公司对声明代码的使用行为构成合理使用。开源社区认为这个裁判结论是合乎逻辑的,“只要目的是转换性的,并且代码的转换是通过重新实现(编写不同的执行代码)进行的,那么代码编写者就可以(合理)使用(他人的)声明代码”。但Copilot案中直接复制执行代码的行为缺乏转换性,无法满足合理使用第二个因素“版权作品性质”的要求,此时若将程序员编写的具有独创性的执行代码不加区分地纳入合理使用的范围,就完全忽视了Google v. Oracle案中法院运用的代码二分法。可见,根据大模型训练的不同场景及其产生的不同影响,美国法院对合理使用制度的适用可能出现不同的结果。这也是判例法生命力的体现。


不同于美国判例法的灵活应对模式,欧盟和日本的最新立法则在豁免大模型训练的著作权侵权责任的同时,审慎设计了具有一定操作性的著作权人“退出、保护机制”,尝试谋求大模型创新与著作权保护的利益平衡。例如,根据欧盟《人工智能法案》和《单一数字市场版权指令》关于“文本和数据挖掘”的规定,著作权人有权以适当方式事先保留其作品被用于商业性大模型训练的权利,模型开发者须合法获取作品,且须识别并尊重著作权人的保留权。类似的,日本2018年修订《著作权法》增设的“非欣赏性利用”条款虽然豁免了大模型训练的著作权侵权,却也附加了不得不当损害著作权人利益的“但书”,给著作权人采取技术措施或者声明权利保留预留了退出机制。根据欧盟和日本的立法模式,虽然出现了法国竞争管理局认定谷歌公司违反作品获取要求而处以罚款的情况,但是在Copilot案的情形下,由于GitHub网站合法获取用户开源代码在先,开源许可证又进一步放开了开源代码的获取和内部使用,网站用户也没有事先保留开源代码的大模型训练权限或采取技术措施防止获取和使用,而机器学习也并非针对特定作者,因此Copilot案的大模型训练行为仍有可能适用欧盟和日本的合理使用制度。


相比之下,我国现行《著作权法》第四节中的两类权利限制——第24条“合理使用”和第25条“法定许可”——都无法精确涵盖大模型训练问题。一方面,法定许可制度的立法论改革面临冗长立法、训练数据集难以强制披露、集体管理组织配套等诸多困境;另一方面,合理使用制度在《著作权法》2020年修正之后仍弹性不足,法定的合理使用类型无法直接涵摄机器学习对版权作品的使用。业界有观点认为,我国司法机关层面“存在相关规则适用接口”,司法政策曾经特别指出“在促进技术创新和商业发展确有必要的特殊情形下”,可以借鉴美国合理使用制度的四要素分析法。尽管如此,缺乏上位法的明确支持,这种合法性存疑的司法政策有可能陷入“人走政息”的困境。更为尴尬和紧迫的是,上位法的缺位已经开始影响司法实践。在杭州奥特曼著作权侵权案中,原告在起诉生成式人工智能平台著作权侵权时就明确提出了我国法定的合理使用类型不包括大模型训练和数据挖掘的论点,而法院对此只能回避,未予分析数据训练阶段的直接侵权与合理使用问题,转以用户端的“个人学习、研究、欣赏”法定合理使用类型为依据,结合用户未对外传播作品的事实,从没有帮助侵权的角度为大模型输出端(而非训练端)提供豁免。显而易见,如果著作权人直接针对大模型训练端的作品使用行为提起侵权主张,我国法院就无法再适用这种裁判思路,届时只能根据三步检验法的原则性规定,权宜结合司法政策,适当突破法定合理使用类型以支持大模型技术创新。


最后,假设我国法院可以突破法定合理使用类型,使用开源代码训练大模型的行为是否就构成合理使用呢?本文认为,还需要进一步澄清下面两个问题。


第一,系争行为是否影响该作品的正常使用,是否不合理地损害著作权人的合法权益。根据目前中美两国司法裁判的倾向性意见,大模型训练阶段对代码作品的复制属于“中间复制”或“非表达性复制”,与作品的正常使用方式不同,可被视为转换性使用,不会不合理地损害著作权人的合法权益。然而,大模型训练之后,如果输出与在先代码相同或实质性相似的代码,目前中美司法裁判都倾向于认为损害了著作权人的合法权益,不能主张合理使用。这种分而治之的模式也是近期我国部分学者所建议的“放开训练端,管住输出端”的治理思路,其本质是在禁止著作权人将大模型训练端的作品使用利益内部化的同时,保留著作权人对机器输出端的作品利益的排他控制,并以机器输出端的实际影响作为三步检验法的适用场景。撇开立法论的理论建构,这种模式应该是当下我国司法机关在实践中所能实现的最佳利益平衡了。


第二,大模型训练过程是否须遵循我国《著作权法》第24条规定的“指明作者姓名或者名称、作品名称”的要求,才能构成合理使用?是否须遵循保护权利管理信息的相关规定?针对权利管理信息,大模型开发者理应可以适用我国《著作权法》第51条的但书规定,主张其未经许可删除或改变权利管理信息的行为是“由于技术上的原因无法避免”的例外。针对删除作者身份信息的情况,也可以参照适用该规定。原因在于无论是说明作品来源的要求,还是保护权利管理信息的规定,目的都是确保作品权属信息在传播过程中的可获取性和透明度,从而提升著作权保护的水平。如果大模型训练过程是纯粹的内部技术和管理过程,仅是出于大模型训练的技术需要,且不对外传播作品,则不应在该内部过程继续苛求作品与作者身份信息的时刻捆绑,否则将给技术研发带来巨大的成本。但必须警惕的是,这种解释论思路不应适用于作者身份信息和权利管理信息被清洗掉的训练数据集的后续交易和流转,否则著作权人的人身利益乃至财产利益将受到严重损害。针对训练数据集的交易和流转,必须建立起作者身份和权利管理信息溯源的机制,将代码作者的财产权、人身权以及权利管理信息的保护纳入交易环节的合规考量之中,否则著作权法的人身权制度将形同虚设。这与许多国家要求提升大模型训练语料的透明度包括著作权权属信息的立法趋势一致,也是人工智能时代著作人身权保护的重大课题。



五、余论


本文的写作主旨,是从司法个案的法律适用角度,分析使用开源代码进行大模型训练的行为在我国是否必须承担著作权侵权责任。该研究在立法论视角之外,借助必要的技术事实、合同条款和产业背景展开法律分析,勾勒出一个较为丰满的法律适用场景,从中审视利益各方进行博弈的法律工具及其在利益平衡方面所起到的作用大小。这些信息在某种程度上,有助于我们更加全面地评估现行著作权制度在新技术背景下的运作状况,从而在面对改革需求时能够真正做到扬长避短。


具体而言,当我们以中国法审视Copilot案并以我国《著作权法》评价使用开源代码训练大模型行为的合法性时,首先遭遇的却是围绕开源代码作品利益分配的合同机制。我国法院必须先根据《民法典》《涉外民事关系法律适用法》等相关法律规范,判断开源代码著作权人与代码平台、大模型训练者之间的著作权许可协议及其许可范围的效力。尽管在Copilot案中,被告将开源代码用于大模型训练很可能超出合同许可范围,而且在模型训练或者输出阶段可能存在复制、修改、传播开源代码乃至删除作品来源信息和权利管理信息的行为,但借助诉讼材料的分析,可以看到实践中开源代码著作权人在主张著作权侵权时依然面临诸多困难。大模型训练数据集不公开的实际状况,不仅导致潜在侵权行为难以被发现,而且显著影响了著作权侵权认定所需法律要件的成功举证,例如行数较少的系争代码是否具备独创性以及被机器“接触”过。最终,在合理使用抗辩的协力之下,开源代码著作权人只能从大模型的少量输出入手,尝试以各种手段提示并“套问”出与其代码相同或实质性相似的内容,并将侵权责任归咎于提供具体输出的大模型服务商,而非上游模型训练者。对著作权保护的形式和程序要求诸如作品登记、诉讼时效等,也可能限制组织松散的开源社群的著作权维权。总体来看,开源代码著作权人胜诉的可能性以及对大模型产业的负面影响,都不应被高估。


前述研究过程和结论尽管来自对软件产业个案的事实和法律分析,但也蕴含了一些可推及整个大模型产业与著作权法关系的事实与认知。


第一,机器学习时代著作权人与大模型开发商之间的利益冲突和纾解方案,无论当下还是将来都无法绕开著作权许可机制对作品使用和权益分配的事先干预。尽管在个案中,大模型开发商有可能超出用户协议的许可范围使用了开源代码,但将来新版的用户协议完全可能针对机器学习的需求作出改进,从而缓解双方在如何使用用户新上传的代码数据方面的矛盾。然而,从开源许可证的演变历史可知,合同机制的影响力必定是双向的——开源社区为了保持代码开源,也有可能升级其限制性条款,禁止机器学习等使用行为,甚至要求大模型输出的所有代码都必须遵守互惠的开源义务。这些新修订的合同条款的合法性,有可能成为利益各方进一步博弈的法律问题。


第二,尽管目前大模型产业的著作权侵权诉讼数量众多,但由于认定著作权侵权的障碍众多,且只能针对应用端的输出,所以并没有实际影响到大模型训练阶段的技术创新。而目前中美司法机关均采取以合理使用制度作为利益平衡器,这种务实的解释论思路在向新兴产业传递友好信号的同时,也刺激了产业界开发降重技术以减少输出端内容的相似性,并可能进一步降低著作权人提起维权的实际概率和理论正当性。这应该是美国各界鲜有主张以立法引入法定许可等其他著作权限制与例外制度的原因之一。


第三,个案分析过程还暴露出中美著作权法在应对大模型训练著作权侵权问题时各自的优缺点。首先,与我国《著作权法》承认所有作者的著作人身权不同,美国《版权法》并不承认软件等作品的著作人身权,这削弱了作者在人工智能时代对作品的控制力,容易导致利益失衡。美国开源社区因此表达了极大的关切,担忧自20世纪80年代以来的自由开源软件运动将因此衰亡。其次,美国《版权法》的演绎权边界模糊,在生成式人工智能时代如果不加以严格控制,理论上可以推演出大模型及其输出内容都构成“生成式演绎”的怪诞结论。而这恰恰是SFC主张Copilot著作权侵权的核心观点之一。相比之下,我国《著作权法》和相关条例规定的软件修改权、翻译权的边界较为清晰,法院难以作出如此宽泛的解释,也就不会引发类似争议。最后,就合理使用制度的可适用性而言,美国的四要素判定法以及庞大的判例群,为其司法机关应对将来各种复杂利益冲突提供了充分的灵活性和开放度。相比之下,我国《著作权法》的合理使用制度亟需再次升级以应对数据挖掘和机器学习的需要,否则我国法院在个案中就只能突破立法,依据司法政策豁免大模型训练行为。


第四,著作人身权和电子权利管理信息的保护依然是著作权法律制度的重要组成部分,也是开源运动能健康持续的关键保障,大模型训练对其造成的“功能性”损害可能需要立法层面的干预。如果我国立法增设了针对大模型训练的合理使用类型,确保大模型开发商不必担心公开训练数据集之后必须获得相关的著作权许可并支付费用,则在一定程度上可以促进大模型训练语料著作权权属的透明化。但是,不排除我国合理使用制度效仿欧盟和日本的做法,允许著作权人选择退出,而且实践中肯定会出现著作权人采取技术措施禁止数据爬取,或者将清洗后的训练数据再次投入流通环节的情况。从这点看,我国应该继续从立法和技术角度推动大模型训练数据著作权权属的透明化和溯源机制。这既是保障作者的著作人身权和电子权利管理信息的需要,也是妥善平衡各方利益乃至改善我国数据治理生态的重要一环。



相关链接


2024年第6期|徐美玲:软件著作权侵权“开源抗辩”解析



来源:《知识产权》2025年3期

责任编辑:崔倩

编辑:李倩

审读:刘珊


咨询邮箱:

[email protected]

投稿网站:

https://zscq.cbpt.cnki.net/EditorHN/index.aspx?t=1








请到「今天看啥」查看全文