生成式人工智能依赖于大数据、算法和算力,只有对人工智能持续输入大量高质量的数据并运用算法对其进行训练,才能输出优质的内容。从企业视角来看,目前人工智能大模型训练的数据主要来源于以下几种途径:与第三方数据企业签订协议购买数据;利用爬虫技术从公开渠道爬取数据;经过授权向用户采集数据;对志愿者提供的数据进行采集等。如果人工智能研发者在进行大模型训练时未经许可使用他人作品,就可能涉及著作权侵权纠纷问题。
从比较法的视角来看,2023年5月,图库图片提供商Getty Images向英国伦敦高等法院提起诉讼,指控Stability AI研发的一款人工智能绘画工具未经许可使用其网站上的海量图片作为训练数据,构成版权等权利侵权。2023年12月,《纽约时报》在美国纽约南区联邦地区法院提起诉讼,称OpenAI未经许可大量使用其作品训练人工智能模型,构成著作权侵权。
2024年10月,《华尔街日报》的母公司道琼斯公司、《纽约邮报》联合在美国纽约南区联邦地区法院向Perplexity提起诉讼,其中一项侵权指控为:Perplexity通过复制两公司的作品训练其研发的大型语言模型,侵犯了两公司的著作权。针对著作权人的起诉,OpenAI、Perplexity等人工智能企业表示不理解,并呼吁内容创作者和所有者应与人工智能企业合作,建立互利共赢的新商业关系。
在国内,2024年1月,广州互联网法院受理上海新创华文化发展有限公司(以下简称新创华公司)与广州年光网络科技有限公司(以下简称年光公司)著作权侵权纠纷案。在该案中,新创华公司指控年光公司提供的Chatstudio AI绘画生成的奥特曼形象侵犯了其美术作品的著作权,要求年光公司将涉案奥特曼语料从其训练数据集中删除。尽管新创华公司在案件审理过程中撤回了该项诉讼请求,但仍说明我国已开始出现涉人工智能训练的著作权侵权纠纷问题。2025年1月,北京爱奇艺科技有限公司向上海市徐汇区人民法院提起诉讼,指控国内人工智能初创企业MiniMax在人工智能模型训练及内容生成流程中涉嫌侵犯其著作权,要求MiniMax停止侵权并赔偿约10万元经济损失。
由上可见,因人工智能大模型训练未经许可使用他人作品引发的著作权侵权问题,已成为亟须解决的难题。我国理论界就如何规制该问题存在很大争议,归纳起来主要包括以下几种观点。
第一种观点认为,人工智能训练对作品的使用属于“非作品性使用”,因此,未经许可使用他人作品不构成著作权侵权。理由是:传统著作权法对作品的使用具有特定性,而人工智能大模型对作品的训练使用属于非特定性使用,因其缺乏独立价值、具有高度可替代性、边际价值低,可以认定为非作品性使用。同时,人工智能大模型对作品的训练使用,其输入内容与输出结果不具有必然关联性。人工智能的后续应用和创新可能性较高,允许后发竞争式创新比由著作权人控制能够产生更大社会福利。
第二种观点认为,人工智能训练对作品的使用属于合理使用,因此,未经许可使用他人作品不存在著作权侵权问题。理由是:大模型训练需要大量数据,当前作品授权许可市场失灵,合理定价困难,交易成本高,作品的许可费和贡献价值缺乏有效计算方式,大模型产生的利益已远远超过著作权领域,很难由市场进行利益分配。大模型为人类的文艺创作提供了新的模式和空间,具有巨大的社会价值。而大模型训练需要海量高质量的数据,在坚持利益适度原则的前提下,大模型训练不会对著作权人的合法权益造成不合理的损害,因此,利用著作权合理使用的“三步检验法”,将大模型训练使用作品扩大解释为合理使用。
第三种观点认为,按照目前我国关于著作权合理使用制度的规定,人工智能训练不构成对作品的合理使用。但考虑到我国作品授权的著作权集体管理制度尚不完善、难以合法使用优质内容将导致生成劣质内容、我国人工智能的发展面临技术落后的风险等因素,基于总体国家安全观的考量,可以通过立法的方式,在《著作权法实施条例》中增设人工智能训练使用作品构成合理使用的权利限制条款,待人工智能企业开始盈利后,再探讨利益分享机制。
第四种观点认为,人工智能训练不构成对作品的合理使用,可以考虑通过集体管理组织授权或法定许可制度给予著作权人适当补偿,从而保证人工智能对作品的训练问题。理由是:作品合理使用通常为非营利性使用,或者像教学、研究、公益性使用等,而人工智能数据训练在很多场合下为营利性使用。人工智能训练使用的数据量很大,同时向全世界提供使用大模型,这已经超出了合理使用的数量限度。有些人工智能使用的数据是利用爬虫或者其他非法手段获取,更谈不上合理使用。人工智能训练使用作品应给予著作权人适当的补偿,从而平衡双方利益。除此之外,还有学者提出建立“有条件共享训练数据池”,以解决人工智能发展的版权之困。
综合以上观点,为促进人工智能技术和产业的发展,我国理论界多主张限制著作权的行使,只是主张限制的方法有所不同。我国文艺界和创作界则普遍反对上述观点,认为目前人工智能技术的研发主要是企业的商业行为,不属于著作权法列举的合理使用情形,也不符合判断是否构成合理使用的“三步检验法”。人工智能生成大量文字、音乐、绘画、视频等,挤占人类创作者作品的传播空间,对著作权及相关文化产业会产生可预见的严重损害。将人工智能利用作品进行训练视为无须经过许可和支付报酬的合理使用行为,是无法容忍的。在现行著作权法框架下,可以通过著作权集体管理组织授权许可解决大模型训练的数据使用问题。
当前,人工智能技术已成为全球科技创新的重要高地,是提升本国科技、经济和国际竞争力的关键领域。鉴于此,各国均高度重视人工智能技术的研发及产业化应用。一个国家在人工智能领域的落后,意味着在科技创新方面的整体或代际落后。从世界范围来看,基于地缘政治的考虑,美国财政部自2025年1月采取措施限制美国个人及企业投资中国包括人工智能在内的三类先进技术,以防止美国资本和专业技术被用于帮助中国研发人工智能等先进技术。我国人工智能最大的风险在于技术落后,为了促进人工智能技术的发展并突破美国“卡脖子”技术封锁,应大力提供包括法律制度、法治环境在内的各种条件积极发展人工智能技术,并扩大高新技术领域人工智能产业化应用,这也是国家安全和发展的迫切需要。
人工智能大模型训练需要海量高质量的作品作为语料进行“投喂”,成本非常大。我国著作权集体管理制度尚不完善,如果对作品的使用遵循“事先许可谈判、授权付费使用”模式,则意味着人工智能可能会因无法获得足够的优质训练内容而停滞,人工智能技术将面临生存的重大风险。人工智能技术的发展对整个社会具有普惠性,具有获得优先发展的价值和目的上的正当性,因此,为保障人工智能训练有足够数量、高质量的语料,从而输出高质量的内容,应对大模型训练作品著作权的行使进行限制。对大模型训练使用他人作品进行著作权限制可能选择的司法政策或制度依据主要有以下两种。
其一,以支付经济补偿替代停止侵权的司法政策依据。《最高人民法院关于当前经济形势下知识产权审判服务大局若干问题的意见》(法发〔2009〕23号)明确规定,“如果停止有关行为会造成当事人之间的重大利益失衡,或者有悖社会公共利益,或者实际上无法执行,可以根据案件具体情况进行利益衡量,不判决停止行为,而采取更充分的赔偿或者经济补偿等替代性措施了断纠纷”。根据该司法政策,在处理涉人工智能训练未经许可使用他人作品著作权侵权纠纷时,考虑到大模型训练对国家技术创新和社会发展的重大意义,在查明大模型使用他人作品的情况下,针对著作权人要求停止侵权的诉请,可以判决不停止大模型训练使用作品的行为,但应给予著作权人合理的经济补偿。
其二,《著作权法实施条例》第21条规定的“三步检验法”合理使用一般条款的法律规范依据。《著作权法》第24条规定了12种作品合理使用的情形及“法律、行政法规规定的其他情形”的兜底条款。最高人民法院《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》(法发〔2011〕18号)第8条指出,“在促进技术创新和商业发展确有必要的特殊情形下,……如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用”。本文认为,我国《著作权法》第10条赋予著作权人13项财产权的目的是让著作权人控制作品的传播从而维护其经济利益。人工智能大模型训练通常会涉及对作品的复制行为,但该行为处于人工智能技术的研发阶段,且主要作用是训练大模型使其具有类似人的创作能力,而不在于通过传播著作权人的作品牟利。这与《著作权法》设置复制权的目的存在本质区别,故大模型训练使用作品与著作权人行使权利所形成的市场并不构成竞争关系,不会与作品的正常使用发生冲突,也没有不合理地侵害著作权人的合法利益,可以认定人工智能大模型训练使用他人作品构成合理使用。
本文倾向采用第二种制度依据,即人工智能训练未经许可使用他人作品的情形构成合理使用,并建议修改《著作权法》或《著作权法实施条例》,增设“人工智能训练使用他人作品构成合理使用”条款。我国司法实践中已有法院认定大模型训练未经许可使用他人作品构成合理使用。在上海新创华文化发展有限公司与杭州水母智能科技有限公司(以下简称水母公司)侵害著作权及不正当竞争纠纷案中,法院认为,生成式人工智能的创设与发展,需要在输入端引入巨量的训练数据,其中不可避免会使用他人作品。鉴于生成式人工智能在数据训练阶段使用他人作品的目的,原则上应是用于学习分析在先作品所表达的思想感情、语言特征、特色风格等内容,从中提取相应的规则、机构、模式、趋势,便于后续转换性创作新作品。该种使用行为聚合大量作品作为分析样本数据进行提高创作能力训练,并非以再现作品的独创性表达为目的,数据训练及生成过程中也未将在先作品展示给公众,不会影响权利作品的正常使用或者不合理地损害作品著作权人的合法权益,因此,构成合理使用。
值得注意的是,认定人工智能训练使用他人作品构成合理使用,并不意味着人工智能研发者可以自由获得大数据进行训练。因为大数据多由经营平台或数据企业采用技术保护措施进行控制,这些平台或数据企业通过搭建社交媒体平台或者提高流量对广告收益进行分成等经营模式,吸引著作权人将其作品上传到企业经营平台,同时与作品著作权人约定将其著作权和侵权救济的请求权交由企业行使。如此一来,这些平台或数据企业对其平台上的大数据享有财产权益。人工智能研发者若要获得数据进行大模型训练,必须与这些平台或数据企业签订合同并支付相应报酬才能获得大数据的使用权。如果未经许可破解这些平台或数据企业设置的技术保护措施,爬取或获取其平台上的大数据,将有可能构成破解技术保护措施的违法行为而被追究侵权责任。