专栏名称: 网络空间治理
专注网络空间治理领域(包括但不限于法律、战略、技术、管理)的理论与实务。
目录
相关文章推荐
三峡小微  ·  媒体聚焦:梯级电站保供很给力 ... ·  2 天前  
财宝宝  ·  转发微博-20250208120606 ·  3 天前  
楼主说楼市  ·  番禺抢跑开门红,绿城+龙湖震撼入市 ·  3 天前  
51好读  ›  专栏  ›  网络空间治理

人工智能立法与合规中的版权挑战

网络空间治理  · 公众号  ·  · 2024-04-16 14:12

正文



一、法律是回应性的制度变迁

文明的重大演化基本都沿着 技术 作为最底层变革因素推动 社会 发展,人类依赖制度变迁回应技术变革的路径发展。 法律是 所有制度中最根本的制度。自从GPT-3在2020年6月问世后,从大幅进化的GPT-4到Sora和新近震动音乐圈的Suno,AI技术迅速发展几乎在迫使人工智能立法加速。

传统民法尤其是物权法制度和权利客体的物理边界不可分割。从设定占有到确认所有,物权边界都建立在财产有形的物理形态之上,借助物的外观就可以规定权利状态。即使物权发展到产生抵押和质押制度,本质也是物权的债权化,物权体系的基础并没有改变。

著作权制度在400年前开局就脱离了物权所见即所得的设定,权利的物理外观在著作权框架下被精巧的语言界定代替。用最简单的象形思维理解,Copyright设立之初就不是直接指向有形或者具象的客体,而是通过描述赋予权利人对“copy”行为的控制。发展到改编、表演、广播和网络传播权之后,著作权也始终通过语言逻辑而不是有形外观描述权利的边界,不开动想象力很难准确把握著作权的范围。

人工智能背景下的著作权形态变得更加复杂。学界公认著作权法是因复制技术的发达而诞生,早期著作权制度自然围绕 复制 。广播电视尤其互联网技术诞生后,著作权法关注的重点从复制转移到 传播 。生成式技术证明AI可以具有强大内容生成能力后,AI开始挑战只有人类才能 创作 的默认。

“创作”及相关的“独创性”概念是著作权保护和法理的原点,承受住互联网技术考验的著作权法理论在AI挑战下如同平面几何遇到黎曼问题,人工智能的突然横穿让著作权法理论陷入混沌。

二、AI立法与合规风险

本文集中讨论的著作权争议只是人工智能立法面临的挑战之一。人工智能立法包含数据与隐私监管及AI伦理,后者可以视为 狭义的合规 。合规对人工智能的发展也有极其重要的影响。苹果在中国努力寻找iPhone智能系统的本地AI服务商,核心原因是从境外提供服务难以解决AI用户敏感信息出入境以及从数据训练开始的伦理监管等合规条件。

不论人工智能立法和还是任何意义上的AI合规,对法律人都有重大影响。法律与合规都追求 确定性 ,只有在最底线的确定性中才能判断决策在未来的合法与合理性。法律本应是合规的基础,但这一前提正在受到政策优先和法律演变等多重不确定因素的削弱。包括美国国会预备强制剥离TikTok所代表的政治因素干预法律,以及法律在新技术推动下被动变革导致的无所适从,全球法律人共同感受不安。

正是因为法律不确定性因素增加,依靠法律评估行为后果的信心降低,相当多企业转而依赖GR强化政府关系以降低未来的不确定性,但这不仅影响法律在合规中的基本地位也导致个案沟通取代治理标准统一。

立法着重规则建立,合规着重规则落地,两者本应分别论述。但法律人无法回避如何在席卷而来的AI激流中冲浪,人工智能立法结果将在很大程度上影响AI以及法律人能否赢得稳定而合理的未来预期,所以本文思考和推演始终结合立法与合规两个考量维度,这也有助于从法律效果角度反观立法设计是否能解决真正的挑战。法律人渴望确定性,但并不希望丧失立法的准确性作为代价。

三、立法模式选择

(一)欧洲

中国、美国和欧盟的人工智能立法和法律实践是最值得关注的动态。欧洲议会于2024年3月13日高票通过《人工智能法案》(EU AI Act),法案离生效只剩欧洲理事会批准的例行程序。这部全球首个人工智能法案为AI治理模式树立了典范,但考虑到以下几点理由,欧盟立法在知识产权规则方面基本 没有 借鉴意义:

首先,欧盟《人工智能法案》立法目的是确保人工智能技术的安全和可靠,保证AI发展符合欧盟基本价值观和人权保障。欧盟法案虽然体量庞大,但主要围绕AI系统监管的风险级别分类,并没有实质性涉及包括著作权在内的知识产权问题;

其次,欧盟立法模式过度依赖 建构理性 ,极其考验立法者对新技术催生社会变革的前瞻能力。但预测未来这一点在理论上就已经是典型的信息不对称,人类理性不足几乎是必然的;

再次,欧盟人工智能立法结构相当复杂,从监管到侵权责任以及知识产权等法律问题平行展开立法,这对立法和执行资源都是相当的考验;

最后,相比中国和美国,欧洲明显欠缺人工智能在产业和社会应用方面的实践基础(至多算上在MoE混合专家架构上领先的 Mistral ),立法资源不充分。迄今为主欧洲对人工智能领域的主要贡献除了立法就是......罚款。欧洲议会刚通过人工智能法案,法国竞争管理局就以谷歌Bard(即现在的Gemini)未经许可使用新闻内容用于AI预训练为由处罚谷歌2.5亿欧元的罚款,但从本文以及较多版权学者观点来看,对预训练的处罚是有点 可Xiao (四声)了。当然对欧洲来说这倒也正常,谷歌连在搜索列表中提供新闻摘要都被处罚过。

总结来看,欧盟立法是以欧洲文化和理念为起点的治理模式。欧盟人工智能立法虽然有逻辑严谨、规定细致的优点,但从反面看这也是以放弃应对技术发展不确定性的必要弹性为代价的。

(二)美国

实用主义是美国法律传统的特征,是和欧洲传统建构理性相左的 实践理性 。霍姆斯大法官在《普通法》中留下“The life of law doesn't lie in logic, but experience”(法律生命不在逻辑而在经验)的名句地确有力挑明了美国法的精髓。

人工智能有史以来所有重大技术突破都是在美国完成,执技术牛角的OpenAI和Deep Mind都是美国企业,美国法院也受理了全球数量和类型都最多的AI版权纠纷。但美国至今除了通过版权办公室发布人工智能相关版权登记指南这一行政规章之外,立法节奏集中在国会主持的大规模调研阶段。美国似乎愿意让自己更多处在观察的位置,在司法实践中沉淀规则,在广泛调研中提高理解。

美国政府和国会高度重视人工智能安全和行业发展,并在每个层面都拥有极佳的AI立法资源。在模式上美国保持 经验先行 的实用主义,用司法资源在法律纠纷解决中反复测试,立法机关和国会两党都积极调研需求和风险,随时可以启动实质立法。从美国版权法1790年立法至今保持的旺盛进化力来看,美国人工智能立法也会延续即稳健又灵活的模式,在回应新技术的制度建设上保持充分的弹性。

(三)中国

中国人工智能技术能力和产业发展水平仅次美国,产业实践资源丰富。在AI立法上,有网信办等部委在2023年联合发布《生成式人工智能服务管理暂行办法》(以下称“生 成式暂行办法 ”)。在司法实践中,有引起广泛关注的北京互联网法院一审判决的(2023)京0491民初11279号AI图片版权纠纷等案件(以下称“ 北互AI图片案 ”)。在学术研究上,有中国政法大学等多个机构组织起草的人工智能法学者建议稿(以下称“ 专家建议稿 ”)。

中国和美国一样拥有人工智能立法的良好条件。具体而言,中国人工智能立法还具有以下特点:

首先,法治是最好的营商环境,中国企业非常期待人工智能行业尽早有稳定和完善的规则。但人工智能立法不应牺牲立法质量来换取立法速度,否则推倒重来才是最昂贵的代价。在确定性和必要弹性之间,中国需要在新技术立法中寻求折衷。

其次,《生成式暂行办法》虽然作为行政法规立法级别不高,涉及著作权的规则也不够具体明确,但面对技术革命的多重变数,立法宜优先确立价值导向、基本框架和必要的核心规则,给未来细化预留空间。

最后,人工智能对技术本身以及历史的革命性影响已经不可阻挡,中国立法需要深入了解人工智能技术特征,以积极包容的态度参与和推动AI正向的发展趋势。

人工智能相关著作权规则的立法主要集中在三个问题:大模型预训练材料的版权规则,AI生成内容的可版权性或者独创性判断,以及侵权规则。本文以下将依此展开论述。

四、训练素材的法律安排

(一)训练素材的侵权争议

国际知识产权组织(WIPO)在2024年3月发布的《生成式AI知识产权导航》手册侵权风险章节中提到:“关于使用受知识产权保护的材料训练人工智能、使用经过训练的人工智能模型及其产生的输出结果是否构成知识产权侵权,全球范围内尚有待决诉讼”。在风险解决方案部分,WIPO手册给出以下建议:

“仅在许可的公共领域或用户自己的训练数据上进 训练的生成式人工智能工具;选择人工智能工具时,选择愿意对知识产权侵权(特别是版权侵权)提供合适补偿担保的供应商;在训练或微调生成式人工智能时彻底审查数据集,验证 IP 所有权、AI训练许可证覆盖范围以及知识共享许可证的合规性[ [1] ]。”

一言以蔽之,WIPO手册认为使用第三方受版权保护内容训练AI是否侵权尚未有定论,为避免争议应获得授权再进行训练。

不仅部分法学专家认为人工智能数据训练需要获得许可,不少媒体观点也排斥AI利用公开内容进行训练。有美国媒体像描述审讯一样报道华尔街日报在Sora发布后对OpenAI CTO Murati的采访[[2]],部分国内媒体立刻抓住这波流量,更添加一大串脑补色彩的形容词讽刺Murati回避记者对是否用YouTube、Facebook和Instagram视频训练的提问。

事实上全球没有一个主流国家的立法、司法或行政机关确定人工智能预训练需要授权,即使广州互联网法院判决某未披露名称的AI接口服务商侵犯新创华公司奥特曼著作权的(2024)粤0192民初113号判决书,裁判针对的也是生成结果而不是预训练本身。YouTube和Facebook等平台背靠的谷歌(大模型Gemini)、Meta(大模型LLaMA)都是OpenAI的 直接竞争者 ,但权利人从未对OpenAI预训练有过任何质疑。一些媒体对AI预训练的排斥态度远比权利人积极。

(二)合理使用是必然选项

1、数据训练符合合理使用规则

对生成式大模型数据训练法律问题包括技术解读在内的详细论证,可以参考在先 人工智能数据训练的法律竞争 一篇,本处直接给出AI数据训练应当适用合理使用的结论,即数据训练在正常情况下不需要权利人许可而可以直接适用合理使用。

数据训练应当适用合理使用的根本原因,是数据训练 符合著作权合理使用规定的条件 。生成式大模型在预训练阶段只需要对语料进行 临时复制 ,模型在训练中捕捉语料数据结构特征后 不保留 不需要保留 原始数据,而是将数据特征并入模型参数/权重(如语言大模型)或者映射到潜在空间(如使用GAN对抗网络的图像大模型)。如果发生AI原样输出任何训练素材,都属于出现程序 bug ,因为生成式的根本设定就是生成新内容而不是复制。

有观点认为可以援引最高人民法院2011年发布《关于充分发挥知识产权审判职能作用 推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》支持数据训练阶段适用合理使用。最高院意见第8条规定:“……在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用”。

以上观点的确是一种可探讨的思路,但数据训练尽管符合其中技术创新的条件,司法解释第8条规定的其它考量因素还是具有较多依赖主观判断,不同裁判可能给出不同结论。

本文认为大模型数据训练是 机器学习 的核心环节,只要将AI行为视为个人行为,数据训练就可以直接援引《著作权法》第24条“为 个人学习 、研究或者欣赏”可适用合理使用的规定。机器学习和大模型预训练都是既往著作权立法中从未想象过的技术。放弃对机器是不是个人的形式判断,根据机器学习行为本质判断合理使用的适用,是很合理的思辨和法理进步。

2、生成式技术特点需要适用合理使用

生成式大模型和传统人工智能在理论基础和实现路径上都有很多区别,以Transformer代表的生成式大模型技术核心不是依赖数据标注等人工介入,而是通过海量语料数据自训练提炼语料特征,进而理解语料及其背后的现实世界。

生成式AI的技术路径,使得训练数据规模几乎可以决定训练结果和AI智能水平。正因为此,据说OpenAI要求所有研发人员像读圣经一样诵读深度学习鼻祖之一Richard Sutton的著作 。Richard在这本当下名著中反复强调AI技术发展不要依赖人类学习的经验,而应该充分利用 规模法则 (Scaling Law),通过大算力和大规模数据训练获得智能。按流传颇广的说法,GPT-4训练数据集包含多达13万亿token[3]。

在规模法则影响下,生成式大模型训练对语料规模的要求一定程度上超过对语料质量的要求。低质量语料可以通过AI自主噪音识别和人工标注纠正,预训练数据量的不足则难以补救。GPT代表的大语言模型甚至采取混合架构的图像大模型Sora都披露建构AI自己的世界模型[4]。从基本逻辑反推,不经过世界规模的大量数据训练就不可能建立对应庞大真实世界的模型。数据训练的规模远超日常经验想象,以许可为前置条件等于收紧AI智商的氧气管。所以前述WIPO手册给出考虑法律不确定的风险从严控制训练语料授权的建议,是 脱离现实 的。

3、立法比较和建议

网信办等发布的《生成式暂行办法》第4条规定:“提供和使用生成式人工智能服务,应当……遵守以下规定:……(三) 尊重知识产权 ”;第7条规定:“生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有 合法来源的数据 和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;……”。

从《生成式暂行办法》相关规定可以得出两个结论:办法并没有强制规定AI预训练使用数据必须获得授权,但通过禁止侵权的规定又给出晦涩的暗示。

《专家建议稿》对预训练的规定和暂行办法有明显不同。建议稿第24条规定:“人工智能开发者使用他人享有著作权的数据进行模型训练时,如果该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于数据 合理使用 。对于符合上述合理使用情形的数据使用行为,人工智能开发者可以不经数据权利人许可,不向其支付报酬,但是应当以显著的方式标注数据来源”。

建议稿第24条除了标注数据来源一项需要权衡出一个可落地的规则,其对AI预训练适用合理使用的规定非常合理。稍有遗憾的是未见建议稿附专门解释,不能充分了解第24条起草突破成规的理由。本文认为在规定预训练适用合理使用的前提下,立法需要明确时间、目的、禁止复制三项要素。具体而言:

  • 1)对训练数据适用合理使用应当限制在模型训练 期间 (第24条表述为“进行模型训练 ”),训练完成后不再适用;

  • 2)对数据的合理使用应当限用于训练 目的 (第24条表述为“该使用行为与数据原本的使用目的或功能不同”),超过目的即不再适用;

  • 3)在满足前述全部条件情况下,增加开发者负有 保证 模型不因技术错误而保留训练素材复制件的义务,违反保证应承担侵权责任。

4、并未消失的博弈

人类第一次面对生成式人工智能,选择对训练数据实施包括合理使用在内的任何法律设置,社会都会对新规则产生一段不适。很多主张对大模型训练实施许可制度的作者/著作权人会认为自己将因此完全丧失应有收益和与人工智能服务方博弈的能力,但本文认为考虑多纳入几个考虑维度可以发现新规则产生的阶段性摩擦是有限的:

  • 1)AI训练完成后并不复制保存语料,机器学习和人类学习受到平等对待本身并非出于单纯扶持AI发展的产业政策,而是适用合理使用具有相当合理性;

  • 2)合理使用并不损害拥有数据量最多的内容平台利益。不仅因为AI和平台对内容的使用方法与目的都不同,而且平台可以合法使用著作权技术措施限制爬虫技术等外部获取路径。AI服务商有动力为稳定获取训练数据和内容平台合作。OpenAI通过自定的数据伙伴计划和Tumblr, WordPress等合作,自身拥有海量数据的Google仍以6000万美元代价获取Reddit对数据训练的授权,而OpenAI创始人奥特曼正是Reddit大股东;

  • 3)对训练阶段实施合理使用,并不妨碍权利人一旦发现人工智能生成内容有侵权嫌疑即进行维权。


五、 AI生成内容的可版权性

(一)法律与技术:未相交的轨迹

对人工智能生成内容尤其通过文生图方式所生成的内容是否可以受到著作权保护,学术观点一直有很大的争议。引起全球关注的北互AI图片案判决和美国版权复审委员会驳回AI作品《太空歌剧院》版权登记申请的决定,两个裁决的共同点是都不接受人工智能可以成为作者(及著作权人),不同之处在于北互AI图片案判决认可使用文生图工具创作的自然人因其智力投入产生的个性化表达获得著作权,美国版权复审委员会认为申请人举证不足以证明创作提示词是作品独创性(所谓“作者身份要素“)的来源。

正当我们热烈纠结于《太空歌剧院》创作中的624个提示词是否对AI文生图结果具有独创性贡献,突然杀出的Sora演示了只用“Historical footage of California during the gold rush”这类简单命令就生成宏大而逼真场景的超能力。提示词的意义对融合Diffusion与Transformer双架构的Sora直线跌落,从剧情到细节都靠AI自己脑补。

(视频上传未成功,以gold rush截图示例)

很多学者坚持认为生成式只能拼凑结果而不具有真正创作能力,我们似乎应该担心AI创作内容被冒充人类作品。但事实居然是在Sora发布后很多人都在用人类制作的真实视频 冒充AI 生成结果博取流量—Sora镜头这么强,反正你也分不清是人类还是AI在创作[5]。

困扰人工智能法律研究最大的问题之一,是技术发展明显快于全社会的反应。即使支持人工智能正在彻底改变世界的专家,很多也会乐观的认为将来很长时间里人类和人工智能会在版权领域中各自负责创意和表达。实际我们能看到的是,经过超大规模数据训练启发的人工智能已经展现出可观的理解、逻辑和想象力。除了颠覆性原创能力还要假以时日,AI正在通吃创意和表达的创作全链条。

如果对AI技术的认知落后于技术的实际发展,在这样基础上的理论建构及立法显然失之千里。

(二)AI生成内容可版权性的三个问题

以文生图模式为例,人工智能生成内容是否可以受著作权保护实际可以拆分成三个具体问题:人工智能是否有成为作者或著作权人的法律资格;(人类提供的)提示词对AI文生图结果是否有独创性贡献;人工智能是否有能力生成独创性内容。

1、著作权主体资格

这个问题如果用逻辑分析会很复杂,但作为法律事实问题就可以直接以法条规定做简单判断。目前中美两国代表的主流立法例都以人类(含拟制人如法人)为单一法律权利主体,司法实践也未超越法条文字范围。

2、提示词的独创性贡献

人类使用AI文生图时设计的提示词对AI生成结果是否可以有独创性贡献,按北互AI图片案判决和美国版权办公室(版权局)2023年初发布的《含AI生成内容的作品版权登记指南》,答案都是肯定的。美国版权复审委员会驳回AI作品《太空歌剧院》版权登记申请的决定仍然是以前述登记指南作为依据,只是没有认可申请人证明自己举证的证明内容。

前文提到Sora无需具象提示词就可以自行创作具有强大和复杂表现力的内容,证明技术发展已经将提示词版权问题甩在身后,法律热点刚刚出现就退出前沿。不仅技术发展正在拉大和法律的距离,产业实践同样在拉大和法学理论的距离。影视制作在动画化,而动画正在AI化。人工智能极大概率将在5年内完全改变内容创作现状,并且当下就已以显性和隐性方式全面影响内容和娱乐产业。央视和上广电今年来分别推出国内首部文生图系列动画《千秋诗颂》和首部AIGC公益广告《因AI向善》,国内AI动画发布频率已达两天一部。

如此量级的内容不能得到版权保护,伤害的并不是AI而是人类作者,版权法的意义也应当受到质疑。

3、人工智能是否有能力生成独创性内容

美国AI版权登记指南在这一点上存在不可调和的自我矛盾。指南首先规定“作者传统身份要素”(traditional elements of authorship)指对“文学、艺术或音乐表达或选择、安排等要素”,即可视为对独创性的另一种表达。在此基础上,指南一方面拒绝(AI) 机器 可以成为版权主体,另一方面又认为 技术 可以生成“ 作者传统身份要素 ”。版权复审委员会甚至在《太空歌剧院》案中,根据该规定以“作者传统身份要素” 是由技术 而不是人类用户决定和执行为由,做出驳回版权登记申请的决定。

(三)AI生成内容版权的立法分析

1、权利归属

美国AI版权登记指南对AI生成内容是否可能具有独创性的回答是肯定的,但对独创性属于人类还是AI创作结果给出了含混和自相矛盾的意见。

网信办等部委发布的《生成式暂行办法》未对AI生成内容的版权规则进行规定。从立法级别来看,由行政规章规定著作权生成和归属问题会有僭越人大常委会立法权的问题,AI生成内容的著作权规则的确合适交给《著作权法》或者进退灵活的司法解释去规定。

国内学者起草的《专家建议稿》第36条第一款和第二款规定:

“利用人工智能生成的内容,根据使用者对内容最终呈现的贡献程度,当符合著作权法对作品认定的条件或者专利法对发明创造的认定条件时,可以作为作品获得著作权法保护或者依法申请专利保护,但是获得著作权的主体或者申请专利的主体必须为自然人或者法人等法律主体。将利用人工智能生成的内容作为作品或者申请专利保护的,使用者应当主动披露相关内容是否主要由人工智能生成。”

前述第36条第一款规定和北互AI图片案裁判思路一致,排除人工智能以独立主体身份成为作者的资格,但接受以人类对AI生成内容的独创性贡献判断AI使用者是否可以享有著作权。该条规则和美国专利商标局(USPTO)在2024年2月13日发布的 [6]涉及含AI辅助发明的专利申请规定也相吻合。如《 妥协是渐进的艺术——从中美案例与规则看AI生成内容的版权逻辑 》所分析,从实用主义角度看,人类智慧在当下AI立法中能实现的合理极限很可能止步于此。

2、约定归属

人工智能建议稿第36条三款规定:“人工智能提供者与使用者应当对利用人工智能生成的内容权属进行约定,没有约定或者约定不明的,相关权利应当由使用者享有”。这一款规定是以私法意思自治原则为基础,以提供者和使用者自行约定作为AI生成内容著作权归属的依据。

本文原则同意以约定作为权利归属的依据,但考虑到人工智能提供者在与使用者关系中的压倒优势,以及在未来特定阶段法律对人工智能部分领域进行更多干预的可能,建议用“可以”代替“应当”。对于前一项考虑的现实依据,有法院依据暴雪游戏在《魔兽争霸对战平台作者合作协议》中约定所有使用该平台创作内容都属于平台方,认定平台用户无法证明其拥有自己在对战平台创作游戏地图的著作权,并驳回用户要求他人承担侵权责任的主张[7]。

本文同意前述案件裁判思路,但认为对战平台的著作权约定因显失公平而可撤销。

3、AI用户协议例

1)用户输入内容

a,讯飞星火

AI服务商可以安排和用户之间就AI模型输出内容的权属关系,用户使用模型时输入内容的权属当然不因输入而变动。不过也确实有AI产品在用户协议中把用户输入内容权利打包带走,本文认为该项约定显失公平而不具有约束力:

科大讯飞星火《用户协议》第四条 知识产权:……4.2 “您理解并且同意,除非有相反证明,您 使用本平台服务上传、发布或传输内容即代表了您不可撤销地授予 科大讯飞及关联方非排他的、无地域限制的、永久的、免费的许可使用(包括存储、使用、复制、修订、编辑、发布、展示、翻译、分发上述内容或制作派生作品等商业或非商业使用)及可再许可第三方使用的权利,以及可以自身名义对第三方侵权行为取证及提起诉讼的权利”[8]。

b,字节豆包

字节豆包的《用户协议》首先确认用户输入的内容原有权利归属不变,随后规定用户输入即同意对豆包为提供及优化模型服务使用数据。虽然在转许可等方面仍然规定过宽,但豆包的用户协议仍可视为和星火用户协议相区别的另一类规定代表:

字节豆包《用户协议》8.1 ……“你提供的输入的知识产权归属于你或者依法享有这些知识产权的权利人。公司不主张输出内容的所有权;……对于你通过本软件及相关服务输入、生成、发布、传播的信息内容之全部或部分(合称信息内容),你授予公司和/或关联方一项免费的、全球范围内的、永久的许可,允许公司和/或关联方可以 使用你提供的信息内容来优化模型和服务 。上述许可是可以转让的,也是可以进行分许可或再许可的”[9]。

c,百度文心一言

百度文心一言相关规定和豆包类似,但在授权范围用抽象约定更加拓宽。如果遇到争议,文心一言用户协议对用户输入内容的授权会被缩限在文心一言AI服务必须的相关范围:

百度文心一言《用户协议》:5.4……“您理解并同意百度将在 法律允许的范围内 为实现本服务目的对您上传、发布的内容进行存储及使用(包括但不限于复制、分发、传送、公开展示、编辑等)。”[10]

2)模型输出内容

中国 主流AI产品的用户协议多约定模型输出内容的权利归属AI服务提供人,以下举例文心一言和豆包用户协议:

a,百度文心一言

《用户协议》……5.2 “百度在本服务中提供的内容(包括但不限于软件、技术、程序、代码、用户界面、网页、文字、图片、图像、音频、视频、图表、版面设计、商标、电子文档等)的知识产权(包括但不限于著作权、商标权、专利权和其他知识产权) 属于百度所有 ,但相关权利人依照法律规定应享有权利的除外。”

b,字节豆包

《用户协议》……8.2 “……公司在本软件及相关服务中提供的内容(包括但不限于软件、技术、程序、网页、文字、图片、图像、音频、视频、图表、版面设计、电子文档等)的知识产权与相关权益 属于公司 所有。……”

视角转移到 国外 ,对模型输出内容的权利归属虽然同样存在不同规定模式,但OpenAI和Llama代表的主流AI的用户协议都规定模型生成内容的知识产权属于用户,和中国AI画风属实不同。这种差异可能是OpenAI作为非营利机构而Llama作为开源AI的理念所决定的。

a,OpenAI使用协议 [11]

OpenAI用户协议规定严密细致而且具有专业上的精致。本文限于篇幅和主题,在此只引用模型输出内容的权利约定部分,其余不做展开:

“内容的所有权。在您和 OpenAI 之间,在适用法律允许的范围内,您 (a) 保留您对输入的所有权,并且 (b) 拥有输出的所有权。我们特此 将我们对输出的所有权利、所有权和利益(如果有)转让给您 。”

b,Llama 2 Community License Agreement [12]

Llama2是Meta一款开源AI,允许包括商业用户在内第三方下载、修改和使用模型 [13]







请到「今天看啥」查看全文