专栏名称: 网络空间治理
专注网络空间治理领域(包括但不限于法律、战略、技术、管理)的理论与实务。
目录
相关文章推荐
字体设计  ·  运用霓虹元素打造毕业展海报视觉效果 ·  3 天前  
庞门正道  ·  会跳钢管舞的鸡! ·  4 天前  
庞门正道  ·  开工了,一大波logo来了! ·  5 天前  
51好读  ›  专栏  ›  网络空间治理

寿步:论人工智能生成内容的可版权性和版权人问题

网络空间治理  · 公众号  ·  · 2024-04-03 16:28

正文



(本文拟发表在《科技与法律(中英文)》2024  年第三期)


作者简介

寿 步(1962—),浙江诸暨人,男,中国科学技术大学知识产权研究院,兼职教授,研究方向:知识产权,网络法,法学学,人工智能科技哲学伦理法律 问题。

摘要

连接主义人工智能具有不可解释性。生成式人工智能属于连接主义,所以生成式人工智能具有不可解释性。版权 理论中的可版权性和创意/表达两分法本来适用于自然人作者。自然人从创意到表达有可预测性、在创意与表达之间有确 定性、从表达到创意有可解释性。人工智能生成内容是应用生成式人工智能技术得到的结果。对于人工智能生成内容,从 人类给出创意到生成式人工智能给出表达的过程无法体现创意/表达两分法的可预测性、确定性、可解释性,即创意/表达两 分法在人工智能生成内容情况下并不成立。因此,人工智能生成内容并不具有可版权性;人类就不能成为人工智能生成内 容的版权人。人工智能旨在构建智能行为体,行为体的概念是人工智能的核心。在人类不能享有人工智能生成内容的版 权的情况下,在将可版权性从自然人创作作品拓展到AIGC情形之后,人工智能行为体在一定条件下就是所生成内容的潜 在的版权人。一旦法律主体延伸到人工智能行为体,人工智能行为体就可以确定为人工智能生成内容的版权人。

关键词

人工智能生成内容;生成式人工智能;可版权性;版权人;行为体





当今人工智能(Artificial Intelligence,AI)的发展 日新月异,通过应用生成式人工智能(Generative AI, GenAI)技术所得到的人工智能生成内容(AI Generat ed Content,AIGC)带来的法律问题层出不穷。本文 聚焦 AIGC 涉及的可版权性问题和版权人问题,首先 介绍AI两种主要技术路线符号主义和连接主义及其 特征(尤其是在可解释性方面)的不同,澄清GenAI与 AIGC的区别,说明从AI到机器学习、深度学习、Ge nAI、基础模型、大语言模型(Large Language Model, LLM)、最后到LLM用户接口之间的层次包含关系, 然后阐明AI就是对行为体(agent)的研究,旨在构建 智能行为体,AI行为体是AI领域潜在的法律主体;接 着介绍版权理论关于自然人创作作品的可版权性和 创意/表达两分法,讨论自然人作品创作过程中的可 预测性、确定性、可解释性,探索不同 AI 技术路线下 的创意/表达两分法和可预测性、确定性、可解释性的 具体情况;最后就本文得出的结论。




一、人工智能的技术路线及其可解释性



AI发展历程涉及的两种主要技术路线是符号主 义(symbolicism)和连接主义(connectionism)。符号 主义也称逻辑主义、功能主义,主张用公理和逻辑体 系搭建 AI 系统;连接主义也称仿生学派、结构主义, 主张模仿人类的神经元,用神经网络的连接机制实现 AI。下面考察这两种技术路线及其可解释性。AI模 型的可解释性(interpretability或explainability)就是用 人类可理解的方式来解释AI模型的行为的能力。

(一)

符号主义AI

人的推理包括逻辑推理和直觉推理,是逻辑推理 和直觉推理两者的结合或融合。逻辑推理和直觉推 理两者对人的学习都至关重要。符号主义的根本原 理就是逻辑推理,逻辑推理的数学理论是数理逻辑。 因此,符号主义 AI就是基于数理逻辑的 AI。符号主 义 AI 不可能实现直觉推理 ,因而不可能完整实现人 的推理。这是它的根本缺陷。因为符号主义AI是基 于数理逻辑的,所以它具有可解释性。

(二)

连接主义AI

连接主义AI的基本原理是:一个良定义的(well- defined)函数必然可以由一个神经网络来任意逼近。 神经网络学习的一个基本假设是:学习的目标是一个 良定义的函数。一个神经网络学习过程就是通过大 量的已标注实例学习一个神经网络的参数使得该神 经网络逼近未知的学习目标,它是一个良定义的函 数。连接主义AI就是一个神经网络模型学习。这一 学习模型已经取得重要应用成果,并且正在引领当代 机器学习技术的潮流。然而,神经网络学习有若干根 本性缺陷,就本文而言,最值得关注的缺陷就是神经 网络学习不具有可解释性,即具有不可解释性。而人 的学习是具有可解释性的,这就说明神经网络学习跟 人学习是不一样的。因为神经网络学习不具有可解 释性,所以它在严格科学技术标准要求下的应用是不 可信的。

(三)

符号主义AI与连接主义AI的比较

符号主义AI(符号系统)与连接主义AI(神经系 统)的比较如表1所示。

可见,符号系统与神经系统的优缺点具有互补 性。符号系统善于利用知识,神经系统善于利用数 据,而人在做决策时需要知识与数据并存。根据符号 系统与神经系统优缺点的互补性,以及人作决策时所 需的条件,将两者结合是未来AI发展的主要趋势。

连接主义(神经系统)的不可解释性与本文主题 直接相关。




二、生成式人工智能和人工智能生成内容的区分



中文文献中常见“生成式人工智能AIGC”这样的 表述。实际上,这样的中英文对照表述是错误的,应 该区分GenAI与AIGC。GenAI是指一种AI技术; AIGC是指应用这种技术所得到的结果。二者不应混 淆。这一结论可以下面从关于GenAI和AIGC的描述 中了解。

(一)

关于GenAI

GenAI是一种AI技术,可以生成各种类型的内容,包括文本、图像、音频、视频和合成数据(synthetic data)。最近关于GenAI的热议是由新用户界面的简便性推动的,这些界面可以在几秒钟内创建高质量的文本、图形和视频,当然这项技术并不是全新的。早在20世纪60年代的聊天机器人中就已出现 GenAI。但是直到2014年,随着一种机器学习算法生成式对抗网络(GAN)的引入,GenAI才能够创建出令人信服的真实人物的图像、视频和音频。

GenAI产生如图像、文本或音乐之类多模态的新 内容的能力,特别是生成语言的能力,吸引了公众的想象力,创造了各种潜在的应用。下文的图1和图2说明了从 AI 到机器学习、深度学习、GenAI、基础模型、LLM、最后到ChatGPT和Bard之类的LLM 用户接口之间的层次包含关系。GenAI 适用于更广泛的AI领域,如图1所示。

图 1 中从外向内的四层依次是:(1)AI。(2)机器 学习,即从数据集中自动学习的算法。(3)深度学习, 即使用神经网络从大数据集中自动学习的机器学习。 (4)GenAI,即基于大量数据进行训练并能够生成包 括文本和数字图像在内的高质量输出的神经网络。 生成内容的模型并不新鲜,在过去十年中一直是研究 的主题。然而,ChatGPT于2022年11月的推出则大 大提高了公众对该技术的认识和兴趣,并引发可用的 GenAI产品市场的加速发展。除了ChatGPT,其他众 所周知的GenAI应用程序,包括Claude、Bard、Bedrock 和Dall-E,它们都是LLM。公共LLM 的接口适用于 GenAI领域,如图2所示。

图2中从外向内的四层依次是:(1)GenAI。(2)基 础模型,即在大量数据上训练的通用模型。(3)LLM,即经过文本训练并能够解释和生成高质量的输出的基础模型。(4)用户接口如ChatGPT和Bard,即具有访问LLM的简单用户界面的公共可用服务。这里的基础模型是在超大数据集上训练的大型神经网络,以产生与这些数据集相似的响应。基础模型可能不一定是基于语言的,它们可能是在非文本数据上训练的,如生物化学信息。这里的LLM是专门针对文本和自然语言数据进行训练的基础模型,用于生成高质量的基于文本的输出。基础模型和LLM的用户界面是用户友好的方式,没有技术经验的人可以使用基础模型或LLM。ChatGPT和Bard就是这样的例子。目前,它们大多是通过特定工具的统一资源定位器(URL)访问的,但在不久的将来,它们很可能会嵌入其他消费者软件和工具中。

GenAI是通过使用通常从互联网上获取的大量 数据,在数据的基本模式和结构中训练模型而工作的。经过多轮训练,有时只涉及机器,有时涉及人类,该模型能够生成新的内容,类似于训练示例。当用户给出提示或输入时,GenAI会根据从训练数据中学到的知识来评估各种可能反应的可能性。然后,它会选择并呈现适合给定提示的概率最高的回复。从本质上讲,它是利用训练数据为用户的输入选择最合适的回复。

(二)

关于AIGC

AIGC(人工智能生成的内容)也称为AI创造的 (created)内容,是PGC(专业生成的内容)和UGC(用 户生成的内容)的进阶,通俗地讲,是指使用先进的 GenAI技术生成的内容,它可以在短时间内自动创建 大量内容,而不是由人类作者创建内容;从技术上讲 是指给定有助于教授和指导模型完成任务的人工指 令、利用GenAI算法生成满足指令的内容。这样的生 成过程通常包括两个步骤:从人类指令中提取意图信 息,然后根据提取的意图生成内容。

AI内容生成器(content generators)有多种形式。 以OpenAI的产品为例,ChatGPT是用于构建会话式 AI 系统,该系统可以以有意义的方式有效理解和响 应人类的语言输入 ;DALL-E能在几分钟内从文本描 述中创建独特且高质量的图像 ;Sora是最先进的文本 转视频生成模型,代表了 AI 在视频内容创作领域的 一次重大突破,它能根据用户输入的文本描述,生成 长达60秒的高质量视频,这些视频不仅视觉质量高, 而且与用户的文本提示高度一致。





三、人工智能行为体是人工智能领域潜在的法律主体



(一)

agent在AI中的引入

在AI的发展历史中一直存在着不同技术路线的 激烈竞争。在20世纪80-90年代,IT业界出现关于 AI基础的反思辩论,希望寻求新理论、新方法来统合 既有的 AI 理论。这种趋势在20世纪末到21世纪初 非常明显,其中最具代表性的是20世纪90年代的两 部著作:拉塞尔和诺维格的《人工智能:现代方法》 [1] 和尼尔森的《人工智能: 新综合》 [2]。这两部著作都试 图以agent 为载体,以agent能力水平的扩展为轴线, 把不同的技术路线串联起来,形成统一的AI理论。 本文将agent译为“行为体”。典型的行为体示意图 如图3所示[3]。

在行为体与环境(environment)之间,通过传感器 (sensor)和执行器(actuator)互相联系。传感器可以 感知(percept)环境的状态;执行器可以给环境施加作 用(action)。在行为体内部有一个用“?”表示的方框, 它代表行为体内部从传感器接收输入信息到执行器 发出输出信息的中间环节即内部的决策机制。该决 策机制至少包括两种情况:(1)如果决策机制提供的 是以物理符号系统假设为基础的符号模式的处理过 程,就对应于符号主义,即功能模拟方法;(2)如果决 策机制提供的是人工神经网络的学习能力,就对应于 连接主义,即结构模拟方法。这样,就以行为体为载 体,通过决策机制的内部变化,将AI的不同技术路线 作为若干特例统一在行为体的基础上。

(二)

agent的含义和AI的定义

行为体(agent)就是行动(act)的某种事物;agent 来源于拉丁文agere,意思是去做(to do) [1]。虽然所有 的计算机程序(computer program)都做某些事情,但 是计算机行为体(computer agents)则可以指望做更 多:自主操作、感知环境、长期持续、适应变化、创建并 追求目标[1]。因此理解和解释agent的关键词是act或 to do。

将已知的AI技术纳入以行为体为线索的共同框 架之中,就可以以行为体为中心(agent-centric)的观 点,将看似互不相关的一系列主题的汇集统一到行为 体的主题之下,以智能行为体(intelligent agent)作为 主题概念,将 AI 定义为对从环境中接收感知信息并 执行行动的行为体的研究。每个这样的行为体实现 把感知序列映射到行动的功能。AI旨在构建可以展 示各方面智能行为的行为体。行为体概念是AI的核 心。AI行为体的分类如表2所示。

AI行为体至少包括非实体的AI行为体和实体的 AI行为体。前者就是软件行为体;后者又称为具身行为体或自动机器行为体,包括智能机器人、智能机械手、智能机械手臂、智能汽车、无人机、智能交通信号灯等,其中具有人形的实体行为体即所谓“人形机器人”。

(三)

AI中agent译名的澄清

韦氏词典给出了agent、actor和doer这三个词的 相互关联的共同义项:

(1)agent的义项之一是行动者或行使力量者 (one that acts or exerts power) [3];

(2)actor的义项之一是行动者即doer(one that acts: DOER [ 3 ];

3)doer 的义项是主动参与者 (one that takes an active part) [3 ]

因为agent=actor=one that acts:doer=doer,所以应 agent 译为 行为体 ”。因此 将agent译为“ 智能体” 主体 ”“ 代理 都是错译的 具体说明如下

1)译名“ 智能体 扩大了内涵 、缩小了外延 agent 并不含有 智能”( intelligent )的义项 ,中译时给 agent无中生有添加“智能”之意,错将intelligent agent 是agent的真子集变更为intelligent agent等同于agent 集合,如图4所示。

(2)译名“主体”缩小了内涵、扩大了外延:没有体 现AI中agent不可或缺的act或to do之意,还会与哲 学概念“主体”(subject)和法学概念“法律主体”中的 “主体”(entity 或 subject)相混淆,如图5所示。

(3)译名“代理”是选错了义项:AI中agent应该具 备后文所述行为体的弱概念中的自主性和主动性,应 该是施事者/施动者而不是受事者/受动者。“代理”本 身是受事者/受动者;“代理”之外必有另外的施事者/ 施动者。

因此,笔者将 AI中的agent译为“行为体”。这样 的话,在法学与AI的交叉研究中,在中文语境下看到 “行为体”时,就可以循名责实对应于潜在的“法律行 为”,名正言顺找到潜在的“法律主体”。




四、自然人创作作品的可版权性和 创意/表达两分法



(一)

自然人创作作品的可版权性

版权法赋予版权人权利以控制对于受版权保护 的作品的某些使用,同时也赋予用户在未经版权人许可的情况下对这些作品进行某些使用的权利。作品创作完成,版权自动产生,不需要履行任何手续。尽管获得版权非常容易,但它只适用于可版权的(copyrightable)作品。可版权性(copyrightability)即受版权保护性,是作品获得版权保护所需具备的要件。这是在自然人作者意义下的可版权性。在AIGC情况下是否具有可版权性是本文需要讨论的问题。

以美国版权法为例,版权只保护“固定在任何有 形表达媒介中的原创作品”,也就是说,要有资格获得版权保护,作品必须具备下列要件:(1)原创:要获得原创资格,作品必须是独立创作,并且必须“至少有一点”创造力;(2)作者的作品,即包括文学作品、音乐作品、绘画、图形和雕塑作品、视听作品和录音,以及许多其他类型的有创造力的作品;(3)固定,即作品还必须由作者或在作者授权下“固定在有形的表达媒介中”。

(二)

自然人创作作品的创意/表达两分法

创意/表达两分法(idea/expression dichotomy)是 版权理论的一个重要原则,也称为创意/表达区分 (idea/expression distinction)原则,是指版权保护创意 的表达但是不保护创意本身。该原则本来适用于自 然人作者的情形。在AIGC情况下能否适用该原则也 是本文需要讨论的问题

创意/表达两分法的一个例子是必要场景原则 scènes à faire doctrine),就是说当作品的一个元素 在特定类型中是惯例时它就是不可保护的 ,也可以 说,它是确保流行场景或情节元素不受版权保护的原 则。创意的任何不寻常的实现都可能受到版权保护, 但是版权只适用于原创的有创造力的表达 ,而不适用 于基本的场景或惯例。创意/表达两分法的另一个例 子是“创意/表达合并”原则,就是说当只有一种或几 种可能的方式来表达一个创意时,该表达就不受版权 保护,因为该表达的版权一旦赋予某人就会有效地锁 定这个创意。

笔者曾经给出如图6所示的创意/表达两分法原 则示意图。

图6中包含版权理论中的六个范畴(作者、创意、 表达、作品、内容、形式),可用两句话阐释这六个范畴 之间的内在联系:“作者的创意的表达是作品,作品是 其内容和形式的有机统一。”创意/表达两分法的成 立是自然人创作作品的可版权性成立的前提条件。




五、自然人作品创作过程中的可预测性、确定性、可解释性



(一)

自然人从创意到表达的可预测性

自然人的作品创作过程中从创意到表达的可预 测性(predictability)是指在作品创作过程中作者根据 自己的创意(idea)能在某种范围内对自己将要给出 的表达进行估计、分析、推断的特性。既然作品是 作者的创意的表达,那么,已经有创意的作者对其将 要给出的(不论是何种形式的)表达事先就存在可预 测性;创意/表达两分法体现了自然人从创意指向表 达的可预测性;作者的创意与创意的表达之间的关系 是可预测的。

(二)

自然人在创意与表达之间的确定性

作品创作过程中创意与表达之间的确定性(cer tainty)可以用不确定性(uncertainty)来阐释。所谓不 确定性,是指作者既不能确定某种创意在未来产生的 表达,也不能确定创意产生各种表达的可能性大 小。在明确不确定性概念后可以看出,在自然人的 创意与表达之间只有确定性而没有不确定性。

(三)

自然人从表达到创意的可解释性

与AI模型的可解释性相关,可解释的AI(explain able AI, XAI)研究使人类能够理解模型的内部运行逻 辑和决策结果,为模型的故障排除和广泛使用提供方 便。美国国家标准与技术研究院(NIST)于2021年 9月发布关于XAI的四项原则[4] ,即对于那些旨在可 解释性或需要可解释性的人工智能系统,建议遵守下 列四项原则:(1)解释(explanation)——系统为输出 和/或进程提供或包含随附的证据或理由;(2)有意义 (meaningful)——系统提供对预期消费者来说是可以 理解的解释;(3)解释准确度(explanation accuracy) ——解释正确反映了产生输出的原因和/或准确反映 了系统的进程;(4)知识限度(knowledge limits)—— 系统只有在其设计的条件下并且当其输出达到足够 的置信度时运行。

借鉴 XAI 的可解释性概念可以定义自然人作品 创作过程中从表达到创意的可解释性,就是用给出的 表达来解释初始的创意的能力。从 XAI 的四项原则 可以引申出从表达到创意的可解释性的四项要素 1)解释——对表达提供或包含随附的证据或理由以 解释创意;(2)有意义——关于创意的解释对表达的 预期受众来说是可以理解的;(3)解释准确度——解 释正确反映了产生表达的创意;(4)知识限度——从 关于创意的解释可以识别出创意的限度

既然作品是作者的创意的表达,那么已经得到表 达的作者对其本来的创意在事后当然存在可解释性; 创意/表达两分法体现了自然人从表达指向创意的可 解释性;作者的表达与创意之间的关系是可解释的。

(四)

自然人作品创作过程中可预测性、确定性、可解释性三者之间的关系

在自然人的作品创作过程中,可预测性是用于事 前的、从创意指向表达的、从因到果的、正向的;确定 性是用于事中的、在创意与表达之间的、因果之间的、 中间阶段的;可解释性是用于事后的、从表达指向创 意的、从果到因的、反向的。如图7所示。

作品创作过程中的可预测性、确定性、可解释性 三者之间具有一致关系,即可预测性、确定性、可解释 性三者是同时成立的。




六、不同 AI 技术路线的创意/表达两分法和可预测性、确定性、可解释性



AI技术路线的可解释性对应于AI行为体运行结 果的可预测性;AI 技术路线的不可解释性对应于AI 行为体运行结果的不可预测性。因此,符号主义AI 具有可解释性,对应于符号系统行为体运行结果的可 预测性;连接主义AI具有不可解释性,对应于神经系 统行为体或混合系统行为体的运行结果的不可预测 性。这里的混合系统是指既包含符号主义AI,也包含 连接主义AI的系统。下文在此基础上进一步分析。

(一)

符号系统情形的创意/表达两分法和可预测性、确定性、可解释性

符号系统情形的创意/表达两分法可用图8表示。

在图8中,自然人创作作品的创意/表达两分法示 意图(即图6)中的自然人作者被“符号系统的操作者” 替代,作者的创意被“操作者输入(创意)”替代,创意的 表达被“符号系统输出(表达)”替代。作品、内容、形式 三个范畴没有变化。这里的重要变化在于,在自然人 创作作品时自然人自己从创意到表达的过程变更为 自然人作为符号系统的操作者进行(代表操作者创意 的)输入,然后经过符号系统行为体的处理,得到符号 系统的输出(这是对应于输入的创意的表达)。

符号主义AI的可解释性对应于符号系统行为体 运行结果的可预测性。

以四色定理的证明为例。四色猜想于1852年提 出,在此后的一百多年时间内,人类并未证明这一猜 想。直到1976年,美国伊利诺斯州立大学的两位数 学家利用当时的高速电子计算机,用了1200 个小 时,作了100亿个判断,终于证明四色猜想,从而得到 四色定理。据估计,如果这一过程用人工计算,大概 需要几十万年。当时发表该研究成果的相关数学杂 志的审稿人进行审查时也是通过计算机完成的。

应该注意到,四色猜想的证明过程和四色定理的 审查过程都是通过符号主义的计算机程序实现的。 这是符号主义 AI 的可解释性,也就是符号系统行为 体生成内容的可预测性的一个典型例子。正因为符 号主义 AI 的运行具有可解释性和可预测性,所以在 四色猜想的证明过程中,我们可以将计算机的证明过 程看作是根据人类事先确定的算法进行逻辑推理的 过程。只是因为这样的推理过程需要花费太多的人 力、太长的时间,所以计算机的处理是在可预测、可解 释的情况下完成了全部的证明过程。因此,四色猜想 的证明是归功于那两位数学家 ,他们也就成为证明四 色猜想的相关作品的版权人。

从作品创作过程看,符号系统中的创意/表达的 可预测性、确定性、可解释性如图9所示。

当然,图9中的创意是由人类给出,表达则是由 符号系统行为体给出。

(二)







请到「今天看啥」查看全文