专栏名称: 动画学术趴
动画学术趴创建于2013年,是国内动画领域最具影响力的深度媒体和动画爱好者社区。这里有关于动画的一切有价值的内容,分享专业影评,关注理论知识,推荐创意影片,提供行业观察,与你一起见证中国动画的未来。
目录
相关文章推荐
百车全说  ·  煤二代打造德国车企,奔驰宝马盼它破产 ·  2 天前  
鹤城发布  ·  陈某顺,被行拘! ·  昨天  
鹤城发布  ·  陈某顺,被行拘! ·  昨天  
汽车最前线  ·  9.98万已经卷成这样了?2.8米轴距,后排 ... ·  2 天前  
51好读  ›  专栏  ›  动画学术趴

伦理困局?把雷军变成Vtuber的AI配音,让中美日声优都坐不住了……

动画学术趴  · 公众号  ·  · 2024-11-11 22:22

正文


作者 / 绯多木

编辑 / Pel

排版 / Enclave

鸣谢 / 许多的小兵器


国际间围绕声音权的保护存在法律差异,各国内部针对AI声音都存在无法可依难以起诉、或有法可依但执行困难的情况。


2024年7月26日,美国电视和广播艺人联合会 SAG-AFTRA 对所有签署互动媒体协议的电子游戏公司发起的罢工运动已经持续了三个多月。 尽管劳资双方进行了多次谈判,但在人工智能相关条款上仍未达成一致。



这轮劳资冲突的影响也开始逐渐显现——如在《原神》5.1版本的主线剧情中, 部分角色的英语配音出现缺失。 9月25日,工会进一步呼吁对《英雄联盟》罢工,因为负责提供配音服务的公司 Formosa Interactive 试图通过将工作转移到由非工会演员组成的空壳公司来规避罢工影响。


不仅是电子游戏,「AI配音」引发的争议已经蔓延至社会各行各业。

今年5月, OpenAI 发布了ChatGPT-4o与AI语音模型 “Sky” 。然而,这一模型的声音 与知名演员斯嘉丽·约翰逊的声音高度相似。


斯嘉丽透露, OpenAI曾多次请求她为其产品配音但均被拒绝。 尽管OpenAI声称Sky的声音源自另一位配音演员,但最终还是选择下架了Sky。

无独有偶,10月16日, 梶裕贵 福山润 寺宏一 等26位日本声优共同发起了 「NOMORE無断生成AI」 运动, 谴责未经同意使用声优声音来训练AI模型的行为 ,并希望能和平讨论建立规范,保障声优的权益。



有关该活动的报道中尤其提到,从2023年开始迅速增加的 “AI翻唱” 现象,即AI在未经许可的情况下学习歌手、声优乃至主播和网红的声音,让他们唱不相关的歌曲或台词。这类视频在国内外都变得越来越流行。

TikTok与Bilibili平台上的AI翻唱视频

这些事件共同反映了 AI配音存在的法律与道德问题。 一些企业使用AI替代部分配音工作,或未经同意利用AI化声音进行商业操作。粉丝群体越来越多地去利用AI进行二次创作,这也是边界模糊的灰色地带。此外,更有使用AI配音进行诽谤、造谣、诈骗等犯罪行为。

如何界定AI配音?其应用的合法边界又在哪里?都是存在争议的论点。


01
AI配音简史:初音未来也干了?

AI配音的前身可以追溯到本世纪初兴起的 语音合成 (Text-To-Speech,TTS) 技术 ,该技术基于机器学习算法,通过学习大量语音样本、掌握规则,从而在接收到文本输入时能生成语音,最初主要应用于客服、导航等领域。

2003年,日本雅马哈公司开发出一款电子音乐制作语音合成软件——Vocaloid。基于这款软件,虚拟歌姬 初音未来 诞生 (2007年) 初音未来的出现不仅掀起了一股流行风潮,也为TTS技术开辟了新的娱乐市场。


初音未来的声音 由日本声优
藤田咲 提供录制 ,用户可以通过购买声音库,输入旋律与歌词来编写歌曲。 这一时期的语音合成尚处于较为机械的 拼接式合成 (concatenative synthesis) ,在语气、音调等细节方面需要使用参数手动进行“调教”。


VOCALOID的基础界面介绍(来源:巴哈姆特)

2010年代,随着 深度学习 (Deep Learning) 的发展, 基于 深度神经网络 (DNN) 自然语言处理技术 (NLP) 取得显著成果。该技术合成的声音更自然流畅,还能与用户进行语音互动,如 (早期的) 苹果语音助手Siri、微软Azure 的TTS服务等。


2017年,相关研究人员通过DNN对音频数据进行建模,提出了一种更高效率的声音克隆方法。相较于传统的TTS,声音克隆只需 收集少量声音样本,花费更少的定制时间 ,就能提取出特定个体的声纹特征,捕捉语气、音高、发音习惯等细微差别。

我们平常所说的 AI配音,其实同时涵盖了 TTS 声音克隆 两个技术。 让我们以微软的 Azure 为例简单进行下区分:


目前国内使用最多的 云泽 (即二创视频中常见的“五星上将麦克阿瑟”的声音) 云野 云希 等配音大都来源于Azure的TTS服务, 这些声音听起来较为标准化,不基于特定个体的声音进行训练,很少会“以假乱真”。

Azure 的TTS服务界面


2021年,微软正式推出Azure AI服务,同时发表的 Custom Neural Voice 计划 则属于声音克隆 的范畴,可以针对特定个体的声音进行模拟和重现,产生原始录音中没有的语音风格,表演出犹豫、停顿等特质, 经过不断地训练后可以无限接近真人。


TTS是泛用性的转换,声音克隆则专注于个性化的复制,因此, Azure中在使用该项服务时也要求获得配音人员的明确书面许可。


从早期依赖传统声学模型和特征提取的语音合成,到如今由神经网络驱动的自动化合成, 声音克隆开启了高度定制化,无限拟真的时代。 然而,各种法律和伦理问题也随之而来。


在Vocaloid中,各类虚拟角色的声音库本身受到版权保护。用户在购买或使用声音库时, 需要同意遵守相关的许可协议,才能获得授权进行创作。 如果是商业化创作,则需要更多额外的授权。

如用户协定中规定,若用户以营利为目的用该软件创作歌曲,需使用和购买Piapro Studio Standalone编辑器和正版初音未来声库,才能商业化使用声音库软件与VOCALOID编辑器


然而, 声音克隆技术的使用门槛则很低。 打开网络,随手一搜,便有众多开源软件跃然眼前。无需签署繁琐的合同,甚至不需声音本人的授权,简单注册、上传音频,就能轻松复制他人的声音,用于各类创作。便利背后、一旦越界,便是虚假传播、身份冒用、诽谤诈骗等风险。

“三只羊”录音门事件




一些滥用该技术的公司也会通过未经授权的方式 使用知名人士的声音进行虚假宣传 ,或以较低成本替代真人配音演员的工作。


现阶段的法律是否能有效应对声音克隆技术带来的挑战?

答案是能、也不能。法律能够提供一定的保护,但面对发展迅速的技术也存在一定的滞后性与模糊性。


02
声音权的定义与识别:缺乏国际标准

放眼全球,声音权在法律上的解释与规范因地而异,对AI声音克隆的约束更是难成体系。

在美国,声音权通常被纳入 “公开权” (Right of Publicity) 的一部分,即自然人将自己可识别的个人特征公之于众的权利。这项权利 旨在保护个人的形象和声音不被未经授权地用于商业目的。


不过,美国的公开权是 州级法,而非联邦法 ,各州对该权利的承认也有所不同、缺乏统一的保障。 加利福尼亚州属于对声音权保护最为完善的州 ,其法规还涵盖保护去世的公众人物的声音。


AI配音往往与AI换脸技术结合来生成假视频,范围从普通人到(已故)名人都有覆盖


2024年9月,加州州长进一步签署两项新法案要求“工作室在 创建或使用演员或其已故演员遗产的数字复制品 (包括声音和形象) 和撰写人工智能使用合同之前,必须获得他们的同意 ,且谈判合同时必须有专业人士代表”。


处在罢工中的SAG-AFTRA对此表示赞赏,该工会同样主张 公司不能使用宽泛的条款来主张对演员声音或形象的永久权利。


不过, 美国其他大部分州仅对在世个人的声音和形象权提供保护,未明确涵盖AI生成的声音。 在保护严格的州中,未经授权进行声音克隆是违法的;而在保护较为宽松的州中,此类使用则可能被允许。同时, 公开权主要是面向公众人物而非普通个人。

法律之外,一些大型唱片公司也 采取发布声明的方式,敦促流媒体平台限制AI技术公司对其歌曲库的访问,并要求下架有关作品。

如去年,模仿两名歌手Drake和Weekend而诞生的AI歌曲 《Heart on My Sleeve》 就在环球音乐的强烈抗议下,于TikTok、YouTube、Spotify等流媒体平台下架。

由TIKTOK用户@Ghostwriter977发布的AI歌曲:虽然歌曲听起来刺耳,歌声含糊不清,却在社交媒体上广受欢迎


该案例的特殊之处在于,不同于AI孙燕姿那样直接翻唱的行为,《Heart on My Sleeve》结合两位歌手的声音与风格,像AI绘画般分析、模仿,让艺术家“重返巅峰期”,生成AI的“原创”歌曲。

若未来海量素材投喂至AI模型,其中涉及版权问题也会被逐渐稀释模糊,形成对音乐主体性与原创性的冲击。

而在日本,对声音权的保护尚不明晰, 现行法律并不承认声音受版权保护。 目前只能以 公开权 (パブリシティ権) 《不正当竞争防止法》 作为依据。


其中,公开权旨在让公众人物能追诉未授权 (姓名、肖像和声音等) 的商业利用。但由于 公开权在日本并没有成文的法律规定,其适用范围是否能涵盖AI克隆声音还尚未明晰。

プライバシー権(隐私权)与パブリシティ権(公开权)分别从人格权和财产权的两个角度来保护肖像权


另一方面,《不正当竞争防止法》规定,未经允许使用某些广为人知的标识、名称等作为商业用途属于违法行为。虽然该法案未明确涵盖“声音”,但在2024年4月的国会答辩中, 经济产业省表示,将视情况考虑修订法案来进一步保护声音权。

在中国,法律层面上 《民法典》 《著作权法》 中已明确将声音纳入保护范围 ——《民法典》中规定,对自然人声音的保护,参照适用肖像权保护的有关规定。《著作权法》同样明确表演、录音录像等与自然人声音相关的音声作品均在法律保护范畴之内。

今年4月,全国首例AI生成声音人格权侵权案宣判。
原告配音演员曾为被告的北京某文化传媒公司录制作品,然而该企业后续却将其声音AI化并对外出售。最终法院判决未经许可使用原告声音进行AI化构成侵权,被告道歉并赔偿损失25万元。

来源:北京互联网法院


本案的重要意义在于,法院在判决过程中认定,当AI生成的声音具有 可识别性 时,自然人的声音权利保护范围可以延伸至该生成声音,同时也明确了“ 对录音制品的授权并不意味着对声音AI化的授权 ”。

国内大量配音演员也进行了转发


尽管法律提供了一定程度的保护, 但AI配音大规模滥用现象仍然广泛存在 ,这与大量便捷的AI语音生成类软件脱不了干系。这让任何人都能在未获授权的情况下轻松生成与特定个体声音相似的音频内容。

如国庆期间广泛传播的 “AI雷军” 骂人视频,主要是由 Reecho睿声 提供声音克隆与合成服务,在其官网的“声音市场”中也可以看到有
涉及动画、游戏、直播、体育等各个领域 (包括已故) 人物的AI配音。

Reecho睿声界面:目前搜索雷军已经无法显示结果

雷军10月29日在自己频道发布的视频“希望大家都不要玩了”


用户只需上传几十秒的音频文件,便能训练出一个基础的AI模型;或是直接输入文字,选用其他用户上传的现成模型,也能快速生成特定人物的语音。


在受害严重的Vtuber与音乐圈中,一些账号利用Vtuber的AI声音进行授课或上传翻唱视频以此获利,更有甚者擅自创作色情作品进行出售。

B站音乐区UP主在其虚拟形象与音源被擅自使用生成色情作品后,发表了有关AI生成的二创声明

目前来说,国际间围绕声音权的保护存在法律差异,各国内部针对AI声音都存在 无法可依难以起诉、或有法可依但执行困难 的情况。而 各大流媒体平台对AI内容的监管也不算严格 ,往往只有受到明确指控或造成严重后果后才会采取下架措施。


03
行业内部:走向共存之路?

大多数人都不会选择逆流而上。在无法阻止AI内容生成的背景下, 各国配音行业对AI的态度也都是趋于共存而非抵制。

在日本,一些声优和公司已选择主动参与AI项目, 通过正式授权的方式开发自己的AI声音库。 如日本著名的声优事务所 青二Pro 就宣布与AI技术公司 CoeFont 达成合作,计划将事务所所属声优的声音进行多语言化处理,并应用于语音助理、医疗设备等领域。



人气声优 梶裕贵 (《进击的巨人》艾伦·耶格尔) 也在今年5月、出道20周年之际,宣布推出自己授权的AI声音合成软件 “CeVIO AI 梵そよぎ” 以此为中心开展多媒体企划。



用户在购买该软件后可免费创作内容用于非商业用途 ,部分商业用途则需要获得追加许可。这种官方层面主动授权和对内容用途进行规制的做法,与Vocaloid有异曲同工之妙, 既能规范AI创作的内容与用途,也激发了二创社群的活力。


梶裕贵是少数积极表达对AI立场的日本一线声优。在去年接受NHK采访时他也谈到:
“自己并不是想与AI对抗。未来随着AI的不断进化,不只是声优行业,很多领域都会面临AI带来的现实挑战。到那个时候, 我们需要找到一种‘共存’的方式,而非‘对立’。”


而在美国的SAG-AFTRA罢工运动中,尽管整体谈判尚未达成一致,但SAG-AFTRA已经与AI技术公司 Replica Studios 达成协议, 确保配音演员的声音在被用于AI生成的虚拟声音时必须经过演员的充分知情同意,并且符合最低报酬和补偿要求。

除此之外,协议还规定在后期使用AI声音时需支付额外费用并再次征得演员同意。


今年5月,国内也掀起了一场有关AI配音的争论。起因在于,知名配音演员 赵乾景 宣布 把声音授权给 TME 出品的AI有声剧,将其训练出多音色的AI人声。



从配音演员的角度来看,签订合约官方授权的方式更能保障自己的权益,对AI声音开发公司来说,这也能规避潜在的侵权风险,开发出更多元化的产品。

但也有许多评论指出这无疑是“开了一个坏头”, 给AI侵占配音行业提供正当性,可能会导致更多配音演员被AI取代。

单一案例也不能代表整个行业的现状。实际情况是, 目前市面上流行的AI生成软件大都没有和配音演员的工作室或事务所建立合作关系,取得正规授权。 这种趋势也让行业内的资源和利益分配变得更加不平衡。


头部演员和事务所或许可以签订合同,确保在AI项目中能获得公平报酬并有效保障声音的使用权限,但 对于没有话语权的行业新人来说,这或许会是一场灾难。 不少新闻报道都有指出,AI配音正在逐步取代传统的人声配音,尤其是在有声读物和广告领域。


《卫报》报道:其中提到配音演员在一个项目完成后发现公司在未经同意的情况下克隆并使用了他的声音




04
结语


声音正逐渐成为最容易被AI模仿和滥用的对象。尽管现阶段的AI配音在情感表达上还略显生硬,但随着技术的迭代进步,其生成的内容将愈加逼真、难以分辨。


不仅限于声音,五官、表情、嘴型、肢体动作等信息如今都能通过 深度伪造 (Deepfakes) 合成,AI驱动的各类技术同时在数量和质量上深化了拟像的制造能力。

漩涡之中,各种立场交织碰撞。有些人认为越罢工越“加速”,甚至希望作品摆脱人为因素的制约、少些莫名其妙的节奏。声优粉丝内部也存在矛盾心态,既呼吁加强保障声优的权益、尊重其劳动成果,但也对AI配音的还原性抱有一定的期待 (复原已故声优、二创赋予灵魂)

而大多数普通观众,只是单纯觉得新奇、并无主观恶意和具体立场,更无暇分辨真假。

现在,我们或许能对AI翻唱和恶搞视频一笑置之,但随着以假乱真技术的发展与泛滥,其带来的侵权、诈骗、诽谤和虚假信息的传播风险将潜移默化地根植到现实社会,无论是公众人物还是普通人都很难独善其身。






请到「今天看啥」查看全文