专栏名称: 中国计算机学会

中国计算机学会官方订阅号，为CCF会员及计算领域的专业人士服务。

CNCC超级论坛 | 在横店：让我们来谈谈AI与影视创作

中国计算机学会 · 公众号 · · 2024-10-10 17:15

正文

CNCC AI与影视创作超级论坛的组织比想象要难，横店+AI这个因素并未使邀请影视界重量级嘉宾更容易些。显然计算和AI科技工作者对AIGC颠覆影视的想象力，要远高于置身事内的影视从业者。后者对用模糊的提示语去生成几秒视频，如何能保障作品质量和镜头语言的一致性，“谁会用一部傻瓜相机去拍摄电影呢？”从业20年的动画导演王雷对宋睿华老师如是说。震惊、新奇和使用之后，除了不断调整提示什么也做不了的无力感，让他们把AI视频生成比喻成傻瓜相机。另一方面，几位锐意拥抱影视新技术的导演，在近几个档期作品上线后，或多或少遭遇了不如人意的评价。影视创作是值得敬畏的话题，它涉及到的远比影像技术更广泛而深刻，它涉及了人性、艺术、思想和文化的表达。这个论坛我们将从一个切面来讨论。

影视工业的复杂性，涉及大量艺术家的工作，艺术创作与影视制作团队的磨合与理解，在AI语境下有了新的挑战和机会，Sora团队邀请专业影视制作团队Shy Kids创作的《Air Head》是AI电影中最近接近期待影片的一个样态。短片做了一个有意思的隐喻，用头是一个气球的我来表达孤独或残缺者的内心感受，独白中有大量的双关，比如“我离漏气只差一个针孔”。然而，创作团队Shy Kids在采访中评价Sora“是一个产生视频的老虎机”。它虽然可以快速的生成素材，但结果像老虎机一样不可控制，还是需要大量艺术家的工作，比如说写剧本、编辑镜头等，才能最终成片。事实上，故事背后的意义还是由人来完成的，而不是AI。

在AIGC从多模态和视频生成大模型出现突破以前，影视特效制作的数字化革命已经突破了梦工厂“怪物史瑞克定律” 描述的渲染复杂度每年翻倍的制作瓶颈。过去每年2-3部视效大片的模式，已经被逢春节、五一、十一和寒暑假档期的视效大片大战取代。每周三下午张导会到水晶石来看渲染效果，并把他的意见反馈给视效总监和码农们 “最难的部分，是让码农理解视效总监和张艺谋导演要表达的意思……” 何万青拿出他拍的那张传奇的250台联想台式机堆叠+工业风机散热的“08奥运背后的小米加步枪渲染集群” 。疫情加速了影视渲染上云的速度，同时让视效总监可以在云上审校工程师渲染的作品。云计算带给影视工业最大的改变，是改变了过去“量入为出”，根据手头算力限制来承接影视后期精渲的模式，万青谈到《流浪地球2》和追光宇宙几部电影在云上渲染的细节。AIGC创作工具的出现，是否更多是释放了个人创作者的创造力呢？还是会带来全流程的革命？这是我们这个论坛要探讨的问题。

举例来讲，中国传媒大学动画学院在2023年初产生了做一个武侠题材的水墨动画的想法，团队先是基于Stable Diffusion训练了一个水墨风格的模型，但是训练出来的效果却不尽如人意。“我们发现国画或者水墨是个变化特别大的一个领域，就是它不太能混搭。就像早期的，比如说宋朝的古画，跟明朝的古画，跟现代的国画，可以当成三个画种。笔墨的用法构图还有背后的思维差异太大。” 泛泛的国画素材训练出四不像的风格模型，逼迫他们不得不自己动手画上千张水墨作数据，用来训练模型理解想要追求的风格和笔触。统一风格之后却发现另一个致命的问题：前后两个镜头生成的人不是同一个人，串联起来会看不懂。于是，他们不得不进摄影棚，为每一位演员从各个角度拍上百张照片，用于训练该演员特有的LoRA模型。生成时则用对应该演员的触发词来控制人物的一致。计划三个月做完的项目，耗费了半年的时间。他们最终完成了一部三分钟的动画短片《龙门》。凭借尝试AI新技术的勇气以及成片的质量，《龙门》成功入围了十二个国际电影节，其中包括奥斯卡资格的电影节。

以上的例子，集中体现了当下应用AI工具作影视创作存在的核心问题。王雷导演用“技术负债”来描述他的感受。技术负债原指开发人员为了加速软件开发，在应该采用最佳方案时进行了妥协，改用了短期内能加速软件开发的方案，从而在未来给自己带来的额外开发负担。这里，他想表达的应该是，初代的版本给大家很大的期望，但实际使用中存在诸多问题，就像一笔债务一样，必须在未来偿还。这并非个别创作艺术家的吹毛求疵，即使是AI从业者也有类似的体会，看到用于宣传的作品之后的震惊感总会在试用之后产生巨大的落差。

年轻人永远是新工具新生产力和新流程的第一个拥抱者，在一所大学的人工智能课，请100名同学每人使用任何AI工具为同一则故事配插图或者做视频。刘嘉俊同学采用了先用Stable Diffusion生成关键帧——老妇人和小男孩在公园的早地上吃面包，然后将这张图作为参考图，使用Vidu生成一小段视频。他说，“有时要生成多次，才能找到一张图片的一部分可能符合预期，我就会把它截取出来作为参考图。”

刘本想要一两个小时完成的作业，最终用了一整天才有这样的效果。他对工具的选择完全是出于对Vidu的贡献者李崇轩老师的熟悉。其他工具也均提供了用参考图控制生成的方式，这显然比提示词在控制一致性上要有效的多。

在影视创作中，控制对于专业艺术工作者来说尤为重要。数字内容的制作一直是依赖图形学的创新，比如3D高斯飞溅在SIGGRAPH 2023提出之后，大量的工具集成了这一功能。只需要用手机围绕着一个东西拍一圈，大概三到五分钟的时间，算法就可以生成一个相当好的三维版本。AI技术的发展也的确带来显著的便利，比如，自动分解音轨的质量越来越高，以及自动插帧的工具在学习人的动作后可以理解身体的平衡，只要拽模型的一只手，它能自动把其他的肢体摆好。这些都颇受专业艺术创作者的喜爱。对他们来说，更加期待AI技术可以高可控性的帮助电影生产的各个环节：从制片管理到渲染引擎，从美术概念的开发到动画特效的制作，从视频调色到音频处理等等。全自动生成视频似乎更适合短视频和业余艺术创作者。

对于AI从业者来说，全自动视频生成有着更深的意义，它的终极目标是突破了图灵测试的电影测试。60多年前，图灵前瞻性的提出通过交互无法分辨人与AI的方式来测试智能的到来，目标是造人；今天，电影测试则是通过交互用AI创造出不穿帮的视频，目标是造世界。生成式人工智能在学习世界的联合概率分布后，才有机会采样生成一个新世界。这如同小说家在虚构一个故事和人物故事，电影公司拍摄出一部新电影。一部优秀的电影往往需要上千各司其职的专业人士共同努力几年时间，AI要多久才能够达到同样的水准？5年、10年还是60年，恐怕远远超出目前乐观的估计。所幸，新目标就在那里。

本论坛邀请探索AIGC应用在影视创作上的导演、学术前沿专家，以及来自产业界，服务于影视制作环节的技术工作者，共同交流生成是人工智能技术运用于影视创作所面临的机遇与挑战，并通过作品交流来思辨人工智能与影视工业的发展。

论坛主席：何万青、宋睿华

何万青

博士，英特尔数据中心与人工智能集团首席工程师，前阿里云高性能计算负责人，自2005年领导英特尔中国高性能计算优化团队，服务亚太区HPC应用优化与异构计算，天河2号超算研制以及领导阿里云弹性高性能计算产品研发，是业内资深高性能计算专家。07年开始支持数字内容创作（DCC）渲染集群的优化部署，在阿里云期间实现影视后期渲染上云的成熟方案，支持了近50%的云渲染市场。长期在CCF负责学术和产业届融合推动工作，近三年担任CNCC论坛委员会产业界主席和委员。

宋睿华

国家高层次人才特聘教授，现任中国人民大学高瓴人工智能学院长聘副教授。曾任微软亚洲研究院主管研究员、微软小冰首席科学家。曾获WWW 2004最佳论文提名奖，AIRS 2012最佳论文奖，和CLWS 2019优秀论文奖，2022年度教育部自然科学一等奖。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。作为学术带头人，与CLIP同期独立研究并发布悟道·文澜多模态大模型；参与发布自研基础模型的玉兰语言大模型。

为了让论坛有更多的深层次讨论和观点碰撞，我们邀请到八位来自学界和业界相关领域的嘉宾，还特别邀请著名科技媒体KOL甲小姐作主持人。整个论坛依照AI参与影视制作的不同阶段划分演讲，并以思辨与圆桌讨论来结尾。

具体日程按排如下：

时间：2024年10月24日，下午1:30-6:30

地点：横店圆明新园夏苑-法国馆二楼剧场

注：如有变动，请以官网(https://ccf.org.cn/cncc2024)最终信息为准

第一部分：全自动视频生成

张迪（快手，《创意·创作·创造：可灵AI助力开启视频创作新业态》

朱军（清华大学，《Vidu视频大模型创新及应用》）

第二部分：制片引擎与AI

朱梁（爱奇艺，《影视智作的创新实践》

王刚（Unity中国，团结引擎与AIGC）

第三部分：美术人物与AI

董未名（中科院自动化所，《AI绘画及其在影视制作中的应用》）

张邦（阿里巴巴通义实验室，《可控人物视频生成 - 技术、应用、未来》）

第四部分：音频制作与AI

苑盛成（灵动音，《面向可控创作体验的AI音乐生成技术探索》）

宋睿华（中国人民大学，《从无声到有声：AI如何为影视增色》）

第五部分：思辨与圆桌讨论（甲小姐主持，全体演讲嘉宾参与）

论坛主持人：甲小姐

甲小姐

中国科技产业智库甲子光年的创始人、CEO

毕业于北京大学数学科学学院，同获经济学双学位，北大数院理事；曾获中国数学奥林匹克金牌，入选国家集训队；笔名“甲小姐”，科技行业头部KOL；2017年入选福布斯亚洲30 Under 30、福布斯中国30 Under 30；2018年获得“2018ECI年度商业创新新锐人物”奖项；中国新闻网《改革开放再出发》专题纪录片首集主人公。

论坛嘉宾与演讲

第一部分：全自动视频生成

张迪

快手科技副总裁、大模型团队负责人，主导快手生成式AI大模型的技术研发与应用，带领团队构建万亿参数规模的大模型训练及推理基础设施，研发了大语言模型「快意」、图像生成模型「可图」、视频生成模型「可灵」等多个基座模型，并将大模型与多媒体技术应用于快手的核心业务中取得业务突破。毕业于上海交通大学，曾任阿里巴巴集团资深技术专家，在阿里集团搜推广业务进入深度学习时代的技术演变中发挥了核心作用。

演讲标题：《创意·创作·创造：可灵AI助力开启视频创作新业态》

演讲摘要 ：AI正在重新定义千行百业，视频创作领域在这场变革里迎来了颠覆性突破。作为全球首个用户可用的真实影像级视频生成大模型，可灵自6月6日发布以来就得到全球用户和媒体的关注，通过探索、实践大模型创新技术，给用户提供了效果更稳定、画质更优、且门槛更低的视频内容创作方式。本次演讲将基于可灵AI与影视创作领域展开的多元化合作，探讨AI如何激发创意、重塑内容创作、创造无限可能，助力视频创作产业开启新业态。

朱军

清华大学计算机系博世AI教授、人工智能研究院副院长、IEEE/AAAI Fellow。2001到2009年获清华大学计算机学士和博士学位，之后在CMU做博士后和项目科学家，曾任卡内基梅隆大学兼职教授。主要从事机器学习研究，在国际重要期刊与会议发表论文百余篇，谷歌学术引用3.4万余次。担任顶级期刊IEEE TPAMI的副主编，担任ICML、NeurIPS、ICLR等国际会议的资深领域主席、地区联合主席、评奖委员会委员、研讨会主席等20余次。获陈嘉庚青年科技奖、中国科协求是杰出青年奖、科学探索奖、吴文俊人工智能自然科学一等奖、CCF自然科学一等奖、ICLR杰出论文奖、ICME/IEEE CoG最佳论文奖等，入选国家高层次人才计划。研制Vidu视频大模型，以及开源的“珠算”深度概率编程库和“天授”强化学习库。

演讲标题：《Vidu视频大模型创新及应用》

演讲摘要 ：Vidu于4月27日正式发布，是首个全面对标Sora的视频大模型，能够高效生成高一致性、强动态性、符合物理规律的视频片段。Vidu是构建在团队提出的首个将扩散模型与Transformer融合的架构U-ViT之上。本报告将介绍Vidu视频大模型的底层技术原理、以及基于Vidu的视频创作等最新进展。Vidu的在线版本：https://www.vidu.studio/

第二部分：制片引擎与AI

朱梁

爱奇艺副总裁，智能制作部负责人，中国影视摄影师学会常务理事，中国影视技术学会先进影像专委会副主任。负责爱奇艺AI内容科技创新、自制内容管理平台、影视制片管理系统、制作上云、虚拟制作、数字资产库等技术产品开发和制作服务。北京电影学院博士毕业，曾任北京电影学院影视技术系教授、副主任等职，从事电影技术人才培养和创作、科研工作，多部作品和论文获得国际国内专业奖项，代表作包括电影《白毛女》、《中国之谜》，剧集《云之羽》、《大梦归离》等。

演讲标题：《影视智作的创新实践》

演讲摘要 ：爱奇艺在AI赋能专业长视频内容智作创新方面，做出了有效的尝试：1：自研的制片管理系统和5G、AI多模态内容生成结合，实现了影视拍摄过程的网络化管理和“制作上云”，大幅提效。热播作品《我的阿勒泰》、《看不见影子的少年》等都是成功应用的代表。2：结合虚幻引擎的实时渲染能力，打造内容创作进化的引擎。爱奇艺自主研发了AI赋能的“IQStage影视虚拟制作系统”，并在横店影视产业园建成了国内最高标准的影视虚拟摄影棚，成功应用于《狐妖小红娘》、《云之羽》、《大梦归离》、等多部高品质作品，并留下了大量精品数字资产。3：立足自身业务实际需求，将自建和商用AI大模型结合，搭建了“奇智大模型”平台，”奇声”声音处理平台，”ZoomAI”影像超分和修复系统，文学工坊，影像工坊，知识库故事银行等，有效提高了决策和创作的效率及质量、降低了制作成本。

王刚

Unity中国资深技术研发经理。负责团结引擎动画系统和数字人技术研发，深耕影视和游戏行业多年。过往代表作有Alibaba Aceray云渲染器，Tencent Siren数字人，东方梦工厂《功夫熊猫3》，Autodesk Showcase软件。

演讲标题：《团结引擎和AIGC》

演讲摘要 ：介绍团结引擎的AI技术工具——团结Muse（包括 Chat调试引擎程序代码错误， Muse Graph汇聚AI模型接入引擎，Animation角色自动蒙皮）。

第三部分美术人物与AI

董未名

中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员，博士生导师，中国电影美术学会理事，CCF计算艺术分会常务委员。长期从事计算艺术研究，在包括ACM TOG、IEEE TVCG、IEEE TIP、SIGGRAPPH、ICML和CVPR等重要国际期刊和国际会议发表学术论文百余篇。主持国家自然科学基金重点项目、新一代人工智能国家科技重大专项课题等国家项目以及腾讯、快手、中文在线和爱奇艺等企业合作项目。成果应用于腾讯天天P图、快手魔法滤镜、爱奇艺秀场和Follow相机等多项产品中。获中国电影美术学会学术理论贡献奖。

演讲标题：《AI绘画及其在影视制作中的应用》

演讲摘要 ：AI绘画是人工智能生成内容（AIGC）领域热门的方向之一。近期，随着多模态大模型和扩散模型技术的迅速发展，由人工智能生成的绘画作品在艺术性和内容丰富度方面都有了极大的提升。本次报告将回顾AI绘画技术的发展历程，介绍图像/视频风格迁移和多模态信息引导的艺术图像/视频生成等AI绘画技术的基本原理，探讨可视媒体风格化技术在影视制作中的应用，并展示相关案例。

张邦

阿里巴巴通义实验室应用视觉HumanAIGC方向负责人。毕业于澳大利亚新南威尔士大学计算机专业，主导研发Animate Anyone，Emote Portrait Alive，Outfit Anyone等多项技术，现负责交互数字人，可控人物视频生成方向的技术研发。曾任职于澳大利亚澳科院CSIRO（Commonwealth Scientific and Industrial Research Organisation），任高级研究员。

演讲标题：《可控人物视频生成——技术、应用、未来》

演讲摘要 ：近年来视频生成技术的发展突飞猛进，更加逼真并深具创意的视频可以通过更加便捷和低成本的方式被生成出来，这也为AI+影视创作带了新的工具和新的创作创新可能。以人为中心的可控视频生成技术，在这其中发挥了关键的作用，我们将通过通义实验室的HumanAIGC相关技术为例讲解探讨其技术、应用及未来。

第四部分音频制作与AI

CNCC超级论坛 | 在横店：让我们来谈谈AI与影视创作

正文

请到「今天看啥」查看全文