CNCC AI与影视创作超级论坛的组织比想象要难,横店+AI这个因素并未使邀请影视界重量级嘉宾更容易些。显然计算和AI科技工作者对AIGC颠覆影视的想象力,要远高于置身事内的影视从业者。后者对用模糊的提示语去生成几秒视频,如何能保障作品质量和镜头语言的一致性,“谁会用一部傻瓜相机去拍摄电影呢?”从业20年的动画导演王雷对宋睿华老师如是说。震惊、新奇和使用之后,除了不断调整提示什么也做不了的无力感,让他们把AI视频生成比喻成傻瓜相机 。另一方面,几位锐意拥抱影视新技术的导演,在近几个档期作品上线后,或多或少遭遇了不如人意的评价。影视创作是值得敬畏的话题,它涉及到的远比影像技术更广泛而深刻,它涉及了人性、艺术、思想和文化的表达。这个论坛我们将从一个切面来讨论。
影视工业的复杂性,涉及大量艺术家的工作,艺术创作与影视制作团队的磨合与理解,在AI语境下有了新的挑战和机会,Sora团队邀请专业影视制作团队Shy Kids创作的《Air Head》是AI电影中最近接近期待影片的一个样态。短片做了一个有意思的隐喻,用头是一个气球的我来表达孤独或残缺者的内心感受,独白中有大量的双关,比如“我离漏气只差一个针孔”。然而,创作团队Shy Kids在采访中评价Sora“是一个产生视频的老虎机”。它虽然可以快速的生成素材,但结果像老虎机一样不可控制,还是需要大量艺术家的工作,比如说写剧本、编辑镜头等,才能最终成片。事实上,故事背后的意义还是由人来完成的,而不是AI。
在AIGC从多模态和视频生成大模型出现突破以前,影视特效制作的数字化革命已经突破了梦工厂“怪物史瑞克定律” 描述的渲染复杂度每年翻倍的制作瓶颈。过去每年2-3部视效大片的模式,已经被逢春节、五一、十一和寒暑假档期的视效大片大战取代。每周三下午张导会到水晶石来看渲染效果,并把他的意见反馈给视效总监和码农们 “最难的部分,是让码农理解视效总监和张艺谋导演要表达的意思……” 何万青拿出他拍的那张传奇的250台联想台式机堆叠+工业风机散热的“08奥运背后的小米加步枪渲染集群” 。疫情加速了影视渲染上云的速度,同时让视效总监可以在云上审校工程师渲染的作品。云计算带给影视工业最大的改变,是改变了过去“量入为出”,根据手头算力限制来承接影视后期精渲的模式,万青谈到《流浪地球2》和追光宇宙几部电影在云上渲染的细节。AIGC创作工具的出现,是否更多是释放了个人创作者的创造力呢?还是会带来全流程的革命?这是我们这个论坛要探讨的问题。
举例来讲,中国传媒大学动画学院在2023年初产生了做一个武侠题材的水墨动画的想法,团队先是基于Stable Diffusion训练了一个水墨风格的模型,但是训练出来的效果却不尽如人意。“我们发现国画或者水墨是个变化特别大的一个领域,就是它不太能混搭。就像早期的,比如说宋朝的古画,跟明朝的古画,跟现代的国画,可以当成三个画种。笔墨的用法构图还有背后的思维差异太大。” 泛泛的国画素材训练出四不像的风格模型,逼迫他们不得不自己动手画上千张水墨作数据,用来训练模型理解想要追求的风格和笔触。统一风格之后却发现另一个致命的问题:前后两个镜头生成的人不是同一个人,串联起来会看不懂。于是,他们不得不进摄影棚,为每一位演员从各个角度拍上百张照片,用于训练该演员特有的LoRA模型。生成时则用对应该演员的触发词来控制人物的一致。计划三个月做完的项目,耗费了半年的时间。他们最终完成了一部三分钟的动画短片《龙门》。凭借尝试AI新技术的勇气以及成片的质量,《龙门》成功入围了十二个国际电影节,其中包括奥斯卡资格的电影节。
以上的例子,集中体现了当下应用AI工具作影视创作存在的核心问题。王雷导演用“技术负债”来描述他的感受。技术负债原指开发人员为了加速软件开发,在应该采用最佳方案时进行了妥协,改用了短期内能加速软件开发的方案,从而在未来给自己带来的额外开发负担。这里,他想表达的应该是,初代的版本给大家很大的期望,但实际使用中存在诸多问题,就像一笔债务一样,必须在未来偿还。这并非个别创作艺术家的吹毛求疵,即使是AI从业者也有类似的体会,看到用于宣传的作品之后的震惊感总会在试用之后产生巨大的落差。
年轻人永远是新工具新生产力和新流程的第一个拥抱者,在一所大学的人工智能课,请100名同学每人使用任何AI工具为同一则故事配插图或者做视频。刘嘉俊同学采用了先用Stable Diffusion生成关键帧——老妇人和小男孩在公园的早地上吃面包,然后将这张图作为参考图,使用Vidu生成一小段视频。他说,“有时要生成多次,才能找到一张图片的一部分可能符合预期,我就会把它截取出来作为参考图。”
刘本想要一两个小时完成的作业,最终用了一整天才有这样的效果。他对工具的选择完全是出于对Vidu的贡献者李崇轩老师的熟悉。其他工具也均提供了用参考图控制生成的方式,这显然比提示词在控制一致性上要有效的多。
在影视创作中,控制对于专业艺术工作者来说尤为重要。数字内容的制作一直是依赖图形学的创新,比如3D高斯飞溅在SIGGRAPH 2023提出之后,大量的工具集成了这一功能。只需要用手机围绕着一个东西拍一圈,大概三到五分钟的时间,算法就可以生成一个相当好的三维版本。AI技术的发展也的确带来显著的便利,比如,自动分解音轨的质量越来越高,以及自动插帧的工具在学习人的动作后可以理解身体的平衡,只要拽模型的一只手,它能自动把其他的肢体摆好。这些都颇受专业艺术创作者的喜爱。对他们来说,更加期待AI技术可以高可控性的帮助电影生产的各个环节:从制片管理到渲染引擎,从美术概念的开发到动画特效的制作,从视频调色到音频处理等等。全自动生成视频似乎更适合短视频和业余艺术创作者。
对于AI从业者来说,全自动视频生成有着更深的意义,它的终极目标是突破了图灵测试的电影测试。60多年前,图灵前瞻性的提出通过交互无法分辨人与AI的方式来测试智能的到来,目标是造人;今天,电影测试则是通过交互用AI创造出不穿帮的视频,目标是造世界。生成式人工智能在学习世界的联合概率分布后,才有机会采样生成一个新世界。这如同小说家在虚构一个故事和人物故事,电影公司拍摄出一部新电影。一部优秀的电影往往需要上千各司其职的专业人士共同努力几年时间,AI要多久才能够达到同样的水准?5年、10年还是60年,恐怕远远超出目前乐观的估计。所幸,新目标就在那里。
本论坛邀请探索AIGC应用在影视创作上的导演、学术前沿专家,以及来自产业界,服务于影视制作环节的技术工作者,共同交流生成是人工智能技术运用于影视创作所面临的机遇与挑战,并通过作品交流来思辨人工智能与影视工业的发展。