导 读
自从Sora发布以来,人工智能生成视频走上了行业风口。国内外一系列大模型进入公众视野,4月27日,在中关村论坛上,清华大学人工智能研究院发布的视频生成大模型——Vidu再一次将人工智能
生成
视频推上风口浪尖。虽然当前国内外有多个视频生成模型,抖音的Dreamina,海外的Pika、Gen-2、StreamingT2V、MagicVideor等多个视频生成大模型,但是与一年前大语言模型ChatGPT引发的业内“百模大战”和社会“狼来了”的恐慌相比,这一轮大模型爆发带来了行业和公众的应用热潮,呈现出新的发展态势。
最先进的人工智能模型的训练成本已经达到了前所未有的水平。根据斯坦福大学发布的《2024年人工智能指数报告》数据,OpenAI的GPT-4估计使用了价值 7800 万美元的计算资源进行训练,而谷歌的Gemini Ultra 的计算成本则高达 1.91 亿美元。相比之下,几年前发布的一些最先进的模型,即原始 Transformer 模型(2017 年)和谷歌的Bert模型(2019 年)训练成本分别约为 900 美元和 16 万美元(见图1)。
图1 部分AI大模型训练成本对比(单位:美元)
数据来源:斯坦福大学《2024年人工智能指数报告》
视频大模型更是一种“奢侈品”。
Sora上线以来,多个人工智能视频生成应用上线。国际上Pika、Gen-2、StreamingT2V、MagicVideo、Boximator先后上线,国内抖音Dreamina、清华大学Vidu模型上线。虽然国内主要人工智能企业相关的大模型研发也在紧锣密鼓地进行,但是Sora公布后并没有再现ChatGPT引发的“百模大战”场景。
当前人工智能生成视频的三种方式(见图2)。
一是AI generate(大模型)模式。
这种方式通过用户输入指令,辅以文字、图像、视频等数据,由人工智能大模型直接生成内容。典型的有文生视频Sora、Vidu,图片生成视频Pika、Runway等,视频生成视频MagicVideo等不同应用。生成过程仍然是一个“黑箱”,人类在完成算法和模型训练之后,视频大模型的推理过程摆脱创作者控制,生成的结果不可预测性较高。
二是AI Agent(智能体)模式。
智能体是一种可以控制模型的模型,它可以从人类指令直接生成视频内容。从这一点上看,智能体与大模型生成的过程类似。两者的核心区别是智能体生成过程不再是“黑箱”,人为因素对创作的影响增强。智能体作为一种操控基础模型的模型,具备长时间记忆,在创作者发出指令后,可以依据用户使用习惯、本地数据、专业数据集等,分解工作任务,并与各种基础模型的适配,寻找出实现指令的最佳方式,并完成指令。
三是AI Workflow(工作流)模式。
这种模式视频生产类似“接力”,创作者是核心,其各个阶段的创作能力因不同的大模型加持而提升。根据基础模型功能区分,这类视频创作分为以下几个阶段。1.语言生成阶段。这一阶段,使用大语言模型生成剧本、分镜头剧本以及描述相关文生图应用提示词(Prompt)。2.图片生成阶段。利用提示词输入文生图大模型,生成符合创作者意图的图片。3.图生视频阶段。将图片输入视频生成应用,设定图片运动轨迹,生成视频。4.使用辅助工具生成配音、旁白、字幕、音乐等元素。
AI Workflow是国内外专业创作者比较常用的方式。
从创作者的参与度来看,AI Workflow成本最低;创作者对创作过程的把控力度最强,用时也最长;生成视听内容的质量也最高。北美上映的首部人工智能创作电影作品《我们的终结者2重制版(Our T2 Remake)》、央视频《中国神话》都适用该方式创作。芒果TV发布的AIGC HUB,上海广播电视台的Scube(智媒魔方),成都市广播电视台的“知著AI智能应用平台”都属于工作流方式。
由智能体驱动的强交互应用将会逐步替代工作流成为主流。
智能体集纳各类基础大模型能力,为用户提供了多样化和高效生成式解决方案,在不同的应用场景中展现出了强大的能力,从基础的文本解析到复杂的视觉转换,再到视频内容的延伸和编辑,为用户打造了一个全面的生成服务平台。科技界认为,如果大模型是人工智能的Iphone,那么智能体将是未来的应用商店。2023年下半年,多个智能体框架产生,例如OpenAI 开发了AutoGPT、谷歌开发了AutogenStudio、字节跳动推出Coze,阿里达摩院开发了Aesop Agent等。除此之外,大量的人工智能网上社区,例如HuggieFace、Github、魔搭社区等逐渐向智能体方向发展。
美国触及世界模型建构,处于全球领导地位,其他国家仍在基础开发领域追赶。美国拥有全球最多的原创大模型研发机构,在2023年全球发布的知名大模型中,有61个来自美国,约占全球的58%,远远超过欧盟的21个和中国15个模型的水平(见图3)。美国头部企业创新不断。除OpenAI 外,谷歌和Meta都是全球大模型重要玩家,成熟的模型和算法都来美国。
图3 2023年全球发布的知名大模型排名
数据来源:斯坦福大学《2024年人工智能指数报告》
同时资本加快向美国聚拢。2023年,人工智能领域的投资中有672亿美元投向美国,约占全球投资总额(931.2亿美元)的72%,几乎是位于第二位的中国(72亿美元)的8.7倍(见图4)。
图4 2023年全球人工智能领域投资的走向(单位:10亿美元)
数据来源:斯坦福大学《2024年人工智能指数报告》
与此同时,自2022年以来,中国和包括英国在内的欧盟的私人人工智能投资分别下降了44.2%和14.1%,而美国在同一时期内经历了22.1%的显著增长。