专栏名称: 国家广电智库

“国家广电智库”由国家广播电视总局发展研究中心主办，致力于及时深入地解读广电行业政策，发布领导讲话、行业新闻、发展规划、广电法规、研究报告等，对广电创新、体制机制改革、媒体融合发展、新兴媒体建设等重要课题给予重点关注。

【观察】视频领域生成式人工智能发展新态势

国家广电智库 · 公众号 · · 2024-05-10 18:32

正文

导读

自从Sora发布以来，人工智能生成视频走上了行业风口。国内外一系列大模型进入公众视野，4月27日，在中关村论坛上，清华大学人工智能研究院发布的视频生成大模型——Vidu再一次将人工智能生成视频推上风口浪尖。虽然当前国内外有多个视频生成模型，抖音的Dreamina，海外的Pika、Gen-2、StreamingT2V、MagicVideor等多个视频生成大模型，但是与一年前大语言模型ChatGPT引发的业内“百模大战”和社会“狼来了”的恐慌相比，这一轮大模型爆发带来了行业和公众的应用热潮，呈现出新的发展态势。

一、视频生成走上新风口，

但大模型成本高企

最先进的人工智能模型的训练成本已经达到了前所未有的水平。根据斯坦福大学发布的《2024年人工智能指数报告》数据，OpenAI的GPT-4估计使用了价值 7800 万美元的计算资源进行训练，而谷歌的Gemini Ultra 的计算成本则高达 1.91 亿美元。相比之下，几年前发布的一些最先进的模型，即原始 Transformer 模型（2017 年）和谷歌的Bert模型（2019 年）训练成本分别约为 900 美元和 16 万美元（见图1）。

图1 部分AI大模型训练成本对比（单位：美元）

数据来源：斯坦福大学《2024年人工智能指数报告》

视频大模型更是一种“奢侈品”。 Sora上线以来，多个人工智能视频生成应用上线。国际上Pika、Gen-2、StreamingT2V、MagicVideo、Boximator先后上线，国内抖音Dreamina、清华大学Vidu模型上线。虽然国内主要人工智能企业相关的大模型研发也在紧锣密鼓地进行，但是Sora公布后并没有再现ChatGPT引发的“百模大战”场景。

二、生成视频的主流方式

从AI工作流转向智能体

当前人工智能生成视频的三种方式（见图2）。 一是AI generate（大模型）模式。 这种方式通过用户输入指令，辅以文字、图像、视频等数据，由人工智能大模型直接生成内容。典型的有文生视频Sora、Vidu，图片生成视频Pika、Runway等，视频生成视频MagicVideo等不同应用。生成过程仍然是一个“黑箱”，人类在完成算法和模型训练之后，视频大模型的推理过程摆脱创作者控制，生成的结果不可预测性较高。

图2 人工智能生成视频的三种主要方式

二是AI Agent（智能体）模式。 智能体是一种可以控制模型的模型，它可以从人类指令直接生成视频内容。从这一点上看，智能体与大模型生成的过程类似。两者的核心区别是智能体生成过程不再是“黑箱”，人为因素对创作的影响增强。智能体作为一种操控基础模型的模型，具备长时间记忆，在创作者发出指令后，可以依据用户使用习惯、本地数据、专业数据集等，分解工作任务，并与各种基础模型的适配，寻找出实现指令的最佳方式，并完成指令。

三是AI Workflow（工作流）模式。 这种模式视频生产类似“接力”，创作者是核心，其各个阶段的创作能力因不同的大模型加持而提升。根据基础模型功能区分，这类视频创作分为以下几个阶段。1.语言生成阶段。这一阶段，使用大语言模型生成剧本、分镜头剧本以及描述相关文生图应用提示词（Prompt）。2.图片生成阶段。利用提示词输入文生图大模型，生成符合创作者意图的图片。3.图生视频阶段。将图片输入视频生成应用，设定图片运动轨迹，生成视频。4.使用辅助工具生成配音、旁白、字幕、音乐等元素。

AI Workflow是国内外专业创作者比较常用的方式。 从创作者的参与度来看，AI Workflow成本最低；创作者对创作过程的把控力度最强，用时也最长；生成视听内容的质量也最高。北美上映的首部人工智能创作电影作品《我们的终结者2重制版（Our T2 Remake）》、央视频《中国神话》都适用该方式创作。芒果TV发布的AIGC HUB，上海广播电视台的Scube（智媒魔方），成都市广播电视台的“知著AI智能应用平台”都属于工作流方式。

由智能体驱动的强交互应用将会逐步替代工作流成为主流。 智能体集纳各类基础大模型能力，为用户提供了多样化和高效生成式解决方案，在不同的应用场景中展现出了强大的能力，从基础的文本解析到复杂的视觉转换，再到视频内容的延伸和编辑，为用户打造了一个全面的生成服务平台。科技界认为，如果大模型是人工智能的Iphone，那么智能体将是未来的应用商店。2023年下半年，多个智能体框架产生，例如OpenAI 开发了AutoGPT、谷歌开发了AutogenStudio、字节跳动推出Coze，阿里达摩院开发了Aesop Agent等。除此之外，大量的人工智能网上社区，例如HuggieFace、Github、魔搭社区等逐渐向智能体方向发展。

三、人工智能“技术鸿沟”呈扩大化趋势

美国触及世界模型建构，处于全球领导地位，其他国家仍在基础开发领域追赶。美国拥有全球最多的原创大模型研发机构，在2023年全球发布的知名大模型中，有61个来自美国，约占全球的58%，远远超过欧盟的21个和中国15个模型的水平（见图3）。美国头部企业创新不断。除OpenAI 外，谷歌和Meta都是全球大模型重要玩家，成熟的模型和算法都来美国。

图3 2023年全球发布的知名大模型排名

数据来源：斯坦福大学《2024年人工智能指数报告》

同时资本加快向美国聚拢。2023年，人工智能领域的投资中有672亿美元投向美国，约占全球投资总额（931.2亿美元）的72%，几乎是位于第二位的中国（72亿美元）的8.7倍（见图4）。

图4 2023年全球人工智能领域投资的走向（单位：10亿美元）

数据来源：斯坦福大学《2024年人工智能指数报告》

与此同时，自2022年以来，中国和包括英国在内的欧盟的私人人工智能投资分别下降了44.2%和14.1%，而美国在同一时期内经历了22.1%的显著增长。

【观察】视频领域生成式人工智能发展新态势

正文

请到「今天看啥」查看全文