专栏名称: 国家广电智库
“国家广电智库”由国家广播电视总局发展研究中心主办,致力于及时深入地解读广电行业政策,发布领导讲话、行业新闻、发展规划、广电法规、研究报告等,对广电创新、体制机制改革、媒体融合发展、新兴媒体建设等重要课题给予重点关注。
目录
相关文章推荐
BetterRead  ·  瞧,这个人讲信仰 ·  昨天  
英文悦读  ·  马斯克给自家大模型取名Grok,妙在哪里? ·  3 天前  
英文悦读  ·  怎样才能有效提升口语水平? ·  4 天前  
每日英语  ·  中国文化 | 打树花(Dashuhua) ·  2 天前  
恶魔奶爸  ·  美容院,毒害了多少中国女人! ·  3 天前  
51好读  ›  专栏  ›  国家广电智库

【观察】视频领域生成式人工智能发展新态势

国家广电智库  · 公众号  ·  · 2024-05-10 18:32

正文

导  读


自从Sora发布以来,人工智能生成视频走上了行业风口。国内外一系列大模型进入公众视野,4月27日,在中关村论坛上,清华大学人工智能研究院发布的视频生成大模型——Vidu再一次将人工智能 生成 视频推上风口浪尖。虽然当前国内外有多个视频生成模型,抖音的Dreamina,海外的Pika、Gen-2、StreamingT2V、MagicVideor等多个视频生成大模型,但是与一年前大语言模型ChatGPT引发的业内“百模大战”和社会“狼来了”的恐慌相比,这一轮大模型爆发带来了行业和公众的应用热潮,呈现出新的发展态势。



一、 视频生成走上新风口,

但大模型成本高企


最先进的人工智能模型的训练成本已经达到了前所未有的水平。根据斯坦福大学发布的《2024年人工智能指数报告》数据,OpenAI的GPT-4估计使用了价值 7800 万美元的计算资源进行训练,而谷歌的Gemini Ultra 的计算成本则高达 1.91 亿美元。相比之下,几年前发布的一些最先进的模型,即原始 Transformer 模型(2017 年)和谷歌的Bert模型(2019 年)训练成本分别约为 900 美元和 16 万美元(见图1)。


图1 部分AI大模型训练成本对比(单位:美元)

数据来源:斯坦福大学《2024年人工智能指数报告》


视频大模型更是一种“奢侈品”。 Sora上线以来,多个人工智能视频生成应用上线。国际上Pika、Gen-2、StreamingT2V、MagicVideo、Boximator先后上线,国内抖音Dreamina、清华大学Vidu模型上线。虽然国内主要人工智能企业相关的大模型研发也在紧锣密鼓地进行,但是Sora公布后并没有再现ChatGPT引发的“百模大战”场景。


二、生成视频的主流方式

从AI工作流转向智能体


当前人工智能生成视频的三种方式(见图2)。 一是AI generate(大模型)模式。 这种方式通过用户输入指令,辅以文字、图像、视频等数据,由人工智能大模型直接生成内容。典型的有文生视频Sora、Vidu,图片生成视频Pika、Runway等,视频生成视频MagicVideo等不同应用。生成过程仍然是一个“黑箱”,人类在完成算法和模型训练之后,视频大模型的推理过程摆脱创作者控制,生成的结果不可预测性较高。


图2 人工智能生成视频的三种主要方式


二是AI Agent(智能体)模式。 智能体是一种可以控制模型的模型,它可以从人类指令直接生成视频内容。从这一点上看,智能体与大模型生成的过程类似。两者的核心区别是智能体生成过程不再是“黑箱”,人为因素对创作的影响增强。智能体作为一种操控基础模型的模型,具备长时间记忆,在创作者发出指令后,可以依据用户使用习惯、本地数据、专业数据集等,分解工作任务,并与各种基础模型的适配,寻找出实现指令的最佳方式,并完成指令。

三是AI Workflow(工作流)模式。 这种模式视频生产类似“接力”,创作者是核心,其各个阶段的创作能力因不同的大模型加持而提升。根据基础模型功能区分,这类视频创作分为以下几个阶段。1.语言生成阶段。这一阶段,使用大语言模型生成剧本、分镜头剧本以及描述相关文生图应用提示词(Prompt)。2.图片生成阶段。利用提示词输入文生图大模型,生成符合创作者意图的图片。3.图生视频阶段。将图片输入视频生成应用,设定图片运动轨迹,生成视频。4.使用辅助工具生成配音、旁白、字幕、音乐等元素。

AI Workflow是国内外专业创作者比较常用的方式。 从创作者的参与度来看,AI Workflow成本最低;创作者对创作过程的把控力度最强,用时也最长;生成视听内容的质量也最高。北美上映的首部人工智能创作电影作品《我们的终结者2重制版(Our T2 Remake)》、央视频《中国神话》都适用该方式创作。芒果TV发布的AIGC HUB,上海广播电视台的Scube(智媒魔方),成都市广播电视台的“知著AI智能应用平台”都属于工作流方式。

由智能体驱动的强交互应用将会逐步替代工作流成为主流。 智能体集纳各类基础大模型能力,为用户提供了多样化和高效生成式解决方案,在不同的应用场景中展现出了强大的能力,从基础的文本解析到复杂的视觉转换,再到视频内容的延伸和编辑,为用户打造了一个全面的生成服务平台。科技界认为,如果大模型是人工智能的Iphone,那么智能体将是未来的应用商店。2023年下半年,多个智能体框架产生,例如OpenAI 开发了AutoGPT、谷歌开发了AutogenStudio、字节跳动推出Coze,阿里达摩院开发了Aesop Agent等。除此之外,大量的人工智能网上社区,例如HuggieFace、Github、魔搭社区等逐渐向智能体方向发展。


三、人工智能“技术鸿沟”呈扩大化趋势


美国触及世界模型建构,处于全球领导地位,其他国家仍在基础开发领域追赶。美国拥有全球最多的原创大模型研发机构,在2023年全球发布的知名大模型中,有61个来自美国,约占全球的58%,远远超过欧盟的21个和中国15个模型的水平(见图3)。美国头部企业创新不断。除OpenAI 外,谷歌和Meta都是全球大模型重要玩家,成熟的模型和算法都来美国。


图3 2023年全球发布的知名大模型排名

数据来源:斯坦福大学《2024年人工智能指数报告》


同时资本加快向美国聚拢。2023年,人工智能领域的投资中有672亿美元投向美国,约占全球投资总额(931.2亿美元)的72%,几乎是位于第二位的中国(72亿美元)的8.7倍(见图4)。


图4 2023年全球人工智能领域投资的走向(单位:10亿美元)

数据来源:斯坦福大学《2024年人工智能指数报告》


与此同时,自2022年以来,中国和包括英国在内的欧盟的私人人工智能投资分别下降了44.2%和14.1%,而美国在同一时期内经历了22.1%的显著增长。







请到「今天看啥」查看全文