广发如是说｜关于Sora

广发证券研究 · 公众号 · · 2024-02-20 07:10

正文

【广发如是说】系列围绕最新市场热点，传递广发研究观点。本期关于：Sora。

2月16日，OpenAI发布其首个AI文生视频大模型Sora。相比现有文生视频模型，Sora的生成效果惊艳，生成时间可长达一分钟，同时支持不同分辨率、时长、宽高比，Sora在多个维度实现模型能力大幅提升。

如何认识Sora在人工智能领域的重要意义？如何把握Sora催化下的市场投资机会？广发传媒、计算机、通信团队带来深度解读。

报告目录

传媒 | OpenAI发布Sora，文生视频能力跃升

传媒 | Sora文生视频能力亮眼，建议增配传媒互联网

计算机 | Sora发布，突破与局限性同在

通信 | 海外AI巨头接连推出新模型，持续关注产业链投资机会

核心观点

传媒：OpenAI发布Sora，文生视频能力跃升

事件：2月16日，OpenAI发布其首个AI文生视频大模型Sora。

底层技术层面，Sora将视频统一编码为视觉块后进行训练，令视频生成大模型具备涌现能力。 Sora是采用Transformer架构的Diffusion模型。OpenAI将视觉数据分解为视觉块（Visual patches）后训练模型，类似大语言模型中的Tokens，再通过解码器还原成视频输出，令Sora可以使用大规模、多样化的视频进行训练，涌现能力出现后视频生成能力显著提升。语言理解方面， OpenAI开发模型为视频标注文字说明，再将文字标注和视频用于训练，让Sora能准确按用户提示生成视频。

模型功能层面，Sora在视频生成和编辑、语言理解、现实和虚拟世界模拟等方面实现SOTA。 （1）大幅提升视频生成时长。Sora可生成最长达60秒的视频，远超Runway和Pika等现有工具。（2）实现“单视频多角度”。Sora可在同一视频中为角色生成不同角度镜头。（3）可灵活调整视频的参数。Sora能够生成不同尺寸的视频，也能编辑图片或视频，如制作连续循环视频、图片动态化、延长视频时间、流畅拼接视频等。（4）除了视频生成外，图像生成能力同样出色。图像最大分辨率达到2048x2048。（5）现实世界仿真和虚拟世界模拟。Sora理解现实世界物理规律，例如角色在被遮挡后仍能持续存在、人在吃汉堡后留下咬痕。而诸如游戏的数字世界，例如Sora可以在控制“我的世界”（Minecraft）玩家的同时，高保真地渲染游戏世界及其动态。

投资建议：相比现有文生视频模型，Sora在多个维度实现模型能力大幅提升。 B端来看，游戏、影视、广告营销等内容行业将受益于视频生成能力提升带来的创意落地和输出效率跃升。C端来看，将降低内容创作者的视频制作门槛，推动视频内容供给繁荣。

建议关注： （1）赋能影视/动画：赋能影视和动画的内容创作，如应用于影视制作和宣发等环节。（2）赋能游戏：有望进一步将游戏内容精品化，提升优质游戏产能。（3）赋能视频平台：内容生产者有望提高内容生产质量和效率。（4）赋能广告营销：赋能视频广告内容的生成。（5）拥有优质网文/图片/视频版权的公司。（6）有AI视频技术储备的公司。

风险提示 ：模型迭代效果不及预期、商业化不及预期、内容伦理风险。

相关报告 ：《传媒行业：OpenAI发布Sora，文生视频能力跃升》 2024-02-17；作者：旷实 S0260517030002；叶敏婷 S0260519110001

传媒：Sora文生视频能力亮眼，建议增配传媒互联网

Open AI发布文生视频模型Sora，核心亮点在于： （1）60s时长，基本等同于短视频普遍时长。（2）模拟真实世界，单视频多角度呈现，并保持长期一致性和对象持久性。（3）视频连接、拓展生成视频、视频剪辑等功能。（4）支持输入图片、视频生成视频；也可以文生图像。我们认为Sora一旦开放，有望提升视频制作和剪辑的效率。建议关注其正式推出后功能迭代和内容公司生产“flow”流程的结合度；长期看，AI 视频技术迭代优化后，预计会对内容生产方式和视频生产的工业流程及组织架构产生较大影响，积极拥抱新技术的相关公司方能胜出。

投资建议： 考虑Sora的技术赋能以及后续文生视频工具功能和商业化的进一步成熟，对短视频、影视/动画、营销、教育、IP、游戏等行业都可能产生变革，有望迎来板块性的估值修复。

建议关注：互联网&视频： Sora或更快带来短视频内容生产体系变革，长视频生产模式短期较难被颠覆，但有机会加速生产效率。 （1）短视频： Sora初步具备生产1分钟内容能力，并可以剪辑多个视频，有望逐步替代部分人工创作；或迭代出新的商业模式，如电商、广告等业态的智能化内容生成替代，或加速短视频平台、商家、MCN的变现效率。 （2）长视频： 短期赋能PGC创意生成、提高内容分发效率和降低内容宣发成本；长视频仍需较长故事线支撑和艺术家审美赋能，在真人出演类型中的应用可能较为有限，但对科幻、动画片等的生产提效或更为明确。 影视/动画/IP： 受益较多的标的是动画、特效占比高的内容公司。 游戏： Sora强化文生视频能力，关注买量素材降本；长期有望提升游戏生产效率、内容丰富度并增强用户体验，进一步提升用户付费意愿。关注具备较强发行能力的游戏公司；关注具备优质内容储备的公司。 营销： 文生视频赋能下，整合营销公司内部内容生产效率有望得到提升；部分营销公司也在打磨面向中小广告主的AI营销产品，有望助力相关产品商业化落地及ARPU值提升。 教育： 个性化AI教学内容输出形式有望升维到视频。同时关注在手版权丰富的公司。

风险提示 ：模型迭代效果不及预期、商业化不及预期、内容伦理风险。

相关报告 ：《传媒行业：Sora文生视频能力亮眼，建议增配传媒互联网》 2024-02-18；作者：旷实 S0260517030002；叶敏婷 S0260519110001；周喆 S0260523050003；徐呈隽 S0260519110002；章驰 S0260523080001

计算机：Sora发布，突破与局限性同在

事件：当地时间2月16日，OpenAI发布首款视频生成模型Sora。 与以往的视频生成模型不同，Sora的生成效果惊艳，生成时间可长达一分钟，同时支持不同分辨率、时长、宽高比。

Sora模型采用了扩散模型+Transformer的架构，基础技术原理上较之前并未有实质性的突破。 典型应用ChatGPT其中的“T”则表示Transformer架构，依靠海量数据及算力的支持，ChatGPT表现出较强的语义分析能力、数字逻辑能力等。而扩散模型自2015年被提出，至今已成为文生图领域的核心模型之一，Stable Diffusion与MidJourney等一些领先的图像生成应用的底层模型均是基于扩散模型所构建。实际从2023年起，学术界就已经陆续有基于Transformer架构的扩散模型用于图像和视频生成的探索。因此，我们倾向认为， 在底层基础技术原理上，Sora并未有实质性的突破，或应更多理解为类似于ChatGPT，基于同样的技术原理，在暴力美学下，又一次重要“量变”。

相较于语言类大模型，视频类大模型的推理或需要更大的算力支持。 视频的组织方式是由一系列的数据帧组成，每一帧数据又是由成千上万的像素点组成。因此，生成包含同样信息量的数据时，视频往往比文字的数据量更大。在视频类大模型所需处理的数据量更大、算法更复杂的情况下，其应用和推理阶段对算力的消耗也更大。 随着视觉类大模型开发量和应用量的增加，AI芯片、加速卡和网络设备的需求有望快速增长。

数据处理与存储方式是重要创新，不同处理方式可能带来AIGC效果的跃升。 Sora创新性的采用了“视频压缩网络”、“时空补丁”的方法，将不同分辨率、不同宽高比等所有类型的视频数据“标准化”处理，并且保留了原始数据的细节，这是Sora能支持多样化的视频格式，且实现视频效果明显跃升的基础。 启示主要有二，一是高质量的训练数据仍是AIGC类大模型成功的关键；二是核心人才是AIGC推动的另一大关键，这两点最终或将使得头部厂商强者愈强。

映射角度，对A股相关AIGC应用公司而言，主题意义明显大于实质意义；继续跟踪观察Sora的商业化进展，尤其如何解决版权合规、内容伦理等方面的挑战。短期内从投资维度看，主题意义更为显著。需要看到的是，Sora的商业化进程仍需观察。一方面，技术文档提到的当前局限性需逐步解决；另一方面，版权合规、内容伦理等课题仍是AIGC类应用需要克服的挑战，文生视频也不例外。

风险提示 ：技术迭代进展的不确定性；AIGC商业化进展不及预期；相关公司业绩兑现节奏的不确定性。

相关报告 ：《计算机行业：Sora发布，突破与局限性同在》 2024-02-18；作者：刘雪峰 S0260514030002；雷棠棣 S0260522080006

广发如是说｜关于Sora

正文

请到「今天看啥」查看全文