事件:当地时间2月16日,OpenAI发布首款视频生成模型Sora。
与以往的视频生成模型不同,Sora的生成效果惊艳,生成时间可长达一分钟,同时支持不同分辨率、时长、宽高比。
Sora模型采用了扩散模型+Transformer的架构,基础技术原理上较之前并未有实质性的突破。
典型应用ChatGPT其中的“T”则表示Transformer架构,依靠海量数据及算力的支持,ChatGPT表现出较强的语义分析能力、数字逻辑能力等。而扩散模型自2015年被提出,至今已成为文生图领域的核心模型之一,Stable Diffusion与MidJourney等一些领先的图像生成应用的底层模型均是基于扩散模型所构建。实际从2023年起,学术界就已经陆续有基于Transformer架构的扩散模型用于图像和视频生成的探索。因此,我们倾向认为,
在底层基础技术原理上,Sora并未有实质性的突破,或应更多理解为类似于ChatGPT,基于同样的技术原理,在暴力美学下,又一次重要“量变”。
相较于语言类大模型,视频类大模型的推理或需要更大的算力支持。
视频的组织方式是由一系列的数据帧组成,每一帧数据又是由成千上万的像素点组成。因此,生成包含同样信息量的数据时,视频往往比文字的数据量更大。在视频类大模型所需处理的数据量更大、算法更复杂的情况下,其应用和推理阶段对算力的消耗也更大。
随着视觉类大模型开发量和应用量的增加,AI芯片、加速卡和网络设备的需求有望快速增长。
数据处理与存储方式是重要创新,不同处理方式可能带来AIGC效果的跃升。
Sora创新性的采用了“视频压缩网络”、“时空补丁”的方法,将不同分辨率、不同宽高比等所有类型的视频数据“标准化”处理,并且保留了原始数据的细节,这是Sora能支持多样化的视频格式,且实现视频效果明显跃升的基础。
启示主要有二,一是高质量的训练数据仍是AIGC类大模型成功的关键;二是核心人才是AIGC推动的另一大关键,这两点最终或将使得头部厂商强者愈强。
映射角度,对A股相关AIGC应用公司而言,主题意义明显大于实质意义;继续跟踪观察Sora的商业化进展,尤其如何解决版权合规、内容伦理等方面的挑战。
短期内从投资维度看,主题意义更为显著。需要看到的是,Sora的商业化进程仍需观察。一方面,技术文档提到的当前局限性需逐步解决;另一方面,版权合规、内容伦理等课题仍是AIGC类应用需要克服的挑战,文生视频也不例外。