视频生成是大模型重要的多模态能力,OpenAI发布Sora后,奠定了视频生成的重要技术路线DiT,并且将生成视频的时长提高到分钟级别,成为行业转折点。截至24年10月,Sora一直未发布公测版。与此同时,国内模型厂商率先实现了类Sora落地,MiniMax是其中佼佼者。我们认为,国内视频生成赛道在应用落地节奏上整体更为领先,技术上也并没有太大差距。MiniMax等公司不断迭代大模型技术和产品形态,推动应用落地更为可行。这种推进作用有望在算力和应用两方面带来相关投资机会。
点击小程序查看研报原文
视频生成是大模型重要的多模态能力。OpenAI发布Sora后,奠定了视频生成的重要技术路线DiT,并且将生成视频的时长提高到分钟级别,成为行业转折点。截至24年10月,Sora一直未发布公测版。与此同时,国内外其他模型厂商逐步落地类似Sora的产品。其中,国内大模型初创公司MiniMax于8月上线视频生成模型,效果惊艳,使其产品月访问量增速超800%。我们认为,MiniMax等公司持续优化视频生成效果,有望推动AIGC在各行业的加速落地,加快AI应用迭代;同时由于视频生成所需算力远大于文本,有望进一步提高AI算力需求。关注国产算力链及AI应用。
Sora DiT技术成为视频生成转折点,国内外厂商率先实现产品落地
24年2月,OpenAI发布了视频生成模型Sora,采用了Diffusion Transformer(DiT)技术路径,通过文本提示的方式,能够生成长达1min的高质量视频,且其指令跟随和一致性相比之前Diffusion技术的产品有显著改善。但是截至24年10月,Sora公开版一直未发布。另一方面,国内外其他厂商率先实现了类Sora产品落地,包括国内MiniMax、智谱、字节、快手、爱诗科技、生数科技,海外Runway、Pika、Luma。目前由于算力和技术等因素,视频生成时长一般在10s以内。
MiniMax视频生成模型测评榜Top 1,助力产品月增速800%
24年8月底,MiniMax发布视频生成模型并整合到海螺AI产品中。据第三方榜单VBench统计数据,在VBench-long测评中,MiniMax视频模型总分排行Top 1,并且在空间关系、多目标、图像质量、对象分类、色彩、时间风格等细节指标上Top 1。从实测结果看,对于同样的提示词和默认配置下,对比其他初创公司和大厂的视频生成模型,MiniMax生成的结果一致性、指令跟随性较好,整体用户观感优秀。在视频模型技术加持下,据AI产品榜(web)数据,截至24年9月,海螺AI网页版月访问量增速超800%。
模型和产品双线布局,实现技术到应用的有效PMF
MiniMax视频生成效果优秀,得益于模型技术和产品经验积累。模型方面,MiniMax于23年10月abab 5.5第二代首次实现MoE,2024年4月推出万亿参数MoE abab 6.5和6.5s模型。下一代多模态模型abab 7将采用MoE + Linear Attention,支持更高效的模型训练和更快的响应速度。产品线方面,C端瞄准内容消费/专业助手赛道,形成星野&Talkie/海螺AI产品矩阵。据Sensor Tower数据,2024年1-6月,Talkie月活用户1100万。我们认为,在领先的大模型技术加持下,叠加优秀的PMF和产品运营能力,MiniMax已经在AI应用中占据有力赛道,并有望继续拓展市场,带动行业进步。
风险提示:宏观经济波动,技术进步不及预期,中美竞争加剧。本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
区别于市场的观点
国内在视频生成模型应用落地层面领先
市场认为,海外视频生成赛道起步较早、技术领先,例如Runway较早切入了视频生成赛道,具有先发优势;OpenAI Sora对DiT技术的成功改进和应用,大大加强了生成视频的时长、一致性、连续性等性能表现。而国内的视频生成赛道,产品切入较晚,导致技术落后较多。
我们认为,国内视频生成赛道在应用落地节奏上整体更为领先,技术上也并没有太大差距。23年底,国内背景的初创公司Pika Labs发布了Pika 1.0,很快追上了Runway的Gen系列,并且支持选定编辑区域并根据文本提示词修改等特色功能。截至24年10月,OpenAI的Sora仍然未发布,国内则陆续发布了爱诗科技PixVerse、生数科技Vidu、字节跳动即梦、快手可灵、智谱清影和MiniMax海螺AI视频生成等成熟产品,且大多数已经无需排队申请,可以立即使用,在落地上显著快于OpenAI的Sora。此外,OpenAI Sora的DiT技术本身也是公开的、非OpenAI原创的技术,OpenAI只是做了优化改进和更多的算力投入,因此国内厂商在技术跟随上难度并不大。
MiniMax不仅有成熟的内容消费产品,基础模型能力也是国内领先
市场认为,MiniMax是产品公司,不是通用基础模型厂商,基础模型能力并不强。另外,在产品上,MiniMax主要聚焦内容消费赛道,代表产品是星野和Talkie,在其他赛道没有太多突破。
我们认为,MiniMax产品的成功,最本质的还是底层基础模型的成功。MiniMax是国内较早嗅探到MoE(混合专家)将成为主流架构的厂商,23年6月abab 5.5版本开始尝试MoE(5.5的第一版是Dense稠密架构)。23年10月abab 5.5第二代发布,正式转为MoE。随后abab系列不断更新,于2024年4月推出万亿参数MoE abab 6.5和6.5s模型。在下一代abab7模型中,Linear Attention(线性注意力)成为MiniMax下一个技术重点,将支持更高效的模型训练和更快的响应速度,进一步缩减训练和推理成本。相比于通用Transformer架构,在128K的序列长度下,Linear Attention架构可减少部分成本。此外,从token调用量上看,日处理文本token数达3万亿,在国内模型中属于领先。
产品上,MiniMax不光聚焦内容消费赛道,在生产力赛道同样布局了和ChatGPT、智谱清言、月之暗面Kimi类似的AI智能助手——海螺AI,并且依托abab底层模型的技术,提供较强的推理性能。此外,MiniMax于24年8月发布了视频模型abab-video-1并集成在海螺AI中,由于出色的视频生成表现,截至2024年9月,海螺AI网页版月访问量增速超800%。我们认为,MiniMax在成为优秀的产品公司之前,首先是领先的基础模型厂商,AI产品只是大模型能力的展示窗口,底层技术才是模型好用的本质。
OpenAI Sora是视频生成技术转折点,国内厂商率先落地实现
OpenAI Sora结合Diffusion和Transformer技术,成为视频生成行业转折点。24年2月16日,OpenAI发布了视频生成模型Sora,采用了Diffusion Transformer(DiT)技术路径,通过文本提示的方式,能够生成长达1min的高质量视频,且其指令跟随和一致性相比之前Diffusion技术的产品有显著改善,成为视频生成技术关键的转折点。Sora之后,国内外视频生成厂商部分开始将技术重心从Diffusion转移到DiT。DiT架构的本质在于将传统Diffusion模型(LDM,Latent Diffusion Model)中的U-Net替换成了Transformer,优势在于吸收了Transformer的易扩展性,使得DiT更容易实现Scaling Law。而且ChatGPT之后,学术界和工程界已经在大模型领域积累了足够深刻的Transformer技术优化方法。
国内模型厂商率先实现了Sora落地,MiniMax是其中佼佼者
Sora发布后一直没有可用版本,国内外其他厂商则率先实现了类Sora产品落地。Sora发布之前,主要的视频生成产品是海外Runway Gen系列和Pika系列,以及国内爱诗科技Pixverse系列。Sora发布后,各初创公司和大厂在视频生成赛道加速布局,国内厂商进展显著。初创公司方面,大模型公司MiniMax和智谱在AI助手中嵌入了视频生成功能,且发布即可用,无需排队等待。大厂方面,字节即梦和快手可灵先后上线视频生成产品。从视频生成时长看,已落地产品一般在10s以内,和Sora比尚有差距。功能上,基本都支持文/图生成视频,不同产品的细节特色功能上略有差异。价格上,目前MiniMax可以免费使用全量功能,而其他产品想要使用更多功能需要按月订阅或者购买点数。此外,MiniMax还支持提示词自动优化,降低用户使用门槛。
MiniMax视频模型助力产品月访问量增速超800%
视频模型abab-video-1发布1个月,海螺AI网页版月访问量增速超800%。据AI产品榜(web)数据,截至2024年9月,海螺AI网页版月访问量增速超800%,在全球增速榜、国内增速榜双榜单TOP 1。访问量快速增长的主要原因是视频模型abab-video-1在8月底登陆海螺AI后,产品用户数迅速增多。10月10日,海螺视频在文生视频基础上,新增了“图生视频”创作功能。在VBench(视频生成模型评测框架)的第三方独立测试结果中综合排名前列,在画面质量、连贯性、流畅性等多维度均处于领先地位。据Similarweb数据,截至10月,海螺AI视频的平均访问时长为可灵的2倍,Runway的3倍,访问量远超可灵、Runway、Pika。
MiniMax视频生成使用体验领先,第三方榜单中总分Top 1。据第三方榜单VBench统计数据,在VBench-long(类似Sora的长视频生成测评)中,MiniMax视频模型总分排行Top 1。在空间关系、多目标、图像质量、对象分类、色彩、时间风格等细节指标上Top 1,在一致性上Top 2。从实测结果看,对于同样的提示词和默认配置下,对比其他初创公司和大厂的视频生成模型,MiniMax生成的结果一致性、指令跟随性较好,整体用户观感优秀。
MiniMax:视频生成效果优秀,得益于模型和产品双线布局
MiniMax模型和产品双线发展,完整覆盖主流多模态,实现技术到应用的有效PMF。MiniMax成立于21年12月,创始人闫俊杰为前商汤科技副总裁、通用智能技术负责人,曾担任商汤研究院副院长,负责搭建深度学习的工具链和底层算法,深度参与建设人脸识别和智慧城市相关的技术体系。MiniMax成立之后,迅速形成了文本到视觉、文本到语音、文本到文本三大模态的基础模型架构,是国内第一家同时拥有三个模态大模型能力的创业公司,开始践行“Intelligence with Everyone”愿景。
模型线方面,押注MoE+线性注意力,大大提高模型训练和推理效率。MiniMax是国内较早切入MoE(混合专家)模型架构的厂商,23年6月abab 5.5版本开始尝试MoE(5.5的第一版是Dense稠密架构)。23年10月abab 5.5第二代发布,正式转为MoE。随后abab系列不断更新,于2024年4月推出万亿参数MoE abab 6.5和6.5s模型。8月视频模型、音乐模型和更新的语音模型上线,多模态模型矩阵基本完善。据MiniMax官方信息,下一代模型abab 7将在未来数周内发布,为MoE + Linear Attention(线性注意力)的多模态模型。abab 7将支持更高效的模型训练和更快的响应速度,进一步缩减训练和推理成本。相比于通用Transformer架构,在128K的序列长度下,新架构可减少60%以上成本,且优势随着序列长度边长而扩大。
产品线方面,C端瞄准内容消费/专业助手赛道,面向娱乐/生产力不同用户群。1)初代产品Glow进行小范围探索后,逐渐演化成海外Talkie、国内星野的内容消费型Killer App。据Sensor Tower数据,2024年1-6月,美国地区下载量最高的App中,MiniMax Talkie排名第四,每月活跃用户1100万,其中一半以上在美国。此赛道排名第一的Character.AI月活用户约1700万。2)基于大模型能力,推出AI智能助手初代产品Inspo/问卷,随后经历了海螺问问等形态迭代,最终向终端用户呈现海螺AI,定位严肃和专业场景智能助手。24年8月视频模型上线后,视频生成功能也被集成在了海螺AI中。
日处理3万亿token,MiniMax模型规模效应显现
MiniMax日处理文本token数达3万亿,交互时长达ChatGPT的53%。8月31日伙伴日上,MiniMax宣布大模型已有日均30亿次AI交互量,日处理3万亿文本token、生成2000万张图片、合成7万小时语音。与ChatGPT交互时长相比,MiniMax在2023年8月为其3%,而在2024年8月已经达到其53%,进展迅速。此外,伙伴日还发布了视频模型abab-video-1、音乐模型abab-music-1,更新语音模型abab-speech-1。
投资建议
MiniMax等公司不断迭代大模型技术和产品形态,推动应用落地更为可行。我们认为,这种推进作用有望在算力和应用两方面带来相关投资机会。
算力方面,Sora提出的技术路线将视频生成时长扩展到分钟级别。但是目前已经落地的视频生成产品,生成时长普遍在10s以内,除了技术上还有优化空间外,算力是重要的限制因素。因为视频的本质是连续的多帧图像,而一张图像对应的token数远大于一个文字对应token数,随着视频生成时长、帧率、分辨率的提升,算力需求迅速增加。我们认为,随着视频生成的质量越来越好,以及游戏、教育、影视等各行业渗透率的逐步提高,有望带来算力需求的广泛增长,因此,算力相关标的或将受益。
应用方面,视频生成是多模态大模型众多的能力和应用领域之一。大模型本身的智能,会随着训练数据的增多和模态的丰富而发生“涌现”现象。我们认为,随着各种模态联合训练的推进,大模型的通用和泛化性能将持续提高,基于大模型的AI应用也将更加智能,AI应用相关公司有望受益于大模型进步。
推荐标的和概念股梳理,请见研报原文。
风险提示
宏观经济波动。若宏观经济波动,可能对AI产业资本投入产生负面影响,导致AI产业变革、新技术落地节奏、整体行业增长不及预期。
技术进步不及预期。若AI技术、大模型技术、AI应用进展不及预期,或对行业落地情况产生不利影响。
中美竞争加剧。中美竞争加剧,或影响国内算力基础设施布局,导致国内AI大模型技术迭代速度放缓。
研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
研报:《MiniMax加速视频生成行业发展》2024年11月8日
谢春生 分析师 S0570519080006 | BQZ938
袁泽世 分析师 S0570524090001
https://inst.htsc.com/research
访问权限:国内机构客户
https://intl.inst.htsc.com/research
本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。
本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。
本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。
在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。
本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。