专栏名称: 巴比特资讯

区块链/数字货币/比特币中文资讯，创立于2011年，200多位专栏作入驻平台，国内最大区块链资讯原创基地（公众号【原创】认证），我们为以下合作伙伴供稿：火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网

全球最大开源视频模型，现在也Created in China了，阶跃出品

巴比特资讯 · 公众号 · 比特币 · 2025-02-18 17:53

主要观点总结

阶跃星辰联合吉利汽车集团开源了两款多模态大模型：Step-Video-T2V和Step-Audio。这两款模型在Benchmark中表现优秀，性能超过国内外同类开源模型。Step-Video-T2V可以直接生成视频，最长可达204帧，分辨率540P，并引入Video-VAE技术提高生成效率。Step-Audio是行业内首款产品级开源语音交互大模型，具备高逼真度和丰富的语音表达能力。阶跃星辰的开源行动旨在促进大模型技术的共享与创新，推动人工智能的普惠发展。同时，通过开源策略降低产业接入门槛，吸引更多开发者使用其模型。中国开源力量正在壮大，阶跃星辰的开源行动是中国开源力量崛起的一个缩影。

关键观点总结

关键观点1: 开源两款多模态大模型

阶跃星辰联合吉利汽车集团开源了Step-Video-T2V和Step-Audio两款多模态大模型，这是国内首次开源此类模型。

关键观点2: 模型性能表现优秀

这两款模型在Benchmark中表现优秀，性能超过国内外同类开源模型，经过实测验证其效果。

关键观点3: Step-Video-T2V的技术特点

Step-Video-T2V可以生成最长204帧、分辨率540P的视频，并引入Video-VAE技术提高生成效率。此外，它还具有先进的预训练和后训练策略，包括训练效率的提升和Video-DPO算法的引入。

关键观点4: Step-Audio的特点

Step-Audio是行业内首款产品级开源语音交互大模型，具备高逼真度和丰富的语音表达能力。它可以根据不同的场景需求生成不同风格的语音表达，与用户进行高质量对话。

关键观点5: 开源行动的目的

阶跃星辰的开源行动旨在促进大模型技术的共享与创新，推动人工智能的普惠发展。通过开源策略降低产业接入门槛，吸引更多开发者使用其模型。

关键观点6: 中国开源力量的崛起

随着阶跃星辰的开源行动和中国开源力量的壮大，中国在全球开源领域的影响力不断提升。阶跃星辰的开源行动是中国开源力量崛起的一个缩影。

正文

TTPRO1559926-3-sr_x2.0.png 图片来源：由无界AI生成

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！

新模型共2款：

全球范围内参数量最大的开源视频生成模型Step-Video-T2V

行业内首款产品级开源语音交互大模型Step-Audio

多模态卷王开始开源多模态模型，其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议，可任意编辑和商业应用。

（老规矩，GitHub、抱抱脸、魔搭直通车可见文末）

在两款大模型的研发过程中，双方在算力算法、场景训练等领域优势互补，“显著增强了多模态大模型的性能表现”。

从官方公布的技术报告来看，这次开源的两款模型在Benchmark中表现优秀，性能超过国内外同类开源模型。

抱抱脸官方也转发了中国区负责人给予的高度评价。

划重点，“The next DeepSeek”、“HUGE SoTA”。

哦，是吗？

那量子位可要在本篇文章中掰开技术报告+一手实测，看看它们是否名副其实。

量子位求证，目前，本次2款新的开源模型都已接入跃问App，人人可以体验。

多模态卷王首次开源多模态模型

Step-Video-T2V和Step-Audio，是阶跃星辰首次开源的多模态模型。

Step-Video-T2V

先来看看视频生成模型Step-Video-T2V。

它的参数量达到30B，是目前已知全球范围内参数量最大的开源视频生成大模型，原生支持中英双语输入。

官方介绍，Step-Video-T2V共有4大技术特点：

第一，可直接生成最长204帧、540P分辨率的视频，确保生成的视频内容具有极高的一致性和信息密度。

第二，针对视频生成任务设计并训练了高压缩比的Video-VAE，在保证视频重构质量的前提下，能够将视频在空间维度压缩16×16倍，时间维度压缩8倍。

当下市面上多数VAE模型压缩比为8x8x4，在相同视频帧数下，Video-VAE能额外压缩8倍，故而训练和生成效率都提升64倍。

第三，针对DiT模型的超参设置、模型结构和训练效率，Step-Video-T2V了进行深入的系统优化，确保训练过程的高效性和稳定性。

第四，详细介绍了预训练和后训练在内的完整训练策略，包括各阶段的训练任务、学习目标以及数据构建和筛选方式。

此外，Step-Video-T2V在训练最后阶段引入Video-DPO（视频偏好优化）——这是一种针对视频生成的RL优化算法，能进一步提升视频生成质量，强化生成视频的合理性和稳定性。

最终效果，是让所生成视频中的运动更流畅、细节更丰富、指令对齐更准确。

为了全面评测开源视频生成模型的性能，阶跃此次一并发布了针对文生视频质量评测的新基准数据集Step-Video-T2V-Eval。

该数据集也一并开源了～

它包含128条源于真实用户的中文评测问题，旨在评估生成视频在11个内容类别上的质量，包括运动、风景、动物、组合概念、超现实等等。

Step-Video-T2V-Eval在其上的评测结果，见下图：

可以看到，Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面，表现均超越此前最佳的开源视频模型。

这意味着，整个视频生成领域，都可以基于这个新的最强基础模型来进行研究与创新。

而实际效果方面，阶跃官方介绍：

生成效果，Step-Video-T2V在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出，能够高效助力视频创作者实现精准创意呈现。

还等什么？实测走起——

按照官方介绍的顺序，第一关，测试Step-Video-T2V能否hold住复杂运动。

之前的视频生成模型，在生成芭蕾/国标/中国舞、艺术体操、空手道、武术等各类复杂性运动片段中，总会出现奇奇怪怪的画面。

比如突然冒出来的第三条腿，交叉融合的双臂等等，怪吓人的。

针对这类情况，我们进行定向测试，丢给Step-Video-T2V一段prompt：

室内羽毛球场，平视视角，固定镜头记录了一段男子打羽毛球的场景。一名身穿红色短袖、黑色短裤的男子，手持羽毛球拍，站在绿色的羽毛球场地中央。球网横跨场地，将场地分为两部分。男子挥拍击球，将羽毛球击向对面。光线明亮均匀，画面清晰。

然后得到：

场景、人物、镜头、光线、动作，统统吻合。

生成画面中含「美感人物」，则是量子位对Step-Video-T2V发起的第二关挑战。

讲道理，现在文生图模型生成真人图片的level，在静态、局部细节上，绝对是可以以假乱真的。

但视频生成时，人物一旦动起来，仍存在可辨识的物理或逻辑瑕疵。

而Step-Video-T2V的表现嘛——

Prompt：一位男性，身穿黑色西装，搭配深色领带和白色衬衫，脸部带有伤痕，表情凝重。特写镜头。

“没什么AI感。”

这是量子位编辑部同学们传阅一遍过后，对视频中小帅的一致评价。

既是五官端正，皮肤纹理真实，脸上伤痕清晰可见的那种“没什么AI感”。

也是逼真但主人公并没出现眼神空洞、表情僵硬的那种“没什么AI感”。

上面两关，都让Step-Video-T2V保持在固定镜头机位。

那么，推拉摇移，表现如何？

第三关，考验Step-Video-T2V对运镜的掌握，比如推拉摇移，旋转、跟随。

要它旋转，它就旋转：

要它移动与跟随，它就给你移动与跟随：

还挺不赖！可以肩扛斯坦尼康，去片场当运镜大师了（不是）。

一番测试下来，生成效果给出答案：

Step-Video-T2V确如评测集结果那样，在语义理解和指令遵循能力突出。

甚至基础文字生成也轻松拿捏：

Step-Audio

同时开源的另一款模型Step-Audio，是行业内首个产品级的开源语音交互模型。

在阶跃自建并开源的多维度评估体系StepEval-Audio-360基准测试上，Step-Audio在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等维度，均取得最佳成绩。

在LlaMA Question、Web Questions等5大主流公开测试集中，Step-Audio性能均超过了行业内同类型开源模型，位列第一。

可以看到，它在HSK-6（汉语水平考试六级）评测中的表现尤为突出。

实测如下：

阶跃团队介绍，Step-Audio能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地高质量对话。

同时，由其生成的语音不仅具有逼真自然、高情商等特征，还能实现高质量的音色复刻并进行角色扮演。

总之，影视娱乐、社交、游戏等行业场景下应用需求，Step-Audio包让你一整个大满足的。

阶跃开源生态，正在滚雪球

怎么说呢，就一个字：卷。

阶跃是真卷啊，尤其是在自家拿手好戏多模态模型方面——

旗下Step系列中的多模态模型，自打出生以来，就是国内外各大权威评测集、竞技场等的第一名常客。

只看最近3个月，都已经数次勇夺榜首。

去年11月22日，大模型竞技场最新榜单，多模态理解大模型Step-1V上榜，总分与Gemini-1.5-Flash-8B-Exp-0827持平，位列视觉领域中国大模型第一。

今年1月，国内大模型评估平台“司南”（OpenCompass）多模态模型评测实时榜单，刚出炉的Step-1o系列模型拿下第一。

同日，大模型竞技场最新榜单，多模态模型Step-1o-vision拿下国内视觉领域大模型第一。

其次，阶跃的多模态模型不仅性能好、质量佳，研发迭代频率也很高——

截至目前，阶跃星辰已经先后发布了11款多模态大模型。

上个月，6天连发6模型，覆盖语言、语音、视觉、推理全赛道，进一步做实多模态卷王称号。

这个月又开源2款多模态模型。

只要稳定住这个节奏，就能继续且持续地证明自己「全家桶级多模态玩家」的地位。

凭借强大的多模态实力， 2024年开始，市场和开发者们就已经认可并广泛接入阶跃API，形成了庞大的用户基础。

大众消费品，如茶百道，就让全国数千家门店接入多模态理解大模型Step-1V，探索大模型技术在茶饮行业的应用，进行智能巡检、AIGC 营销。

公开数据显示，平均每天上百万杯茶百道茶饮在大模型智能巡检的守护下送到消费者手中。

而Step-1V平均每天能够为茶百道督导员节约75%的自检核验时间，为茶饮消费者提供了更加安心和优质的服务。

独立开发者，如网红AI应用“胃之书”、AI心理疗愈应用“林间聊愈室”在对国内大部分模型做过AB测试后，最终都选择了阶跃多模态模型API。

（小声：因为用它，付费率最高）

具体数据显示，2024年下半年，阶跃多模态大模型API的调用量增长超45倍。

再说到，此次开源，开源的就是阶跃自家最擅长的多模态模型。

我们注意到，已经积累市场和开发者口碑及数量的阶跃，此次开源，从模型侧就在为后续深入接入做考虑。

一方面，Step-Video-T2V采用了是最为开放宽松的MIT开源协议，可任意编辑和商业应用。

可以说，「毫不隐藏」。

另一方面，阶跃表示“全力降低产业接入门槛”。

就拿Step-Audio来说吧，不同于市面上的开源方案需要经过再部署和再开发等工作量，Step-Audio是一整套实时对话方案，只要简单部署上就能直接实时对话。

零帧起手就能享受端到端体验。

一整套动作下来，围绕阶跃星辰和它手中的多模态模型王牌，已经初步形成了独属于阶跃的开源技术生态。

在这个生态中，技术、创意和商业价值相互交织，共同推动着多模态技术的发展。

而且 随着阶跃模型的继续研发、迭代，开发者的迅速、持续接入，生态伙伴的助力、合力，阶跃生态的“滚雪球效应”，已经发生，并正在壮大。

中国开源力量正在并肩用实力说话

曾几何时，提起大模型开源领域的佼佼者，人们脑中浮现出的是Meta的LLaMA，是Albert Gu的Mamba。

到了现在，毋庸置疑，中国大模型届的开源力量已经闪耀全球，用实力改写“刻板印象”。

1月20日，蛇年春节前夕，是一个国内外大模型神仙打架的日子。

最瞩目的是，DeepSeek-R1在这一天问世，它推理性能比肩OpenAI o1，成本却仅后者1/3。

影响之巨大，一夜让英伟达蒸发5890亿美元（约合人民币4.24万亿元），创下美股单日跌幅最大纪录。

更重要也更耀眼的是，R1之所以上升到亿万人为之兴奋的高度，除了推理优异、价格亲民，更重要的是它身上的开源属性。

一石激起千层浪，连长期被戏谑「不再open」的OpenAI，都有CEO奥特曼屡次出来公开发言。

奥特曼说：“在开源权重AI模型这个问题上，（个人认为）我们站在了历史错误的一边。”

他还说：“世界上确实需要开源模型，它们可以为人们提供大量价值。我很高兴，世界上已经有一些优秀的开源模型。”

现在，阶跃也开始开源手里的新王牌了。

并且开源是初衷。

官方表示，开源Step-Video-T2V和Step-Audio，目的就是促进大模型技术的共享与创新，推动人工智能的普惠发展。

开源一出场就凭实力在多个评测集上秀一把。

现在的开源大模型的牌桌上，DeepSeek强推理，阶跃Step重多模态，还有各式各样持续发育的选手……

它们的实力不仅是在开源圈子里拔尖，放眼整个大模型圈子，都很够看。

—— 中国开源力量，在崭露头角后，正在更进一步。

以阶跃这次开源为例，突破的是多模态领域的技术，改变的是全球开发者的选择逻辑。

Eleuther AI等很多开源社区活跃的技术大v，纷纷主动下场测试阶跃的模型，“感谢中国开源”。

抱抱脸中国区负责人王铁震直接表示，阶跃会是下一个“DeepSeek”。

从「技术突围」到「生态开放」，中国大模型的路越走越稳。

话说回来，阶跃今次开源双模型，或许只是2025年AI竞赛的一个注脚。

更深层次的，它展现了中国开源力量的技术自信，并传递出一个信号：

未来的AI大模型世界，中国力量绝不缺席，也绝不落于人后。

【Step-Video-T2V】