专栏名称: Hugging Face

The AI community building the future.

社区供稿 | 阶跃星辰开源系列 SOTA 多模态模型，技术详解

Hugging Face · 公众号 · · 2025-02-18 22:00

正文

一直以来， 阶跃星辰 围绕实现 AGI 的终极目标，坚定投入，持续打造更全面、更强大的通用基座模型。我们深知 AGI 的实现离不开全球开发者的共同努力。因此开源的初心，是希望跟大家分享最新的技术成果，为全球开源社区贡献一份力量。

我们相信多模态大模型是通往 AGI 的必经之路，但目前尚处于早期阶段。我们希望能与开发者朋友们集思广益，共同拓展模型技术边界，并推动产业应用落地。

根据技术报告的评测结果， Step-Video-T2V 的参数量和模型性能目前在全球开源 视频生成 领域都处于领先水平；而 Step-Audio 则是业内首款产品级的 开源语音交互模型 。

Step-Video-T2V

开源参数量最大、性能最好的视频生成大模型

Step-Video-T2V 模型的参数量达到 300 亿，可以直接生成 204 帧（8-10 秒）、540P 分辨率的高质量视频，这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。

Step-Video-T2V 基于 DiT 模型，采用 Flow Matching 进行训练。视频 VAE 实现了 16x16 倍空间压缩和 8 倍时间压缩，大大降低了大规模视频生成训练的计算复杂度。两个双语文本编码器使 Step-Video-T2V 能够直接理解中文或英文提示。为了加速模型收敛并充分利用不同质量的视频数据集，Step-Video-T2V 采用级联训练流程，包括文本到图像预训练、文本到视频预训练、监督微调（SFT）和直接偏好优化（DPO）。

Step-Video-T2V 模型架构图

模型介绍

高压缩的视频 VAE

视频 VAE 负责将原始 Video 数据压缩为隐空间表示，以供后续的 DiT 模型进一步学习建模。视频 VAE 的压缩倍率直接决定了生成任务的序列长度，而序列长度又与 DiT 的计算复杂度呈平方扩展关系。这驱使我们设计并实现更高压缩比率的 VAE 模型。

我们在编码器和解码器中引入双流信息通路，包括卷积通路来保持高频细节，以及通过通道平均通路来保留低频结构。结合重新设计的多阶段训练策略，实现了 16x16 倍空间压缩和 8 倍时间压缩倍率，同时我们的重建质量与最强的开源低倍率（8x8x4） VAE 相当，克服了压缩倍率和重建质量难以平衡的挑战。改进后，Step-Video-T2V 最长支持 204 帧的原始视频输出。

Video-VAE 架构

文本编码器

Step-Video-T2V 使用两个双语文本编码器来处理用户文本提示：Hunyuan-CLIP 和 Step-LLM。Hunyuan-CLIP是一个双向文本编码器，能够生成与视觉空间高度对齐的文本表示，但最大输入长度限制为 77 个词元，在处理较长用户提示时存在挑战。Step-LLM 是一个内部开发的单向双语文本编码器，采用基于下一个词预测任务的预训练方式，并引入了重新设计的 Alibi-Positional Embedding，提升了序列处理的效率和准确性。与 Hunyuan-CLIP 不同，Step-LLM 没有输入长度限制，因此在处理长且复杂的文本序列时表现尤为出色。通过结合这两种文本编码器，Step-Video-T2V 能够处理不同长度的用户提示，生成稳健的文本表示，有效地引导模型在潜在空间中进行学习。

DiT 模型

我们对传统 DiT 在图片生成中的 2D 绝对位置编码进行了优化，引入 3D-RoPE相对位置编码，使得模型能够处理视频数据中时间（帧）、空间（高度和宽度）三个维度的依赖关系。3D 相对位置编码能够灵活适应不同分辨率和长度的视频输入，使模型在生成视频时更具适应性和鲁棒性。这一优化增强了 DiT 在处理不同视频内容、分辨率及其变化时的泛化能力，尤其在处理长序列和多分辨率视频时表现出色。

在大规模训练过程中，我们混合使用了不同长度、不同分辨率的视频以及不同分辨率的图片，以提高模型的通用性和适应性。为了进一步增强训练的稳定性，我们在 DiT 的 Transformer-block 中引入了 QK-Norm 机制。该机制从而大幅提高了训练过程的稳定性和收敛速度，特别是在处理混合数据和长时间序列时，QK-Norm 显著降低了梯度爆炸或消失的风险。

训练策略

Step-Video-T2V使用了级联训练策略，主要包括四个步骤：

步骤1：T2I 预训练。我们通过 T2I 预训练从零开始训练 Step-Video-T2V。通过先进行 T2I 训练，模型可以建立起视觉概念的基础，然后在T2V阶段集中学习时序动态知识，大大降低模型的收敛速度。

步骤2：T2VI 预训练。在步骤 1 获得空间知识后，Step-Video-T2V 进入 T2VI 联合训练阶段，同时包含 T2I 和T2V。这个步骤分为两个阶段：第一阶段使用低分辨率视频（192x320），模型主要学习运动相关知识；第二阶段提高分辨率（544x992），让模型学习更精细的细节。

步骤3：T2V 微调。由于预训练视频数据在不同领域和质量上的多样性，预训练模型通常会引入生成畸变和风格差异。我们使用少量的文本视频对，并去除T2I，专门进行文本到视频生成的适应性训练以应对这些问题。结果表明，使用不同 SFT 数据集微调后的模型进行平均，可以提高生成视频的质量和稳定性，超越了指数移动平均（EMA）方法。

步骤4：DPO训练。采用基于视频的DPO训练来提高生成视频的视觉质量，并确保更好地与用户提示对齐。

模型评测

为了对开源视频生成模型的性能进行全面评测，我们构建并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题，旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

图为 Step-Video-T2V-Eval 评测结果

评测结果显示，Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。

在生成效果，Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出，能够高效助力视频创作者实现精准创意呈现。

效果示例

视频由跃问视频生成

Step-Video-T2V 对复杂运动场景场景具有优异的把控能力。在下面这个视频中，模型对熊猫、地面坡度、滑板等多个事物之间的空间关系、大幅度运动的规律都有着深刻的理解，生成的画面真实且符合物理规律。而生成复杂运动，理解物理空间规律也是当下视频生成模型最大的挑战。

Step-Video-T2V 是运镜大师，支持推、拉、摇、移、旋转、跟随等多种镜头运动方式，以及不同景别之间的切换，能够很好地生成大幅度运镜。

相关模型部署链接、体验入口、技术报告链接（点击链接可跳转）：

GitHub 地址：https://github.com/stepfun-ai/Step-Video-T2V
Hugging Face:

https://hf.co/stepfun-ai/stepvideo-t2v
Model Scope：https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
技术报告： https://arxiv.org/abs/2502.10248
体验入口： https://yuewen.cn/videos （跃问视频）

Step-Audio

业内首款产品级开源语音交互模型

Step-Audio 是行业内首个产品级的开源语音交互模型，能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征，同时也能支持不同角色的音色克隆，满足影视娱乐、社交、游戏等行业场景下应用需求。

Step-Audio 包括如下 4 大技术亮点：

1300 亿多模态理解生成一体化：单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat 版本。
高效合成数据链路：Step-Audio 突破传统 TTS 对人工采集数据的依赖，通过千亿模型的克隆和编辑能力，生成高质量的合成音频数据，实现“合成数据生成与模型训练的循环迭代”框架，并同步开源首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B 。
精细语音控制：支持多种情绪（如生气，高兴，悲伤）、方言（包括粤语、四川话等）和唱歌（包括 RAP、干声哼唱）的精准调控，满足用户对多样化语音生成的需求。
扩展工具调用：通过 ToolCall 机制和角色扮演增强，进一步提升其在 Agents 和复杂任务中的表现。

模型介绍

在 Step-Audio 系统中，音频流采用 Linguistic tokenizer（码率 16.7 Hz，码本大小 1024）与 Semantice tokenizer（码率 25 Hz，码本大小 4096）并行的双码本编码器方案，双码本在排列上使用了 2:3 时序交错策略。通过音频语境化持续预训练和任务定向微调强化了 130B 参数量的基础模型（Step-1），最终构建了强大的跨模态语音理解能力。为了实现实时音频生成，系统采用了混合语音解码器，结合流匹配（flow matching）与神经声码技术。

Step-Audio 模型架构

Tokenizer

我们通过 token 级交错方法实现 Linguistic token 与 Semantic token 的有效整合。Linguistic tokenizer 的码本大小是 1024，码率 16.7Hz；而 Semantic tokenizer 则使用 4096 的大容量码本来捕捉更精细的声学细节，码率 25Hz。鉴于两者的码率差异，我们建立了 2:3 的时间对齐比例——每两个Linguistic token 对应三个 Linguistic token 形成时序配对。

语言模型

为了提升 Step-Audio 有效处理语音信息的能力，并实现精准的语音-文本对齐，我们在 Step-1（一个拥有 1300 亿参数的基于文本的大型语言模型 LLM）的基础上进行了音频持续预训练。

语音解码器

Step-Audio 语音解码器主要是将包含语义和声学信息的离散标记信息转换成连续的语音信号。该解码器架构结合了一个 30 亿参数的语言模型、流匹配模型（flow matching model）和梅尔频谱到波形的声码器（mel-to-wave vocoder）。为优化合成语音的清晰度（intelligibility）和自然度（naturalness），语音解码器采用双码交错训练方法（dual-code interleaving），确保生成过程中语义与声学特征的无缝融合。

实时推理管线

为了实现实时的语音交互，我们对推理管线进行了一系列优化。其中最核心的是控制模块（Controller），该模块负责管理状态转换、协调响应生成，并确保关键子系统间的无缝协同。这些子系统包括：

语音活动检测（VAD）：实时检测用户语音起止
流式音频分词器（Streaming Audio Tokenizer）：实时音频流处理
Step-Audio语言模型与语音解码器：多模态回复生成
上下文管理器（Context Manager）

社区供稿 | 阶跃星辰开源系列 SOTA 多模态模型，技术详解

正文

Step-Video-T2V

开源参数量最大、性能最好的视频生成大模型

模型介绍

训练策略

模型评测

效果示例

Step-Audio

业内首款产品级开源语音交互模型

模型介绍

请到「今天看啥」查看全文