专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
51好读  ›  专栏  ›  字节跳动技术团队

豆包文生图技术报告发布!数据处理、预训练、RLHF全流程公开

字节跳动技术团队  · 公众号  ·  · 2025-03-16 16:36

正文

今天,豆包大模型团队正式发布文生图技术报告,首次公开 Seedream 2.0 图像生成模型技术细节,覆盖数据构建、预训练框架、 后训练 RLHF 全流程。
该报告针对 Seedream 2.0 原生中英双语理解、文字渲染、高美感、分辨率与画幅变换等特性的实现,进行了具体介绍。
本文将呈现其中精华内容, 报告完整版可通过下方链接获取:

技术展示页:
https://team.doubao.com/tech/seedream
技术报告:
https://arxiv.org/pdf/2503.07703

豆包大模型团队文生图模型 Seedream 2.0 于 2024 年 12 月初在豆包 APP 和即梦上线,已服务上亿 C 端用户,并成为国内许多专业设计师辅助创作的首选模型。
相比 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型,该模型更好解决了文本渲染能力欠佳、对中国文化理解不足等诸多实际问题,支持原生中英双语,美感、指令遵循等能力有整体提升。
具体来看,模型支持中英文指令的高精度理解与遵循,能生成高美感度的图像作品。
图片
针对字体渲染和海报设计等实际场景,生成文字崩坏率大幅降低,且字体变化呈现更自然、更具美感。

图片


对于国风图案与元素,比如国画、泥塑、文玩、旗袍、书法等, Seedream 2.0 也 可输出高品质的呈现结果。
图片
团队为了较全面客观地评估模型,围绕图文匹配度、结构准确率、美感等基础维度,严格构建了 Bench-240 评测基准。
通过测试,团队发现 Seedream 2.0 面向英文提示词,其生成内容的结构合理性、文本理解准确性高于主流模型。
图片 注: 面向英文提示词,Seedream 2.0 在不同维度上的表现。本图各维度数据以最佳指标为参照系,已进行归一化调整。
中文综合能力同样突出,其生成与渲染文字可用率达 78%,完美响应率为 63%,高于业界目前其他模型。
图片
注:面向中文提示词,Seedream 2.0 在不同维度上的表现。本图各维度数据以最佳指标为参照系,已进行归一化调整。
以下将从数据预处理、预训练、后训练维度介绍模型技术细节。

1. 深度融合知识的数据预处理框架

生成式 AI 技术,正从规模至上的 “暴力美学” ,向满足特定要求的 “精准智能” 转变,与之同步,数据预处理也演变为复杂的系统工程。
面对百亿量级的中英多模态数据,Seedream 2.0 团队构建了以 “知识融合” 为核心的预处理框架,从以下三个方面实现技术突破。
  • 四维数据架构,实现质量与知识的动态平衡
传统图像生成模型训练数据筛选常面临 “质量-规模” 的两难抉择,数据量级是模型能力的基础,但大规模数据构建,往往伴随质量下滑,进而影响模型表现。
为此,团队创新设计了四维拓扑网络,突破单一模态限制。该架构包含四个数据层:
1)优质数据层: 精选高分辨率、知识密度强的数据(如科学图解、艺术创作),奠定质量基础;
2)分布维持层: 采用双层级降采样策略,从数据源维度对头部平台等比降维,从语义维度通过 10 万级细粒度聚类维持多样性;
3)知识注入层: 构建 3 万+ 名词和 2000+ 动词分类体系,结合百亿级跨模态检索,为数据注入文化特征;
4)定向增强层: 建立 “缺陷发现-数据补充-效果验证” 闭环,优化动作序列、反现实生成等场景。
这一架构有效平衡了数据质量与知识多样性,为模型训练提供坚实的数据支撑。
图片
  • 智能标注引擎:三级认知进化
传统标注的 Caption 系统受单模态理解局限,对图像内容描述不够全面精准。团队在其基础上,实现了智能标注引擎的三级认知进化,提升模型理解、识别能力。
首先,构建分层描述体系,通过短、长和特殊场景 Caption 结合,实现多维度、多层级精准图片描述,既能捕捉图像核心内容,又能提供丰富细节与艺术解释。
其次,建立文化专有名词映射库,实现跨语言对齐,将中英文生成质量差异压缩至 2% 以内,提升模型在多语言环境下表现。
最后,引入动态质检机制,利用 LLM 进行预筛选,通过 Badcase 驱动 prompt 模板迭代,优化描述质量,确保数据质量与可靠性。
  • 工程化重构:百亿数据的流水线并行处理
工程化方面,传统 ETL 流程存在算力错配与迭代迟滞痛点。
这不仅导致非核心任务占用大量高算力资源,挤占核心任务资源,也造成数据处理流程难以适应业务与数据变化,限制整体效能。
团队从两方面重构工程系统。
一方面通过异构调度,将水印检测等非核心任务迁移至低算力集群,释放高算力资源用于关键任务。另一方面,采用 “分片-校验-装载” 三级流水线并行处理方法,打包速度提升 8 倍。
这些改进大幅提高数据处理效率与质量,为大规模数据管理利用奠定基础。

2. 预训练聚焦双语理解与文 字渲染

在预训练阶段,团队基于大量用户调研与技术预判认为,多语言语义理解、双语文字渲染和多分辨率场景适配等模块的突破,对于图像生成技术发展极为关键,可大幅提升模型适用性与用户体验,满足不同语言文化背景的用户需求,并拓展应用场景。
因此,Seedream 2.0 采用了全新的预训练架构设计,其整体框图如下。
图片






请到「今天看啥」查看全文