专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

目录

相关文章推荐

51好读 › 专栏 › 量子位

中文海报设计，赛道一夜颠覆

量子位 · 公众号 · AI · 2025-04-04 12:10

主要观点总结

本文介绍了豆包AI的升级功能，即豆包文生图功能，包括标题大字准确度提升、语义理解和影视质感增强、绘画风格更多元等特点。文章还介绍了新模型的细节，包括数据预处理和预训练中的技术细节。此外，本文还提到了中国AIGC产业峰会的相关信息和报名方式。

关键观点总结

关键观点1: 豆包AI的升级功能介绍

豆包文生图功能能够生成更准确的文字，尤其是中文。新模型在标题大字准确度、语义理解和影视质感、绘画风格等方面有所提升。

关键观点2: 新模型的技术细节

Seedream新模型在数据预处理和预训练阶段做出了技术改进，通过智能标注引擎实现三级认知进化，提升了模型的理解、识别能力。

关键观点3: 豆包AI的应用场景

豆包AI能够应用于生成海报、旅游VLOG封面、文旅周边设计等领域，具有实际操作性和创意性。

关键观点4: 中国AIGC产业峰会的信息

中国AIGC产业峰会观众报名通道已开启，百度、华为、AWS等十数位AI领域创变者将齐聚峰会，探讨AI的应用和发展。

正文

请到「今天看啥」查看全文

鱼羊一水发自凹非寺
量子位 | 公众号 QbitAI

豆包升级上新，网友们再次玩疯！

更新的是 豆包文生图功能 ，官方直接用一张 豆包AI生成 的海报给划了重点：

没错，豆包可以在图片中 生成更准确的文字了，尤其是中文 。

做海报，效果可以是酱婶的：

给自己的旅游VLOG整点某音某书封面，风格也是直接拿捏。

甚至还能直接拿来设计文旅周边了…

另外，超长复杂提示词也能准确get：

（上下滑动查看提示词）

画面呈现一幅极具视觉冲击力的艺术风格人像。主体是一位身穿传统壮族服饰，戴着壮族帽子的男生，手里拿着传统乐器芦笙，白色底色上，红蓝色彩鲜明勾勒出人物轮廓，光线聚焦在人物面部，形成明暗对比，人物嘴巴大张露出牙齿，仰头大笑，神态充满戏剧性。

人物周围点缀着鲜艳的橙红色花朵和绿色枝叶，为画面增添一抹生机，强烈的对比。

背景以浅色为底，泼溅着大量红、绿、黑等色彩的墨点与线条，随意挥洒却又营造出强烈的艺术氛围，色彩间相互碰撞，传递出一种开心且沉浸其中的氛围，仿佛在诉说着人物内心对音乐的热爱和疯狂。

关键是，免费！现在就能畅玩。

~~嗯，编辑部已经被表情包by豆包刷屏了~~

实测豆包文生图升级

豆包文生图功能本次升级主要体现在 四个方面 ：

标题大字准确度提升至94%，小字也能准确生成
语义理解和影视质感增强，镜头更有叙事感
即使是超长复杂提示词，也能准确遵循
绘画风格更多元，可生成头像、梗图、盲盒、贴纸、Logo

有一说一，在文字生成能力方面，不少模型都是Demo美好而实际免不了乱码。

豆包文生图新模型究竟表现如何，咱们还是得实测才知道。

正值清明假期，那我们不妨让它生成一张清明节海报：

Prompt：帮我生成一张清明节海报，并配文“清明时节雨纷纷，路上行人欲断魂”。

左右滑动查看更多

从生成的4张图可以看到，它们都100%正确还原了“清明时节雨纷纷，路上行人欲断魂”这句文字，而且整体氛围感比较符合清明节主题。

然鹅，每张图都或多或少在 小字生成 方面还是有一些小瑕疵。

那如果尝试规避其弱点，只是单纯用来生成大字海报呢？

Prompt：生成一张亲子户外风图像，仅配文“出发啦”，比例9:16

这次的结果就比较符合要求了，而且偷偷告诉大家一个小注意事项： 即使用来生成只有大标题的海报，在提示词中也尽量避免提到“海报”二字，不然豆包AI就会“自作主张”加一些效果不佳的小字。

接下来我们考一下豆包AI的 “镜头感” 。

Prompt：通过特写镜头来捕捉一个运动员在比赛关键时刻的紧张表情和汗水。

~~嗯，不仅高度还原了提示词，而且看上去真有电影截图内味儿了~~

变换各种镜头语言，几乎每张都堪比大片：

展现一个侦探在昏暗的巷子里追踪嫌疑人，紧张的气氛和快速的步伐。

而且即使是 超长复杂提示词 ，豆包AI现在也能精准还原了：

赛博朋克风格的插画，一位身着高科技服装的东方女性。她的服饰以深蓝为主色调，外观飒爽，科技感配饰。头戴对讲耳机，AR眼镜。背景是暗黑风格，有蓝绿色扭曲的树枝，点缀粉色光斑，营造神秘氛围。背景中安排几尊白色人形雕塑，赛博朋克风格建筑，环境湿润。

Again，还能来一段更长长长的提示词：

在保证“壁画，水彩，地中海风格”的整体基调下，豆包AI生动勾勒了一幅海边小镇度假图。

提示词中的关键元素均在图中有所展现，整体非常梦幻、chill~

最后当然更吸引网友的是，豆包AI绘图风格更多元了。

喜欢换头像的友友，即日起一天一个也不是不行（doge）。

此外，除了文艺复兴一些经典老梗，咱们现在也能分分钟成为“造梗小能手”了：

还能自己动手设计一些复古盲盒：

更多玩法欢迎大家自行解锁~~

全新升级3.0模型

豆包升级版文生图功能背后，是全新的 3.0模型 。

官方尚未透露相关细节，不过就在不久前，豆包大模型团队首度公开了去年12月上线的Seedream 2.0的技术细节——

这个版本的更新，开启了豆包文生图的“识字”时代。

Seedream走的是扩散模型路线。

豆包大模型团队透露，为了让模型既看懂文本，又关注字体字形，他们在数据预处理阶段和预训练阶段都下了功夫。

Seedream 2.0在数据预处理阶段，依靠智能标注引擎实现了三级认知进化，提升了模型理解、识别能力，通过多维度、多层级精准图片描述，让模型技能理解文字意思，也能捕捉和理解字形细节。

同时在预训练中，Seedream 2.0构建了双模态编码融合系统。其中大语言模型负责解析“文本要表达什么”， 字形模型ByT5 专注于刻画“文字应该长什么样”。

细节是，通过MLP投影层，将ByT5的字形特征对齐到LLM语义空间，二者拼接后输入扩散模型。此种方法下，字体、颜色、大小、位置等渲染属性不再依赖预设模板，而是通过LLM直接描述文本特征，进行端到端训练。这样，模型既能从训练数据中学习文本渲染特征，也可以基于编码后的渲染特征，高效学习渲染文本的字形特征。

BTW，这次Seedream新模型依然是在豆包和字节旗下AI创作平台即梦AI同步接入，不过即梦还是灰度测试的状态。

以及同样的提示词下，豆包和即梦的风格倾向似乎略有不同。

豆包：

即梦AI：

目前，豆包免费，即梦AI每天会赠送免费积分，感兴趣的大家都可以自己上手玩一玩。

有什么好玩的创意，欢迎在评论区留图分享啊~

* 本文表情包均由豆包AI生成

豆包： https://www.doubao.com/chat/
即梦： https://jimeng.jianying.com/ai-tool/image/generate

一键三连 「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

速抢席位！ 中国AIGC产业峰会 观众报名通道已开启 🙋‍♀️

最新嘉宾曝光啦 🔥 百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位AI领域创变者将齐聚峰会，让更多人用上AI、用好AI，与AI一同加速成长～

4月16日 ，就在北京，一起来深度求索AI怎么用 🙌 点击报名参会

🌟 一键星标 🌟

科技前沿进展每日见

请到「今天看啥」查看全文

推荐文章

冷漫画 · 出门在外，竟看到一喵躺在地上，其背后的原因竟然是……

7 年前

材料科学与工程 · 科学家发明液态光子材料，色域宽广超越七色彩虹

7 年前

乒乓time · 『揭秘』毛主席3张打乒乓球照片的来历！没几个人知道！

7 年前

生物探索 · Nature：失明者的希望！科学家成功再生成年小鼠视网膜细胞

7 年前

首席经济学家论坛 · 潘向东：加强监管会使金融发展“停滞”？是“稳中求进”！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!