专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
51好读  ›  专栏  ›  量子位

中文海报设计,赛道一夜颠覆

量子位  · 公众号  · AI  · 2025-04-04 12:10

主要观点总结

本文介绍了豆包AI的升级功能,即豆包文生图功能,包括标题大字准确度提升、语义理解和影视质感增强、绘画风格更多元等特点。文章还介绍了新模型的细节,包括数据预处理和预训练中的技术细节。此外,本文还提到了中国AIGC产业峰会的相关信息和报名方式。

关键观点总结

关键观点1: 豆包AI的升级功能介绍

豆包文生图功能能够生成更准确的文字,尤其是中文。新模型在标题大字准确度、语义理解和影视质感、绘画风格等方面有所提升。

关键观点2: 新模型的技术细节

Seedream新模型在数据预处理和预训练阶段做出了技术改进,通过智能标注引擎实现三级认知进化,提升了模型的理解、识别能力。

关键观点3: 豆包AI的应用场景

豆包AI能够应用于生成海报、旅游VLOG封面、文旅周边设计等领域,具有实际操作性和创意性。

关键观点4: 中国AIGC产业峰会的信息

中国AIGC产业峰会观众报名通道已开启,百度、华为、AWS等十数位AI领域创变者将齐聚峰会,探讨AI的应用和发展。


正文

请到「今天看啥」查看全文


鱼羊 一水 发自 凹非寺
量子位 | 公众号 QbitAI

豆包升级上新,网友们再次玩疯!


更新的是 豆包文生图功能 ,官方直接用一张 豆包AI生成 的海报给划了重点:

没错,豆包可以在图片中 生成更准确的文字了,尤其是中文

做海报,效果可以是酱婶的:

给自己的旅游VLOG整点某音某书封面,风格也是直接拿捏。

甚至还能直接拿来设计文旅周边了…

另外,超长复杂提示词也能准确get:

(上下滑动查看提示词)


画面呈现一幅极具视觉冲击力的艺术风格人像。主体是一位身穿传统壮族服饰,戴着壮族帽子的男生,手里拿着传统乐器芦笙,白色底色上,红蓝色彩鲜明勾勒出人物轮廓,光线聚焦在人物面部,形成明暗对比,人物嘴巴大张露出牙齿,仰头大笑,神态充满戏剧性。


人物周围点缀着鲜艳的橙红色花朵和绿色枝叶,为画面增添一抹生机,强烈的对比。


背景以浅色为底,泼溅着大量红、绿、黑等色彩的墨点与线条,随意挥洒却又营造出强烈的艺术氛围,色彩间相互碰撞,传递出一种开心且沉浸其中的氛围,仿佛在诉说着人物内心对音乐的热爱和疯狂。


关键是, 免费 !现在就能畅玩。

嗯,编辑部已经被表情包by豆包刷屏了

实测豆包文生图升级

豆包文生图功能本次升级主要体现在 四个方面

  1. 标题大字准确度提升至94%,小字也能准确生成
  2. 语义理解和影视质感增强,镜头更有叙事感
  3. 即使是超长复杂提示词,也能准确遵循
  4. 绘画风格更多元,可生成头像、梗图、盲盒、贴纸、Logo

有一说一,在文字生成能力方面,不少模型都是Demo美好而实际免不了乱码。

豆包文生图新模型究竟表现如何,咱们还是得实测才知道。

正值清明假期,那我们不妨让它生成一张清明节海报:

Prompt:帮我生成一张清明节海报,并配文“清明时节雨纷纷,路上行人欲断魂”。

左右滑动查看更多

从生成的4张图可以看到,它们都100%正确还原了“清明时节雨纷纷,路上行人欲断魂”这句文字,而且整体氛围感比较符合清明节主题。

然鹅,每张图都或多或少在 小字生成 方面还是有一些小瑕疵。

那如果尝试规避其弱点,只是单纯用来生成大字海报呢?

Prompt:生成一张亲子户外风图像,仅配文“出发啦”,比例9:16

这次的结果就比较符合要求了,而且偷偷告诉大家一个小注意事项: 即使用来生成只有大标题的海报,在提示词中也尽量避免提到“海报”二字,不然豆包AI就会“自作主张”加一些效果不佳的小字。

接下来我们考一下豆包AI的 “镜头感”

Prompt:通过特写镜头来捕捉一个运动员在比赛关键时刻的紧张表情和汗水。

嗯,不仅高度还原了提示词,而且看上去真有电影截图内味儿了

变换各种镜头语言,几乎每张都堪比大片:

展现一个侦探在昏暗的巷子里追踪嫌疑人,紧张的气氛和快速的步伐。

而且即使是 超长复杂提示词 ,豆包AI现在也能精准还原了:

赛博朋克风格的插画,一位身着高科技服装的东方女性。她的服饰以深蓝为主色调,外观飒爽,科技感配饰 。头戴对讲耳机,AR眼镜。背景是暗黑风格,有蓝绿色扭曲的树枝,点缀粉色光斑,营造神秘氛围。背景中安排几尊白色人形雕塑,赛博朋克风格建筑,环境湿润。

Again,还能来一段更长长长的提示词:

在保证“壁画,水彩,地中海风格”的整体基调下,豆包AI生动勾勒了一幅海边小镇度假图。

提示词中的关键元素均在图中有所展现,整体非常梦幻、chill~

最后当然更吸引网友的是,豆包AI绘图风格更多元了。

喜欢换头像的友友,即日起一天一个也不是不行(doge)。

此外,除了文艺复兴一些经典老梗,咱们现在也能分分钟成为“造梗小能手”了:

还能自己动手设计一些复古盲盒:

更多玩法欢迎大家自行解锁~~

全新升级3.0模型

豆包升级版文生图功能背后,是全新的 3.0模型

官方尚未透露相关细节,不过就在不久前,豆包大模型团队首度公开了去年12月上线的Seedream 2.0的技术细节——

这个版本的更新,开启了豆包文生图的“识字”时代。

Seedream走的是扩散模型路线。

豆包大模型团队透露,为了让模型既看懂文本,又关注字体字形,他们在数据预处理阶段和预训练阶段都下了功夫。

Seedream 2.0在数据预处理阶段,依靠智能标注引擎实现了三级认知进化,提升了模型理解、识别能力,通过多维度、多层级精准图片描述,让模型技能理解文字意思,也能捕捉和理解字形细节。

同时在预训练中,Seedream 2.0构建了双模态编码融合系统。其中大语言模型负责解析“文本要表达什么”, 字形模型ByT5 专注于刻画“文字应该长什么样”。

细节是,通过MLP投影层,将ByT5的字形特征对齐到LLM语义空间,二者拼接后输入扩散模型。此种方法下,字体、颜色、大小、位置等渲染属性不再依赖预设模板,而是通过LLM直接描述文本特征,进行端到端训练。这样,模型既能从训练数据中学习文本渲染特征,也可以基于编码后的渲染特征,高效学习渲染文本的字形特征。

BTW,这次Seedream新模型依然是在豆包和字节旗下AI创作平台即梦AI同步接入,不过即梦还是灰度测试的状态。

以及同样的提示词下,豆包和即梦的风格倾向似乎略有不同。

豆包:

即梦AI:

目前,豆包免费,即梦AI每天会赠送免费积分,感兴趣的大家都可以自己上手玩一玩。

有什么好玩的创意,欢迎在评论区留图分享啊~

* 本文表情包均由豆包AI生成

豆包: https://www.doubao.com/chat/
即梦: https://jimeng.jianying.com/ai-tool/image/generate


一键三连 「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

速抢席位! 中国AIGC产业峰会 观众报名通道已开启 🙋‍♀️

最新嘉宾曝光啦 🔥 百度、 华为、AWS、 无问芯穹、数势科技、面壁智能、生数科技等十数位AI领域创变者将齐聚峰会,让更多人用上AI、用好AI,与AI一同加速成长~

4月16日 ,就在 北京 一起来深度求索AI怎么用 🙌 点击报名参会



🌟 一键星标 🌟

科技前沿进展每日见









请到「今天看啥」查看全文