专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

机器之心 · 公众号 · AI · 2024-12-23 11:51

主要观点总结

本文报道了OpenAI和国产大模型豆包之间的激烈竞争。豆包大模型家族的新成员豆包·视觉理解模型以惊人的价格和能力震撼业界。该模型一千个token的输入价格仅3厘钱，并能处理多种视觉任务。此外，豆包通用模型Pro、豆包·音乐生成模型和豆包·文生图模型也宣布升级。火山引擎作为字节跳动的技术支持平台，解决了成本落地问题，为豆包大模型的普及做出了贡献。同时，展望未来的大模型发展方向，文章对豆包大模型的未来充满期待。

关键观点总结

关键观点1: 豆包大模型家族的新成员——豆包·视觉理解模型震撼发布，具备强大的图像处理能力。

该模型价格极低，每处理一张720P的图片仅需花费极低的价格；具备强大的视觉理解能力，可以完成复杂的视觉问答任务；能够识别图像中的知识、文化背景、状态、数量等信息，并具备深度推理能力，包括数学、逻辑、代码等。

关键观点2: 豆包通用模型Pro、豆包·音乐生成模型和豆包·文生图模型宣布升级。

这三个模型在各自领域取得了显著的进步，提供了更强大的功能。豆包通用模型Pro在综合能力上有了显著的提升，特别是在指令遵循、代码、专业知识、数学层面。豆包·音乐生成模型能够生成更长的音乐作品，包括前奏、主歌、副歌等复杂结构。豆包·文生图模型则在通用性、可控性、高质量三方面取得了新突破，新增了「一键海报」和「一键P图」能力。

关键观点3: 火山引擎作为技术支持平台，解决了大模型的落地问题。

火山引擎提供了一系列工具和服务，包括一站式大模型服务平台火山方舟、大模型应用开发平台扣子、企业专属AI应用创新平台HiAgent等，帮助企业用户更好地应用大模型。此外，火山引擎还推出了Prompt优解、大模型记忆应用等产品，持续保障企业级AI应用的落地。

正文

机器之心报道

作者：蛋酱

这段时间，OpenAI 宣告连续 12 轮轰炸，让 2024 年底的大模型领域热闹起来了。

但坚持每个凌晨看直播的话会发现，越到后面的发布越平淡，内心的波动也越少了。

今年的大模型就卷到这里了吗？并没有，国产大模型又卷起来了，还给 OpenAI 来了一记「重拳」。

就在前几天，2024 冬季火山引擎 FORCE 原动力大会上，字节跳动的豆包大模型家族，来了一场爆发式上新。

最受关注的是豆包大模型家族的新成员 —— 豆包・视觉理解模型。顾名思义，它让豆包有了「看懂」世界的能力。更重要的是，这款新模型一千个 token 的输入价格仅 3 厘钱，也就是说花一块钱就能处理 284 张 720P 的图片，比行业价格便宜了 85％。

价格官宣的那一刻，或许众多企业用户在心里默念了一句：太好了，是豆包，我们有救了。

至于这款模型的理解能力有多强，请看 VCR：

与此同时，三位成员豆包通用模型 Pro、豆包・音乐生成模型、豆包・文生图模型宣布升级，一起发布的还有豆包・3D 模型。

回想年中的时候，豆包还是国产大模型中的「新秀」。短短半年多，竟然已经红透了半边天，成为了众多用户首选的生产力工具。

七个月的时间，能发生什么？对于 OpenAI 来说，可能只是一项新功能从「期货」到「全量上线」的准备时长。

但对于豆包大模型，这段时间已经足以拿下日均 tokens 使用量超 4 万亿的优秀成绩，比最初发布的那天增长了 33 倍。

经过此次升级后，豆包大模型家族的实力又壮大了一波。

据智源研究院 12 月 19 日发布的国内外100余个开源和商业闭源的大模型综合及专项评测结果，「大语言模型评测能力榜单」中，豆包通用模型 pro 在重点考察中文能力的主观评测中排名第一，「多模态模型评测榜单」中，豆包·视觉理解模型在视觉语言模型中排名第二，仅次于 GPT-4o，是得分最高的国产大模型。「FlagEval 大模型角斗场榜单」中，豆包通用模型 pro 在大语言模型榜单中位居第一梯队，评分排名第二，仅次于 OpenAI 的 o1-mini，是得分最高的国产大模型。

不得不说，国产 AI 进化的速度是真的惊人。

会读论文、看梗图

豆包的「秒懂」能力强得可怕

回望 2024 年的大模型技术发展，除了文本能力的继续提升外，从单模态过渡到多模态也是基础模型的演进趋势之一。

一个关键方向是，增加对视觉模态输入的支持。这就像是给 LLM 装上了「眼睛」和「大脑」，使其能够理解图像并进行相应的自然语言生成。

在不断进化的豆包大模型中，我们也看到了惊人的「秒懂」能力。

具体来说，豆包・视觉理解模型具备精准的指令理解能力，能够精准提取图像文本信息，因此可应用于更复杂、更广泛的视觉问答任务，比如描述图片中的内容以及对图片中包含的内容进行提问。另一方面，该模型可完成深度的图片理解与推理，在表格图像、数学问题、代码图像等复杂推理场景下都能发挥所长。

豆包・视觉理解模型接入豆包 App 和 PC 端产品已经有段时间了，机器之心也测试了一番，实际体验很不错。

在此之前，人们公认体验比较好的是 GPT-4o 模型，但这次测试下来，豆包・视觉理解模型毫不逊色。

首先能感受到，豆包的内容识别能力很强，比如对于视觉内容中的知识、文化背景、状态、数量、文字等信息都识别得很准确，特别是能理解中国传统文化知识。

比如问一个生活化的问题。站在超市货架前，每个人都有过难以抉择的时刻。但显然，大模型比我们更懂传统食物：

当然，它不只是擅长识别现实中的物品，即使图片只有光影、轮廓、位置这些特征，也能一眼辨别：

其次，豆包对于视觉内容信息的推理能力也很强，包括数学、逻辑、代码等。

就拿难懂的论文架构图来说吧，在没有给出任何论文背景信息的前提下，豆包不仅能看懂、讲透，特别是针对整体流程的解读，将阶段 1 和阶段 2 的因果逻辑表达得非常清楚，还能如数列出背景知识：

假如同事交接给你一些代码，别焦虑，叫上豆包一起看能效率加倍：

再说到视觉描述能力，它也非常擅长「看图说话」，完全可以用来编写社交媒体文案，或者任何你需要启发灵感的创作任务：

还有一个很巧妙的用途 —— 帮助 2G 冲浪的「老年人」看懂新梗：

多模态能力的突破，让今年的大模型应用给用户带来了诸多惊喜。此次视觉理解能力的增强，也将是豆包大模型打开更多落地场景的关键一步。当模型能够将图像和文字信息相结合，我们就能够获得更自然、直观的交互体验。例如，在产品推荐、教育辅助或虚拟助手场景中，用户可以通过图片与模型互动，获得更丰富的反馈。此外，结合视觉和文本信息，模型对输入的洞察水准也会更上一层楼。例如，在新闻分析或知识图谱构建中，模型能够关联文字和图片，提供更完整的背景和见解。

加上以「厘」为单位的定价，这些应用场景的解锁速度会比想象中更快。秉承「让每家企业都用得起好模型」的原则，豆包一发力，实实在在是把视觉理解模型的应用成本打下来了，将以更低成本推动 AI 技术普惠和应用发展。

三大主力模型升级

视频模型下月上线

在新成员诞生的同时，豆包大模型家族的三位重要成员也迎来了本年度的最后一次重大升级。

首先是大语言模型 —— 豆包通用模型 Pro。对比今年 5 月最初公开发布的版本，这款模型在综合能力上已经提升了 32%，与 GPT-4o 持平，但价格仅是其八分之一。

此外，豆包通用模型 Pro 在指令遵循、代码、专业知识、数学层面全面对齐了 GPT-4o 水平。其中指令遵循能力提升 9%，代码能力提升 58%，GPQA 专业知识方面能力提升 54%，数学能力提升 43%，推理能力提升 13%。

然后是语音，豆包・音乐模型的生成水平已经从「高光片段」跃升到「完整乐章」。

现在，用户只需要简单描述或上传一张图片，就能生成一首长达 3 分钟的包含旋律、歌词和演唱的高质量音乐作品，包括前奏、主歌、副歌、间奏、过渡段等复杂结构。并且，豆包・音乐模型提供了局部修改功能，在针对部分歌词修改后仍能在原有旋律的节奏框架内适配。

体验地址：https://www.haimian.com/create （APP 端：海绵音乐）

从原来的 1 分钟，升级为现在的 3 分钟，豆包・音乐模型克服了挑战，在较长的时间跨度内容保持了音乐元素的连贯性。

最后，在视觉层面，豆包・文生图模型本次也迎来了新一波升级，在通用性、可控性、高质量三方面取得了新突破。具体来说，豆包・文生图模型 2.1 新增了「一键海报」和「一键 P 图」能力，目前已接入即梦 AI 和豆包 App。

一键海报的关键点在于「写字」。在实际体验中，我们可以感受到，豆包・文生图模型对文字细节的指令遵循能力很强，特别是非常擅长「写汉字」：

Prompt：生成一张卡通土拨鼠的图片衣服上的文字图案是 “机器之心”

背后的技术源自豆包・文生图模型原生的文字渲染能力，豆包大模型团队通过打通 LLM 和 DiT 架构和构建高质量文字渲染数据，大幅提升了模型在文字生成方面的准确率，尤其是结构复杂、字符数量较多的汉字场景。

一键 P 图功能的实现，则基于豆包大模型团队近期在图像编辑技术上取得的重大突破：SeedEdit。

近年来，基于扩散模型的图像生成技术进展飞速，然而，图像编辑技术还难以满足人们对于生成内容可控性的需求，关键挑战在于实现「维持原始图像」和「生成新图像」之间的最优平衡。

SeedEdit 框架在不引入新参数的前提下，将图像生成扩散模型转为图像编辑模型，也是国内首个产品化的通用图像编辑模型。无需描边涂抹，用户只需要给出简单的自然语言指示，就能换背景、转风格，或者在指定区域进行元素的增删和替换。

Prompt：驴打滚变成拿破仑

相比于传统涂抹选中的方法，这种编辑方式更加精准，不会误伤无关区域。还有一点好处是，这种编辑技术能够一次性完成多项编辑任务，效率大大提升。

关于最近非常火热的 3D 赛道，豆包家族也添加了一位新成员：豆包・3D 生成模型。将这款模型与火山引擎数字孪生平台 veOmniverse 结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持 AIGC 创作的物理世界仿真模拟器。

如视频所示，通过叠加一句一句的文字 Prompt，就能搭建起一个工厂车间场景：

后来居上，一飞冲天

「豆包」凭借的是什么？

自 2024 年 5 月发布至今，只用了七个月，豆包大模型就成为了国产大模型中当之无愧的顶流。

后来者如何居上？在豆包家族做大做强的道路上，为其提供底层支撑的火山引擎云服务平台的价值不可忽视。

一直以来，字节跳动的豆包大模型都通过火山引擎对外提供服务，「更强模型、更低价格、更易落地」，这三个关键词成为了其别于众多大模型服务平台的特质。

除了不断升级的模型能力之外，火山引擎还解决了「成本太高」和「落地太难」两项大模型应用挑战。目前，这个平台提供从云计算、技术引擎、智能应用到行业解决方案的全栈服务。

模型层面，豆包大模型家族已经有十几位成员，覆盖了常见应用场景。

特别地，火山引擎为大模型落地提供了一系列覆盖全流程的工具，包括一站式大模型服务平台火山方舟、大模型应用开发平台扣子、企业专属 AI 应用创新平台 HiAgent。这些工具，在本次大会上也都同步升级。

火山引擎这次一口气推出了 Prompt 优解、大模型记忆应用等产品，持续保障企业级 AI 应用的落地。Prompt 优解是全新一代提示词工具，通过自动 + 互动的方式，解决了人工编写 Prompt 难度高、耗时写、重新适配的问题。大模型记忆应用基于知识库 RAG 技术和上下文缓存技术，能够帮助企业用户打造灵活的大模型记忆方案，并推出 prefix cache 和 session cache API，降低延迟和成本。

扣子也在这次大会上升级到了 1.5 版本，还公布了开发者生态方面的亮眼成绩：目前平台已有超过 100 万的活跃开发者，共发布过 200 万个智能体。包括最新发布的豆包多模态模型们，用户们都能第一时间在扣子平台通过插件的方式体验。

在最新发布的 HiAgent 1.5 版本中，火山引擎提供了 100 多个行业应用模板，提供给企业用户一键复制，实现低代码构建智能体。同步发布的 GraphRAG 则通过连接知识图谱为大模型提供知识及关系信息，以此增强回答质量、支持多跳问题回答。再通过 Reranker，进一步提升回答的准确性和完整性。如此一来，企业就能构建专家级别的 AI 应用。

在云服务层面，基于当前企业使用大模型推理对计算效率的新要求，火山引擎已经完成了从 Cloud Native 到 AI Cloud Native 的转型，打造以 AI 负载为中心的基础架构新范式。

GPU 在并行处理能力和高吞吐量方面更适合大规模推理使用，然而，传统 GPU 加 CPU 的异构计算中，GPU 从存储加载数据进行处理都必须由 CPU 控制。近年来的一个趋势是计算从 CPU 转移到 GPU，GPU 计算在整个系统的比例越来越大，因此过去的 I/O 流程成为巨大的效率瓶颈，某种程度上造成了 GPU 资源的浪费。

基于 AI 云原生的理念，火山引擎这次推出了新一代计算、网络、存储和和安全产品。在计算层面，新一代的火山引擎 GPU 实例，通过 vRDMA 网络，支持大规模并行计算和 P/D 分离推理架构，显著提升训练和推理效率，降低成本。存储上，新推出的 EIC 弹性极速缓存，能够实现 GPU 直连，使大模型推理时延降低至 1/50；成本降低 20%。安全层面，火山将推出 PCC 私密云服务，构建大模型的可信应用体系。基于 PCC，企业能够实现用户数据在云上推理的端到端加密，而且性能很好，推理时延比明文模式的差异在 5% 以内。

「今年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族，火山引擎希望帮助企业做好 AI 创新，驶向更美好的未来。」火山引擎总裁谭待表示。

面向 2025，我们期待什么？

这一年，从技术研发的角度，豆包大模型团队在研究者和从业者圈子中影响力的增长是有目共睹的。2024 年，团队发布了一系列「出圈」成果，包括近期的图像编辑模型 SeedEdit、代码评估数据集 FullStack Bench、新型神经网络架构 FAN 等。在突破前沿命题之外，这些成果也对豆包大模型产品层面的进化起到了关键的推动作用。

正是基于技术驱动下的产品迅速迭代，让豆包坐稳了国产大模型顶流的宝座。大模型技术爆发两年后，不管是个人用户还是企业用户都能感知到，豆包大模型在应用层的优势已经非常明显。

根据大会 One More Thing 环节的透露，本文开头 VCR 中所展示的端到端实时语音功能，以及具备更长视频生成能力的豆包・视频生成模型 1.5 也会在不久后上线。

站在 2024 年的末尾，无论是相关从业者还是大众都会好奇：2025 年的大模型会变成什么样？

我们看到、听到了很多关于大模型前进方向的预判，比如 Scaling Law 即将撞墙，预训练已经走到尽头等等。

但这些并不意味着大模型的能力已经到达天花板，推理 Scaling Law 来了，AI 的智能水平可能会在短时间内跃升到一个新的高度。同时在图像生成、视频生成等多模态任务上，大模型仍有相当充足的发展空间。在未来的 12 个月，大模型进化的曲线可能会非常陡峭。

新的一年，豆包大模型还有哪些惊喜？值得每一个人期待。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]