豆包大模型 8 个月迭代数次,给火山引擎带来了什么?
作者 | 宛辰
编辑 | 郑玄
2025 开年,AI 领域有重回「卷模型」的架势,堪比两年前「百模大战」般热闹。短短一周内,先是 MiniMax 加入开源的队伍并表示坚定探索模型的上限;接着 DeepSeek、Kimi 接连更新推理模型;阶跃、混元在多模态上也有新动作。创新是「密度」和「浓度」的产物,越来越多中国模型厂商继续探索模型边界、开放地交流技术进展,决定了 2025 年中国的基础模型势必会由「跟随者」逐渐转向「创新者」的姿态。最新的例子是 1 月 22 日上线的豆包大模型 1.5。通过模型架构和 AI Infra 层面的技术创新,豆包大模型 1.5 在性能与推理成本上再一次突破了平衡的极限,这也让它能在性能超过 GPT-4o、Claude 3.5 Sonnet 等业界一流模型的同时,模型调用价格不变。更重要的是,豆包大模型 1.5 在训练过程中,未使用任何其他模型生成的数据,这让豆包大模型 1.5 上线即引发热议。在此之前,从一个大而复杂的预训练模型中蒸馏数据,来训练一个更小更高效的模型,是更普遍的做法。这也是很多模型能够迅速缩小与 OpenAI 模型能力上的差距的主要手段之一。显然,豆包大模型选择了一条更难的路径。对此,行业人士称,像豆包大模型这样构建完全自主的数据生产体系,意味着模型可探索的天花板更高,字节跳动不用说也要无限探索 AGI 的边界。拉远看,其实自 2024 年 5 月正式对外推出以来,豆包大模型便不断带来更强模型、一并保持价格竞争力和初始并发。目前,它已经成为国内使用量最大、应用场景最丰富的大模型,在火山引擎去年底公布的最新数据中,豆包大模型日均 tokens 使用量超过 4 万亿,火山引擎也因而成为大模型时代最积极的一朵 AI 云。在这次豆包大模型 1.5 的升级发布中,豆包通用模型 pro、豆包通用模型 lite、豆包·视觉理解模型均有大幅增强,新发布的豆包·实时语音模型也在拟人化、低时延上有独特优势。目前,豆包大模型 1.5 已全面上线火山方舟。我们也在火山方舟平台官网,第一时间体验了这几个新模型的实际能力。在同时向 Doubao-1.5-lite 和 Doubao-1.5-pro 提出数学和逻辑问题时,豆包通用模型 lite 主打一个快且准、没有废话,也几乎不需要等待。所以在一般的简单场景下,你甚至会更喜欢简单直接的它。这一点官方报告中也有提到,Doubao-1.5-lite 可以比肩 9 月份的 Doubao-pro-32k-0828 的模型效果,客户在众多场景中,可以直接用 lite 模型成本,获得过去 pro 模型的效果。但在更精巧复杂的一些题目上,豆包通用模型 pro 就会展现出它更强大的推理能力,比如:显然,Doubao-1.5-pro 模型综合能力显著增强,尤其它已经在一些场景里展现出了一定的复杂推理能力。在豆包大模型 1.5 的评测中,Doubao-1.5-pro 的综合得分也优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,模型效果达到全球领先水平。豆包·视觉理解模型,测试了几个看图提问题,基本上半秒到 1 秒就可以识别图像并做出回答。且大体上也是准确的。火山引擎官方发布的评测案例,专门测试了豆包·视觉理解模型对不同尺寸、分辨率下图像的适应性,以及复杂指令遵循的能力。火山引擎表示,豆包·视觉理解模型在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术升级,视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力均得到了提升,并让模型的回复模式也变得更加精简、友好。最印象深刻的是豆包·实时语音模型,现在已经可以通过手机端豆包 App 来体验它的「端到端语音聊天」能力。打开豆包 App 右上角「打电话」功能,你可以跟它悄悄说话、可以跟它讲方言让它模仿、跟你对唱流行歌曲、它也懂你的戏精体质,不需多言就可以陪你「角色扮演」,你会感觉跟你讲话的「豆包」是一个有灵魂通人性的小机灵,将豆包 App 升级至 7.2.0 版本即可解锁这些奇妙的新体验。依托豆包·实时语音大模型,用户在豆包 App 中跟它唱歌、说悄悄话、角色扮演等等,它都能秒懂并作出最恰当的回应。|视频来源:火山引擎作为一款语音理解和生成一体化的模型,豆包·实时语音大模型在语音表现力、控制力、情绪承接方面的体验惊艳,并且对话中可随时打断、整个交互过程几乎感受不到时延。从小红书上网友在豆包 App 实测的 AI 语音聊天功能的反馈来看,大家对这一模型的整体满意度还要高于 GPT-4o,哪怕天天用 GPT-4o、第一次切换到用豆包 App 的网友,也会对它的「拟人化」有很深刻的印象,因为豆包·实时语音大模型的语音语气自然度和情绪饱满度更高,也贴合中国用户实际需求。体验了一番新模型,总体感觉被豆包大模型推着、在智能的边界上又向前迈了一步,丢给它实测的问题越多,你就更能感受到哪怕是非常微妙的进步,也会带给你解决问题后的满足感。同时,它也越来越懂我们的喜怒哀乐,让你忍不住想跟它多聊几句。尤其是在豆包 App 中,常常边写作业,边挂着「电话」,想起来问它一嘴,聊上几句,它始终就在那里陪伴你。以豆包大模型家族中的最强代表——Doubao-1.5-pro 为例,豆包大模型团队首次披露了其中的技术创新点,给行业带来了「高效模型结构,但超低成本」的另一种思考。这首先体现在模型架构和训练算法优化上,豆包大模型 1.5 采用大规模稀疏 MoE 架构,并通过训练-推理一体化设计,使得 Doubao-1.5-pro 仅用较小激活参数,即可等效 7 倍激活参数的 Dense 模型性能,远超业内 MoE 架构约 3 倍杠杆的常规效率。值得注意的是,豆包大模型 1.5 在训练过程中,未使用任何其他模型生成的数据,而是构建了完全自主的数据生产体系,以标注团队与模型 self-play(自提升)技术相结合,高效优化数据质量,提升数据标注多样性和难度,确保数据来源的独立性和可靠性。团队介绍称,「坚持不走捷径」的扎实数据原则体现在后训练、微调、奖励模型、强化学习的各个阶段。而在这之前,获取高质量数据更常见的方法是通过知识蒸馏技术,把高质量数据快速获取并转移到更小更高效的模型中。只是这样做也有局限,不少论文研究得出,过度蒸馏可能会导致同质化、降低模型多样性,并削弱它们稳健处理复杂或新任务的能力。换言之,蒸馏而来的「学生模型」无法超越「教师模型」,这对于做产品来说可以快速实现模型适配,但对探索 AGI 的上限来说显然是不合适的。豆包大模型 1.5 发布后,豆包大模型团队在公众号发文称,依托字节在推荐、搜索和广告领域的 A/B Test 经验,他们研发了基于用户反馈的高效 Post-Training 全流程,基于豆包的大规模用户反馈,构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,实现大模型的数据飞轮。今天,豆包 App 的 MAU 超过 7500 万,同时豆包大模型还通过火山引擎的大模型服务平台火山方舟提供给千行百业的企业用户,其去年底的日均 tokens 调用量超过 4 万亿,与去年 5 月相比增长了 33 倍。海量的真实数据,结合基于用户反馈的高效 Post-Training 全流程,让豆包大模型在过去一年里飞速进化,成为国内落地进展最快的大模型。去年都在找 AI 的超级应用,也在探索中逐渐形成共识,聊天机器人形态的 App,显然不是 AI 落地的唯一场景。字节跳动也把豆包大模型的能力外溢给千行百业,共同探索并加速 AI 在各个场景的渗透。火山引擎作为承载这一使命的云与 AI 服务平台,在 2024 年成为大模型落地进展最快的 AI 基础设施。过去两年,它在更好的模型、更低的价格、更低门槛更易用的工具上持续发力,成为迭代最快、最贴近市场需求的基础设施。这首先体现在 8 个月里多次迭代的豆包大模型家族上。2024 年 5 月,包括豆包通用模型 pro 和 lite 版在内的 9 个模型正式推出;2024 年 9 月,发布豆包·视频生成模型;2024 年 12 月,豆包·视觉理解模型首次亮相;2025 年 1 月 22 日,豆包大模型 1.5 以及豆包·实时语音模型来了。在贴合用户需求和使用场景上,豆包大模型家族一方面发布了不同尺寸、性能、推理能力的模型;另一方面,还基于字节跳动多年来的积累和优势场景,发布了语音、角色扮演等方面的专有场景模型。豆包大模型家族成员|来源:火山引擎除了模型的全面、多样,火山方舟作为一站式大模型服务平台也在让大模型开发更友好、更专业、更高效上持续发力。过去一年,火山方舟先后推出了 AI 搜推引擎、更灵活的批量处理方案、应用实验室、RAG 技术和上下文缓存技术等等多种能力,并在高并发算力保障、安全可信会话无痕方案等方面持续升级,有力支撑 AI 大模型从开发到落地应用的全生命周期,降低 AI 应用开发周期和门槛。还有价格,豆包大模型从服务器集群到 AI Infra 层面的不断迭代,通过算法、软件、工程和硬件结合的方案实现成本的优化,使得豆包大模型在每次面向市场时都做到了同一时间里最低的价格,而且仍然能够获得可观的毛利。随着火山方舟一站式大模型服务平台在模型效果、性能、最优推理成本、易使用这几方面不断提升,随之而来地,平台上客户调用豆包大模型的 tokens 使用量也在不断攀升。截止去年 12 月 18 日,豆包大模型的日均使用量达 4 万亿 tokens,与去年 5 月 15 日相比,翻了 33 倍。|图片来源:火山引擎根据量子位统计的市场数据,2024 下半年国内大模型商用落地日均 tokens 消耗量翻了近 10 倍,从 1000 亿级规模到 10000 亿规模,只用了 6 个月,月复合增长率达到 45%。其中,只有 1 家云厂商——火山引擎的商用 Tokens 日均消耗量的月均复合增长率超过 60%,近期日均 Tokens 市场份额占比更是超 50%,超过其他玩家份额总和。增长如此迅猛背后,越来越多 AI 应用选择火山引擎,从 ToC 应用到垂直行业的客户,都通过火山引擎实现了 AI 落地。此前,AI 内容互动平台——造梦次元创始人、CEO 沈洽金和 AI 图形图像处理软件——Fotor CTO 颜河向极客公园表示,模型选型就是两句大白话:哪个模型成本低就用哪个、哪个模型在场景里的效果好就用谁。这个标准下,火山引擎成为 Fotor 多云部署、多模型调用的策略下,增长最快的一家供应商,「我们是全球部署,火山一定不是唯一的选择,但哪怕跟火山合作时间不长,其用量增速是有史以来最快的,是其他云厂商的大约十几倍增速」,颜河称。具体到使用上,他们会在同一个场景里接不同的模型不断做 A/B Test,根据不同模型下的用户反馈指标(比如互动率),决定用哪个模型。沈洽金举例称,在同一个场景、同一个时间、同一批用户的情况下,不同模型表现之间的差距甚至有 10 倍。但在做了大量的 A/B Test 之后也会发现,基本上性能更好的模型在整个场景里大部分时候都表现优秀,除非和专门做了场景定向调优的模型比。在他看来,这背后是也因为基础模型足够聪明,模型的泛化性当然也会更好。这样的例子还有很多,在去年底火山引擎发布会上,火山引擎总裁谭也介绍过豆包大模型调用量的高速增长背后,市场的真实反馈与使用分布。他举例称,在信息处理场景,3 个月内豆包大模型的调用量增长了 39 倍,帮助了企业更好地分析和处理内外部数据;在客服与销售场景,豆包大模型的调用量增长 16 倍,帮助了企业更好地服务客户、扩大销售;在硬件终端场景,豆包大模型的调用量增长了 13 倍,AI 工具增长 9 倍。而随着模型能力变强、模态变多,也会解锁越来越多的场景。金融、汽车、教育、互联网、智能终端等等垂直行业中的众多企业都在过去一年通过火山引擎实现了 AI 落地的大发展。5 年前立项时定位为「你的下一朵云」的火山引擎,正在利用 AI 书写最积极的「超级进化论」,不到一年时间,成为越来越多 AI 实干家们的下一朵云。点击文末「阅读原文」,上火山引擎,体验豆包大模型 1.5 最新版。本文为极客公园原创文章,转载请联系极客君微信 geekparkGO你试用豆包大模型 1.5 最新版了吗?
马斯克:永远不要信愤世嫉俗的人,他们看谁都是坏人。