“效果领先,豆包大模型1.5超越GPT-4o、Claude3.5。” 作者丨王悦
2025 年 1 月,豆包大模型 1.5 全面上线火山方舟,其中豆包通用模型 pro 在多个权威测评集综合得分优于GPT4o、Claude 3.5 Sonnet 等业界一流模型,模型效果达到全球领先水平。通用模型 pro 实现了性能与推理成本极致平衡,采用高效的 MoE 模型结构,性能杠杆提升至 7 倍,更有自研的高性能推理系统,可以达到 10 毫秒级低延迟。并且,豆包大模型 1.5 建了高度自主的数据生产体系,未使用任何其他模型生成的数据。除此之外,豆包通用模型 pro、豆包·视觉理解模型均有大幅增强,并发布豆包·实时语音模型。但豆包大模型 1.5 全产品,加量不加价,仍继续保持原有模型价格不变。本文实测了豆包大模型 1.5 产品家族后,看到了字节不走捷径的底气。Doubao-1.5-pro 模型综合能力显著增强,在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)权威测评基准上获得最佳成绩,综合得分优于GPT-4o、Claude 3.5 Sonnet 等业界一流模型。话不多说,先通过和其他行业内领先大模型的对比来直观感受一下。针对推理能力,设置一个大约在初级和中级水平的代码问题:使用 Flask 框架创建一个简单的 Web API,包含以下两个端点:/
: 返回一个欢迎消息,例如 {"message": "Welcome to the API!"}
。/add
: 接受两个整数参数 a
和 b
(通过查询参数传递),返回它们的和,例如 {"sum": 5}
。
这一测试题所传达的需求明确清晰且聚焦于核心功能,但并未说明如何处理错误逻辑或参数类型。先来看GPT-4o 将如何应对:上下滑动查看长图
可以看到 GPT-4o 的答案相对中规中矩,并针对问题本身包含的漏洞,给出了一个错误处理示例。再来看看 Doubao-1.5-pro 给出的答案:
上下滑动查看长图
显而易见,豆包关于代码问题的输出格式设置,会更贴近原生的编码界面。相较于 GPT-4o ,能够进行必要且详细的代码说明,并且在这一部分对参数类型问题就给出了预设和解答,即如果参数并不有效,状态代码就为400,然后才给出了运行代码并进行测试的方法。总体而言,Doubao-1.5-pro 相较于 GPT-4o 输出的代码会更加精细一点。
针对“知识能力”一项,将 Doubao-1.5-pro 和同为主打中文语境的一个国产模型进行对比,提出的问题是:唐代有哪些古诗中包含“过年”这件事?国内某大模型产品给出的答案是:上下滑动查看长图
给出的答案数量有十个之多,但每个答案的颗粒度不够,仅包括作者和50字左右的大概介绍,于用户而言可能无法对提出的问题有深入的了解。Doubao-1.5-pro 则相对完美地规避掉了这一问题。先在逻辑上进行了清晰的划分,给出了体现过年氛围与习俗与抒发过年时情感思绪的两个大方向,并且针对所给出的每一个答案的颗粒度也相对细些,包括了原文和解析,内容明显更丰富。针对复杂问题的推理能力,Doubao-1.5-pro 在现实的中文语境中展现出了明显的优势,所提出的问题是:2025年上半年,我有3万元想进行理财,是选择中国建设银行还是选择中国工商银行?收益各是多少? Gemini 1.5 Flash 给出的回答如下:也许是由于数据库的问题,Gemini 推理出的结果会相对空泛,并没有给出实质性的建议,也没有给出题目中要求的大致收益。而 Doubao-1.5-pro 的回答则具有针对性,并能够条理清晰、分门别类的给出针对活期类、定期类、特色理财产品的的不同收益,能够满足问题提出者对这一问题的基本需求。中文能力方面,设置的问题是:请以爱情和轻舟已过万重山为主题,写一首七言律诗。Doubao-1.5-pro 的遣词造句明显优于 GPT-4o 等其他的模型,并能够更进一步给出首联、颔联、颈联、尾联解析。而 GPT-4o 的中文能力则稍逊一节,回答得相对简单,词藻也较为朴素。除了 Doubao-1.5-pro ,本次也发布了更加轻量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具备极致的响应速度,适用于对时延有更高要求的场景,模型配合精调使用可以获得更优质的效果,并且在轻量版语言模型中处于领先水平,在综合(MMLU_pro)、推理(BBH)、数学(MATH)、专业知识(GPQA)权威测评指标持平或超越GPT-4omini,Cluade 3.5 Haiku。先来感受一下极致的推理和响应速度,提问一个中等难度的推理问题:有三个人分别穿着红、蓝、绿三种颜色的衣服,他们分别来自 A、B、C 三个城市。已知:穿红衣服的人不是来自 A 城市;穿蓝衣服的人来自 C 城市;来自 A 城市的人没有穿绿衣服。请问,这三个人分别来自哪个城市,穿着什么颜色的衣服?在不省略已知条件、推理过程的情况下, Doubao-1.5-lite 输出答案仅用了 1.55 秒,这个推理时间确实极致。再提出一个更复杂的专业问题:请简述股票估值的三种主要方法(市盈率法、现金流折现法、净资产法),并分析在不同市场环境下,哪种方法更适用?这是一道金融行业的专业知识题目。Doubao-1.5-lite 的回答内容详实,能够 cover 住垂直领域的专业知识,并且在面对庞杂的、体量大的问题时,总输出时长只有 6.77 秒,同样在一个低时延的水平范围内。值得一提的是,Doubao-1.5-lite 模型效果比肩去年 9 月份发布的主力模型 Doubao-pro-32k-0828,这意味着用户可以用 lite 模型的成本,获得过去 pro 模型的效果。无论是 Doubao-1.5-pro 还是 Doubao-1.5-lite,都是字节在追求模型性能与推理性能的极致平衡,也是字节一路积累下来的基本功的体现。从训练和推理效率的角度出发,Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。豆包团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能,等效 7 倍激活参数的Dense模型性能,远超业内 MoE 架构约 3 倍杠杆的常规效率。基于 MoE 模型,豆包搭建了高性能推理系统,在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中,表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。更重要的是,在 PostTraining 阶段,豆包团队构建了一套完全自主的数据生产体系,将标注团队与模型 self play 技术相结合,提升数据标注多样性和难度,确保数据来源的独立性和可靠性。在豆包大模型1.5的训练过程中,未使用任何其他模型生成的数据。这意味着,字节在踩踏实大模型训练的基本功、加大基础工程投入、放弃短期获利,这已经区别于世界范围内绝大多数不肯下“笨功夫”的大模型公司。本次发布中,豆包的视觉理解能力令人惊艳,具备市面上绝大多数 To C 的 AI Chatbot 并不具备精准的图像理解、识别、问答能力。Doubao-1.5-vision-pro 在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术升级,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力,也拥有了更细腻的视觉描述能力。Doubao-1.5-vision-pro 的视觉能力在多个权威测评基准上取得了全球领先表现:基于原生动态分辨率的架构设计,Doubao-1.5-vision-pro 能够支持任意分辨率和极端长宽比图像识别。因此,无论是高清大图还是低分辨率的小图,亦或是极端长宽比例的图像,模型都能实现精准的特征提取和高效的计算性能。先来看一下针对复杂图表的理解能力。给出如下图表,并向 Doubao-1.5-vision-pro 提问:该图表反映了什么内容?从上述的回答中可以见得, Doubao-1.5-vision-pro 对图表内数据内容的解读是准确无误的,并能针对某些数值给出基本的关于趋势、显著性的结论。针对低清晰度问题,给出如下一张清晰度低、分辨率低的界面,进而考察模型对其中内容识别和理解的准确程度。从上述的回答中可知,Doubao-1.5-vision-pro 同样能够准确识别模糊内容,并做出基础的推理判断:用户正在为视频应用创意外观预设并进行色彩调整。再上一个难度,针对字迹潦草的手写图片,Doubao-1.5-vision-pro 能否准确识别?不得不说,这个图片如果不仔细看的话,人眼都不一定能看清,而豆包则能提取道其中 95% 的关键词和主题,且识别出了部分关键词用蓝色笔标注来突出重点内容,并进一步总结该笔记聚焦于媒体研究领域。除了精准的识别能力,Doubao-1.5-vision-pro 也具备强大的多类型图片内容提取能力。上传四张同一时期拍摄的照片,模型能在处理多张图片时获取关键要点,并总结出是“新年庆祝”的主题。复杂指令遵循能力也是 Doubao-1.5-vision-pro 的亮点,通过系统性的原子能力拆解和多维度指令的逻辑组合,在后训练阶段引入了多样化的视觉指令数据,从而激发模型的指令遵循能力,从容应对需要遵循更复杂指令的场景。不仅视觉大模型的能力得到提升,本次豆包大模型1.5家族中还新推出了实时语音模型。该模型提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,不仅拥有高理解力(高智商),还具备语音高表现力与高控制力,以及模型整体在回复内容和语音上的高情绪承接能力。在语音多模态上,我们提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。可以说是一个情绪价值价值拉满、表现能力生动,也不怕被打断的豆包了。2024 年 5 月,豆包主力模型就将推理输入价格降至“厘时代”,12 月火山引擎又让视觉理解模型价格进入“厘时代”。当下豆包大模型 1.5 继续保持原有模型价格不变,加量不加价,也会给火山引擎进一步做大 B 端市场带来更多可能性。在这场旷日持久的大模型落地竞赛中,字节给行业留下的印象是“从容”。支撑豆包大模型全产品价格普惠的原因,是推理成本持续优化、毛利率的逐渐增加。据了解,豆包大模型去年大幅降价后,毛利率依然为正。其中,字节跳动最新推出的豆包大模型 1.5,在推理成本优化上取得进一步突破,在火山引擎上售卖 API 的 Doubao-1.5-pro,毛利率仍能达到较为可观的 50%。不能只看到火山引擎中 API 价格下调的从容,更需要看到的是,豆包大模型团队所打造的综合高效模型架构、高性能推理体系、自建数据标注工程等深厚的技术优势,以及对于大模型这条路不走捷径的长期主义战略。更高性价比的服务也让火山引擎在商业化落地的过程中跑在前列。2024 年,火山引擎在汽车行业与梅赛德斯-奔驰、广汽集团、领克汽车等多家企业达成合作;在金融行业与招商银行、华泰证券、国信证券等企业进行智能体创新探索;在教育行业和浙江大学、南京大学打造了 AI 教育示范合作案例。豆包大模型 1.5 的升级和火山引擎在 B 端市场的进一步拓展,二者生生相息、共同推进 AI 惠普。