专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

目录

相关文章推荐

黄建同学 · 翻到Andrej ... · 16 小时前

黄建同学 · 按类别精心挑选的 120 多个 LLM ... · 昨天

爱可可-爱生活 · 今日推介(第1711期)：归纳矩匹配、推理时 ... · 昨天

机器之心 · 没有归一化层的Transformer！刘壮带 ... · 2 天前

爱可可-爱生活 · 本文创新性地提出了基于深度上下文蒸馏 ... · 3 天前

51好读 › 专栏 › 机器之心

提前免费！百度连发两款模型，我们实测：能听歌看电影，还会蛐蛐人

机器之心 · 公众号 · AI · 2025-03-16 12:18

正文

机器之心原创

编辑：陈陈、杨文

AI 竞争进入白热化阶段。这次，轮到百度给自家大模型上强度。

刚刚，百度一口气官宣了两款大模型，分别是 文心大模型 X1 和文心大模型 4.5 。

那么，这两款大模型有啥区别呢？

这么说吧，文心 X1 是一款深度思考模型，具备更强的理解、规划、反思、进化能力，并支持多模态，尤其是多工具调用，更是它的一大特色。

而文心 4.5 号称新一代原生多模态基础大模型，最擅长的就是多模态理解，语言能力也更精进。

相比于之前版本，文心 4.5 不仅在理解、生成、逻辑、记忆能力方面上了一个台阶，还在去幻觉、逻辑推理、代码能力上有了全面提升。

目前，这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线。（体验网址：https://yiyan.baidu.com/ ）

最关键的是，它们全都免费！

要知道，前段时间百度还对外宣布，文心一言将从 2025 年 4 月 1 日 0 时起开始全面免费。

没想到，这次百度直接将这个时间点提前了整整半个月。

同时，这两款模型的 API 价格也已出炉。

开发者现可在百度智能云千帆大模型平台上直接调用文心大模型 4.5 API，输入价格低至 0.004 元 / 千 tokens，输出价格低至 0.016 元 / 千 tokens；文心大模型 X1 也即将在千帆平台上线，输入价格低至 0.002 元 / 千 tokens，输出价格低至 0.008 元 / 千 tokens。

百度之所以能把文心 X1 模型的 API 价格打下来，是因为他们通过飞桨和文心联合优化，实现从压缩、推理、服务部署的全链路极致调优，大幅降低文心 X1 推理成本。

具体来说，模型压缩方面，通过分块 Hadamard 量化、面向长序列的注意力机制量化等实现深度压缩；推理引擎方面，通过低精度高性能算子优化、动态自适应投机解码、神经网络编译器实现推理加速。系统层面，通过框架和芯片协同优化、分离式部署架构、高效资源调度实现系统级优化。

一手评测

俗话说得好，是骡子是马，还得拉出来遛遛。

接下来，我们将从多模态理解、文本创作、逻辑推理以及工具调用等多个维度，对这俩大模型来一波真刀真枪的实战。

文心 X1：会脑筋急转弯，还能调动多个工具

作为百度最新深度思考模型，文心 X1 有三大绝活：嘴毒（敢锐评）、脑子好使（推理能力强），而且善用工具（多工具调用）。

相较于之前版本，文心 X1 显得叛逆得多。它不愿做「端水大师」，遇事总是直言不讳，有观点有态度。

比如我们让它用贴吧的口吻，锐评一下小红书、知乎、微博和贴吧。

它一上来就毫不客气，怒喷小红书是《人类高质量装 X 指南》，知乎整天标榜精英范儿，微博热搜天天吵得像菜市场，贴吧则是人均键盘侠。

之所以说文心 X1 脑子好使，是因为它的逻辑推理能力有了显著提升，甚至还「懂」脑筋急转弯的奇葩脑回路。

比如「狐狸为什么容易摔跤」，它既能从科学的角度进行解释，还能识别出背后的谐音梗。

要说文心 X1 最大的特色，便是能调用多种工具。

我们只需在聊天框开启「联网搜索」和「调用工具」两个按钮，就能一下子综合高级搜索、文档问答、图片理解、AI 绘图、代码解释器、百度学术检索、商业信息查询等工具。

举个例子。

我们上传一张甜品的照片，然后让它介绍制作工序，并生成一份 PDF 文件。

文心 X1 接连调用了图片理解、联网搜索和代码解释器三个工具。

最终它真的生成了一份草莓蓝莓煎饼塔详细工序的 PDF 文档。

文心 X1 的完整回答

文心 X1 生成的 PDF 文件名及内容

文心 4.5：学会了听歌、看电影

如果说文心 X1 更聪明的话，那么文心 4.5 就是更全能。

作为百度自主研发的新一代原生多模态基础大模型，文心 4.5 不仅能看懂梗图，还能识别音视频。

前段时间 Grok3 发布时，马斯克激动地在 X 上发了张梗图，对着谷歌、OpenAI 和 Meta 就是一顿贴脸开大。

image (46).png

我们就将这张梗图丢给文心 4.5，输入 Prompt：这张图片暗含着什么意思？

它敏锐捕捉到了图片背后的幽默和讽刺含义：四只企鹅代表了大洋彼岸的四家科技巨头，其中三只企鹅向 Grok 企鹅敬礼，暗示了 Grok 在某一阶段处于领先优势。

对于大模型来说，识别梗图早就不是什么新鲜事了，文心 4.5 最拿手的还得是音视频的理解分析。

当我们听到一首喜欢的音乐，但就是死活想不起来歌名时，我们只需录一小段音频，投喂给文心 4.5，它就能给出这首歌的一切。

同理，我们还可以上传一段不超过 20M 的视频片段，让它挖出背后各种八卦。

比如电影《闻香识女人》中这段经典的舞蹈，

请到「今天看啥」查看全文

推荐文章

黄建同学 · 翻到Andrej 之前关于学习的分享，挺有道理↓关于“学习”的简-20250316201932

16 小时前

黄建同学 · 按类别精心挑选的 120 多个 LLM 资源列表↓访问：gith-20250316121527

昨天

爱可可-爱生活 · 今日推介(第1711期)：归纳矩匹配、推理时缩放的理念可让生成式-20250316061210

昨天

机器之心 · 没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

2 天前

爱可可-爱生活 · 本文创新性地提出了基于深度上下文蒸馏 (DCD) 训练的知识模块-20250314060336

3 天前

THLDL领导力 · 报名 | 企业管理者如何提升微演说能力？

8 年前

金融读书会 · 范里安：经济理论有什么用？

8 年前

侬好上海 · 是什么让你始于颜值，陷于才华？

7 年前

刘晓博说楼市 · 周三，股市将这样走！（为何我们家经济反弹，别人家股市上涨？）

7 年前

法信 · 国家工作人员以敲诈勒索方式索要财物应如何定性 | 法信码

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!