AI 竞争进入白热化阶段。
这次,轮到百度给自家大模型上强度。
刚刚,百度一口气官宣了两款大模型,分别是
文心大模型 X1 和文心大模型 4.5
。
那么,这两款大模型有啥区别呢?
这么说吧,文心 X1 是一款深度思考模型,具备更强的理解、规划、反思、进化能力,并支持多模态,尤其是多工具调用,更是它的一大特色。
而文心 4.5 号称新一代原生多模态基础大模型,最擅长的就是多模态理解,语言能力也更精进。
相比于之前版本,文心 4.5 不仅在理解、生成、逻辑、记忆能力方面上了一个台阶,还在去幻觉、逻辑推理、代码能力上有了全面提升。
目前,这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线。
(
体验网址:https://yiyan.baidu.com/
)
最关键的是,它们全都免费!
要知道,前段时间百度还对外宣布,文心一言将从 2025 年 4 月 1 日 0 时起开始全面免费。
没想到,这次百度直接将这个时间点提前了整整半个月。
同时,这两款模型的 API 价格也已出炉。
开发者现可在百度智能云千帆大模型平台上直接调用文心大模型 4.5 API,输入价格低至 0.004 元 / 千 tokens,输出价格低至 0.016 元 / 千 tokens;文心大模型 X1 也即将在千帆平台上线,输入价格低至 0.002 元 / 千 tokens,输出价格低至 0.008 元 / 千 tokens。
百度之所以能把文心 X1 模型的 API 价格打下来,是因为他们通过飞桨和文心联合优化,实现从压缩、推理、服务部署的全链路极致调优,大幅降低文心 X1 推理成本。
具体来说,模型压缩方面,通过分块 Hadamard 量化、面向长序列的注意力机制量化等实现深度压缩;推理引擎方面,通过低精度高性能算子优化、动态自适应投机解码、神经网络编译器实现推理加速。系统层面,通过框架和芯片协同优化、分离式部署架构、高效资源调度实现系统级优化。
一手评测
俗话说得好,是骡子是马,还得拉出来遛遛。
接下来,我们将从多模态理解、文本创作、逻辑推理以及工具调用等多个维度,对这俩大模型来一波真刀真枪的实战。
文心 X1:会脑筋急转弯,还能调动多个工具
作为百度最新深度思考模型,文心 X1 有三大绝活:嘴毒(敢锐评)、脑子好使(推理能力强),而且善用工具(多工具调用)。
相较于之前版本,文心 X1 显得叛逆得多。它不愿做「端水大师」,遇事总是直言不讳,有观点有态度。
比如我们让它用贴吧的口吻,锐评一下小红书、知乎、微博和贴吧。
它一上来就毫不客气,怒喷小红书是《人类高质量装 X 指南》,知乎整天标榜精英范儿,微博热搜天天吵得像菜市场,贴吧则是人均键盘侠。
之所以说文心 X1 脑子好使,是因为它的逻辑推理能力有了显著提升,甚至还「懂」脑筋急转弯的奇葩脑回路。
比如「狐狸为什么容易摔跤」,它既能从科学的角度进行解释,还能识别出背后的谐音梗。
要说文心 X1 最大的特色,便是能调用多种工具。
我们只需在聊天框开启「联网搜索」和「调用工具」两个按钮,就能一下子综合高级搜索、文档问答、图片理解、AI 绘图、代码解释器、百度学术检索、商业信息查询等工具。
举个例子。
我们上传一张甜品的照片,然后让它介绍制作工序,并生成一份 PDF 文件。
文心 X1 接连调用了图片理解、联网搜索和代码解释器三个工具。
最终它真的生成了一份草莓蓝莓煎饼塔详细工序的 PDF 文档。
文心 X1 的完整回答
文心 X1
生成的 PDF 文件名及内容
文心 4.5:学会了听歌、看电影
如果说文心 X1 更聪明的话,那么文心 4.5 就是更全能。
作为百度自主研发的新一代原生多模态基础大模型,文心 4.5 不仅能看懂梗图,还能识别音视频。
前段时间 Grok3 发布时,马斯克激动地在 X 上发了张梗图,对着谷歌、OpenAI 和 Meta 就是一顿贴脸开大。
我们就将这张梗图丢给文心 4.5,输入 Prompt:这张图片暗含着什么意思?
它敏锐捕捉到了图片背后的幽默和讽刺含义:四只企鹅代表了大洋彼岸的四家科技巨头,其中三只企鹅向 Grok 企鹅敬礼,暗示了 Grok 在某一阶段处于领先优势。
对于大模型来说,识别梗图早就不是什么新鲜事了,文心 4.5 最拿手的还得是音视频的理解分析。
当我们听到一首喜欢的音乐,但就是死活想不起来歌名时,我们只需录一小段音频,投喂给文心 4.5,它就能给出这首歌的一切。
同理,我们还可以上传一段不超过 20M 的视频片段,让它挖出背后各种八卦。
比如电影《闻香识女人》中这段经典的舞蹈,