专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
黄建同学  ·  翻到Andrej ... ·  16 小时前  
黄建同学  ·  按类别精心挑选的 120 多个 LLM ... ·  昨天  
爱可可-爱生活  ·  今日推介(第1711期):归纳矩匹配、推理时 ... ·  昨天  
机器之心  ·  没有归一化层的Transformer!刘壮带 ... ·  2 天前  
爱可可-爱生活  ·  本文创新性地提出了基于深度上下文蒸馏 ... ·  3 天前  
51好读  ›  专栏  ›  机器之心

提前免费!百度连发两款模型,我们实测:能听歌看电影,还会蛐蛐人

机器之心  · 公众号  · AI  · 2025-03-16 12:18

正文

机器之心原创

编辑:陈陈、杨文


AI 竞争进入白热化阶段。 这次,轮到百度给自家大模型上强度。


刚刚,百度一口气官宣了两款大模型,分别是 文心大模型 X1 和文心大模型 4.5


那么,这两款大模型有啥区别呢?


这么说吧,文心 X1 是一款深度思考模型,具备更强的理解、规划、反思、进化能力,并支持多模态,尤其是多工具调用,更是它的一大特色。


而文心 4.5 号称新一代原生多模态基础大模型,最擅长的就是多模态理解,语言能力也更精进。


相比于之前版本,文心 4.5 不仅在理解、生成、逻辑、记忆能力方面上了一个台阶,还在去幻觉、逻辑推理、代码能力上有了全面提升。


目前,这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线。 体验网址:https://yiyan.baidu.com/


最关键的是,它们全都免费!


image.png


要知道,前段时间百度还对外宣布,文心一言将从 2025 年 4 月 1 日 0 时起开始全面免费。


没想到,这次百度直接将这个时间点提前了整整半个月。


同时,这两款模型的 API 价格也已出炉。


开发者现可在百度智能云千帆大模型平台上直接调用文心大模型 4.5 API,输入价格低至 0.004 元 / 千 tokens,输出价格低至 0.016 元 / 千 tokens;文心大模型 X1 也即将在千帆平台上线,输入价格低至 0.002 元 / 千 tokens,输出价格低至 0.008 元 / 千 tokens。


image.png


百度之所以能把文心 X1 模型的 API 价格打下来,是因为他们通过飞桨和文心联合优化,实现从压缩、推理、服务部署的全链路极致调优,大幅降低文心 X1 推理成本。


具体来说,模型压缩方面,通过分块 Hadamard 量化、面向长序列的注意力机制量化等实现深度压缩;推理引擎方面,通过低精度高性能算子优化、动态自适应投机解码、神经网络编译器实现推理加速。系统层面,通过框架和芯片协同优化、分离式部署架构、高效资源调度实现系统级优化。


一手评测


俗话说得好,是骡子是马,还得拉出来遛遛。


接下来,我们将从多模态理解、文本创作、逻辑推理以及工具调用等多个维度,对这俩大模型来一波真刀真枪的实战。


文心 X1:会脑筋急转弯,还能调动多个工具


作为百度最新深度思考模型,文心 X1 有三大绝活:嘴毒(敢锐评)、脑子好使(推理能力强),而且善用工具(多工具调用)。


相较于之前版本,文心 X1 显得叛逆得多。它不愿做「端水大师」,遇事总是直言不讳,有观点有态度。


比如我们让它用贴吧的口吻,锐评一下小红书、知乎、微博和贴吧。


它一上来就毫不客气,怒喷小红书是《人类高质量装 X 指南》,知乎整天标榜精英范儿,微博热搜天天吵得像菜市场,贴吧则是人均键盘侠。


image.png


之所以说文心 X1 脑子好使,是因为它的逻辑推理能力有了显著提升,甚至还「懂」脑筋急转弯的奇葩脑回路。


比如「狐狸为什么容易摔跤」,它既能从科学的角度进行解释,还能识别出背后的谐音梗。


image.png


要说文心 X1 最大的特色,便是能调用多种工具。


我们只需在聊天框开启「联网搜索」和「调用工具」两个按钮,就能一下子综合高级搜索、文档问答、图片理解、AI 绘图、代码解释器、百度学术检索、商业信息查询等工具。


举个例子。


我们上传一张甜品的照片,然后让它介绍制作工序,并生成一份 PDF 文件。


8b650c31966d2d423fffee641362de7c.jpeg


文心 X1 接连调用了图片理解、联网搜索和代码解释器三个工具。


image.png


最终它真的生成了一份草莓蓝莓煎饼塔详细工序的 PDF 文档。


image.png

文心 X1 的完整回答


image.png

文心 X1 生成的 PDF 文件名及内容


文心 4.5:学会了听歌、看电影


如果说文心 X1 更聪明的话,那么文心 4.5 就是更全能。


作为百度自主研发的新一代原生多模态基础大模型,文心 4.5 不仅能看懂梗图,还能识别音视频。


前段时间 Grok3 发布时,马斯克激动地在 X 上发了张梗图,对着谷歌、OpenAI 和 Meta 就是一顿贴脸开大。


image (46).png


我们就将这张梗图丢给文心 4.5,输入 Prompt:这张图片暗含着什么意思?


它敏锐捕捉到了图片背后的幽默和讽刺含义:四只企鹅代表了大洋彼岸的四家科技巨头,其中三只企鹅向 Grok 企鹅敬礼,暗示了 Grok 在某一阶段处于领先优势。



对于大模型来说,识别梗图早就不是什么新鲜事了,文心 4.5 最拿手的还得是音视频的理解分析。


当我们听到一首喜欢的音乐,但就是死活想不起来歌名时,我们只需录一小段音频,投喂给文心 4.5,它就能给出这首歌的一切。



image.png


同理,我们还可以上传一段不超过 20M 的视频片段,让它挖出背后各种八卦。


比如电影《闻香识女人》中这段经典的舞蹈,







请到「今天看啥」查看全文