专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  【Diffusion Meets Flow ... ·  18 小时前  
量子位  ·  DeepSeek让英伟达H20都被疯抢,但A ... ·  2 天前  
机器之心  ·  超越DeepSeek ... ·  2 天前  
宝玉xp  ·  //@庆丰://@Zodzod_张浩:转发微 ... ·  2 天前  
51好读  ›  专栏  ›  量子位

一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版

量子位  · 公众号  · AI  · 2025-03-17 12:37

正文

西风 鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

文心一言两周年,百度一口气上新两款模型,并且上来就是一个主题: 免费。

这个消息一夜间在𝕏 (原Twitter) 上引来大批歪果网友关注,相当炸裂。画风是酱婶儿的:

你们能不能把页面也用英文展示一下?

有没有英文/国际版啊?

可把玩不上的网友给急坏了。

毕竟,这次百度带来的不仅有半个多月前承诺的 新一代原生多模态基础大模型文心大模型4.5 ,能力更全⾯的 深度思考模型文心大 模型X1 也无预告突然同步上线。

两款模型现已在文心一言官网上免费向用户开放。

同时,在百度智能云千帆大模型平台, 现可直接调用文心4.5 API ,文心X1也即将上线:

文心4.5输入0.004元/千tokens,输出0.016元/千tokens;文心X1输入0.002元/千tokens,输出0.008元/千tokens。

看到新模型性能和这打了骨折的价格, 歪果 网友们更加坐不住,手动艾特奥特曼、OpenAI。


新模型发布,量子位童鞋按老规矩第一时间深入实测了一波,具体来看效果如何~

实测最新文心大模型

据介绍,文心X1是 首个自主运用工具的深度思考模型 ,不仅理解、规划、反思、进化能力更强,且支持多模态。

而文心4.5,是百度 自主研发的新一代原生多模态基础大模型 ,通过多模态联合建模实现协同优化,在图片、音频、视频等多模态理解方面都很给力。

根据模型特点,我们对文心X1重点测试了中文知识问答、文学创作、工具调用和逻辑推理等能力;对文心4.5考验其图片理解、视频分析能力。

文心大模型X1

先从推理模型的拿手好戏—— 逻辑推 开始测试。

来道曾让不少网友头疼的经典逻辑题热热身:

有兄弟二人,哥哥上午说实话,下午说谎话,而弟弟正好相反,上午说谎话,一到下午就说实话。
一个人问:你们谁是哥哥?
胖子说:我是哥哥。瘦子说:我是哥哥。
那个人又问:现在几点了?
胖子说:快到中午了。瘦子说:已经过中午了。
请问:现在是上午还是下午?谁是哥哥?

文心X1下场解题,推理过程一目了然,第一次尝试就成功了 (答案:现在是上午,胖子是哥哥)

看来问题还是太简单了,好好好,上难度。

下面这题传说是爱因斯坦曾提出的一道高难度逻辑推理题,据说世界上只有2%的人能够推出正确答案。

咱也不知道这传言保不保真,就问题本身来看,的确很有意思:

着实有点没想到,文心X1在这道题上也能成功答对。

随着题目难度提升,它的推理思考过程明显变长,一番详细分析后,不仅给出了正确答案“ 德国人养鱼 ”,还成功正确推导出德国人住在绿色房子里等更多信息。

逻辑推理强只是文心X1的一个方面,与其它推理模型相比,文心X1更大的 特色在于能够灵活调用各种工具

目前,X1已⽀持⾼级搜索、⽂档问答、图⽚理解、AI绘图、代码解释器、⽹⻚链接读取、 TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等诸多⼯具。

借助这些工具,文心X1能生成包含图片、表格、代码等更丰富的多模态内容。

比如,当你询问《红楼梦》中主要人物关系时,它能自动调用高级联网和代码解释器,帮你绘制图表、生成配图。

当然,上传 图片或文档让它解析 也可以。

随手上传一种没见过的蔬菜,它除了能正确回答出菜名,还自主补充了其营养价值、烹饪方法等更多信息,包括中药养生价值、储存方法这种细节。


测试还发现, 复杂问题的规划分析 也是它的强项。

要是让它写一份“五月新疆伊犁深度漫游指南”,从交通、住宿到每天具体行程安排和预算,它都能帮你一并搞定。

最后关于文心大模型X1,还有个特点值得一提,它的文本创作不仅观点鲜明, 创意写作的想象力 也让人眼前一亮。

比如让它用“红楼体”分析“高山和大树谁更自由”,它还真编出了一个有模有样的情景,belike:







请到「今天看啥」查看全文