西风 鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
文心一言两周年,百度一口气上新两款模型,并且上来就是一个主题:
免费。
这个消息一夜间在𝕏
(原Twitter)
上引来大批歪果网友关注,相当炸裂。画风是酱婶儿的:
你们能不能把页面也用英文展示一下?
有没有英文/国际版啊?
可把玩不上的网友给急坏了。
毕竟,这次百度带来的不仅有半个多月前承诺的
新一代原生多模态基础大模型文心大模型4.5
,能力更全⾯的
深度思考模型文心大
模型X1
也无预告突然同步上线。
两款模型现已在文心一言官网上免费向用户开放。
同时,在百度智能云千帆大模型平台,
现可直接调用文心4.5 API
,文心X1也即将上线:
文心4.5输入0.004元/千tokens,输出0.016元/千tokens;文心X1输入0.002元/千tokens,输出0.008元/千tokens。
看到新模型性能和这打了骨折的价格,
歪果
网友们更加坐不住,手动艾特奥特曼、OpenAI。
新模型发布,量子位童鞋按老规矩第一时间深入实测了一波,具体来看效果如何~
实测最新文心大模型
据介绍,文心X1是
首个自主运用工具的深度思考模型
,不仅理解、规划、反思、进化能力更强,且支持多模态。
而文心4.5,是百度
自主研发的新一代原生多模态基础大模型
,通过多模态联合建模实现协同优化,在图片、音频、视频等多模态理解方面都很给力。
根据模型特点,我们对文心X1重点测试了中文知识问答、文学创作、工具调用和逻辑推理等能力;对文心4.5考验其图片理解、视频分析能力。
文心大模型X1
先从推理模型的拿手好戏——
逻辑推
理
开始测试。
来道曾让不少网友头疼的经典逻辑题热热身:
有兄弟二人,哥哥上午说实话,下午说谎话,而弟弟正好相反,上午说谎话,一到下午就说实话。
一个人问:你们谁是哥哥?
胖子说:我是哥哥。瘦子说:我是哥哥。
那个人又问:现在几点了?
胖子说:快到中午了。瘦子说:已经过中午了。
请问:现在是上午还是下午?谁是哥哥?
文心X1下场解题,推理过程一目了然,第一次尝试就成功了
(答案:现在是上午,胖子是哥哥)
:
看来问题还是太简单了,好好好,上难度。
下面这题传说是爱因斯坦曾提出的一道高难度逻辑推理题,据说世界上只有2%的人能够推出正确答案。
咱也不知道这传言保不保真,就问题本身来看,的确很有意思:
着实有点没想到,文心X1在这道题上也能成功答对。
随着题目难度提升,它的推理思考过程明显变长,一番详细分析后,不仅给出了正确答案“
德国人养鱼
”,还成功正确推导出德国人住在绿色房子里等更多信息。
逻辑推理强只是文心X1的一个方面,与其它推理模型相比,文心X1更大的
特色在于能够灵活调用各种工具
。
目前,X1已⽀持⾼级搜索、⽂档问答、图⽚理解、AI绘图、代码解释器、⽹⻚链接读取、 TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等诸多⼯具。
借助这些工具,文心X1能生成包含图片、表格、代码等更丰富的多模态内容。
比如,当你询问《红楼梦》中主要人物关系时,它能自动调用高级联网和代码解释器,帮你绘制图表、生成配图。
当然,上传
图片或文档让它解析
也可以。
随手上传一种没见过的蔬菜,它除了能正确回答出菜名,还自主补充了其营养价值、烹饪方法等更多信息,包括中药养生价值、储存方法这种细节。
测试还发现,
复杂问题的规划分析
也是它的强项。
要是让它写一份“五月新疆伊犁深度漫游指南”,从交通、住宿到每天具体行程安排和预算,它都能帮你一并搞定。
最后关于文心大模型X1,还有个特点值得一提,它的文本创作不仅观点鲜明,
创意写作的想象力
也让人眼前一亮。
比如让它用“红楼体”分析“高山和大树谁更自由”,它还真编出了一个有模有样的情景,belike: