在中国 AI 大模型热闹了一整个春节后, 百度又给出了大动作。
3 月 16 日上午,百度连续发布了文心大模型 X1 和文心大模型 4.5,不仅能力再进阶,价格也更低。文心 X1 并非单纯的深度思考模型,能自主调用工具,还具备多模态能力,其核心在于专家级的规划、分析能力;而文心大模型 4.5 则更多强调原生多模态能力,尤其是视觉理解能力。
发布后仅仅半天,文心大模型 X1 和文心大模型 4.5 就在海外引起了热议。
硅谷著名科技投资人 Bill Gurley 直言,美国人工智能公司应将 100% 的时间用于开发和创新,而不是在华盛顿特区游说寻求保护以躲避竞争。这种情况很糟糕,明显暴露出缺乏自信。
前微软、Rackspace 员工,同时也是知名美国科技作家的 Robert Scoble 则对价格表示了震惊:“(文心大模型 4.5 及 X1)价格是 DeepSeek 的 R1 的一半。我们有一场 Al 价格战!”
彭博社研究员 Steve Hou 表示,“文心大模型 X1 的性能与 DeepSeek-R1 相当,但价格仅为后者的一半”。这就像太阳能板之于 AI 模型一样。中国不断进取,永无止境。
海外知名科技博主 Bishal Nandi 也表示,“百度刚刚推出了文心大模型 4.5 和文心大模型 X1。文心大模型 4.5 的表现优于 GPT-4o,而文心大模型直接挑战 DeepSeek R1。最棒的是,这两个模型都是免费的。”
海外的网友们更是急的不行,跪求账号和跪求文心一言官网“汉化”的围观群众比比皆是。
不过,国内用户并不存在这个问题,目前两大新模型均已上线文心一言官网,向所有用户免费开放。
同时,文心大模型 4.5 已上线百度智能云千帆大模型平台,企业用户和开发者登录即可调用 API;文心大模型 X1 也即将在千帆上线。百度搜索、文小言 APP 等产品以后也将陆续接入文心大模型 4.5 和文心大模型 X1。
推理模型 + 多模态模型,对于百度而言是不是 1+1 > 2?InfoQ 在第一时间,围绕几个核心场景对这两个大模型展开了测试。
文心大模型 X1 是本次外界对百度期待的重点。百度也确实没有让这种期待打折扣——文心大模型 X1 不是简单增加了 CoT 思维链,
而是设计了理解
、规划、反思、进化能力,并支持多模态,百度官方口径表示:
这是首个自主运用工具的深度思考模型。
在实际测试中,我们发现,文心 X1 非常重视中文语境和亚文化的特别表述,一如既往地有着百度对中文语料的特别理解和积累,因此在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。
文心 X1 的另一个特别标签,在于其能自主运用工具,在设计理念上,和当下流行的 AI Agents 形态有很多共通的地方,某种程度上也是百度千帆生态的延续。文心大模型 X1 支持调用的工具有:高级搜索、文档问答、图片理解、AI 绘图、代码解释器、网页链接读取、TreeMind 树图、百度学术检索、商业信息查询、加盟信息查询等。
理论上,这使得文心 X1 应用于实际生产环境的体验更好。在大模型领域,百度的 RAG 技术一直比较成熟,此次也深度集成在了文心 X1 中, 使得文心 X1 能快速全面地分析实时热点事件,并降低幻觉率,效果比肩 DeepSeek-R1。
作为国产大模型的又一突破,文心 X1 同样在成本层面做足了文章。飞桨和文心联合对文心 X1 进行优化,据官方数据,文心 X1 的成本大概只有 DeepSeek-R1 的一半。
具体来说,在模型压缩方面,文心 X1 通过分块 Hadamard 量化、面向长序列的注意力机制量化等实现了深度压缩;在推理引擎方面,文心 X1 通过低精度高性能算子优化、动态自适应投机解码、神经网络编译器实现推理加速。系统层面,则通过框架和芯片协同优化、分离式部署架构、高效资源调度实现了系统级优化。
笔者通过 PC 端的网页,进行视觉理解推理、文字理解、高情商回答等方面的测试,
实际检验了文心大模型 X1 的能力
,并在部分项目中附上了 DeepSeek-R1 的回答情况。
在今年的 3.15 晚会上,央视又集中曝光了一批乱象。由于这是最新的热点新闻,文心大模型 X1 的知识库大概率不会有相关的知识,那么针对这个问题,它的表现如何呢?
结果令笔者非常意外,文心大模型 X1 在调用高级联网工具之后,迅速对 3.15 晚会的主题、曝光案例进行了总结,并根据新闻给出了监管部门和涉事企业的后续行动。
之后笔者顺着文心大模型 X1 给出的答案,想看看近期有没有别的较为严重的食品安全问题。
看得出来,文心大模型 X1 对热点新闻的跟进是非常到位的,再之后,笔者继续以黄焖鸡米饭“回收菜”为引子,与文心大模型 X1 展开了多轮对话:
在多轮对话的过程中,文心大模型 X1 不仅从多个方面对热点事件进行了全面分析,还给出了食品卫生隐患的新闻案例,并在最后为消费者列出了详细的避坑指南。
然后,笔者又围绕视觉理解和推理、文字理解、文字创作等方面,对文心大模型 X1 展开了一系列测试。
首先是视觉理解和推理能力,为了增加难度,笔者直接给文心大模型 X1 上了一点强度:对一幅看起来“不知所谓”的艺术品进行解读。
在调用图片理解工具后,文心大模型 X1 给出了正确的答案,可以看到文心大模型 X1 对作品的创作意图、象征意义、社会反响乃至艺术史地位都有着清晰的理解。
在文字理解方面,笔者问了文心大模型 X1 一个谜语,想看看文心大模型 X1 能不能猜出谜底。
在分析谜语结构,寻找可能解释并调用联网搜索工具后,文心 X1 给出了准确的回答。
DeepSeek-R1 在经过相对比较久的思考过程之后,也给到了答案,不过并不怎么“接地气”。
然后是文学创作,笔者让文心大模型 X1 生成一个故事大纲,同时结合古风、悬疑、言情、推理要素,并且至少出现 5 个角色。
文心大模型 X1 马上给到了核心设定、主要人物、故事脉络、关键线索设计和主题设计,并且故事逻辑较缜密,不仅没有明显硬伤,而且对每个角色之间的关系、情感也有较为清晰的介绍。
DeepSeek-R1 则是给到了世界观设定、故事梗概和前三章的内容,整体的故事逻辑也比较缜密,但可惜并没有给到主要人物的介绍,笔者需要从故事梗概中筛选出这五名主要角色。
接下来,笔者给文心大模型 X1 提了一个复杂的需求:基于 Word 的内容生成 Excel 文档。
在调用文档问答、代码解释器工具之后,文心大模型 X1 成功生成了 Excel 文档,并给到了下载链接和预览。
DeepSeek-R1 这边也很好地完成了任务。
文心大模型 X1 在视觉理解及推理方面的能力极强,可以对大量图片细节做深度理解和思考,完成复杂推理任务;同时拥有不俗的逻辑推理能力,可以正确识别并解答脑筋急转弯这样的抽象问题;此外,文心大模型 X1 的“情商”和文学创作水平也非常高;拥有实时热点事件深度还原并分析的能力以及专家级规划分析能力,在部分场景中,我们还看到了文心大模型 X1 具备多工具的调用能力。
我们再来看看文心大模型 4.5。
文心大模型 4.5 是百度自主研发的
新一代原生多模态基础大模型
,核心是通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力也有显著提升。