专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
量子位  ·  李开复力推DeepSeek!零一万物发布模型 ... ·  4 小时前  
向阳光明草  ·  从四大发明到AI普惠:DeepSeek的开源 ... ·  12 小时前  
向阳光明草  ·  从四大发明到AI普惠:DeepSeek的开源 ... ·  12 小时前  
爱可可-爱生活  ·  [CL]《IteRABRe: ... ·  昨天  
宝玉xp  ·  转发 X 网友 hahagood ... ·  昨天  
爱可可-爱生活  ·  晚安~ #晚安# -20250315223720 ·  昨天  
51好读  ›  专栏  ›  AI前线

海外热议!百度双模型免费上线,实测可帮没看“3.15”的打工人避雷

AI前线  · 公众号  · AI  · 2025-03-16 18:18

正文

作者 | 王嘉陆

在中国 AI 大模型热闹了一整个春节后, 百度又给出了大动作。

3 月 16 日上午,百度连续发布了文心大模型 X1 和文心大模型 4.5,不仅能力再进阶,价格也更低。文心 X1 并非单纯的深度思考模型,能自主调用工具,还具备多模态能力,其核心在于专家级的规划、分析能力;而文心大模型 4.5 则更多强调原生多模态能力,尤其是视觉理解能力。

发布后仅仅半天,文心大模型 X1 和文心大模型 4.5 就在海外引起了热议。

硅谷著名科技投资人 Bill Gurley 直言,美国人工智能公司应将 100% 的时间用于开发和创新,而不是在华盛顿特区游说寻求保护以躲避竞争。这种情况很糟糕,明显暴露出缺乏自信。

前微软、Rackspace 员工,同时也是知名美国科技作家的 Robert Scoble 则对价格表示了震惊:“(文心大模型 4.5 及 X1)价格是 DeepSeek 的 R1 的一半。我们有一场 Al 价格战!”

彭博社研究员 Steve Hou 表示,“文心大模型 X1 的性能与 DeepSeek-R1 相当,但价格仅为后者的一半”。这就像太阳能板之于 AI 模型一样。中国不断进取,永无止境。

海外知名科技博主 Bishal Nandi 也表示,“百度刚刚推出了文心大模型 4.5 和文心大模型 X1。文心大模型 4.5 的表现优于 GPT-4o,而文心大模型直接挑战 DeepSeek R1。最棒的是,这两个模型都是免费的。”

海外的网友们更是急的不行,跪求账号和跪求文心一言官网“汉化”的围观群众比比皆是。

不过,国内用户并不存在这个问题,目前两大新模型均已上线文心一言官网,向所有用户免费开放。

同时,文心大模型 4.5 已上线百度智能云千帆大模型平台,企业用户和开发者登录即可调用 API;文心大模型 X1 也即将在千帆上线。百度搜索、文小言 APP 等产品以后也将陆续接入文心大模型 4.5 和文心大模型 X1。

推理模型 + 多模态模型,对于百度而言是不是 1+1 > 2?InfoQ 在第一时间,围绕几个核心场景对这两个大模型展开了测试。

文心大模型 X1:
深度思考与多工具调用的专家

文心大模型 X1 是本次外界对百度期待的重点。百度也确实没有让这种期待打折扣——文心大模型 X1 不是简单增加了 CoT 思维链, 而是设计了理解 、规划、反思、进化能力,并支持多模态,百度官方口径表示: 这是首个自主运用工具的深度思考模型。

在实际测试中,我们发现,文心 X1 非常重视中文语境和亚文化的特别表述,一如既往地有着百度对中文语料的特别理解和积累,因此在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

文心 X1 的另一个特别标签,在于其能自主运用工具,在设计理念上,和当下流行的 AI Agents 形态有很多共通的地方,某种程度上也是百度千帆生态的延续。文心大模型 X1 支持调用的工具有:高级搜索、文档问答、图片理解、AI 绘图、代码解释器、网页链接读取、TreeMind 树图、百度学术检索、商业信息查询、加盟信息查询等。

理论上,这使得文心 X1 应用于实际生产环境的体验更好。在大模型领域,百度的 RAG 技术一直比较成熟,此次也深度集成在了文心 X1 中, 使得文心 X1 能快速全面地分析实时热点事件,并降低幻觉率,效果比肩 DeepSeek-R1。

作为国产大模型的又一突破,文心 X1 同样在成本层面做足了文章。飞桨和文心联合对文心 X1 进行优化,据官方数据,文心 X1 的成本大概只有 DeepSeek-R1 的一半。

具体来说,在模型压缩方面,文心 X1 通过分块 Hadamard 量化、面向长序列的注意力机制量化等实现了深度压缩;在推理引擎方面,文心 X1 通过低精度高性能算子优化、动态自适应投机解码、神经网络编译器实现推理加速。系统层面,则通过框架和芯片协同优化、分离式部署架构、高效资源调度实现了系统级优化。

笔者通过 PC 端的网页,进行视觉理解推理、文字理解、高情商回答等方面的测试, 实际检验了文心大模型 X1 的能力 ,并在部分项目中附上了 DeepSeek-R1 的回答情况。

在今年的 3.15 晚会上,央视又集中曝光了一批乱象。由于这是最新的热点新闻,文心大模型 X1 的知识库大概率不会有相关的知识,那么针对这个问题,它的表现如何呢?

结果令笔者非常意外,文心大模型 X1 在调用高级联网工具之后,迅速对 3.15 晚会的主题、曝光案例进行了总结,并根据新闻给出了监管部门和涉事企业的后续行动。

之后笔者顺着文心大模型 X1 给出的答案,想看看近期有没有别的较为严重的食品安全问题。

看得出来,文心大模型 X1 对热点新闻的跟进是非常到位的,再之后,笔者继续以黄焖鸡米饭“回收菜”为引子,与文心大模型 X1 展开了多轮对话:

在多轮对话的过程中,文心大模型 X1 不仅从多个方面对热点事件进行了全面分析,还给出了食品卫生隐患的新闻案例,并在最后为消费者列出了详细的避坑指南。

然后,笔者又围绕视觉理解和推理、文字理解、文字创作等方面,对文心大模型 X1 展开了一系列测试。

首先是视觉理解和推理能力,为了增加难度,笔者直接给文心大模型 X1 上了一点强度:对一幅看起来“不知所谓”的艺术品进行解读。

在调用图片理解工具后,文心大模型 X1 给出了正确的答案,可以看到文心大模型 X1 对作品的创作意图、象征意义、社会反响乃至艺术史地位都有着清晰的理解。

在文字理解方面,笔者问了文心大模型 X1 一个谜语,想看看文心大模型 X1 能不能猜出谜底。

在分析谜语结构,寻找可能解释并调用联网搜索工具后,文心 X1 给出了准确的回答。

DeepSeek-R1 在经过相对比较久的思考过程之后,也给到了答案,不过并不怎么“接地气”。

然后是文学创作,笔者让文心大模型 X1 生成一个故事大纲,同时结合古风、悬疑、言情、推理要素,并且至少出现 5 个角色。

文心大模型 X1 马上给到了核心设定、主要人物、故事脉络、关键线索设计和主题设计,并且故事逻辑较缜密,不仅没有明显硬伤,而且对每个角色之间的关系、情感也有较为清晰的介绍。

DeepSeek-R1 则是给到了世界观设定、故事梗概和前三章的内容,整体的故事逻辑也比较缜密,但可惜并没有给到主要人物的介绍,笔者需要从故事梗概中筛选出这五名主要角色。

接下来,笔者给文心大模型 X1 提了一个复杂的需求:基于 Word 的内容生成 Excel 文档。

在调用文档问答、代码解释器工具之后,文心大模型 X1 成功生成了 Excel 文档,并给到了下载链接和预览。

DeepSeek-R1 这边也很好地完成了任务。

文心大模型 X1 在视觉理解及推理方面的能力极强,可以对大量图片细节做深度理解和思考,完成复杂推理任务;同时拥有不俗的逻辑推理能力,可以正确识别并解答脑筋急转弯这样的抽象问题;此外,文心大模型 X1 的“情商”和文学创作水平也非常高;拥有实时热点事件深度还原并分析的能力以及专家级规划分析能力,在部分场景中,我们还看到了文心大模型 X1 具备多工具的调用能力。

文心大模型 4.5:
原生多模态的跨模态专家

我们再来看看文心大模型 4.5。

文心大模型 4.5 是百度自主研发的 新一代原生多模态基础大模型 ,核心是通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力也有显著提升。







请到「今天看啥」查看全文