专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

免费使用！百度重磅发布文心4.5、X1，视频解读+深度思考

AIGC开放社区 · 公众号 · 互联网短视频科技自媒体 · 2025-03-17 07:41

主要观点总结

文章介绍了百度发布的两个大模型文心4.5和X1，强调了它们的多模态理解和生成能力，特别是在视频和音频解读方面的优势。文章还提到了这两个模型的应用场景，价格及核心技术特点。

这两个模型具备多模态理解和生成能力，能够综合解读文字、图片、视频、音频等内容。

它能够解读全新未知内容，例如美国陆军军事情报战车TITAN的宣传视频。

X1能够对提出的问题进行理解、规划、反思、进化，自动调用多种工具如高级搜索、文档问答等。

文心4.5使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多项创新技术。X1则应用了基于思维链和行动链的端到端训练。

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

昨天，百度发布了两款大模型文心4.5和X1，已全部上线并且免费使用。

文心4.5是一款多模态模型，能对文字、图片、视频、音频等内容进行综合解读。例如，给一个视频，让其对内容识别然后再写一份深度分析（非常不错可以解读英文）。能力大幅度超过OpenAI的GPT-4o。

X1和DeepSeek-R1一样具备深度思考能力，能对提出的问题进行理解、规划、反思、进化能力，同样支持多模态。

此外，X1也是首个能自动调用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等众多特色工具。所以，X1更像是一个推理能力超强的智能体。

免费体验地址：https://yiyan.baidu.com/X1

文心4.5和X1案例展示

其实多模态理解已经成为国内外大模型的标配，但能直接高效准确解读视频的模型并不多。而文心4.5就具备这种特殊能力。

这里就用今天咱们二条发布的，美国陆军收到首个AI模型驱动的军事情报战车TITAN宣传视频做解读案例。

因为这是刚出的视频，大概率不在预训练模型的数据范围内，能很好地考验文心4.5基于多模态的理解能力，对全新未知内容的分析水平 。

需要解读的原视频

需要注意的是，上 传的视频不能超过20M，支持Mp4、MOV、MKV等常规格式 。

上传完视频后，提问，这是一个什么视频？大约用了不到1分钟，解读效率还是相当高的。

文心4.5给出了完整TITAN答案，解读基本上是正确的，可以比肩谷歌的NoteGPT。这个功能对于需要快速了解国外学术介绍、娱乐影视的人来说很有帮助。如果视频太大，记得可以先压缩之后再上传。

音频解读一样准确高效，一次可以上传10个音频，单个最大别超过10M，支持mp3、m4a、wav等常规格式，有兴趣的小伙伴可以体验一下。

再体验一下X1，其特殊能力就是能自动调用多种其他工具。

例如，让X1自动解读一下电影《肖申克救赎》的海报，直接提问“这是一张什么图片？”

X1开启了深度思考模式，我们可以清楚看到它自动调用了图片理解工具，帮它来解读这张图片 。

在得到结果后，总结出了图片的主题秒速、背景与色调、风格设计等主要框架，最后进行了完整的输出。

我们接着提问，根据这个电影写一份200字的影评。文本风格欢快一些，最好带点网络梗。

这次X1没有调用别的工具，因为只是简单的文本生成，但也会梳理一下输出逻辑，包括影评基调、加入网络梗、内容点评等。