专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
目录
相关文章推荐
河北日报  ·  啄木鸟,宣布6项措施 ·  2 天前  
河北日报  ·  啄木鸟,宣布6项措施 ·  2 天前  
宁德广播电视台  ·  乘着飞机出游!宁德1飞行基地正式投入运营 ·  2 天前  
宁德广播电视台  ·  乘着飞机出游!宁德1飞行基地正式投入运营 ·  2 天前  
姑苏晚报  ·  官方点名通报 ·  3 天前  
姑苏晚报  ·  官方点名通报 ·  3 天前  
51好读  ›  专栏  ›  AIGC开放社区

免费使用!百度重磅发布文心4.5、X1,视频解读+深度思考

AIGC开放社区  · 公众号  · 互联网短视频 科技自媒体  · 2025-03-17 07:41

主要观点总结

文章介绍了百度发布的两个大模型文心4.5和X1,强调了它们的多模态理解和生成能力,特别是在视频和音频解读方面的优势。文章还提到了这两个模型的应用场景,价格及核心技术特点。

关键观点总结

关键观点1: 百度发布两个大模型文心4.5和X1

这两个模型具备多模态理解和生成能力,能够综合解读文字、图片、视频、音频等内容。

关键观点2: 文心4.5具有高效准确的多模态解读能力

它能够解读全新未知内容,例如美国陆军军事情报战车TITAN的宣传视频。

关键观点3: X1具备深度思考能力

X1能够对提出的问题进行理解、规划、反思、进化,自动调用多种工具如高级搜索、文档问答等。

关键观点4: 文心4.5和X1的技术特点

文心4.5使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多项创新技术。X1则应用了基于思维链和行动链的端到端训练。


正文

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

昨天,百度发布了两款大模型文心4.5和X1,已全部上线并且免费使用。

文心4.5是一款多模态模型,能对文字、图片、视频、音频等内容进行综合解读。例如,给一个视频,让其对内容识别然后再写一份深度分析(非常不错可以解读英文)。能力大幅度超过OpenAI的GPT-4o。

X1和DeepSeek-R1一样具备深度思考能力,能对提出的问题进行理解、规划、反思、进化能力,同样支持多模态。

此外,X1也是首个能自动调用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等众多特色工具。所以,X1更像是一个推理能力超强的智能体。

免费体验地址:https://yiyan.baidu.com/X1

文心4.5和X1案例展示

其实多模态理解已经成为国内外大模型的标配,但能直接高效准确解读视频的模型并不多。而文心4.5就具备这种特殊能力。

这里就用今天咱们二条发布的,美国陆军收到首个AI模型驱动的军事情报战车TITAN宣传视频做解读案例

因为这是刚出的视频,大概率不在预训练模型的数据范围内,能很好地考验文心4.5基于多模态的理解能力,对全新未知内容的分析水平

需要解读的原视频

需要注意的是,上 传的视频不能超过20M,支持Mp4、MOV、MKV等常规格式

上传完视频后,提问,这是一个什么视频?大约用了不到1分钟,解读效率还是相当高的。

文心4.5给出了完整TITAN答案,解读基本上是正确的,可以比肩谷歌的NoteGPT。这个功能对于需要快速了解国外学术介绍、娱乐影视的人来说很有帮助。如果视频太大,记得可以先压缩之后再上传。

音频解读一样准确高效,一次可以上传10个音频,单个最大别超过10M,支持mp3、m4a、wav等常规格式,有兴趣的小伙伴可以体验一下。

再体验一下X1,其特殊能力就是能自动调用多种其他工具。

例如,让X1自动解读一下电影《肖申克救赎》的海报,直接提问“这是一张什么图片?”

X1开启了深度思考模式,我们可以清楚看到它自动调用了图片理解工具,帮它来解读这张图片

在得到结果后,总结出了图片的主题秒速、背景与色调、风格设计等主要框架,最后进行了完整的输出。

我们接着提问,根据这个电影写一份200字的影评。文本风格欢快一些,最好带点网络梗。

这次X1没有调用别的工具,因为只是简单的文本生成,但也会梳理一下输出逻辑,包括影评基调、加入网络梗、内容点评等。







请到「今天看啥」查看全文