文章介绍了百度发布的两个大模型文心4.5和X1,强调了它们的多模态理解和生成能力,特别是在视频和音频解读方面的优势。文章还提到了这两个模型的应用场景,价格及核心技术特点。
文心4.5使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多项创新技术。X1则应用了基于思维链和行动链的端到端训练。
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和
应用
落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
昨天,百度发布了两款大模型文心4.5和X1,已全部上线并且免费使用。
文心4.5是一款多模态模型,能对文字、图片、视频、音频等内容进行综合解读。例如,给一个视频,让其对内容识别然后再写一份深度分析(非常不错可以解读英文)。能力大幅度超过OpenAI的GPT-4o。
X1和DeepSeek-R1一样具备深度思考能力,能对提出的问题进行理解、规划、反思、进化能力,同样支持多模态。
此外,X1也是首个能自动调用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等众多特色工具。所以,X1更像是一个推理能力超强的智能体。
免费体验地址:https://yiyan.baidu.com/X1
文心4.5和X1案例展示
其实多模态理解已经成为国内外大模型的标配,但能直接高效准确解读视频的模型并不多。而文心4.5就具备这种特殊能力。
这里就用今天咱们二条发布的,美国陆军收到首个AI模型驱动的军事情报战车TITAN宣传视频做解读案例
。
因为这是刚出的视频,大概率不在预训练模型的数据范围内,能很好地考验文心4.5基于多模态的理解能力,对全新未知内容的分析水平
。
需要解读的原视频
需要注意的是,上
传的视频不能超过20M,支持Mp4、MOV、MKV等常规格式
。
上传完视频后,提问,这是一个什么视频?大约用了不到1分钟,解读效率还是相当高的。
文心4.5给出了完整TITAN答案,解读基本上是正确的,可以比肩谷歌的NoteGPT。这个功能对于需要快速了解国外学术介绍、娱乐影视的人来说很有帮助。如果视频太大,记得可以先压缩之后再上传。
音频解读一样准确高效,一次可以上传10个音频,单个最大别超过10M,支持mp3、m4a、wav等常规格式,有兴趣的小伙伴可以体验一下。
再体验一下X1,其特殊能力就是能自动调用多种其他工具。
例如,让X1自动解读一下电影《肖申克救赎》的海报,直接提问“这是一张什么图片?”
X1开启了深度思考模式,我们可以清楚看到它自动调用了图片理解工具,帮它来解读这张图片
。
在得到结果后,总结出了图片的主题秒速、背景与色调、风格设计等主要框架,最后进行了完整的输出。
我们接着提问,根据这个电影写一份200字的影评。文本风格欢快一些,最好带点网络梗。
这次X1没有调用别的工具,因为只是简单的文本生成,但也会梳理一下输出逻辑,包括影评基调、加入网络梗、内容点评等。