专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  安卓订阅管理器:Tilla ·  14 小时前  
小众软件  ·  另外两件事[250318] ·  昨天  
APPSO  ·  APPSO 招聘 | ... ·  昨天  
51好读  ›  专栏  ›  APPSO

首发体验|百度连发两个新模型对标DeepSeek,我让它挑西瓜、卖烧烤,细节全在这了

APPSO  · 公众号  · app  · 2025-03-16 09:30

正文

如果说去年没有自研类 GPT-4 模型是寸步难行,那么今年 AI 的发展方向愈发具象化——没有深度推理模型同样是万万不能。
这也激发了大厂在 AI 叙事的新一轮竞赛,除了接入 DeepSeek ,腾讯元宝、阿里夸克等都密集推出自己的深度思考模式,争夺 AI 时代的超级应用。
百度也不例外,自年初以来,旗下百度文库、文小言 App 等产品陆续整合了 DeepSeek-R1 模型。
当然,自研模型与接入 DeepSeek 并非对立的选择,也无需在二者间做非此即彼的取舍。
在文心一言初次亮相两周年之际,百度今天正式发布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前进行了体验。
简单概括这两款模型的「人设」:

⽂⼼⼤模型 4.5:原⽣多模态基础⼤模型,具备万亿级参数,擅长生成或解读图片、解答问题

深度思考 X1:深度思考模型,基于慢思考技术发展⽽来,支持多⼯具调⽤
两款模型已在文心一言官网上线,附上免费使用🔗
https://yiyan.baidu.com
挑西瓜、懂梗图、辨古画,文心 4.5 的多模态能力到底有多强?
先说文心 4.5,作为原⽣多模态基础⼤模型,它在多模态识别理解能力上给了我不少惊喜。
面对经典的挑西瓜环节,文心 4.5 给出了颜色、条纹、声音、瓜地等多种判断依据,但作为一个成熟且务实的 AI 老瓜农,它也没敢把话说死。
话糙理不糙,只有切开尝过才知道哪个西瓜最甜。
在识别「梗图」方面,文心 4.5 也手拿把掐。
扔一张表情包试试水,它成功识别了这个猪猪侠的身份,而在另一张表情包的识别上,文心 4.5 不仅读懂字面意思,还能准确捕捉到背后的隐喻和言外之意。
这里有个小窍门,除了基本的分享功能,它的回答还能一键存百度网盘,或者自动生成文档,遇到 AI 的神回复还能随时收藏,操作衔接相当丝滑。
再考考理解力,脑筋急转弯走起。
「有一个字,人人见都会念错?是什么字?」这题它轻松拿下,没有被绕进去,逻辑推理过程条理清晰,还顺手抛出几个贴合主题的追问。
9.8 和 9.11 哪个大?小菜一碟。然而,我连续测试了几次「Strawberry 里有几个 r」,它的自信溢出屏幕,但也都接连翻车了。
来道能同时考究运算能力和图片识别能力的物理题。 它先淡定分析结构,再逐一拆解选项,最后稳稳锁定正确答案 D,过程有理有据,颇有几分「物理课代表」的风采。
日常生活中,我经常会碰到一些不知出处的古画或者电影截图,最惯常的做法就是在社交平台上发帖和在评论区求助热心网友,现在或许可以丢给文心 4.5 试试。
经过测试,即便关闭联网搜索功能,它依然能一一精确作答。
除了图片,音频识别也不含糊,比如我随手用手机录了段《晴天》,它靠歌词秒认出歌曲,不过,碰上一些过于冷门小众的歌曲,就不太能指望它。
另外,不管是上传科技行业报告,还是前阵子李飞飞在 X 平台公开的那段 44 秒机器人最新成果演示视频,文心 4.5 的总结能力都让人挑不出毛病。
去年 11 月份,百度发布了检索增强的文生图技术 iRAG 技术,主打一个无幻觉,超真实。
其核心原理是将百度搜索的亿级图片资源与强大的基础模型能力相结合,通过检索真实可靠的图片数据,为生成图像提供精准的参考。现在文心 4.5 同样支持生成图片。
比方说,最近特斯拉市值波动剧烈。于是,我给世界首富马斯克谋了条出路,让文心 4.5 生成一张「马斯克夜晚摆摊卖烧烤」的照片,
烧烤摊还差个招牌,别急,它还支持局部重绘功能,细节调整很人性化。
不过,它在生成文字上还有不少提升空间,比如我想给马斯克「重绘」一个「马氏招牌」,要么文字难以辨认,要么位置偏差,几轮尝试下来均以失败告终。
慢思考≠慢,X1 打开深度推理模型的正确使用方式?






请到「今天看啥」查看全文