专栏名称: 果核剥壳
果核剥壳,分享数码体验,新奇软件,行业动态,丰富你的生活,提高你的效率,让网络更有滋味!
目录
相关文章推荐
机器之心  ·  淘宝卖DeepSeek安装包一月赚数十万?? ... ·  16 小时前  
看金坛  ·  违规微短剧下架!抖音、快手发布公告 ·  20 小时前  
看金坛  ·  违规微短剧下架!抖音、快手发布公告 ·  20 小时前  
偶俚张家港  ·  喜茶突然宣布:暂停 ·  22 小时前  
六里投资报  ·  景林、但斌300亿持仓披露:东方港湾All ... ·  昨天  
六里投资报  ·  景林、但斌300亿持仓披露:东方港湾All ... ·  昨天  
爱可可-爱生活  ·  【[655星]obs-localvocal: ... ·  2 天前  
51好读  ›  专栏  ›  果核剥壳

像人一样思考的AI,越来越恐怖

果核剥壳  · 公众号  · AI 科技自媒体  · 2024-12-31 10:20

主要观点总结

本文主要介绍了智谱清言推出的深度思考模型GLM-Zero的初代版本GLM-Zero-Preview的功能和特点。该模型能够处理复杂问题,具备深度推理能力,擅长数理逻辑、代码等方面。文章还提到了GLM-Zero-Preview在推理过程中的深度思考,以及其在某些问题上的表现,如心理博弈、推理题的详细思考过程等。

关键观点总结

关键观点1: GLM-Zero-Preview具备深度思考能力,能够处理复杂问题。

该模型能够思考更加深入和严谨的问题,如地球曲率相关的问题,并且能够处理心理博弈和复杂的数理逻辑问题。

关键观点2: GLM-Zero-Preview擅长处理数理逻辑、代码和需要深度推理的复杂问题。

与同类模型相比,GLM-Zero-Preview在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。

关键观点3: GLM-Zero-Preview具备较高的情商和人性化的思考过程。

在面对经典的分水问题时,GLM-Zero-Preview能够给出比较得体的解决方案,并考虑多种情况。

关键观点4: GLM-Zero-Preview在编程相关问题下的表现非常出色。

它能够进行长时间的思考和补全,考虑多种情况,如子目录下的文件、权限访问等问题。

关键观点5: GLM-Zero-Preview在某些问题下的思考过程很有趣。

它有时候会蹦出中夹英的句子,像是智商很高的朋友在帮你解答问题。同时,它还有一个根据问题自我否定的过程,这可以帮助你修正与AI的对话水平。


正文


市面上的AI工具有很多,功能也逐渐出现了侧重差异,而现在的AI厂商总体上,已经进入到卷“问题的结果和质量”了。


以前问个那些比较离谱和难以计算的问题,像是:“我在北京,朋友在上海,他身高要变成多高我才能在北京看见他?”



大多数AI会摆烂,甚至会告诉你这样的问题没有意义。



而今天智谱清言推出的深度思考模型GLM-Zero 的初代版本GLM-Zero-Preview,能思考得更加深入和严谨,它知道两者的大致的直线距离,也知道这是地球曲率相关的问题——最后给出了一个精准的数字“112193”米。


(上下滑动查看完整对话)


而且让人意外的是,它甚至还有心理上心思小博弈,它能察觉到这个问题和结果都“有点离谱”,并且反复验证计算,以及要不要更深入思考。



GLM-Zero -Preview 的内心吐槽归吐槽,它还是从数学角度上给出了完整的答案。


根据介绍来看,它的推理能力很强:

GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。


同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。


其在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。


其他拥有深度思考的模型也能给出答案,但是对比之下就更“简洁”了。



还有的模型就是开头和中间没啥大问题,结果在结尾的时候乱来,给出了错误的回答。



这类问题考量的不是现实中有没有答案,而是AI愿不愿意花费“精力”去思考的问题,会怎样去思考,会不会把自己绕到死路等等,在知道GLM-Zero -Preview 会认真去求证之后,就可以来问一些更有意思的问题了。



来看一条就连“读题目”可能都令人头大的推理题,而GLM-Zero -Preview 也进行了详细的思考,去分解每一步它是怎么想的,最后再展示回答。


(上下滑动查看完整对话)


在使用GLM-Zero -Preview 的过程里,有一个比较有意思的点,就是你可以把它的深度思考的过程折叠起来,直接就:“太长不看”——只要答案,就很符合当下年轻人的快节奏思维,而感兴趣的话,则可以点开,慢慢探索是怎么推理的。



在智商方面感觉没啥问题,来看看这个“孩子”的情商怎么样,来问一个经典的分水问题:你有 4 杯水,来了 5 个领导你该怎么办?


(上下滑动查看完整对话)


看它的回答,也确实比较符合正常人的思维,又是想着去弄其他的水,又是想让大家共用,又是想拿饮料代替的,它也知道时间可能不够,共用杯子不卫生,没有其他饮料等情况。



最后从慌乱中找到一个比较得体的方案,与领导先表达到位,然后再去尽力解决问题,情理上没有问题。



在这个回答里,GLM-Zero -Preview 的思考过程就比简洁的答案要好得多了,给出的答案回复里,它的说法显得比较简朴干练,在它的思考过程里,就更像是我们的某个朋友遇到问题,可能会想的问题,想着领导或许会同意这样的做法等等,就更像是人的想法。



而在编程相关的问题下,如果你让它实现一个功能,它的思考过程就和不要钱的一样,疯狂进行思考和补全,思考的时间也很久,基本上可以去喝点水,去干一下其他的事情了。问它:

写一段Python代码,在Windows上获取C:\Users\Administrator\Downloads 下的所有文件夹和文件的大小,并设计一个界面来展示文件的占有率,找出占用最大的文件并提供删除按钮。

它思考的过程很长很长的一大串,它会考虑:子目录下的文件、有没有权限访问、存储单位的显示问题、删除操作添加二次确认、删除后重新更新列表、进度条等问题。


录个动图感受一下。



最后的效果是这样的,在特定目录下可以找出来占用最大的文件,并能选中某个文件进行删除操作。



而有了基础代码之后,增加功能就很快了,增加一个排序。



增加一个自动选择扫描路径的功能。



用它来写一点小工具,是非常不错的,它首次思考会更加深入,也会考虑代码健壮性和权限不足等问题。来对比用不同工具生成的第一版界面,左边是GLM-Zero -Preview 的界面,中文的界面也明显更加讨喜。



对于一些比较大众化的内容,GLM-Zero -Preview 会拥有更加自信的表现,拿网上一个计算游戏伤害数值的问题来说,它知道我们在讨论什么游戏,也知道更多题目中没有的信息。








请到「今天看啥」查看全文