本文主要介绍了智谱清言推出的深度思考模型GLM-Zero的初代版本GLM-Zero-Preview的功能和特点。该模型能够处理复杂问题,具备深度推理能力,擅长数理逻辑、代码等方面。文章还提到了GLM-Zero-Preview在推理过程中的深度思考,以及其在某些问题上的表现,如心理博弈、推理题的详细思考过程等。
该模型能够思考更加深入和严谨的问题,如地球曲率相关的问题,并且能够处理心理博弈和复杂的数理逻辑问题。
与同类模型相比,GLM-Zero-Preview在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。
在面对经典的分水问题时,GLM-Zero-Preview能够给出比较得体的解决方案,并考虑多种情况。
它有时候会蹦出中夹英的句子,像是智商很高的朋友在帮你解答问题。同时,它还有一个根据问题自我否定的过程,这可以帮助你修正与AI的对话水平。
市面上的AI工具有很多,功能也逐渐出现了侧重差异,而现在的AI厂商总体上,已经进入到卷“问题的结果和质量”了。
以前问个那些比较离谱和难以计算的问题,像是:“我在北京,朋友在上海,他身高要变成多高我才能在北京看见他?”
大多数AI会摆烂,甚至会告诉你这样的问题没有意义。
而今天智谱清言推出的深度思考模型GLM-Zero 的初代版本GLM-Zero-Preview,能思考得更加深入和严谨,它知道两者的大致的直线距离,也知道这是地球曲率相关的问题——最后给出了一个精准的数字“112193”米。
(上下滑动查看完整对话)
而且让人意外的是,它甚至还有心理上心思小博弈,它能察觉到这个问题和结果都“有点离谱”,并且反复验证计算,以及要不要更深入思考。
GLM-Zero
-Preview
的内心吐槽归吐槽,它还是从数学角度上给出了完整的答案。
根据介绍来看,它的推理能力很强:
GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。
同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。
其在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。
其他拥有深度思考的模型也能给出答案,但是对比之下就更“简洁”了。
还有的模型就是开头和中间没啥大问题,结果在结尾的时候乱来,给出了错误的回答。
这类问题考量的不是现实中有没有答案,而是AI愿不愿意花费“精力”去思考的问题,会怎样去思考,会不会把自己绕到死路等等,在知道GLM-Zero
-Preview
会认真去求证之后,就可以来问一些更有意思的问题了。
来看一条就连“读题目”可能都令人头大的推理题,而GLM-Zero
-Preview
也进行了详细的思考,去分解每一步它是怎么想的,最后再展示回答。
(上下滑动查看完整对话)
在使用GLM-Zero
-Preview
的过程里,有一个比较有意思的点,就是你可以把它的深度思考的过程折叠起来,直接就:“太长不看”——只要答案,就很符合当下年轻人的快节奏思维,而感兴趣的话,则可以点开,慢慢探索是怎么推理的。
在智商方面感觉没啥问题,来看看这个“孩子”的情商怎么样,来问一个经典的分水问题:你有 4 杯水,来了 5 个领导你该怎么办?
(上下滑动查看完整对话)
看它的回答,也确实比较符合正常人的思维,又是想着去弄其他的水,又是想让大家共用,又是想拿饮料代替的,它也知道时间可能不够,共用杯子不卫生,没有其他饮料等情况。
最后从慌乱中找到一个比较得体的方案,与领导先表达到位,然后再去尽力解决问题,情理上没有问题。
在这个回答里,GLM-Zero
-Preview
的思考过程就比简洁的答案要好得多了,给出的答案回复里,它的说法显得比较简朴干练,在它的思考过程里,就更像是我们的某个朋友遇到问题,可能会想的问题,想着领导或许会同意这样的做法等等,就更像是人的想法。
而在编程相关的问题下,如果你让它实现一个功能,它的思考过程就和不要钱的一样,疯狂进行思考和补全,思考的时间也很久,基本上可以去喝点水,去干一下其他的事情了。问它:
写一段Python代码,在Windows上获取C:\Users\Administrator\Downloads 下的所有文件夹和文件的大小,并设计一个界面来展示文件的占有率,找出占用最大的文件并提供删除按钮。
它思考的过程很长很长的一大串,它会考虑:子目录下的文件、有没有权限访问、存储单位的显示问题、删除操作添加二次确认、删除后重新更新列表、进度条等问题。
录个动图感受一下。
最后的效果是这样的,在特定目录下可以找出来占用最大的文件,并能选中某个文件进行删除操作。
而有了基础代码之后,增加功能就很快了,增加一个排序。
增加一个自动选择扫描路径的功能。
用它来写一点小工具,是非常不错的,它首次思考会更加深入,也会考虑代码健壮性和权限不足等问题。来对比用不同工具生成的第一版界面,左边是GLM-Zero
-Preview
的界面,中文的界面也明显更加讨喜。
对于一些比较大众化的内容,GLM-Zero
-Preview
会拥有更加自信的表现,拿网上一个计算游戏伤害数值的问题来说,它知道我们在讨论什么游戏,也知道更多题目中没有的信息。