专栏名称: 果核剥壳

果核剥壳，分享数码体验，新奇软件，行业动态，丰富你的生活，提高你的效率，让网络更有滋味！

再次更新，这次可以用得更爽了

果核剥壳 · 公众号 · · 2024-11-26 08:20

主要观点总结

这篇文章主要介绍了大模型的现状以及升级目标，特别是数学能力的提升。文章以Kimi为例，介绍了其新推出的数学模型k0-math的优越性能，包括在各种数学基准测试中的表现，以及与OpenAI o1系列模型的对比。文章还提到了Kimi在推理、游戏数值计算等领域的应用潜力，以及其对人们学习、工作和生活可能带来的便利与惊喜。

关键观点总结

关键观点1: 大模型的现状和挑战

数据源头对模型回答的影响，以及现有模型在逻辑和数学思维方面的不足。

关键观点2: Kimi的数学模型升级

介绍了Kimi新推出的数学模型k0-math，及其在各种数学基准测试中的表现，甚至超越了一些领先的模型。

关键观点3: Kimi在数学能力提升后的应用

描述了Kimi在数学能力提升后，在推理、游戏数值计算、益智推理社区等领域的应用潜力。

关键观点4: Kimi的发展前景和期待

随着Kimi等大模型的不断发展与完善，它们将在更多领域发挥出巨大的作用，为学习、工作和生活带来更多的便利与惊喜。

正文

hello，果核朋友们，新的一周又开始了，又要上班了

今天这篇文章，果核再跟大家探讨一下大模型的东西。现在大模型面临一个现状就是，数据全都是网上找的，本质上大模型就还是一个总结数据的东西。数据源是什么，对回答的问题有很大影响。

在思维上，跟人还是有较大的差别，特别是数学逻辑思维，问一些逻辑上的问题，好多模型都哑火了，就像最开始问：鲁迅和周树人的关系。

虽然随着模型的更新，这类问题，基本上不会有错误了，但是你要让他做点逻辑运算的题，或者是数学题之类的，可能还是有较大的错误。

所以现在模型的升级目标就比较明确了，提升模型的思考能力，和数学思维。

就在前几天，OpenAI率先发布了自家的数学模型，打响了模型升级的号角。But，好多小伙伴是用不到的。那咋办，看看我们自家的模型，有谁升级了？

嗯，看了一下，各家都在做升级，但是率先搞出来的是？没错，就是kimi

在Kimi正式上线一周年后，添加了数学模型k0-math，变得更加聪明了。

在多项基准能力测试中，k0-math的数学能力已经可以与全球领先的OpenAI o1-mini和o1-preview模型相媲美，甚至在中考、高考、考研以及入门竞赛题MATH等4个数学基准测试中超越了它们。

OKK，咱们就来看看，这次Kimi升级后，效果如何

在数学能力提升的同时，也带来了一个很有意思的长推理模式。

这个模式下的问题会被层层分解，你可以直观看到 Kimi 的思考过程。

问题：01011010101111011011中有几个1

通过自己对回答来纠错，省去了自己手动提醒纠错的时间，另外大家印象中的大模型数据是基于采集的，对于数学问题回答不好的担忧，可以减轻一点点了。

（上下滑动查看完整探索和推理过程）

看到 Kimi 的这个深度思考能力推出，想到了一些很“歪门”的玩法，之前在 V 站上有个小火的 AI 工具——与扮演小心思很多的虚拟女友聊天，每说一句话，它就能在心里纠结疑惑半天，可以说是有点代入感了。

而之前微软也说过对 AI 表现得更礼貌的话，是可以提升一些回答质量的。那么我们就可以让 Kimi 对聊天的内容来打分，并详细分析什么样的提问方式是不太友好的，对提示词研究者会更有用。

问题：请为我们的后续后续对话内容来为我的礼貌程度评分，满分 100，并分析评分变动的原因，记住每一个问题都应该加上评分这一项，直到我说停止，明白这条约定后请说明白了。

（上下滑动查看完整探索和推理过程）

看来以后不只要掌握与人提问的艺术，对 AI 也要一套一套的了（以后 AI 反抗了都能上贵宾席）。

当然对于Kimi来说，你的礼貌与否不会影响到它的专业性，但是你越礼貌，就能获得越细致的解答！

要是家里辅导孩子作业，这些也能获得解答思路了，当然最离谱的是，小哥想抄 AI 的解题过程的话，可能就没有那么轻松咯。

来看看 Kimi对简单问题的分析能力，一个简单的加法运算，都是这么长的推理过程。

问题：120+144+34 等于多少？

最秀的是，小孩哥们用来分析游戏战略也是杠杠的，像是询问打有防御值相关游戏时，什么的类型的装备收益更高。

来上点强度

问题：假设攻方玩家具有y点防御穿透，则守方实际的防御为：防御-y，此时守方玩家的免伤率为：免伤% =（防御-y）/（602+防御-y），假设攻方玩家具有z%的防御穿透，则守方实际的防御为：防御*（1-z%），此时守方玩家的免伤率为：免伤% = （防御*（1-z%））/（602+防御*（1-z%）），如果数值型和百分比穿透同时作用的话，则生效的先后顺序应该为，先结算数值穿透再结算百分比穿透，免伤率计算如下：免伤% = （（防御-y）*（1-z%））/（602+（防御-y）*（1-z%）），已知：损血 = 攻击*（1-免伤%），在敌方防御值 600 的时候，45% 穿透和 200 穿透哪个对敌方造成的伤害收益高？

（上下滑动查看完整探索和推理过程）

就算是看起来很绕的问题，Kimi也能理解！用于实际的复杂游戏数值计算。后续搭配一个智能体的话，就可以组合成专业的游戏数据百科，解读游戏机制，数据控的最爱。

由于k0-math数学能力对标的是OpenAI o1系列，更难的专业内容也是支持的，来看一下演示的这道 AIME 竞赛题，k0-math 模型通过不断探索和试错，经历了八九次失败，意识到自己之前用了过于复杂的方法，最终得出了正确结果。

再次更新，这次可以用得更爽了

主要观点总结

关键观点总结

关键观点1: 大模型的现状和挑战

关键观点2: Kimi的数学模型升级

关键观点3: Kimi在数学能力提升后的应用

关键观点4: Kimi的发展前景和期待

正文

请到「今天看啥」查看全文