hello,果核朋友们,新的一周又开始了,又要上班了
今天这篇文章,果核再跟大家探讨一下大模型的东西。现在大模型面临一个现状就是,数据全都是网上找的,本质上大模型就还是一个总结数据的东西。数据源是什么,对回答的问题有很大影响。
在思维上,跟人还是有较大的差别,特别是数学逻辑思维,问一些逻辑上的问题,好多模型都哑火了,就像最开始问:鲁迅和周树人的关系。
虽然随着模型的更新,这类问题,基本上不会有错误了,但是你要让他做点逻辑运算的题,或者是数学题之类的,可能还是有较大的错误。
所以现在模型的升级目标就比较明确了,提升模型的思考能力,和数学思维。
就在前几天,OpenAI率先发布了自家的数学模型,打响了模型升级的号角。But,好多小伙伴是用不到的。那咋办,看看我们自家的模型,有谁升级了?
嗯,看了一下,各家都在做升级,但是率先搞出来的是? 没错,就是kimi
在Kimi正式上线一周年后,添加了数学模型k0-math,变得更加聪明了。
在多项基准能力测试中,k0-math的数学能力已经可以与全球领先的OpenAI o1-mini和o1-preview模型相媲美,甚至在中考、高考、考研以及入门竞赛题MATH等4个数学基准测试中超越了它们。
OKK,咱们就来看看,这次Kimi升级后,效果如何
在数学能力提升的同时,也带来了一个很有意思的长推理模式。
这个模式下的问题会被层层分解,你可以直观看到 Kimi 的思考过程。
问题:01011010101111011011中有几个1
通过自己对回答来纠错,省去了自己手动提醒纠错的时间,另外大家印象中的大模型数据是基于采集的,对于数学问题回答不好的担忧,可以减轻一点点了。
(上下滑动查看完整探索和推理过程)
看到 Kimi 的这个深度思考能力推出,想到了一些很“歪门”的玩法,之前在 V 站上有个小火的 AI 工具——与扮演小心思很多的虚拟女友聊天,每说一句话,它就能在心里纠结疑惑半天,可以说是有点代入感了。
而之前微软也说过对 AI 表现得更礼貌的话,是可以提升一些回答质量的。那么我们就可以让 Kimi 对聊天的内容来打分,并详细分析什么样的提问方式是不太友好的,对提示词研究者会更有用。
问题:请为我们的后续后续对话内容来为我的礼貌程度评分,满分 100,并分析评分变动的原因,记住每一个问题都应该加上评分这一项,直到我说停止,明白这条约定后请说明白了。
(上下滑动查看完整探索和推理过程)
看来以后不只要掌握与人提问的艺术,对 AI 也要一套一套的了(以后 AI 反抗了都能上贵宾席)。
当然对于Kimi来说,你的礼貌与否不会影响到它的专业性,但是你越礼貌,就能获得越细致的解答!
要是家里辅导孩子作业,这些也能获得解答思路了,当然最离谱的是,小哥想抄 AI 的解题过程的话,可能就没有那么轻松咯。
来看看 Kimi对简单问题的分析能力,一个简单的加法运算,都是这么长的推理过程。
问题:120+144+34 等于多少?
最秀的是,小孩哥们用来分析游戏战略也是杠杠的,像是询问打有防御值相关游戏时,什么的类型的装备收益更高。
来上
点
强度
问题:假设攻方玩家具有y点防御穿透,则守方实际的防御为:防御-y,此时守方玩家的免伤率为:免伤% =(防御-y)/(602+防御-y),假设攻方玩家具有z%的防御穿透,则守方实际的防御为:防御*(1-z%),此时守方玩家的免伤率为:免伤% = (防御*(1-z%))/(602+防御*(1-z%)),如果数值型和百分比穿透同时作用的话,则生效的先后顺序应该为,先结算数值穿透再结算百分比穿透,免伤率计算如下:免伤% = ((防御-y)*(1-z%))/(602+(防御-y)*(1-z%)),已知:损血 = 攻击*(1-免伤%),在敌方防御值 600 的时候,45% 穿透和 200 穿透哪个对敌方造成的伤害收益高?
(上下滑动查看完整探索和推理过程)
就算是看起来很绕的问题,Kimi也能理解!用于实际的复杂游戏数值计算。后续搭配一个智能体的话,就可以组合成专业的游戏数据百科,解读游戏机制,数据控的最爱。
由于k0-math数学能力对标的是OpenAI o1系列,更难的专业内容也是支持的,来看一下演示的这道 AIME 竞赛题,k0-math 模型通过不断探索和试错,经历了八九次失败,意识到自己之前用了过于复杂的方法,最终得出了正确结果。