专栏名称: 果核剥壳
果核剥壳,分享数码体验,新奇软件,行业动态,丰富你的生活,提高你的效率,让网络更有滋味!
目录
相关文章推荐
开发者全社区  ·  北师大第一大美女 ·  昨天  
鸿洋  ·  HarmonyOS ... ·  2 天前  
OSC开源社区  ·  谷歌安卓系统“假开源、真垄断”? ·  4 天前  
开发者全社区  ·  裁员杀红了眼? ·  3 天前  
51好读  ›  专栏  ›  果核剥壳

再次更新,这次可以用得更爽了

果核剥壳  · 公众号  ·  · 2024-11-26 08:20

主要观点总结

这篇文章主要介绍了大模型的现状以及升级目标,特别是数学能力的提升。文章以Kimi为例,介绍了其新推出的数学模型k0-math的优越性能,包括在各种数学基准测试中的表现,以及与OpenAI o1系列模型的对比。文章还提到了Kimi在推理、游戏数值计算等领域的应用潜力,以及其对人们学习、工作和生活可能带来的便利与惊喜。

关键观点总结

关键观点1: 大模型的现状和挑战

数据源头对模型回答的影响,以及现有模型在逻辑和数学思维方面的不足。

关键观点2: Kimi的数学模型升级

介绍了Kimi新推出的数学模型k0-math,及其在各种数学基准测试中的表现,甚至超越了一些领先的模型。

关键观点3: Kimi在数学能力提升后的应用

描述了Kimi在数学能力提升后,在推理、游戏数值计算、益智推理社区等领域的应用潜力。

关键观点4: Kimi的发展前景和期待

随着Kimi等大模型的不断发展与完善,它们将在更多领域发挥出巨大的作用,为学习、工作和生活带来更多的便利与惊喜。


正文



hello,果核朋友们,新的一周又开始了,又要上班了


今天这篇文章,果核再跟大家探讨一下大模型的东西。现在大模型面临一个现状就是,数据全都是网上找的,本质上大模型就还是一个总结数据的东西。数据源是什么,对回答的问题有很大影响。


在思维上,跟人还是有较大的差别,特别是数学逻辑思维,问一些逻辑上的问题,好多模型都哑火了,就像最开始问:鲁迅和周树人的关系。



虽然随着模型的更新,这类问题,基本上不会有错误了,但是你要让他做点逻辑运算的题,或者是数学题之类的,可能还是有较大的错误。


所以现在模型的升级目标就比较明确了,提升模型的思考能力,和数学思维。


就在前几天,OpenAI率先发布了自家的数学模型,打响了模型升级的号角。But,好多小伙伴是用不到的。那咋办,看看我们自家的模型,有谁升级了?


嗯,看了一下,各家都在做升级,但是率先搞出来的是?  没错,就是kimi


在Kimi正式上线一周年后,添加了数学模型k0-math,变得更加聪明了。



在多项基准能力测试中,k0-math的数学能力已经可以与全球领先的OpenAI o1-mini和o1-preview模型相媲美,甚至在中考、高考、考研以及入门竞赛题MATH等4个数学基准测试中超越了它们。


OKK,咱们就来看看,这次Kimi升级后,效果如何



在数学能力提升的同时,也带来了一个很有意思的长推理模式。


这个模式下的问题会被层层分解,你可以直观看到 Kimi 的思考过程。


问题:01011010101111011011中有几个1


通过自己对回答来纠错,省去了自己手动提醒纠错的时间,另外大家印象中的大模型数据是基于采集的,对于数学问题回答不好的担忧,可以减轻一点点了。



(上下滑动查看完整探索和推理过程)


看到 Kimi 的这个深度思考能力推出,想到了一些很“歪门”的玩法,之前在 V 站上有个小火的 AI 工具——与扮演小心思很多的虚拟女友聊天,每说一句话,它就能在心里纠结疑惑半天,可以说是有点代入感了。



而之前微软也说过对 AI 表现得更礼貌的话,是可以提升一些回答质量的。那么我们就可以让 Kimi 对聊天的内容来打分,并详细分析什么样的提问方式是不太友好的,对提示词研究者会更有用。


问题:请为我们的后续后续对话内容来为我的礼貌程度评分,满分 100,并分析评分变动的原因,记住每一个问题都应该加上评分这一项,直到我说停止,明白这条约定后请说明白了。



(上下滑动查看完整探索和推理过程)



看来以后不只要掌握与人提问的艺术,对 AI 也要一套一套的了(以后 AI 反抗了都能上贵宾席)。


当然对于Kimi来说,你的礼貌与否不会影响到它的专业性,但是你越礼貌,就能获得越细致的解答!



要是家里辅导孩子作业,这些也能获得解答思路了,当然最离谱的是,小哥想抄 AI 的解题过程的话,可能就没有那么轻松咯。


来看看 Kimi对简单问题的分析能力,一个简单的加法运算,都是这么长的推理过程。


问题:120+144+34 等于多少?



最秀的是,小孩哥们用来分析游戏战略也是杠杠的,像是询问打有防御值相关游戏时,什么的类型的装备收益更高。


来上 强度


问题:假设攻方玩家具有y点防御穿透,则守方实际的防御为:防御-y,此时守方玩家的免伤率为:免伤% =(防御-y)/(602+防御-y),假设攻方玩家具有z%的防御穿透,则守方实际的防御为:防御*(1-z%),此时守方玩家的免伤率为:免伤% = (防御*(1-z%))/(602+防御*(1-z%)),如果数值型和百分比穿透同时作用的话,则生效的先后顺序应该为,先结算数值穿透再结算百分比穿透,免伤率计算如下:免伤% = ((防御-y)*(1-z%))/(602+(防御-y)*(1-z%)),已知:损血 = 攻击*(1-免伤%),在敌方防御值 600 的时候,45% 穿透和 200 穿透哪个对敌方造成的伤害收益高?




(上下滑动查看完整探索和推理过程)


就算是看起来很绕的问题,Kimi也能理解!用于实际的复杂游戏数值计算。后续搭配一个智能体的话,就可以组合成专业的游戏数据百科,解读游戏机制,数据控的最爱。



由于k0-math数学能力对标的是OpenAI o1系列,更难的专业内容也是支持的,来看一下演示的这道 AIME 竞赛题,k0-math 模型通过不断探索和试错,经历了八九次失败,意识到自己之前用了过于复杂的方法,最终得出了正确结果。








请到「今天看啥」查看全文