主要观点总结
本文介绍了Kimi推出的视觉思考模型k1,它结合了强化学习和推理能力,具有应对复杂任务的能力。文章详细描述了k1的特性和优势,并通过实际应用场景展示了其强大的性能。k1不仅能处理数学、几何问题,还能辅助会议笔记整理、法律合同审阅,甚至识别食物热量和推理照片拍摄技术。文章展望了AI技术的未来发展方向,并鼓励读者亲身体验k1的性能。
关键观点总结
关键观点1: Kimi推出的视觉思考模型k1结合了强化学习和推理能力,突破了传统大模型的局限。
k1通过强化学习在实践中精益求精,不断优化表现。它具备推理能力,面对复杂问题时能分析问题、探索解决方案,并验证和反思,逐步推导出最终答案。
关键观点2: k1在实际应用场景中表现出强大的性能。
k1不仅能处理数学、几何问题,还能辅助会议笔记整理、法律合同审阅,甚至识别食物热量和推理照片拍摄技术。它的实用性和通用性得到了充分体现。
关键观点3: k1将大模型的「黑箱」变为清晰的思维过程。
k1能够完整、详细地展示推理步骤,让用户「知其然,更知其所以然」。这一特点使得k1更加透明和友好,提升了用户的使用体验。
正文
快,五秒钟内回答:strawberry(草莓)这个单词里有多少个字母 r?
但如果告诉你,这是一道让包括 GPT-4 在内无数知名大模型「竞折腰」的问题,你相信吗?
之所以会如此,是因为传统大模型的响应本质上是一种「模式匹配」:它只是给出根据训练所学,在概率上符合上下文的回答,因此可能给出一些语法上正确,但逻辑上有明显问题的答复。
你可能觉得这是把「简单」的问题给复杂化了,但实际上这类似于在大脑中思考问题的过程,只是我们平时不会把这些「内心独白」写出来而已。总结起来,这段回答大致分为分析拆解——执行任务——反思检查——总结输出几个阶段。
而正是凭借着这种细致、审慎的思考,大模型才能完成这个看似简单的任务——数清楚 strawberry 里有多少个字母 r
。
上图中的这个模型是 Kimi 本周宣布全新推出的视觉思考模型 k1。下面,我们就从原理出发,讲讲 k1 是怎样通过学会推理变得更聪明的。
在近几年 AI 行业飞速发展的背后,始终有一条称为「规模法则」(scaling law)的经验原则作为支撑。根据规模法则,随着模型规模、数据量和算力的不断增加,模型的性能会持续提升——用通俗的话说,就是「大力出奇迹」。
应当肯定,在这条被比作 AI 行业「摩尔定律」的原则指导下,大模型的能力的确取得了长足的进步:响应越来越流畅、高效,能一次处理内容也越来越多(长上下文),并且从文本扩展到多媒体(多模态),一次次刷新着人们对 AI 能力的认知。
然而,人们近来越发意识到,基于规模法则的发展正在遇到瓶颈。
这是由大模型广泛采用的「预训练」技术原理决定的。在预训练中,模型无监督地吸收海量训练数据,以此来掌握语言结构、模式规律和时事常识等基础能力。因此,一旦训练数据日渐稀缺,预训练模式必然面临挑战。事实上,正如本月的《自然》杂志刊文指出,「AI 进化即将用尽数据」:一方面,内容方出于法律、经济方面的各种考虑,不断收紧对自家平台数据的访问权限;另一方面, 可用于训练的的互联网内容增长速度比想象中要慢。
可见,单纯依赖规模扩张的道路,在当下已经难以支撑大模型的持续进步。
在国产大模型中,Kimi 一直在性能、创新速度和易用性方面有很好的口碑。例如,今年早些时候,少数派就
报道
过 Kimi 在国产模型中率先支持 200 万字的超长上下文,大大扩充了使用场景。
而在本周推出的视觉思考模型 k1,就可以看作是 Kimi 应对上述挑战,从「强化学习」和「推理能力」两个角度打磨的成果。
如何理解 k1 的这两项重要特征呢?
如果说预训练是打基础,强化学习就是在实践中精益求精的过程
:在这个阶段,模型尝试执行各种特定任务,并根据表现获得打分,在这种奖惩机制的激励下不断改进表现。据 Kimi 官方表示,k1 的训练分为两个阶段:首先通过预训练得到基础模型,随后在此基础上开展强化学习后训练,并且特别优化了数据质量和学习效率,并且实现了强化学习的「规模化」。
而 k1 的推理能力则体现在面对复杂问题时,不是一步给出答案,而是分析问题、探索可能的解决方案,并验证和反思,一步步推导出最终答案。
例如,在处理复杂计算题时,模型不只是给出最后数字,而是依次写下解题过程的每一步公式,并不断检查中间结果,同时思考其他可行路径。显然,这有助于获得更精确、全面的结果。
根据官方公布的信息,在包含数学、物理、化学等学科的多个基准测试中,初代 k1 模型的表现已经超越了目前全球的标杆模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。
这无是非常令人期待的。那么,Kimi k1 模型在这些能力加成下的实际表现如何?在「做题」之外,新的推理和视觉能力对日常场景下的使用体验又能带来哪些提升?下面,让我们通过一系列实际应用场景,测试 Kimi k1 的各项能力,一起来验证。
k1 模型发布即上线,目前可以完全免费使用,只要在 Kimi 主界面选择「Kimi 视觉思考版」即可体验。
由于 Kimi 特别强调了 k1 的几何能力,我们下面就先用一道来自今年阿里巴巴全球数学竞赛的预选赛试题来「摸摸底」。
可以看到,k1 首先对题目条件进行了正确的解读,并且提炼出了解题的关键:「如果一个同学站在位置 P,他们看不到 E 和 F,这意味着他们的视线被其他塔挡住了」——这正是官方答案里的开头。基于这个理解,k1 进一步将问题拆解并推导出中间结论「必须有塔位于 P 和 E 之间,以及 P 和 F 之间」,展示了模型较强的几何直觉,也为其解题打下了好的基础。在解题过程中,模型尝试了多种思路,并且能及时调整自己的假设和方向,最终顺利给出了这道题的正确答案。
在这里,我们也可以看出 k1 相对于同样以推理为主打功能的 OpenAI o1 的优势:它几乎是立刻开始快速响应,并且完整地展示了思维过程,而 o1 则需要等待比较久的思维延迟,并且刻意将完整的思维链隐藏起来(这在发布的时候引起了不小争议)。相比之下,k1 的透明度是值得赞赏的,在使用体验上也更友好。
当然,做竞赛题并不是日常需求,对于学生朋友来说,更常见的用例可能还是拍摄练习题,寻求解答。在这种场合,图片的画质和「纯净度」往往是不可控的,因此除了解题能力,模型应对干扰的能力也很重要。
例如,我们将下面这样一张包含多道大题,并且有阴影遮挡、无关纸张干扰和手写笔迹的图片上传给 k1,并且要求回答某一道具体的小题。
可以看到,k1 成功应对了图片中的各种干扰,正确提取了题干信息,并做出了正确的解答。此外,如果你经历过那种「答案都看不懂」的困惑时刻,或许还能感受到这种详尽解答风格的额外好处:它像一个特别有耐心的老师那样,不厌其烦地演示每一个具体步骤,还有步步检查的「好习惯」,对于彻底搞懂问题、养成良好的解题习惯都是有益的。
实际上,k1 的「做题能力」并不止于数理化。例如,文科中的地理就涉及许多需要「读图」的问题,而事实证明 k1 的视觉和推理能力也能派上用场。
还是以一组高考真题为例,k1 非常准确地解读了图中各类曲线,给出了正确答案:
解题场景展现了 k1 在教育领域和处理「标准化问题」上的深厚潜力,那么,在实际的工作场景中,k1 的表现又如何呢?毕竟对于很多上班族来说,「能帮我干活」的 AI 才是真正的刚需。
我们首先选择了一个会议笔记整理的场景来测试。如今很多人还保有手写笔记的习惯,认为手写的过程更有助于理清思路,也比打字更加灵活方便。这固然是很好的思路,但后续从笔迹整理成电子文档时就不可避免地要费些功夫。虽然现在的 OCR 已经比较成熟,但那也只能机械地将文字提取出来,而不能辨别隐藏在笔记布局中的层次和逻辑。
为此,我们交给 k1 一张较为凌乱的手写会议笔记图片,要求将其整理成条理清晰的纪要,并根据纪要内容规划下一步的任务清单。
可以看到,它不仅正确识别了笔迹,而且考虑了高亮底色、箭头批注等格式信息,给出了切题的答复。
在另一个景中,我们模拟了法律合同审阅。我们将一份投资协议修订过程中投资方反馈的修订内容截图上传给 Kimi k1,要求它从被投公司的立场,对这些约定条款的合理性和潜在风险做出判断,并提出进一步修订建议。