大家都在用AI工具,我们看着AI一步一步发展壮大,以前大部分是我们仅仅用文字跟它们聊天,有些时候果核就会在想:要是什么时候能对图片进行很好的思考就好了。
研究了一堆AI之后,后面用起Kimi,发现它的推理功能可以说是让人印象深刻。
当时就在想它的能力能不能扩展成多模态的,发一张图片和一段视频就能进行反思推理,最后给出一个靠谱的答案。
没想到啊,Kimi反手就是一个更新,加上了一个超强的图片识别能力,试了一下没想到连文字识别都有惊喜。
Kimi智能助手又更新了!距离上次给大家介绍的数学版发布过去不久,Kimi现在从
数学版的
基础上,
升
级并
上
线了
好玩实用的
K1
模型,对应产品是
Kimi
——戴眼镜版!
(真名「Kimi
视觉思考版
」)
这个模型能识别复杂的图片内容,进行详细的“数理化解答与逻辑推理”,多项测试超过了OpenAI的o1模型,而且识别手写内容的能力也很强,能识别各种场景拍的图。
看起还不错的样子,我们直接上手
操作一番,首先就是它离谱的文字识别,由于Kimi连复杂的数学字符都能识别,而中文反而显得简单一些了,就拿下面的图片来说,完全不在话下。
(Kimi的识别,点击可以查看详情)
大家常用的PixPin等截图工具也是可以文字识别的,但是上半段识别就有问题了(直接识别不到),识别的正确率也有问题。
(截图工具的识别)
识别正确率啥的都好说,毕竟不算同类工具,有些差距都不令人意外,但Kimi不是死板的识别工具!它甚至能进行原图文字内容的修正和“事实检测”,真就“每个像素都分析到了”。
(下框为Kimi改正的)
(下
框
为Kimi改正的
)
(正确的立正姿势
)
这何尝不是对OCR工具的降维打击。
除了文字识别,对问题的解答能力也是有的。
先来玩一个简单的图片推理题目,在下图中找出规律,来选择正确的选项,这一题是公考行测图形推理例题,走你~
(红框里的是答案,不发给Kimi
)
如果不接触类似问题的朋友,可能看到题目还有点懵,要想好一会,而Kimi对这个题目分析了一大串,每一步都详细给出了过程,最后给出了正确答案。
(上下滑动查看完整对话)
答案里提到的点:直线和曲线,图形是否封闭,Kimi也有相应的思考。
基础的推理难不住它,来试一下需要加入计算的内容。
Kimi的回答速度很快,结果也是正确的,而且它为了严谨,前后三次反复确认的自己的回答,思考了一下其他可能出错的地方。以后用来解题可以用来当做参考,看看自己是不是和 Kimi 一样的错误反思逻辑。
(上下滑动查看完整对话)
这类内容,对Kimi来说是比较简单的。
再来看看一个进阶的。
而Kimi用来做代码题目更是专业对口,在力扣上找了一个题目,直接截屏丢给Kimi。
关于这个题目的吐槽
Kimi的回答: