专栏名称: 果核剥壳
果核剥壳,分享数码体验,新奇软件,行业动态,丰富你的生活,提高你的效率,让网络更有滋味!
目录
相关文章推荐
北美留学生观察  ·  帝国理工清退150名学生,纽大拉黑国内某高中 ... ·  7 小时前  
北美留学生观察  ·  国外卖疯了的“越野登山鞋"多变态?防撞耐磨, ... ·  昨天  
北美留学生观察  ·  新一轮H1B抽签开启!今年可能是最容易中签的一年? ·  2 天前  
北美留学生观察  ·  困在爬藤之路的中国家长:美高是“捷径”还是“ ... ·  3 天前  
51好读  ›  专栏  ›  果核剥壳

kimi造出AI“核弹”,这次真的慌了

果核剥壳  · 公众号  ·  · 2024-12-19 09:43

正文


大家都在用AI工具,我们看着AI一步一步发展壮大,以前大部分是我们仅仅用文字跟它们聊天,有些时候果核就会在想:要是什么时候能对图片进行很好的思考就好了。


研究了一堆AI之后,后面用起Kimi,发现它的推理功能可以说是让人印象深刻。


当时就在想它的能力能不能扩展成多模态的,发一张图片和一段视频就能进行反思推理,最后给出一个靠谱的答案。


没想到啊,Kimi反手就是一个更新,加上了一个超强的图片识别能力,试了一下没想到连文字识别都有惊喜。


Kimi智能助手又更新了!距离上次给大家介绍的数学版发布过去不久,Kimi现在从 数学版的 基础上, 级并 线了 好玩实用的 K1 模型,对应产品是 Kimi ——戴眼镜版!


(真名「Kimi 视觉思考版 」)


这个模型能识别复杂的图片内容,进行详细的“数理化解答与逻辑推理”,多项测试超过了OpenAI的o1模型,而且识别手写内容的能力也很强,能识别各种场景拍的图。




看起还不错的样子,我们直接上手 操作一番,首先就是它离谱的文字识别,由于Kimi连复杂的数学字符都能识别,而中文反而显得简单一些了,就拿下面的图片来说,完全不在话下。


(Kimi的识别,点击可以查看详情)


大家常用的PixPin等截图工具也是可以文字识别的,但是上半段识别就有问题了(直接识别不到),识别的正确率也有问题。


(截图工具的识别)


识别正确率啥的都好说,毕竟不算同类工具,有些差距都不令人意外,但Kimi不是死板的识别工具!它甚至能进行原图文字内容的修正和“事实检测”,真就“每个像素都分析到了”。


(下框为Kimi改正的)


(下 为Kimi改正的


(正确的立正姿势


这何尝不是对OCR工具的降维打击。


除了文字识别,对问题的解答能力也是有的。


先来玩一个简单的图片推理题目,在下图中找出规律,来选择正确的选项,这一题是公考行测图形推理例题,走你~


(红框里的是答案,不发给Kimi


如果不接触类似问题的朋友,可能看到题目还有点懵,要想好一会,而Kimi对这个题目分析了一大串,每一步都详细给出了过程,最后给出了正确答案。


(上下滑动查看完整对话)


答案里提到的点:直线和曲线,图形是否封闭,Kimi也有相应的思考。




基础的推理难不住它,来试一下需要加入计算的内容。



Kimi的回答速度很快,结果也是正确的,而且它为了严谨,前后三次反复确认的自己的回答,思考了一下其他可能出错的地方。以后用来解题可以用来当做参考,看看自己是不是和 Kimi 一样的错误反思逻辑。


(上下滑动查看完整对话)


这类内容,对Kimi来说是比较简单的。


再来看看一个进阶的。


而Kimi用来做代码题目更是专业对口,在力扣上找了一个题目,直接截屏丢给Kimi。




关于这个题目的吐槽




Kimi的回答:







请到「今天看啥」查看全文