专栏名称: AGI Hunt
关注AGI 的沿途风景!
目录
相关文章推荐
深圳大件事  ·  香港队队员赛后遭围殴,对方3人被罚 ·  昨天  
深圳特区报  ·  超76亿元!《哪吒2》已破93项影史纪录 ·  2 天前  
深圳特区报  ·  未来可期 信心自来丨乙巳新春系列评论④ ·  2 天前  
深圳特区报  ·  首金来了,祝贺李方慧! ·  3 天前  
51好读  ›  专栏  ›  AGI Hunt

一招将模型推理能力暴拉12%,开源版o3 指日可待?!

AGI Hunt  · 公众号  ·  · 2024-12-24 22:00

正文

一个周末就能将老破小的AI 模型性能提升12%?

这位研究人员做到了!

一场低成本的「迷你实验」 ,让我们看到了缩小版Gemini 2.0的无限可能。

从Gemini 2.0说起

受Gemini 2.0 Flash Thinking启发 ,来自CentraleSupelec的工程师Axel Darmouni萌生了一个大胆的想法!

谷歌最近发布的Gemini 2.0 Flash Thinking模型可以说是 「推理小能手」

从基准测试数据可以看出,这个模型的性能接近Claude Sonnet 3.5。而它也与奥特曼的CloseAI 那半遮半掩的o1 系列模型不同,它不仅能给出答案,还能展示完整的推理过程。

工程师Axel Darmouni看到这个特点,灵光一闪: 能不能用这个模型的推理能力来提升其他模型?

如果能将Gemini 2.0 Flash Thinking那种 近乎Claude 3.5 Sonnet的推理能力 「提炼」到一个小一点的模型中会怎样?

这听起来有点天方夜谭。

但Axel决定就用 一个周末 来验证这个想法。

于是,他开始整活了!

穷人版的实验配置

受限于算力,Axel选择了谷歌最新的视觉语言模型家族中的 PaliGemma2-3B-448px 作为实验对象。

选择这个模型的主要原因有二:

  • 专门为微调而生

  • 只有3B参数,适合在单张H100上运行

而用来训练的数据集则选择了 MathVista的testmini集

从6.5%到18%的突破

实验初期并不顺利。 基础模型在识别和计数任务上表现相当糟糕

看这个例子:

这是一道关于交通工具数量的简单问题:「大摩托车的数量是否比橡胶切割器要少?」图中明显展示了不同类型的交通工具,包括红色摩托车、绿色踏板车和黄色自行车, 但基础模型连最基本的数数和比较都做不好 ,准确率仅有6.5%。

为了提升性能,Axel采用了一个巧妙的方案:

  1. 用Gemini 2.0生成350个示例答案

  2. 用Claude 3.5 Sonnet标注这些答案的正确性

  3. 只保留正确的答案作为训练样本

看看这个测量杯的例子:

图中展示了一个带刻度的玻璃量杯,问题询问其总容量。

模型不仅能看懂刻度标记,还正确识别出单位为克(g),最终给出了准确答案:1000克。 这种思维过程展示了Flash 2.0 Thinking模型具备了基本的观察和推理能力

总体而言,在 350 个样本中,Flash 2.0 Thinking 答对了 72%。没有检查基本原理:可能是检查基本原理和结果是否一致的另一个步骤。

但受限于硬件条件,最终只能使用32个样本进行lora 微调训练。

但就是这32个样本,让模型准确率提升到了 18%

失败的有趣模式

在实验中,研究团队发现了几种典型的失败模式:

  1. 「循环思考」模式

这个案例涉及水箱中盐溶解的复杂计算。模型在处理这种需要多步推导的数学题时,往往会陷入无休止的思维循环。它能理解问题涉及浓度阈值和溶解过程,但就是 无法得出最终结论

这说明模型在处理多变量复杂推理时还存在短板。

  1. 「思路对答案错」模式

这是一道关于食物链的题目。图中清晰展示了从草到蚱蜢再到老鼠的能量传递过程。问题询问「如果夏季干草枯萎会发生什么」。模型理解了食物链的基本概念,也知道能量从底层向上传递,但在最后选择答案时却出错了。

这表明 模型虽然掌握了基础知识,但在应用层面还不够稳定

  1. 「胡说八道」模式

这个例子问及双层巴士的载客量。图片展示了一辆电动混合动力巴士,模型不仅没有专注于计算座位数,反而开始讨论丹尼士6型巴士等无关信息,最后给出了毫无依据的255这个数字。

这显示 模型有时会完全偏离问题核心,陷入无关细节的讨论

令人惊喜的成功案例

即便只有32个训练样本,模型还是展现出了一些令人惊喜的能力模式:

  1. 「完美推理」模式

在这张二战时期的黑白照片中,模型成功识别出照片中4个人物的时代背景,并正确推断出他们都出生在1945年之前。

这个案例说明 模型能很好地处理历史背景明确的场景判断

  1. 「歪打正着」模式

这是一道几何题,涉及圆的直径和角度计算。虽然模型的推理过程不够严谨,但它成功从A、B、C、D四个选项中选出了正确答案。

这表明 在有限选项的情况下,即便推理不完善,模型也能通过排除法得出正确结论

  1. 「意外之喜」模式






请到「今天看啥」查看全文


推荐文章
深圳特区报  ·  超76亿元!《哪吒2》已破93项影史纪录
2 天前
深圳特区报  ·  首金来了,祝贺李方慧!
3 天前
时尚女装搭配  ·  寒冷秋冬,这5个颜色怎么穿都很美!
8 年前
趣味漫画  ·  给点零花钱
8 年前
不贱不散  ·  3D动态纹身,屌爆了!
7 年前