一个周末就能将老破小的AI 模型性能提升12%?
这位研究人员做到了!
一场低成本的「迷你实验」
,让我们看到了缩小版Gemini 2.0的无限可能。
从Gemini 2.0说起
受Gemini 2.0 Flash Thinking启发
,来自CentraleSupelec的工程师Axel Darmouni萌生了一个大胆的想法!
谷歌最近发布的Gemini 2.0 Flash Thinking模型可以说是
「推理小能手」
。
从基准测试数据可以看出,这个模型的性能接近Claude Sonnet 3.5。而它也与奥特曼的CloseAI 那半遮半掩的o1 系列模型不同,它不仅能给出答案,还能展示完整的推理过程。
工程师Axel Darmouni看到这个特点,灵光一闪:
能不能用这个模型的推理能力来提升其他模型?
如果能将Gemini 2.0 Flash Thinking那种
近乎Claude 3.5 Sonnet的推理能力
「提炼」到一个小一点的模型中会怎样?
这听起来有点天方夜谭。
但Axel决定就用
一个周末
来验证这个想法。
于是,他开始整活了!
穷人版的实验配置
受限于算力,Axel选择了谷歌最新的视觉语言模型家族中的
PaliGemma2-3B-448px
作为实验对象。
选择这个模型的主要原因有二:
而用来训练的数据集则选择了
MathVista的testmini集
。
从6.5%到18%的突破
实验初期并不顺利。
基础模型在识别和计数任务上表现相当糟糕
。
看这个例子:
这是一道关于交通工具数量的简单问题:「大摩托车的数量是否比橡胶切割器要少?」图中明显展示了不同类型的交通工具,包括红色摩托车、绿色踏板车和黄色自行车,
但基础模型连最基本的数数和比较都做不好
,准确率仅有6.5%。
为了提升性能,Axel采用了一个巧妙的方案:
-
-
用Claude 3.5 Sonnet标注这些答案的正确性
-
看看这个测量杯的例子:
图中展示了一个带刻度的玻璃量杯,问题询问其总容量。
模型不仅能看懂刻度标记,还正确识别出单位为克(g),最终给出了准确答案:1000克。
这种思维过程展示了Flash 2.0 Thinking模型具备了基本的观察和推理能力
。
总体而言,在 350 个样本中,Flash 2.0 Thinking 答对了 72%。没有检查基本原理:可能是检查基本原理和结果是否一致的另一个步骤。
但受限于硬件条件,最终只能使用32个样本进行lora 微调训练。
但就是这32个样本,让模型准确率提升到了
18%
!
失败的有趣模式
在实验中,研究团队发现了几种典型的失败模式:
-
这个案例涉及水箱中盐溶解的复杂计算。模型在处理这种需要多步推导的数学题时,往往会陷入无休止的思维循环。它能理解问题涉及浓度阈值和溶解过程,但就是
无法得出最终结论
。
这说明模型在处理多变量复杂推理时还存在短板。
-
这是一道关于食物链的题目。图中清晰展示了从草到蚱蜢再到老鼠的能量传递过程。问题询问「如果夏季干草枯萎会发生什么」。模型理解了食物链的基本概念,也知道能量从底层向上传递,但在最后选择答案时却出错了。
这表明
模型虽然掌握了基础知识,但在应用层面还不够稳定
。
-
这个例子问及双层巴士的载客量。图片展示了一辆电动混合动力巴士,模型不仅没有专注于计算座位数,反而开始讨论丹尼士6型巴士等无关信息,最后给出了毫无依据的255这个数字。
这显示
模型有时会完全偏离问题核心,陷入无关细节的讨论
。
令人惊喜的成功案例
即便只有32个训练样本,模型还是展现出了一些令人惊喜的能力模式:
-
在这张二战时期的黑白照片中,模型成功识别出照片中4个人物的时代背景,并正确推断出他们都出生在1945年之前。
这个案例说明
模型能很好地处理历史背景明确的场景判断
。
-
这是一道几何题,涉及圆的直径和角度计算。虽然模型的推理过程不够严谨,但它成功从A、B、C、D四个选项中选出了正确答案。
这表明
在有限选项的情况下,即便推理不完善,模型也能通过排除法得出正确结论
。
-