我有一个自己的大模型测试集。其实就是设定了一系列结果可验证的任务。比如:推理一个函数的执行结果、写一个能完成某任务的程序、分析一个故事中的人物关系、找出一段描写中使用不当的形容词、给出一个电路某两点之间的电压,等等。
所以,在和一些没怎么使用过大模型的朋友讨论大模型的时候,大家往往会惊讶于我对一些模型的评价,并表示”某某模型在某某测试中排名很靠前啊!“
在大模型问题上,大家也不要忘了,咱们最擅长的就是“跑分”,或者叫“测评优化”。
所以,在和一些没怎么使用过大模型的朋友讨论大模型的时候,大家往往会惊讶于我对一些模型的评价,并表示”某某模型在某某测试中排名很靠前啊!“
在大模型问题上,大家也不要忘了,咱们最擅长的就是“跑分”,或者叫“测评优化”。