专栏名称: 机器学习算法与自然语言处理
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
传媒招聘那些事儿  ·  【简历提升】挖掘亮点:提升眼界思路,优化简历! ·  2 天前  
传媒招聘那些事儿  ·  小红书:蒲公英渠道销售经理(北/上) ·  3 天前  
传媒招聘那些事儿  ·  淘天集团:淘宝秒杀-母婴/美妆行业商品运营 ·  2 天前  
51好读  ›  专栏  ›  机器学习算法与自然语言处理

Q*项目公开发布!研究团队并非OpenAI

机器学习算法与自然语言处理  · 公众号  ·  · 2024-06-26 00:00

正文


MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 昆仑万维

Q*项目公开发布,可让小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力。

自去年11月伴随着OpenAI内讧,其神秘Q*项目被爆出后,业内对OpenAI Q*的讨论和猜测就没停过,而OpenAI这边一直避而不谈。

在当时,一些人就从名字猜测Q*可能与Q-Learning有关,例如Meta科学家田渊栋提出Q*可能是Q-learning和A*的结合:

而现在,一项名为Q*的项目突然公开发布,而且真的和 Q-Learning、A*有关

不过,研究团队并非OpenAI,更不是DeepMind(相传,OpenAI的Q*项目前身是GPT-Zero,由Ilya Sutskever发起,名字致敬了DeepMind的Alpha-Zero)。

而是来自国内 昆仑万维颜水成团队 新加坡南洋理工大学 的一项新工作。

团队表示,希望Q*算法能够打破OpenAI的封锁,提升现有开源模型的推理能力。实验中,Q*算法的表现也很给力:

  • 在GSM8K数据集上,Q*帮助Llama-2-7b提升至 80.8% 的准确率,超越了ChatGPT;

  • 在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至 55.4% 的准确率,超越了Gemini Ultra;

  • 在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至 77.0% 的准确率,缩小了与GPT-4的编程水平差距。

网友看到这项工作后一时间炸开了锅,研究命名无疑成为了讨论的一大焦点,网友的评论却很一致:

这就是Q*。

虽然不是那个Q*,但却是真正的Q*:

谁让OpenAI至今不发布任何名为Q*的工作:

抛开命名,从研究本身来讲,有网友看过论文后感叹这项研究真不简单:

越思考,就越觉得Q*的这个方法是正确的。

甚至有网友认为有种AGI的感觉:

那么,Q*到底长啥样?

复杂推理任务全盘规划

总的来说,在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》这项工作中,研究人员首先将大语言模型的推理轨迹分解为若干个状态,对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的 函数和定义Accumulated Reward的 集成到同一个 函数内,实现了对历史状态收益和未来期望收益的综合考虑。

最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。

其中 表示当前轨迹中的多个历史状态,即 ,的聚合收益。

具体 的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建process reward model进行监督学习得到; 中的聚合方式可以为求和、最大值、最小值等。

为了获得状态-动作对 的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型

训练过程中的真实标签 可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。

随后,研究团队通过一系列实验,证实了Q*框架可以显著提升LLM的推理能力。

如开头所述,在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra; 在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

具体结果见下图:



Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显著降低了计算资源的需求。

不过,昆仑万维团队也表示,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。

未来,会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为AI前沿技术发展带来全新可能。

更多细节,感兴趣的家人们可以查看原论文~

论文链接:https://arxiv.org/abs/2406.14283


技术交流群邀请函






请到「今天看啥」查看全文