【合成数据的突破: 从降低迎合性偏差到认知自主性的重构】
马来西亚思特雅大学博士生王立博,近两年来主要研究大语言模型。起初,王立博做这类研究也是被 #大语言模型# 给逼的,因为日常总得提防其“献媚(Sycophancy)”,这是由基于人类反馈的强化学习调优策略导致的固有缺陷。
因此,他致力于设计能够自主学习、思考和推理的 #人工智能# ,而不是人工宠物。
引入 #强化学习# 的训练奖励模型进行微调,尽管可以优化用户体验,但是引入偏见是不可避免的,因为“奖励”的依据是优先考虑用户反馈的满意度而未必是考虑客观事实。这种偏见通常来源于互联网数据,而大语言模型的训练数据集主要依赖于互联网信息。
基于此,王立博尝试通过合成数据干预来优化仅解码器(decoder-only)transformer 架构,弥补其对输入序列缺乏深度分析的不足。
在生成过程中他尝试设计加入额外阻碍,促使模型自主判断并拒绝不合理的输入。这一构想原理上能有效避免过度依赖用户的反馈,因为合成数据干预会更侧重于模型内在推理能力的培养,而非寻求 RAG 外部知识库。
戳链接查看详情: 网页链接
马来西亚思特雅大学博士生王立博,近两年来主要研究大语言模型。起初,王立博做这类研究也是被 #大语言模型# 给逼的,因为日常总得提防其“献媚(Sycophancy)”,这是由基于人类反馈的强化学习调优策略导致的固有缺陷。
因此,他致力于设计能够自主学习、思考和推理的 #人工智能# ,而不是人工宠物。
引入 #强化学习# 的训练奖励模型进行微调,尽管可以优化用户体验,但是引入偏见是不可避免的,因为“奖励”的依据是优先考虑用户反馈的满意度而未必是考虑客观事实。这种偏见通常来源于互联网数据,而大语言模型的训练数据集主要依赖于互联网信息。
基于此,王立博尝试通过合成数据干预来优化仅解码器(decoder-only)transformer 架构,弥补其对输入序列缺乏深度分析的不足。
在生成过程中他尝试设计加入额外阻碍,促使模型自主判断并拒绝不合理的输入。这一构想原理上能有效避免过度依赖用户的反馈,因为合成数据干预会更侧重于模型内在推理能力的培养,而非寻求 RAG 外部知识库。
戳链接查看详情: 网页链接