专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
PaperWeekly  ·  NeurIPS 2024 | ... ·  3 天前  
科研大匠  ·  80后“国家杰青”,任中国科学院所长! ·  2 天前  
51好读  ›  专栏  ›  PaperWeekly

从理论到实践,中科大、讯飞发布SocraticLM:首个实现苏格拉底教学法的智能辅学大模型

PaperWeekly  · 公众号  · 科研  · 2025-01-03 23:54

正文




随着大语言模型的快速发展,其在智能教育领域的潜力被广泛关注。近日,认知智能全国重点实验室(中国科学技术大学和科大讯飞共建)发布 SocraticLM——苏格拉底教学大模型。通过引入“启发式提问”教学范式,SocraticLM 实现了教学模式的革命性升级,在多项评估指标上超越了 GPT-4,为智能教育带来全新可能。


该研究成果入选 NeurIPS’2024 Spotlight。第一作者刘嘉聿是中国科学技术大学 2020 级硕博连读生,师从陈恩红教授、黄振亚副教授,主要研究方向为知识学习、数学推理、大语言模型等。他曾以第一作者在 NeurIPS、KDD、AAAI 等顶级期刊与会议上发表论文 5 篇。


该研究的指导者还包括中国科学技术大学刘淇教授,认知智能全国重点实验室王士进副主任等。该研究成果已依托科大讯飞星火认知大模型,在多个教育产品中应用,支撑 AI 答疑辅学功能。

论文地址:
https://openreview.net/pdf?id=qkoZgJhxsA

代码地址:

https://github.com/Ljyustc/SocraticLM



苏格拉底教学法:被动问答与个性化教学的鸿沟

苏格拉底教学法(Socratic Method)由古希腊哲学家苏格拉底提出,本质是一种以提问为基础的教学方式。


如图 1 所示,相比传统教学方法,其旨在通过不断的提问,引导学生自己思考、探索和发现真理,而非直接传授知识或提供答案。这种方法不仅强调对话性和互动性,还通过批判性思维的培养帮助学生更全面地理解问题。因此,苏格拉底教学法至今仍被视为重要的个性化教学方法。


▲ 图1. 传统教学与苏格拉底式教学对比


在当前人工智能时代,如何利用人机交互技术实现苏格拉底式教学,是智能教育的一个关键目标与亟待解决的问题。然而,现有的人机交互方式难以实现苏格拉底教学的核心理念,这些交互通常依赖固定的规则和预设的应答逻辑,缺乏动态理解与灵活提问的能力。同时,传统的人机交互更倾向于信息的“被动传递”,而非通过启发式对话主动引导学生认知和批判性思维的发展。


受启发于当前大语言模型(LLMs)的高效交互能力以及在数学等基础学科中的类人知识掌握能力,本文提出 SocraticLM——苏格拉底教学大模型,首次让苏格拉底教学法从理论变成了可以大规模、智能化实践的现实。


SocraticLM 的核心是采用“思维引导”的教学范式,不仅关注问题的解答,更注重在多轮对话中与学生交互,逐步提出启发性问题,例如“下一步该如何计算?”或“这个答案合理吗?为什么?”,引导学生参与问题解决的思考过程,帮助学生掌握真正的问题解决能力。这种方式让学生能够在模型的引导下自主解决问题,从而获得更牢固的学习结果与更深层次的学习能力。



SocraticLM:思维引导与教学能力增强

SocraticLM 的核心在于模拟苏格拉底教学法,通过灵活的对话和精准的思维引导,提升在教学场景中的适应性与交互能力。其构建过程有以下两个重点:

  • 模型需要具备清晰的思维引导能力,即 SocraticLM 在教学过程中,能够遵循解题思维链,依次对不同步骤进行详细地拆分、推导、和解释,使学生能够理解每一步的逻辑依据和背后的原理。

  • 在实际教学场景中,不同学生会表现出不同的认知水平、表达方式和问题反馈。例如,对某一步骤的教学中,学生可能会中断提问、提出疑问,甚至给出错误的回答。SocraticLM 需要能够动态地理解这些复杂的交互情境,并自适应地调整自己的教学内容。

▲ 图2. SocraticLM 教学过程示意图


为了实现这两个核心功能,SocraticLM 设计了一系列关键技术。


在思维引导方面,本研究提出步骤级引导问题分解(Step-by-step guiding question decomposition)来控制教学过程的逻辑性与一致性。


在自适应交互方面,本研究提出一种 “教导主任(Dean)-教师(Teacher)-学生(Student)”多智能体交互流程(multi-agent pipeline)对真实教学过程进行模拟,这其中设计对教学过程的评估与修正,以及对 4 种关键教学能力进行强化。


通过上述方法,本研究构建了一个全新的大规模苏格拉底教学对话数据集 SocraTeach。

1. 步骤级引导问题分解

为了确保教学过程遵循原问题的求解思维链,本研究将解题思维链分解为一系列步骤级的引导子问题,例如对图 2 所示的思维链,可以分解为 4 个引导子问题,从“小明今天读了多少页”到“小明明天需要读多少页”,这些问题逻辑紧密,层层递进,逐渐接近最终答案。


通过这一分解,我们可以确保教学表达方式和教学方法的一致性。需要特别强调的是,为了提高教学效率和简洁性,数值计算和解答总结不计入单独的教学步骤。

▲ 图3. “教导主任-教师-学生” 多智能体交互流程

2. “教导主任-教师-学生” 多智能体交互流程

  • 教导主任(Dean agent):负责整体教学质量的监督与优化。在每轮对话中,教导主任会评估教师(Teacher agent)给出的教学指导,判断其是否符合苏格拉底式教学风格,例如是否避免直接提供答案、是否明确指出学生的错误。如果不符合标准,教导主任会对教师的回应进行修正(图3),从而确保教学对话的高质量和一致性。

  • 教师(Teacher agent):以苏格拉底式教学风格与学生(Student agent)互动,逐步引导学生解决问题。教师通过一系列启发性问题帮助学生理解问题、识别关键点和完成计算,从而实现从“知识传递者”到“学习引导者”的转变。

  • 学生(Student agent):模拟 6 种真实课堂中不同认知状态的学生对教师(Teacher agent)的指导做出响应。这种设计让生成的对话能够覆盖广泛的教学场景,增强模型对复杂教学场景的适应性。

3. 教学能力强化

SocraTeach 不仅通过多轮教学对话模拟基础的教学过程,还通过数据增强方法在 4 个关键教学能力上进行了专项强化:


  • “识别无关问题”能力:当学生在教学过程中提出无关问题如“今天天气如何”时,教师需要能够识别并将话题引回教学内容,如回复“这与我们当前求解的问题无关哦,让我们先回到这一步中…”。为此,本研究收集了 200 条真实学生提出的无关问题随机插入到多轮对话中,并让 Teacher agent 生成回复,形成 2000 条单轮对话数据。

  • “回答学生提问”能力:教师需要能够针对如“什么是球体积公式?”的知识性提问提供清晰、准确的解释。为此,本文让 Student agent 基于多轮对话的上文提出3个不同的问题,再由 Teacher agent 进行回复,形成 6000 条单轮对话数据。

  • “识别错误答案”能力:当学生对于教师的提问给出错误答案时,教师需要准确判断并指出学生的错误。为此,本文结合基于规则的数值改写与提示工程的方法,在多轮对话数据的基础上扩充了 10K 存在错误学生回答的样本,供模型学习纠正错误的策略。

  • “识别正确答案”能力:相对“识别错误答案”的能力,教师还需要识别学生正确的回答,并在此基础上继续推进教学,而不是一味质疑或重复提问。为此,本文针对“识别错误答案”能力所使用的对话上文,额外构建了 4000 条正确的学生回复样本。

这些能力的强化,使得 SocraticLM 不仅能提供高质量的教学指导,还能更好地应对复杂、多变的课堂场景,提升模型在真实教学任务中的适应性。最终,SocraTeach 数据集包含超过 35K 通高质量多轮教学对话、22K 条通过数据增强得到的单轮教学对话,总计约 208K 条对话样本。

▲ 表1. SocraTeach 数据集统计



SocraticL M训练策略:平衡教学能力与推理能力

直接利用 SocraTeach 数据集 finetune 现有开源大模型(例如,ChatGLM3-6b)可能会导致数学推理能力的显著下降。为了同时提升 SocraticLM 的教学能力和数学推理能力,研究团队设计了三种训练策略,确保模型在教学和推理两个维度的能力得到平衡:

1. 分离训练(Separate Training)

直接将教学对话数据与推理数据混合进行训练,可能导致模型的推理能力下降。为避免这一问题,研究团队采用分离训练的方式:首先使用 SocraTeach 数据集进行教学能力的训练,增强模型的对话质量和教学水平。随后用一小部分数学推理数据(来源于 GSM8K 和 MAWPS 数据集)对模型进行微调,恢复其原有的推理能力。


实验表明,当数学推理数据与教学对话数据的比例为 1:10 时,模型的教学与推理能力达到了最佳平衡。

2. 指令微调(Instruction Tuning

为进一步提升模型在教学和推理任务上的表现,研究团队对训练过程中的指令进行了精细化设计:针对教学对话数据,指令要求模型遵循苏格拉底式教学风格,逐步提出引导性问题与学生互动。针对推理数据,指令要求按照思维链 Step by Step 的方式进行问题求解。


这种差异化指令能够有效避免模型在推理任务中采用冗长的教学风格,从而保障推理效率与教学质量的双向优化。

▲ 图4. 指令微调模板


3. 混合提示(Mixed Prompt Setting)


进一步的,研究团队在训练过程中对推理数据混合不同类型的提示设置(如零样本、单样本提示)来提升模型的泛化能力。最终确定零样本提示与单样本提示的比例为 9:1 时达到最优。



教学能力评估体系与实验结果

传统评估方式主要依赖相似度指标(如 BLEU 和 Rouge),通过计算大模型生成的回答与标注回答的相似度来进行评估。但在教学场景中,教学过程本身并不存在标准答案。学生的需求和理解能力多种多样,教学对话的质量无法单纯通过字面相似度来衡量。


为此,本研究提出了一套涵盖 5 个教育维度的综合评估体系,首次系统地评估大语言模型的教学质量:

1. 总体质量(Overall Quality)

给定一个教学对话的上文,研究人员以 GPT4 作为基准,邀请标注人员评估在输入相同上文时,一个大模型的回复结果与 GPT4 的回复结果孰优孰劣,通过标准化的 win/loss rate 差异衡量该模型的教学质量。

2. 错误答案识别准确率(Incorrect Answer Recognition Accuracy, IARA)

当学生给出错误答案时,合格的教师需能够识别并指出错误。对此,本研究将其形式化为一种二分类任务来评估教师大模型能否准确识别学生的“错误回答”。

3. 正确答案识别准确率(Correct Answer Recognition Accuracy,CARA)

对应 IARA,该指标关注教师能否准确识别学生的“正确回答”。忽略这一维度可能导致模型误判所有学生答案为错误。

4. 成功解释率(Successful Explanation Rate,SER)

当学生主动提出一个问题(如“什么是球体积公式?”)时,合格的教师需要给出精确的解释。对此,本研究邀请人类专家对大模型的解释性回答进行二元评估,计算其令人满意的比例。

5. 成功拒绝率(Successful Rejection Rate,SRR)

针对学生的无关问题(比如“今天天气怎么样”),衡量教师拒绝回答并将对话重新引导回教学内容的比例。

▲ 表2. 教学质量评估结果

表3. 训练策略对教学质量(Overall)与推理准确率( 分别代表 GSM8K、MAWPS 数据集结果)的影响
实验结果:


  • SocraticLM 通过在 SocraTeach 数据集上微调,显著提升了各项教学能力指标。相较于 GPT4,SocraticLM 在总体质量(Overall Quality)上提升了 12%,在错误识别(IARA)、正确识别(CARA)、成功解释率(SER)和成功拒绝率(SRR)上分别提升了 6%、7%、9%、23%。

  • 在训练策略方面,未使用推理数据(“w/o Problem”)会使得模型在 GSM8K 和 MAWPS 上的准确率分别比原始的 ChatGLM3-6b 低 31.2% 和 9.7%。相对的,本研究采用的三种训练策略均有效,其中分离训练/指令微调对数学推理/苏格拉底教学的提升作用最大。而混合提示设置可能在 LLM 预训练中已被广泛应用,因此其改进作用相对较小。

  • 值得注意的是,SocraticLM 在 MAWPS 上的准确率高于 ChatGLM3-6b。我们推测,这是因为SocraticLM 通过在 SocraTeach 数据集上的微调,学习到了如何解答关于单一问题的多种学生提问(例如,询问每个推理步骤和相关知识点)。这一过程使得 SocraticLM 能够更深入地理解问题解决过程,从而提升了其问题解决的准确性。



展望未来:从知识传授到认知编排的教学转型

SocraticLM 不仅是一个教学工具,更是实现从“知识守护者”到“学习编排者”转变的桥梁。其创新的教学方法和全面的评估体系,为教育技术注入了新的活力。研究团队已将相关数据和代码开源,期待未来在物理、编程等学科中的扩展应用。

然而,关于苏格拉底教学方法的探索仍处于初步阶段。在实际应用中,我们面临着许多复杂的问题,尤其是在真实环境中的多样性和动态性,这对模型的适应性提出了更高的要求。未来,我们将继续优化算法,提升模型的智能化水平,解决这些挑战,推动这一方法在更多领域的实际应用和普及。

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·