AIGC专题：2024面向教育的生成式AI的负责任发展：评价驱动的方法（附下载）

人工智能学派 · 公众号 · 科技自媒体教育 · 2024-06-19 17:14

正文

今天分享的是 AIGC专题系列深度研究报告：《 AIGC专题：2024面向教育的生成式AI的负责任发展：评价驱动的方法》

（报告出品方：谷歌）

1. 引言

研究背景：生成式人工智能（gen AI）的最新进展使人们对新技术的潜力感到兴奋，但缺乏实现这一目标的良好措施，建立通用AI导师的进展已经放缓。
研究目的：提出一种评估驱动的方法来改善教育领域的AI，重点是会话辅导，因为它可能对学习者和教育者产生积极影响。
研究方法：组建了一个由人工智能科学家、工程师、教学专家、安全研究人员和认知科学家组成的多学科团队，共同朝着这个方向努力。我们的方法以参与开始和结束，通过访谈和研讨会与学习者和教育者的直接参与相结合，并对学习科学研究进行全面的文献综述，以确定一套教学原则和能力，以便在我们的开发工作中优先考虑。这些见解被转化为通过监督微调提高Gemini 1.0的教学能力的实际步骤。此外，我们创建了一套七个不同的教学基准，包括定量、定性、以人为本和自动评估。这些应用到我们最好的gen AI导师learnlm-tutor上，我们将其表现与及时调谐的双子座进行了比较。

2. 参与式方法

参与式研讨会：举办了两次参与式研讨会，一次是学习者，主要是来自不同学术背景的大学生；另一次是教育工作者，主要是专门研究STEM科目的高中教师。通过这些研讨会，我们了解到当前教育面临的挑战，以及人工智能或人类的个性化辅导受到学习者和教育者的重视。
了解学习经验：进行了一系列以用户为中心的探索性研究，涉及学习者和教育者。通过这些研究，我们了解到学习者在在线课程中面临的挑战，以及他们对AI导师的期望。
Shiff Bot的经验教训：Shiff Bot是一个教育AI实验，它使用“从一开始”的方法，以一个人为中心的协同设计框架，目标是开发对他们和他们的社区有影响的人工智能技术。通过这个实验，我们了解到人工智能导师与学习材料的紧密结合的重要性，以及如何使用令人鼓舞的语调来营造安全感。

3. 改善双子座的教育

缺乏普遍的最佳教学实践：学习科学研究落后于许多现代科学，以至于“21世纪的曙光，教育研究终于进入20世纪”。很难建立一套共同的推荐教学实践的原因之一是与许多学科的教育研究支离破碎有关。
缺乏透明度和共同的评估实践：从Pressey（1924）和Skinner（1954）最早的机械教学机器，到第一个数字计算机辅助教学（CAI）系统和更现代的智能教学系统（ITSs），教育一直是最新计算技术的重要应用。然而，尚不清楚它们是否能以有意义的方式影响教学和学习。
教育中的生成性AI：自从AlexNet论文在计算机视觉中发表以来，深度学习已经成为人工智能的主要范例。它消除了对人类向人工智能提供结构化知识的依赖，使人工智能系统能够在训练过程中自己从数据中发现结构。在过去的12年里，人工智能研究人员已经看到了许多“痛苦教训”的例子--数据和规模往往胜过精心设计的规则或表述。向AI时代的最新转变是这一教训的一个特别引人注目的证明。transformer架构已经达到了人工智能前所未有的性能和通用性水平，主要是通过扩展到更多的数据和计算。尽管最近一代人工智能技术对教育的潜在影响令人兴奋，并且已经出现了许多基于人工智能的导师，但这种潜力的全部程度尚未实现。
我们的方法：我们通过监督微调（SFT）对基础模型的所有参数进行微调，创建了一个新的基于文本的AI导师learnlm-tutor。我们还创建了一套七个不同的教学基准，包括定量、定性、以人为本和自动评估。这些应用到我们最好的gen AI导师learnlm-tutor上，我们将其表现与及时调谐的双子座进行了比较。

4. 在Gen AI中测量教育学

教育相关基准的准确性：我们检查了与双子座1.0相比，我们的微调干预是否导致learnlm-tutor的准确性出现任何回归。结果表明，learnlm-tutor的结果再现了Gemini Pro的表现，例如MMLU得分为0.72和数学成绩0.444。
当前的方法：由于缺乏实现这一目标的良好措施，建立通用AI导师的进展已经放缓。人类导师学习科学中的大多数评估方法都不适用于人工智能，目前，gen AI导师倾向于使用与领域无关的指标进行评估，这些指标可以作为生成的响应的一致性和人性化程度的代理，但它们不是用来衡量教育学或其他特定于教育的能力的。
我们的方法：我们创建了一套七个不同的教学基准，包括定量、定性、以人为本和自动评估。这些应用到我们最好的gen AI导师learnlm-tutor上，我们将其表现与及时调谐的双子座进行了比较。

5. 人类评价

无指导的对话：学习者首先通过聊天界面与提供的AI导师进行45分钟的无指导（开放式）会话。辅导课程以学术YouTube视频为基础，他们可以从列表中选择数学、CS、生物学、化学、文学、历史或其他科目，例如公开演讲。然后，他们被问了七个问题，以评估他们对导师的看法。对learnlm-tutor的评分高于Gemini的学习者在大多数类别的导师中。
轮流教学法：我们请教学专家对我们的学习者研究中的无指导对话进行审查和评分。对于每个导师轮流，他们确定九个建议的教学“动作”中的一个在对话环境中是否合适和期望。如果答案是“是”，则询问他们的答复是否遵循了所需的教学原则。结果表明，learnlm-tutor在促进学习者参与度方面被认为明显优于基础双子座1.0。
对话级教学法：我们进行了许多指导性对话收集实验，其中研究生水平的专家与两名不同的导师进行了互动，并在其专业领域内扮演学习者的角色。与两位AI导师的对话以相同的教育视频和相应的场景为基础，该场景指定了学习者的角色，对话中的目标，和其他细节。然后由教学专家评审员对这些对话进行评分。结果表明，除了没有矛盾之外，在教育学专栏的所有属性上，learnlm-tutor的对话都比Gemini 1.0更受欢迎。
并排教学法：作为同一研究的一部分，我们还要求评分者对双子座提示的对话进行排名。排名是根据五个广泛的标准，其中包括来自GenAI教育文献的最广泛使用的人类评估问题的改编版本。结果表明，对learnlm-tutor的偏好高于Gemini 1.0具有统计学意义。
随时间进展：我们还在补充材料的表15和图19中显示了随着时间的推移取得的进展的证据，这些证据比较了learnlm-tutor的早期版本，0至3和最新版本之间从教学专家获得的回合级别和对话级别的评分。结果表明，除了可管理的块，指南回答和表达不确定性之外，所有对话级教学法标准都取得了明显的进展。

AIGC专题：2024面向教育的生成式AI的负责任发展：评价驱动的方法（附下载）

正文

1. 引言

2. 参与式方法

3. 改善双子座的教育

4. 在Gen AI中测量教育学

5. 人类评价

请到「今天看啥」查看全文