专栏名称: 玉树芝兰
思考教育、写作和互联网。 我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
目录
相关文章推荐
数据派THU  ·  数据派志愿者招募 | 寻找最志同道合的你! ·  2 天前  
玉树芝兰  ·  今晚直播 ·  昨天  
数据派THU  ·  王露莹:解锁数据价值,走向创新之路 | ... ·  4 天前  
大数据文摘  ·  机器人的“ChatGPT时刻”来临?英伟达带 ... ·  4 天前  
51好读  ›  专栏  ›  玉树芝兰

学生偷懒用 AI 完成作业,老师该怎么办?

玉树芝兰  · 公众号  · 大数据  · 2025-01-20 16:37

正文

如果我们用昨天的方法,教今天的学生,我们就剥夺了他们的明天。

疑惑

作为教学评价的必要手段,老师们经常需要布置作业或课程结课论文。然而,如今不少学生开始借助人工智能(AI)来完成这些任务,这让老师们颇为头疼。

我有个朋友前两天就遇到了这个问题。

他教的课程一直要求学生在期末提交一份与课程相关的案例报告。以前他批改作业时,感觉挺轻松愉快,因为一眼就能看出学生写得是否认真。但今年他发现,有些作业写得特别好,好到让他怀疑是不是用 AI 写的。

这就让他很为难:如果这些作业真的是 AI 写的,那给他们高分,对那些自己认真写(但是质量稍微低一些)的同学是否不公平?但如果直接因为文笔流畅就判断说学生「你这是 AI 写的」,直接给低分,似乎也不太合适。

于是,他问我一个很实际的问题:有没有工具能准确检测出 AI 写的东西?如果有,那评判时就有依据了。

检测

AI 查重工具当然是有的。早在两年前 ChatGPT 刚出来时,OpenAI 就推出了一款官方的 AI 检测工具。但有趣的是,2023 年还没过完,他们就把这个工具下线了。

至于原因,很简单:这种工具无法做到百分之百准确,可用性非常有限。

如果你了解 AI ,或许会感到困惑——无论是情感分析还是图片分类任务,AI 大都无法做到 100% ,为什么这些任务上 AI 就被当成有用,但 AI 检测任务就定如此苛刻的标准?

这是因为,AI 检测任务哪怕错一次,都会带来严重后果 —— 如果一个学生非常认真地写了一篇近乎完美的作业,结果被 AI 检测工具判定为「疑似 AI 写作」,那可就糟糕了。这不仅对学生不公平,还会传递一个错误的信号:写得越好越容易被冤枉为「滥用 AI」。

这样一来,学生可能会为了避免被误判而故意主动降低写作质量,以保障 AI 检测率在阈值下方。这显然不是我们教学活动想要的结果。

另一方面,AI 检测的原理究竟是什么?我们鼓励学生在写作业、学期论文甚至毕业论文时,展现出原创思维和深刻思考。这才是我们最看重的。然而,AI检测工具的原理并不是检测原创性,而是通过某些特征来判断最终的结果文本是否由AI生成。这与我们之前使用的查重系统完全不同。

传统查重主要检测文本与已知成果之间的重合度,即是否存在大量与他人已经产出结果相似的内容,即使你换了说法也能被发现。而AI查重则是基于概率分布的检测方式。

生成式 AI 的工作原理是:根据前一个词预测下一个词,逐步生成完整内容。AI 查重就是检测这种生成模式 —— 如果每个词后面出现的词都是高概率的,就判定为 AI 生成。

这种检测方式存在两个主要问题:

首先是舍本逐末。假设你辛苦收集数据、提出原创分析方法,只是用AI润色文字以消除技术性错误,这本来是被学术界认可的。但AI查重会认为这是AI生成,可能给出90%以上的AI使用率,导致不公正的惩罚。

其次是误判问题。有些人写作水平高,写出的文章自然流畅,也可能被误判为AI生成。这种误判在学术评价中会造成严重后果。

所以目前的AI检测工具只能作为参考,绝不能作为评判依据。某名校的规定也提到,只有当检测结果达到一定阈值时,会给学生警示要求修改,而不是直接判定为抄袭或作弊。再强调一遍,AI 检测任务上,误判的后果可能比漏判更严重

保守

前几天我作为教学督导和学院的青年教师座谈。讨论学生使用 AI 写作业的问题时,一位年轻老师提到,他的做法是让学生手写作业练习,不允许参考任何资料。这种方法类似于传统的闭卷考试。对于记忆性或理论性较强的课程,这种做法或许还说得过去。但问题在于,如果课程本身是动手实践、上机编程的综合实验课,最后却让学生坐在那里填空、选择、手写大题,这种做法就显得有些奇怪了。可他要教的,恰恰是一门综合实践类课程。

在《预测之书》中,沈祖芸老师引用了教育家杜威在 100 年前说的一句话:

如果我们用昨天的方法,教今天的学生,我们就剥夺了他们的明天。

我最近才看到这句话,并且深以为然。在那次讨论会上,我向这位年轻老师表达了类似的观点。

我说,我们教育的目的是让学生成为更好的自己,而不是让教学变得轻松。学生们毕业后,未来的工作环境中,与AI协作可预见是必然的。我们教的课程与编程和系统开发密切相关,学生将来与AI协作的能力可以算作是「吃饭的技能」。如果我们现在告诉他们学习、练习不能使用AI,那么他们所学的内容与未来的工作之间就会存在巨大的鸿沟

对编程任务来说,GitHub Copilot, Cursor 和 Winsurf 这样的工具已经取代了记忆和查找 API,手工编代码的过程。这些工具在推理能力上还有争议,但「编程不再需要记忆那些 API 和开发文档」却已经是业界共识。如果我们今天还让学生背诵、手动默写这些内容,默写得准确就能得高分,这对他们将来的工作和能力培养又有什么帮助呢?

这番话让那位年轻老师陷入了沉思。

对轰

当然,教学实践中也早有人尝试了更激进的做法。去年 12 月在珠海的数据智能会议上,有老师提到了「魔法对轰」的现象 —— 学生用 AI 写程序并直接提交,助教则用 AI 来检测和评分。

结果有一次,学生发现自己的程序明明是对的,却被 AI 判错了,跑到老师这边申诉。助教检查后发现,确实是 AI 当时「犯傻」了。

这种情况让人哭笑不得,双方谁都没有对教学活动真正负责 —— 学生不自己写,助教不自己判,两个 AI 在那里「沟通」。这到底有什么意义呢?

思路

在面对学生作业提交的问题时,我们需要采取新的策略。传统的只让学生提交论文或报告文稿的方式已经不再适用。

过去,提交的文稿质量体现着学生尽力完成任务时的能力水平。但现在情况完全不同。学生可能完全依赖 AI 生成海量内容,看似有板有眼,但没有进行任何深入思考或学习。

为了应对这种情况,我建议采取以下措施:

首先,在学生提交作业后,必须进行现场答辩。从2023年开始,我每个学期期末都会这样做。学生需要解释他们的工作内容、选题意义、选择的具体方法或技术路线的原因,并回答老师(也就是我本人)和同学们(如有,一般没有)当场提出的问题。

当然了,千万不要把这件事弄成走过场。仅仅让学生讲述是不够的,因为他们的讲稿也可能由 AI 生成。只有通过提出关键问题,并且查看学生的回答反应,我们才可以判断学生是否真正投入了工作,进行了深入的思考。

其次,我们不但不能完全屏蔽 AI ,甚至还应该要求学生必须使用AI来辅助完成作业。以今天很多大模型近乎免费、甚至已经免费的价格,这不会给学生造成多大的额外经济压力。这话其实多余,因为如果学生们真的用不起 AI ,咱们也没有必要探讨今天的主题了,不是吗?

让学生使用 AI 辅助完成作业和练习的目的,是确保学生在这个过程中与 AI 协作,并且注重发挥自己(人)的作用。AI可以提供一个初步结果,但学生需要对其进行理解、消化和判断找出问题并提出改进方向。通过这种方式,学生需要与AI进行多次交互。

提交的时候也不能只是呈现最终结果,而要完整展示他们如何从 AI 回答的初始版本,反馈迭代,推进到更完善的版本。这个结果应该体现学生的专业品味和判断力,展示他们认为合适的质量水平究竟如何。通过这种方式,我们可以更好地评估学生对专业知识和技能的理解深度。

这种方法不仅能督促和帮助学生真正动脑筋,还能让我们更好地识别他们在工作中实质的参与程度。与其单纯依赖检测工具,不如采用这种引导性的方式。「堵」不如「疏」嘛。

行文至此,我知道你早已按捺不住了。别着急,我知道你想问什么。

负担

这里有一个重要的问题需要讨论,那就是工作量。想象一下,原本只需要学生提交一份作业,现在却要求他们展示多个版本的迭代过程。这意味着老师需要审阅的内容至少是原来的3到6倍。此外,老师还需要与每位学生进行个性化问答,针对每个问题提出关键性的反馈和评价。这样的工作量对于老师来说无疑是巨大的,尤其是如果一学期要教授多门课程,老师可能会感到不堪重负。

那么,如何解决这个问题呢?

「解铃还须系铃人」,我们可以利用 AI 技术来减轻老师的负担。

首先,AI 可以帮助老师处理学生提交的不同版本作业。其次,AI 可以记录学生的回答过程,无论是通过录音还是录像,这些记录都可以被转换成文本,便于后续的评审和分析。例如,过去两年中,我在本科课程中就要求助教全程录像,这不仅作为评分依据,也便于解决可能的争议。以后,我会更加深度挖掘这些资料。

当然,有人可能会质疑,这是否又回到了「魔法对轰」的低层次使用 AI 的方式。

不。

问题的关键在于我们如何使用 AI。如果只是简单地让 AI 评判作业的对错或打分,那确实是不够的。我们需要的是让 AI 辅助老师进行更深入的评估和反馈,而不是完全替代老师的角色。

教学评价是教师的一项重要职责,当然不能完全外包出去。我们可以借助 AI 来辅助分析,比如让 AI 比较不同版本之间的差异,找出质量提升的具体体现,并识别出一系列关键问题。这些 AI 分析出的问题,可以作为教师向学生当场提问时的参考(因为完整的报告是在展示之前就已经提交的),帮助教师更好地了解学生的理解深度。

接下来,教师可以根据自己的专业和具体课程要求,设计一个结构化的提示词,让 AI 从学生的回答中提炼出关键点,并生成一份清晰的报告。通过审视这个报告,教师可以判断学生的回答是否切中要点。让 AI 以标准化的方式呈现文本中的关键点,可以帮助教师更好地对回答质量进行判断。

这里的关键是,不要依赖 AI 来评判学生的对错或打分,因为 AI 的评分可能完全不靠谱。但是 AI 把信息从一种形式(学生现场口语化的回答),转换成另一种形式(梳理逻辑之后的全部评分关键点),那就靠谱多了。

不过,AI 的表现除了跟提示词质量相关,还取决于所使用的模型。如果模型不够先进,AI 的提炼结果可能会不尽如人意。

模型

我写作本文时,世界上能力最强的公开发布大语言模型,是 OpenAI o1 pro。但价格较高,每月需要 200 美元。好在,你未必非得为了教学活动额外付出这么高的订阅费,因为也有一些性价比高的替代方案。

比如 Google 的 Gemini 2.0 Flash Thinking 模型就很好。这个模型不仅具备较强的推理能力,还能很好地遵循指令,在处理长文本时表现出色。最重要的是,它目前是免费的,通过第三方中转服务使用也非常便宜。

此外,国内也有一些类似的模型技术在快速发展中,比如深度求索(Deepseek)公司正在开发的反思式模型。我最近看到一个关于它能力的榜单,但一直没机会测试它的 API。

好在 Deepseek 官网上确实有个选项,可以进行「深度思考」。

你可以试试,然后把自己的感受在留言区跟大伙儿分享一下。

小结

小结一下,本文从「学生用 AI 代替自己写作业」这个愈发普遍的问题切入进行了探讨。我觉得以下要点你可以参考。

首先,我们不能忽视 AI 的存在。有必要让学生在学习过程中融入与 AI 的协作,这对他们未来的职场竞争力会有帮助。

其次,不要图省事。无论是「魔法对轰」还是简单粗暴地滥用 AI 检测结果,都是不负责任的做法。尤其是后者,一旦出现问题,负面效果显著。

第三,传统的仅提交文本作为评判依据的方式在今天已不再适用。我们应该鼓励学生使用 AI,但要求他们完整呈现协作过程,并通过提问来评估他们的参与度和思考质量。

作为老师,这些新技术确实增加了我们的工作负担和难度。但这是我们这个时代的机遇和挑战,面对它们比逃避要好得多。

祝老师和同学们 AI 辅助技能精进之路顺利!


点赞 +「在看」,转发给你身边有需要的朋友。收不到推送?那是因为你只订阅,却没有加星标

欢迎订阅我的小报童付费专栏,每月更新不少于3篇文章。订阅一整年价格优惠。

如果有问题咨询,或者希望加入社群和热爱钻研的小伙伴们一起讨论,订阅知识星球吧。不仅包括小报童的推送内容,还可以自由发帖与提问。之前已经积累下的帖子和问答,就有数百篇。足够你好好翻一阵子。知识星球支持72小时内无条件退款,所以你可以放心尝试。

若文中部分链接可能无法正常显示与跳转,可能是因为微信公众平台的外链限制。如需访问,请点击文末「阅读原文」链接,查看链接齐备的版本。 

延伸阅读