专栏名称: 玉树芝兰

思考教育、写作和互联网。我已委托“维权骑士”（rightknights.com）为我的文章进行维权行动。

学生偷懒用 AI 完成作业，老师该怎么办？

玉树芝兰 · 公众号 · 大数据 · 2025-01-20 16:37

正文

如果我们用昨天的方法，教今天的学生，我们就剥夺了他们的明天。

疑惑

作为教学评价的必要手段，老师们经常需要布置作业或课程结课论文。然而，如今不少学生开始借助人工智能（AI）来完成这些任务，这让老师们颇为头疼。

我有个朋友前两天就遇到了这个问题。

他教的课程一直要求学生在期末提交一份与课程相关的案例报告。以前他批改作业时，感觉挺轻松愉快，因为一眼就能看出学生写得是否认真。但今年他发现，有些作业写得特别好，好到让他怀疑是不是用 AI 写的。

这就让他很为难：如果这些作业真的是 AI 写的，那给他们高分，对那些自己认真写（但是质量稍微低一些）的同学是否不公平？但如果直接因为文笔流畅就判断说学生「你这是 AI 写的」，直接给低分，似乎也不太合适。

于是，他问我一个很实际的问题：有没有工具能准确检测出 AI 写的东西？如果有，那评判时就有依据了。

检测

AI 查重工具当然是有的。早在两年前 ChatGPT 刚出来时，OpenAI 就推出了一款官方的 AI 检测工具。但有趣的是，2023 年还没过完，他们就把这个工具下线了。

至于原因，很简单：这种工具无法做到百分之百准确，可用性非常有限。

如果你了解 AI ，或许会感到困惑——无论是情感分析还是图片分类任务，AI 大都无法做到 100% ，为什么这些任务上 AI 就被当成有用，但 AI 检测任务就定如此苛刻的标准？

这是因为，AI 检测任务哪怕错一次，都会带来严重后果 —— 如果一个学生非常认真地写了一篇近乎完美的作业，结果被 AI 检测工具判定为「疑似 AI 写作」，那可就糟糕了。这不仅对学生不公平，还会传递一个错误的信号：写得越好越容易被冤枉为「滥用 AI」。

这样一来，学生可能会为了避免被误判而故意主动降低写作质量，以保障 AI 检测率在阈值下方。这显然不是我们教学活动想要的结果。

另一方面，AI 检测的原理究竟是什么？我们鼓励学生在写作业、学期论文甚至毕业论文时，展现出原创思维和深刻思考。这才是我们最看重的。然而，AI检测工具的原理并不是检测原创性，而是通过某些特征来判断最终的结果文本是否由AI生成。这与我们之前使用的查重系统完全不同。

传统查重主要检测文本与已知成果之间的重合度，即是否存在大量与他人已经产出结果相似的内容，即使你换了说法也能被发现。而AI查重则是基于概率分布的检测方式。

生成式 AI 的工作原理是：根据前一个词预测下一个词，逐步生成完整内容。AI 查重就是检测这种生成模式 —— 如果每个词后面出现的词都是高概率的，就判定为 AI 生成。

这种检测方式存在两个主要问题：

首先是舍本逐末。假设你辛苦收集数据、提出原创分析方法，只是用AI润色文字以消除技术性错误，这本来是被学术界认可的。但AI查重会认为这是AI生成，可能给出90%以上的AI使用率，导致不公正的惩罚。

其次是误判问题。有些人写作水平高，写出的文章自然流畅，也可能被误判为AI生成。这种误判在学术评价中会造成严重后果。

所以目前的AI检测工具只能作为参考，绝不能作为评判依据。某名校的规定也提到，只有当检测结果达到一定阈值时，会给学生警示要求修改，而不是直接判定为抄袭或作弊。再强调一遍，AI 检测任务上，误判的后果可能比漏判更严重。

保守

前几天我作为教学督导和学院的青年教师座谈。讨论学生使用 AI 写作业的问题时，一位年轻老师提到，他的做法是让学生手写作业练习，不允许参考任何资料。这种方法类似于传统的闭卷考试。对于记忆性或理论性较强的课程，这种做法或许还说得过去。但问题在于，如果课程本身是动手实践、上机编程的综合实验课，最后却让学生坐在那里填空、选择、手写大题，这种做法就显得有些奇怪了。可他要教的，恰恰是一门综合实践类课程。

在《预测之书》中，沈祖芸老师引用了教育家杜威在 100 年前说的一句话：

如果我们用昨天的方法，教今天的学生，我们就剥夺了他们的明天。

我最近才看到这句话，并且深以为然。在那次讨论会上，我向这位年轻老师表达了类似的观点。

我说，我们教育的目的是让学生成为更好的自己，而不是让教学变得轻松。学生们毕业后，未来的工作环境中，与AI协作可预见是必然的。我们教的课程与编程和系统开发密切相关，学生将来与AI协作的能力可以算作是「吃饭的技能」。如果我们现在告诉他们学习、练习不能使用AI，那么他们所学的内容与未来的工作之间就会存在巨大的鸿沟。

对编程任务来说，GitHub Copilot, Cursor 和 Winsurf 这样的工具已经取代了记忆和查找 API，手工编代码的过程。这些工具在推理能力上还有争议，但「编程不再需要记忆那些 API 和开发文档」却已经是业界共识。如果我们今天还让学生背诵、手动默写这些内容，默写得准确就能得高分，这对他们将来的工作和能力培养又有什么帮助呢？

这番话让那位年轻老师陷入了沉思。

对轰

当然，教学实践中也早有人尝试了更激进的做法。去年 12 月在珠海的数据智能会议上，有老师提到了「魔法对轰」的现象 —— 学生用 AI 写程序并直接提交，助教则用 AI 来检测和评分。

结果有一次，学生发现自己的程序明明是对的，却被 AI 判错了，跑到老师这边申诉。助教检查后发现，确实是 AI 当时「犯傻」了。

这种情况让人哭笑不得，双方谁都没有对教学活动真正负责 —— 学生不自己写，助教不自己判，两个 AI 在那里「沟通」。这到底有什么意义呢？

思路

在面对学生作业提交的问题时，我们需要采取新的策略。传统的只让学生提交论文或报告文稿的方式已经不再适用。

过去，提交的文稿质量体现着学生尽力完成任务时的能力水平。但现在情况完全不同。学生可能完全依赖 AI 生成海量内容，看似有板有眼，但没有进行任何深入思考或学习。

为了应对这种情况，我建议采取以下措施：

首先，在学生提交作业后，必须进行现场答辩。从2023年开始，我每个学期期末都会这样做。学生需要解释他们的工作内容、选题意义、选择的具体方法或技术路线的原因，并回答老师（也就是我本人）和同学们（如有，一般没有）当场提出的问题。

当然了，千万不要把这件事弄成走过场。仅仅让学生讲述是不够的，因为他们的讲稿也可能由 AI 生成。只有通过提出关键问题，并且查看学生的回答反应，我们才可以判断学生是否真正投入了工作，进行了深入的思考。

其次，我们不但不能完全屏蔽 AI ，甚至还应该要求学生必须使用AI来辅助完成作业。以今天很多大模型近乎免费、甚至已经免费的价格，这不会给学生造成多大的额外经济压力。这话其实多余，因为如果学生们真的用不起 AI ，咱们也没有必要探讨今天的主题了，不是吗？

让学生使用 AI 辅助完成作业和练习的目的，是确保学生在这个过程中与 AI 协作，并且注重发挥自己（人）的作用。AI可以提供一个初步结果，但学生需要对其进行理解、消化和判断，找出问题并提出改进方向。通过这种方式，学生需要与AI进行多次交互。

提交的时候也不能只是呈现最终结果，而要完整展示他们如何从 AI 回答的初始版本，反馈迭代，推进到更完善的版本。这个结果应该体现学生的专业品味和判断力，展示他们认为合适的质量水平究竟如何。通过这种方式，我们可以更好地评估学生对专业知识和技能的理解深度。

这种方法不仅能督促和帮助学生真正动脑筋，还能让我们更好地识别他们在工作中实质的参与程度。与其单纯依赖检测工具，不如采用这种引导性的方式。「堵」不如「疏」嘛。

行文至此，我知道你早已按捺不住了。别着急，我知道你想问什么。

负担

这里有一个重要的问题需要讨论，那就是工作量。想象一下，原本只需要学生提交一份作业，现在却要求他们展示多个版本的迭代过程。这意味着老师需要审阅的内容至少是原来的3到6倍。此外，老师还需要与每位学生进行个性化问答，针对每个问题提出关键性的反馈和评价。这样的工作量对于老师来说无疑是巨大的，尤其是如果一学期要教授多门课程，老师可能会感到不堪重负。

那么，如何解决这个问题呢？

「解铃还须系铃人」，我们可以利用 AI 技术来减轻老师的负担。

首先，AI 可以帮助老师处理学生提交的不同版本作业。其次，AI 可以记录学生的回答过程，无论是通过录音还是录像，这些记录都可以被转换成文本，便于后续的评审和分析。例如，过去两年中，我在本科课程中就要求助教全程录像，这不仅作为评分依据，也便于解决可能的争议。以后，我会更加深度挖掘这些资料。

当然，有人可能会质疑，这是否又回到了「魔法对轰」的低层次使用 AI 的方式。

不。

问题的关键在于我们如何使用 AI。如果只是简单地让 AI 评判作业的对错或打分，那确实是不够的。我们需要的是让 AI 辅助老师进行更深入的评估和反馈，而不是完全替代老师的角色。

教学评价是教师的一项重要职责，当然不能完全外包出去。我们可以借助 AI 来辅助分析，比如让 AI 比较不同版本之间的差异，找出质量提升的具体体现，并识别出一系列关键问题。这些 AI 分析出的问题，可以作为教师向学生当场提问时的参考（因为完整的报告是在展示之前就已经提交的），帮助教师更好地了解学生的理解深度。

接下来，教师可以根据自己的专业和具体课程要求，设计一个结构化的提示词，让 AI 从学生的回答中提炼出关键点，并生成一份清晰的报告。通过审视这个报告，教师可以判断学生的回答是否切中要点。让 AI 以标准化的方式呈现文本中的关键点，可以帮助教师更好地对回答质量进行判断。

这里的关键是，不要依赖 AI 来评判学生的对错或打分，因为 AI 的评分可能完全不靠谱。但是 AI 把信息从一种形式（学生现场口语化的回答），转换成另一种形式（梳理逻辑之后的全部评分关键点），那就靠谱多了。

不过，AI 的表现除了跟提示词质量相关，还取决于所使用的模型。如果模型不够先进，AI 的提炼结果可能会不尽如人意。

模型

我写作本文时，世界上能力最强的公开发布大语言模型，是 OpenAI o1 pro。但价格较高，每月需要 200 美元。好在，你未必非得为了教学活动额外付出这么高的订阅费，因为也有一些性价比高的替代方案。

比如 Google 的 Gemini 2.0 Flash Thinking 模型就很好。这个模型不仅具备较强的推理能力，还能很好地遵循指令，在处理长文本时表现出色。最重要的是，它目前是免费的，通过第三方中转服务使用也非常便宜。

此外，国内也有一些类似的模型技术在快速发展中，比如深度求索（Deepseek）公司正在开发的反思式模型。我最近看到一个关于它能力的榜单，但一直没机会测试它的 API。

好在 Deepseek 官网上确实有个选项，可以进行「深度思考」。

你可以试试，然后把自己的感受在留言区跟大伙儿分享一下。

小结

小结一下，本文从「学生用 AI 代替自己写作业」这个愈发普遍的问题切入进行了探讨。我觉得以下要点你可以参考。

首先，我们不能忽视 AI 的存在。有必要让学生在学习过程中融入与 AI 的协作，这对他们未来的职场竞争力会有帮助。

其次，不要图省事。无论是「魔法对轰」还是简单粗暴地滥用 AI 检测结果，都是不负责任的做法。尤其是后者，一旦出现问题，负面效果显著。

第三，传统的仅提交文本作为评判依据的方式在今天已不再适用。我们应该鼓励学生使用 AI，但要求他们完整呈现协作过程，并通过提问来评估他们的参与度和思考质量。

作为老师，这些新技术确实增加了我们的工作负担和难度。但这是我们这个时代的机遇和挑战，面对它们比逃避要好得多。

祝老师和同学们 AI 辅助技能精进之路顺利！

点赞 +「在看」，转发给你身边有需要的朋友。收不到推送?那是因为你只订阅，却没有加星标。

欢迎订阅我的小报童付费专栏，每月更新不少于3篇文章。订阅一整年价格优惠。

如果有问题咨询，或者希望加入社群和热爱钻研的小伙伴们一起讨论，订阅知识星球吧。不仅包括小报童的推送内容，还可以自由发帖与提问。之前已经积累下的帖子和问答，就有数百篇。足够你好好翻一阵子。知识星球支持72小时内无条件退款，所以你可以放心尝试。

若文中部分链接可能无法正常显示与跳转，可能是因为微信公众平台的外链限制。如需访问，请点击文末「阅读原文」链接，查看链接齐备的版本。

学生偷懒用 AI 完成作业，老师该怎么办？

正文

疑惑

检测

保守

对轰

思路

负担

模型

小结

延伸阅读