AI 查重工具当然是有的。早在两年前 ChatGPT 刚出来时,OpenAI 就推出了一款官方的 AI 检测工具。但有趣的是,2023 年还没过完,他们就把这个工具下线了。
至于原因,很简单:这种工具无法做到百分之百准确,可用性非常有限。
如果你了解 AI ,或许会感到困惑——无论是情感分析还是图片分类任务,AI 大都无法做到 100% ,为什么这些任务上 AI 就被当成有用,但 AI 检测任务就定如此苛刻的标准?
这是因为,AI 检测任务哪怕错一次,都会带来严重后果 —— 如果一个学生非常认真地写了一篇近乎完美的作业,结果被 AI 检测工具判定为「疑似 AI 写作」,那可就糟糕了。这不仅对学生不公平,还会传递一个错误的信号:写得越好越容易被冤枉为「滥用 AI」。
这样一来,学生可能会为了避免被误判而故意主动降低写作质量,以保障 AI 检测率在阈值下方。这显然不是我们教学活动想要的结果。
另一方面,AI 检测的原理究竟是什么?我们鼓励学生在写作业、学期论文甚至毕业论文时,展现出原创思维和深刻思考。这才是我们最看重的。然而,AI检测工具的原理并不是检测原创性,而是通过某些特征来判断最终的结果文本是否由AI生成。这与我们之前使用的查重系统完全不同。
传统查重主要检测文本与已知成果之间的重合度,即是否存在大量与他人已经产出结果相似的内容,即使你换了说法也能被发现。而AI查重则是基于概率分布的检测方式。
生成式 AI 的工作原理是:根据前一个词预测下一个词,逐步生成完整内容。AI 查重就是检测这种生成模式 —— 如果每个词后面出现的词都是高概率的,就判定为 AI 生成。
首先是舍本逐末。假设你辛苦收集数据、提出原创分析方法,只是用AI润色文字以消除技术性错误,这本来是被学术界认可的。但AI查重会认为这是AI生成,可能给出90%以上的AI使用率,导致不公正的惩罚。
其次是误判问题。有些人写作水平高,写出的文章自然流畅,也可能被误判为AI生成。这种误判在学术评价中会造成严重后果。
所以目前的AI检测工具只能作为参考,绝不能作为评判依据。某名校的规定也提到,只有当检测结果达到一定阈值时,会给学生警示要求修改,而不是直接判定为抄袭或作弊。再强调一遍,AI 检测任务上,误判的后果可能比漏判更严重。
在面对学生作业提交的问题时,我们需要采取新的策略。传统的只让学生提交论文或报告文稿的方式已经不再适用。
过去,提交的文稿质量体现着学生尽力完成任务时的能力水平。但现在情况完全不同。学生可能完全依赖 AI 生成海量内容,看似有板有眼,但没有进行任何深入思考或学习。
首先,在学生提交作业后,必须进行现场答辩。从2023年开始,我每个学期期末都会这样做。学生需要解释他们的工作内容、选题意义、选择的具体方法或技术路线的原因,并回答老师(也就是我本人)和同学们(如有,一般没有)当场提出的问题。
当然了,千万不要把这件事弄成走过场。仅仅让学生讲述是不够的,因为他们的讲稿也可能由 AI 生成。只有通过提出关键问题,并且查看学生的回答反应,我们才可以判断学生是否真正投入了工作,进行了深入的思考。
其次,我们不但不能完全屏蔽 AI ,甚至还应该要求学生必须使用AI来辅助完成作业。以今天很多大模型近乎免费、甚至已经免费的价格,这不会给学生造成多大的额外经济压力。这话其实多余,因为如果学生们真的用不起 AI ,咱们也没有必要探讨今天的主题了,不是吗?
让学生使用 AI 辅助完成作业和练习的目的,是确保学生在这个过程中与 AI 协作,并且注重发挥自己(人)的作用。AI可以提供一个初步结果,但学生需要对其进行理解、消化和判断,找出问题并提出改进方向。通过这种方式,学生需要与AI进行多次交互。
提交的时候也不能只是呈现最终结果,而要完整展示他们如何从 AI 回答的初始版本,反馈迭代,推进到更完善的版本。这个结果应该体现学生的专业品味和判断力,展示他们认为合适的质量水平究竟如何。通过这种方式,我们可以更好地评估学生对专业知识和技能的理解深度。
这种方法不仅能督促和帮助学生真正动脑筋,还能让我们更好地识别他们在工作中实质的参与程度。与其单纯依赖检测工具,不如采用这种引导性的方式。「堵」不如「疏」嘛。
行文至此,我知道你早已按捺不住了。别着急,我知道你想问什么。
这里有一个重要的问题需要讨论,那就是工作量。想象一下,原本只需要学生提交一份作业,现在却要求他们展示多个版本的迭代过程。这意味着老师需要审阅的内容至少是原来的3到6倍。此外,老师还需要与每位学生进行个性化问答,针对每个问题提出关键性的反馈和评价。这样的工作量对于老师来说无疑是巨大的,尤其是如果一学期要教授多门课程,老师可能会感到不堪重负。
「解铃还须系铃人」,我们可以利用 AI 技术来减轻老师的负担。
首先,AI 可以帮助老师处理学生提交的不同版本作业。其次,AI 可以记录学生的回答过程,无论是通过录音还是录像,这些记录都可以被转换成文本,便于后续的评审和分析。例如,过去两年中,我在本科课程中就要求助教全程录像,这不仅作为评分依据,也便于解决可能的争议。以后,我会更加深度挖掘这些资料。
当然,有人可能会质疑,这是否又回到了「魔法对轰」的低层次使用 AI 的方式。
问题的关键在于我们如何使用 AI。如果只是简单地让 AI 评判作业的对错或打分,那确实是不够的。我们需要的是让 AI 辅助老师进行更深入的评估和反馈,而不是完全替代老师的角色。
教学评价是教师的一项重要职责,当然不能完全外包出去。我们可以借助 AI 来辅助分析,比如让 AI 比较不同版本之间的差异,找出质量提升的具体体现,并识别出一系列关键问题。这些 AI 分析出的问题,可以作为教师向学生当场提问时的参考(因为完整的报告是在展示之前就已经提交的),帮助教师更好地了解学生的理解深度。
接下来,教师可以根据自己的专业和具体课程要求,设计一个结构化的提示词,让 AI 从学生的回答中提炼出关键点,并生成一份清晰的报告。通过审视这个报告,教师可以判断学生的回答是否切中要点。让 AI 以标准化的方式呈现文本中的关键点,可以帮助教师更好地对回答质量进行判断。
这里的关键是,不要依赖 AI 来评判学生的对错或打分,因为 AI 的评分可能完全不靠谱。但是 AI 把信息从一种形式(学生现场口语化的回答),转换成另一种形式(梳理逻辑之后的全部评分关键点),那就靠谱多了。
不过,AI 的表现除了跟提示词质量相关,还取决于所使用的模型。如果模型不够先进,AI 的提炼结果可能会不尽如人意。
小结一下,本文从「学生用 AI 代替自己写作业」这个愈发普遍的问题切入进行了探讨。我觉得以下要点你可以参考。
首先,我们不能忽视 AI 的存在。有必要让学生在学习过程中融入与 AI 的协作,这对他们未来的职场竞争力会有帮助。
其次,不要图省事。无论是「魔法对轰」还是简单粗暴地滥用 AI 检测结果,都是不负责任的做法。尤其是后者,一旦出现问题,负面效果显著。
第三,传统的仅提交文本作为评判依据的方式在今天已不再适用。我们应该鼓励学生使用 AI,但要求他们完整呈现协作过程,并通过提问来评估他们的参与度和思考质量。
作为老师,这些新技术确实增加了我们的工作负担和难度。但这是我们这个时代的机遇和挑战,面对它们比逃避要好得多。
点赞 +「在看」,转发给你身边有需要的朋友。收不到推送?那是因为你只订阅,却没有加星标。
欢迎订阅我的小报童付费专栏,每月更新不少于3篇文章。订阅一整年价格优惠。
如果有问题咨询,或者希望加入社群和热爱钻研的小伙伴们一起讨论,订阅知识星球吧。不仅包括小报童的推送内容,还可以自由发帖与提问。之前已经积累下的帖子和问答,就有数百篇。足够你好好翻一阵子。知识星球支持72小时内无条件退款,所以你可以放心尝试。
若文中部分链接可能无法正常显示与跳转,可能是因为微信公众平台的外链限制。如需访问,请点击文末「阅读原文」链接,查看链接齐备的版本。