1. 通用检测:支持六大主流语言的 AI 检测,涵盖多任务检测(润色、扩写、改写、纯生成)。
2. 多语言支持:覆盖英语、中文、西班牙语、葡萄牙语等多种主流语言,确保地区公平性。
3. 训练高效性:低成本训练,仅需 500 对样本、5 分钟训练时间,检测性能媲美甚至超越商用检测器。
4. 代码开源:提供免费在线体验、代码和数据集的全面开放。 论文标题:
Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detection
https://arxiv.org/abs/2412.10432
https://machine-text-detection.github.io/ImBD
https://ai-detector.fenz.ai
https://github.com/Jiaqi-Chen-00/ImBD
共同第一作者包括: 陈家棋(复旦大学、Stanford University),朱小烨(华南理工大学、NUS(重庆))、刘天炀(UCSD)。主要作者还包括:陈莹(UIUC)、陈心慧(武汉大学、Fenz.AI)、袁怡雯(CMU)、Chak Tou Leong(香港理工大学)、唐龙(独立研究者)、张磊(UCSD)、Chenyu Yan(Georgia Tech)、梅光浩(UCSD)。共同通讯作者:李祖超、张乐飞(武汉大学)、张捷(复旦大学)。
现如今,大语言模型(LLMs)已经在文本生成领域达到了接近人类水平的能力。然而,随着这些模型被广泛应用于文本创作,其在考试、学术论文等领域的滥用引发了严重关注。特别是在当前场景下,用户往往不是完全依赖 AI 生成内容,而是利用 AI 对人类原创内容进行修改和润色,这种混合型的内容给检测带来了前所未有的挑战。
传统的机器生成文本检测方法在识别纯 AI 生成内容时表现良好,但面对机器修订文本时常常误判。这是因为机器修订文本通常只对原始人类文本做出细微改动,同时包含了大量人类创作的特征和领域专业术语,这使得基于概率统计的传统检测方法难以准确识别。
近期,来自复旦大学、华南理工大学、武汉大学、Fenz.AI 以及 UCSD、UIUC 等等机构的研究团队提出了创新的检测框架 ImBD (Imitate Before Detect)。 该方法从“模仿”的角度切入:通过先学习和模仿机器的写作风格特征(如特定词汇偏好、句式结构等),再基于这些特征进行检测。 研究团队创新性地引入了风格偏好优化(Style Preference Optimization, SPO),使评分模型能够精确捕捉机器修订的细微特征。 实验表明,该方法在检测 GPT-3.5 [1] 和 GPT-4 [2] 修改的文本时,准确率分别提升了 15.16% 和 19.68%,仅需 1000 个样本和 5 分钟训练就能超越商业检测系统的性能。研究团队开发了在线演示平台(见图 1),使研究人员和开发者能够直观体验该技术的检测效果。该成果已被 AAAI 2025 接收(中稿率 23.4%)。
▲ 图1. ImBD 检测系统的 Web 界面演示
随着大语言模型(LLMs)的快速发展和广泛应用,AI 辅助写作已经成为一种普遍现象。然而,这种技术的普及也带来了新的挑战,特别是在需要严格管控 AI 使用的领域,如学术写作、新闻报道等。 与传统的纯机器生成文本不同,当前更常见的场景是用户利用 AI 对人类原创内容进行修改和润色,这种混合型的内容使得检测工作变得异常困难。如图 2(a-c)所示,相比于人类原创文本和纯机器生成文本之间的明显差异,机器修订文本往往与原始人类文本只有细微的改动。
▲ 图2 人类撰写、机器生成和机器修订文本的对比分析
传统的机器生成文本检测方法主要依赖于预训练语言模型的 token 概率分布特征,这些方法假设机器生成的文本通常具有更高的对数似然或负概率曲率。然而,当面对机器修订文本时,这些方法的性能显著下降。 如图 2(d)所示,在检测机器修订文本时,即使是最先进的 Fast-DetectGPT [3] 方法也出现了明显的性能下降。这种性能降低主要源于两个方面:首先,机器修订文本保留了大量人类创作的内容和领域特定术语,这些特征往往会误导检测器将文本判定为人类撰写;其次,随着 GPT-4 等新一代语言模型的出现,机器的写作风格变得更加微妙和难以捕捉。
特别值得注意的是,机器修订文本的特征往往体现在一些细微的文体特征上。如图 2 所示的例子,这些特征包括独特的词语选择(如倾向使用 “stunning”、“once-in-a-lifetime” 等词)、复杂的句子结构(如更多的从句使用)以及统一的段落组织方式。 这些风格特征虽然细微,但却是区分人类原创和机器修订文本的关键线索。然而,由于这些特征往往与人类创作的内容紧密交织,现有的检测方法难以有效捕捉和利用这些特征,这就导致了检测准确率的下降。
因此,如何在保留了人类创作内容的文本上准确识别机器修订的痕迹,是当前亟待解决的关键问题。这不仅关系到学术诚信的维护,也影响着在线信息的可信度评估。开发一种能够有效识别机器修订文本的检测方法,对于维护不同领域的内容质量和可信度具有重要意义。
ImBD 的核心创新在于将风格感知机制引入机器修改文本检测领域,首次提出了结合偏好优化和风格概率曲线的双重检测框架。不同于传统方法仅关注内容层面的概率差异,本文通过精确捕捉机器修改文本的风格特征,有效解决了当前检测方法在处理部分人工内容场景下的局限性。 2.1 问题形式化
在机器修改文本检测任务中,我们将输入文本表示为标记序列 ,其中 为序列长度。核心目标是构建一个决策函数 ,通过评分模型 判定文本是人类撰写(输出 0)还是经过机器修改(输出 1)。这种形式化将复杂的文本分析问题转化为可处理的二元分类任务。 2.2 基础理论
传统检测方法主要基于一个关键观察:机器生成倾向于选择高概率标记,而人类写作则展现更多样的概率分布。这种差异可以通过如下不等式形式化表达:
其中,原始人类文本记为 ,机器修订的文本记为 ,等式左端表示机器修改文本的对数概率,通过计算在扰动采样分布 下的期望值来估计;右端则表示人类写作文本的对数概率及其对应的扰动期望值。 这个不等式反映了机器生成文本在扰动后往往出现更显著的概率下降,而人类写作文本则保持相对稳定的概率分布特征。 如图 3(左)所示,在纯机器生成文本中,这种差异表现得最为明显。 然而,当涉及机器修改文本时,如图 3(右)所展示的,两类文本的概率分布会出现显著重叠,导致传统检测方法失效。
2.3 偏好优化的风格模仿
为克服上述限制,我们提出通过偏好优化来增强模型对机器风格的感知能力。如图 4(b)所示,这一机制的核心是构建文本对之间的偏好关系:将原始人类文本与其机器修改版本配对,通过这种配对可以在保持内容一致的同时突出风格差异。
基于 Bradley-Terry 模型,定义偏好分布:
其中, 表示偏好机器修改文本而非人类文本的概率,这个概率随着奖励差值 的增加而增长。为了实现这一目标,奖励函数被定义为:
这里的 代表参考模型(通常是 的初始状态)。通过这种奖励函数的设计,我们用策略模型而非奖励模型来表达偏好数据的概率。对于一个包含内容等价 对的训练数据集 ,优化目标可以表示为: 通过优化这个目标函数,模型 能够逐步调整以偏好机器修改文本的风格特征。如图 4(a)所示,这种调整使得模型对机器风格特征(如 “delve” 这样的词)表现出更强的偏好。最终优化后的模型记为 ,它代表了一个与机器风格高度对齐的评分模型。 2.4 基于风格概率曲线的检测
在风格对齐的基础上,我们引入风格条件概率曲线(styleconditional probability curvature, Style-CPC)作为最终的检测机制:
通过这种度量,我们能够有效量化文本样本与机器风格的偏离程度。如图 3 对比所示,优化后的模型能够显著减少人类文本和机器修改文本分布的重叠,最终通过简单的阈值策略实现准确检测:
这种基于风格感知的检测框架不仅提高了对机器修改文本的识别准确率,更为重要的是,它为解决高级语言模型输出检测这一愈发重要的问题提供了新的思路。通过将注意力从内容转向风格特征,该方法展现出较强的泛化能力,特别是在处理包含用户提供内容的复杂场景时表现出明显优势。
在 polish 任务上,相比 Fast-DetectGPT,ImBD 在检测 GPT-3.5 和 GPT-4o 修订的文本时分别提升了 15.16% 和 19.68% 的性能;相比有监督模型 RoBERTa-large,ImBD 在 GPT-3.5 和 GPT-4o 的文本检测上分别提高了 32.91% 和 47.06% 的性能。在保持高检测性能的同时,推理速度仍保持高效,每 1000 词仅需 0.72 秒。
仅使用 1000 个样本和 5 分钟的 SPO 训练,ImBD 就达到 0.9449 的 AUROC 分数,超过了使用大规模数据训练的商业检测工具 GPTZero [4] (0.9351)。
3.2 在开源模型上的检测性能
在检测 Qwen2-7B [5] 、Llama-3 [6] 、Mixtral-7B [7] 和 Deepseek-7B [8] 四个开源模型修改的文本时,ImBD 方法在 XSum、SQuAD 和 WritingPrompts 三个数据集上的平均 AUROC 达到 0.9550,显著优于 Fast-DetectGPT 的 0.8261。 ImBD 方法在 rewrite(0.8739)、expand(0.9758)、polish(0.9707)和 generate(0.9996)四个任务上全面超越现有方法,平均性能比 Fast-DetectGPT 提升 22.12%,证明了其在不同任务和用户指令下的稳健性。
3.4 消融实验
与未使用模仿策略的基线模型相比,采用 SPO 优化的 ImBD 方法在 GPT-3.5 和 GPT-4o 的文本检测上 AUROC 分别提升了 16% 和 20%;相比使用 3 倍训练数据的 SFT(Supervised Fine-Tuning)方法,ImBD 的 AUROC 在 GPT-3.5 和 GPT-4o 上分别高出 30% 和 24%。
3.5 文本长度敏感性研究
当文本长度从 30 词增加到 180 词时,ImBD 方法始终保持领先优势,且随着文本长度增加检测准确率稳步提升,展现出卓越的长文本处理能力。
ImBD 在多语言文本检测中展示出优异的泛化能力,在西班牙语、葡萄牙语和中文的检测中分别达到 0.8487、0.8214 和 0.8792 的 AUROC 分数,全面超越 Fast-DetectGPT 等基线方法,且在部分基线方法(如 DNA-GPT [9] )失效的中文测试中仍保持稳定性能。
这项工作提出了”模仿后检测”(Imitate Before Detect)范式来检测机器修改的文本,其核心是学习模仿 LLM 的写作风格。具体而言,论文提出了风格偏好优化方法来使检测器对齐机器写作风格,并利用基于风格的条件概率曲率来量化对数概率差异,从而实现有效检测。通过广泛的评估实验,ImBD 方法相比现有最先进的方法展现出显著的性能提升。
论文的主要研究者来自复旦大学、华南理工大学、武汉大学、Fenz.AI 以及 UCSD、UIUC 等机构。
Jiaqi Chen
Master student | Fudan University
Visiting student researcher | Stanford University
Email: [email protected]
Google Scholar / Github
论文一作陈家棋 ,复旦大学硕士生,斯坦福大学访问学生学者,主要研究领域为计算机视觉和智能体。
Zuchao Li
Computer Science Department
Wuhan University
Email: [email protected]
Google Scholar / WHU Profiles
李祖超 ,现任武汉大学计算机学院副研究员,在上海交通大学完成博士学位,曾在日本国立信息通信技术研究所(NICT)担任特别技术研究员。
Jie Zhang
ISTBI
Fudan University
Email: [email protected]
Google Scholar / Fudan Profiles
张捷 ,现任复旦大学类脑智能科学与技术研究院研究员,博士生导师。2008年于香港理工大学获博士学位。曾获“香港青年科学家奖”提名奖。为牛津大学“系统建模分析与预测”实验室荣誉成员。
[1]. OpenAI. ChatGPT: Optimizing Language Models for Dialogue. http://web.archive.org/web/20230109000707/ https://openai.com/blog/chatgpt/, 2022.
[2]. Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
[3]. Bao G, Zhao Y, Teng Z, et al. Fast-detectgpt: Efficient zero-shot detection of machine-generated text via conditional probability curvature. arXiv preprint arXiv:2310.05130, 2023.
[4]. Tian E, Cui A, et al. GPTZero: Towards detection of AIgenerated text using zero-shot and supervised methods. https://gptzero.me, 2023.
[5]. Yang A, Yang B, Hui B, et al. Qwen2 technical report. arXiv preprint arXiv:2407.10671, 2024.
[6]. Meta A I. Introducing meta llama 3: The most capable openly available llm to date. Meta AI, 2024.
[7]. Jiang A Q, Sablayrolles A, Roux A, et al. Mixtral of experts. arXiv preprint arXiv:2401.04088, 2024.
[8]. Bi X, Chen D, Chen G, et al. Deepseek llm: Scaling open-source language models with longtermism. arXiv preprint arXiv:2401.02954, 2024.
[9]. Yang X, Cheng W, Wu Y, et al. Dna-gpt: Divergent n-gram analysis for training-free detection of gpt-generated text. arXiv preprint arXiv:2305.17359, 2023.
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: [email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧