2026 年人工智能探测器的准确度如何? 我们测试了其中 5 个
我们通过 Turnitin、GPTZero、Copyleaks、ZeroGPT 和 Originality.ai 运行了 50 个文本样本。 以下是我们对人工智能检测准确性和误报的发现。
我们网络中的一名博士生的论文简介被她所在大学的检测系统标记为 67% 是人工智能生成的。 每一个字都是她在四个月的时间里亲手写下的。 没有人工智能工具,没有语法检查器,甚至没有拼写检查。
她花了两周时间重写部分内容以降低分数。 它起作用了——但重写的版本比原来的版本更糟糕。
我们决定弄清楚这些工具实际上有多可靠。 所以我们测试了其中的五个。
我们的测试方法:5 个检测器中的 50 个样本
我们组装了 50 个文本样本,每个样本包含 500 到 800 个单词。 样本分为五类:
- 10 篇纯人类撰写的学术文本 — 2018 年至 2022 年发表的期刊文章,在法学硕士广泛普及之前撰写
- 10 篇纯人工智能生成的文本 — 由 GPT-4o 制作,带有学术提示,无需编辑
- 10 个人工智能生成的文本,只需少量手动编辑 — 人工智能草稿经过人工修正以确保准确性和语音
- 通过我们的 [text humanizer](/text- humanizer) 处理 10 个人工智能生成的文本 — 完整的人性化过程加上手动审核
- 10 篇由非英语母语人士撰写的文本 — 研究人员用第二或第三语言撰写的论文
我们通过 Turnitin 的 AI 检测模块、GPTZero、Copyleaks、ZeroGPT 和 Originality.ai 运行每个样本。 每个工具都会返回一个人工智能概率分数。 我们记录了每个分数并计算了准确性指标。
结果让我们感到惊讶。 并不是因为这些工具完全失败了,而是因为失败的模式非常不一致。
Turnitin AI 检测:准确率结果
Turnitin 正确识别了 10 个纯 AI 生成的文本中的 9 个,得分超过 80%。 这是明显的人工智能输出的可靠表现。
它的困境在于:误报。 我们的 10 篇人工撰写的学术文章中有 3 篇在 Turnitin 的 AI 指标上得分超过 20%。 其中一篇——来自化学期刊的正式文献综述——得分为 38%。
在人性化文本上,Turnitin 的性能大幅下降。 10 个人源化样本中只有 3 个得分高于 20% 阈值。 其余 7 个得分在 2% 到 17% 之间。
非母语英语写作是最差的类别。 十分之四的非本地样本标记为 20% 以上。 其中一项得分为52%。 这些是真实的人类研究人员真实发表的论文。
Turnitin 在我们的测试中的总体准确率:72%。 这听起来可以接受,直到您意识到 28% 的错误率意味着大约四分之一的判断可能是错误的。
GPTZero vs Copyleaks vs ZeroGPT:正面交锋
我们针对完整的样本集测试了三种最流行的独立人工智能探测器。
GPTZero 是最具攻击性的检测器。 它捕获了十分之十的原始人工智能文本——完美回忆。 但它也将 4 篇人类编写的文本和 5 篇非母语英语文本标记为主要由人工智能生成。 它的假阳性率是我们测试中最高的,为 12%。
Copyleaks采取了更为保守的方法。 它正确识别了 10 个人工智能文本中的 8 个,但仅错误地标记了 1 个人类编写的样本。 在人性化文本上,它抓住了十分之四的结果——使其成为对抗人性化文本的最佳表现者,但仍然漏掉了一半以上。
ZeroGPT 是最不可靠的。 它正确标记了 10 个人工智能文本中的 7 个,但也错误地标记了 3 个人类编写的文本。 更糟糕的是,它的分数波动很大——我们对同一个样本进行了两次测试,30% 的情况下得到了不同的结果。 一致性对于检测工具来说很重要,而 ZeroGPT 却没有做到这一点。
Originality.ai 在原始 AI 文本上表现良好(检测到 9/10),在人类文本上误报率较低(1/10 错误标记)。 在人性化文本上,它抓住了十分之五——处于中等水平。
以下是令人不安的总结:没有任何检测器在所有样本类别中都能达到 80% 以上的总体准确度。
没人谈论的误报问题
误报是人工智能检测领域悄然存在的危机。 当检测器错误地将人类编写的文本标记为人工智能生成时,它会将举证责任交给作者。 “证明你没有使用人工智能”几乎是一个不可能的要求。
我们的测试发现了人类文本被错误标记的一致模式:
**高度结构化的正式写作。**你的散文越有条理、越优美,检测器就越有可能标记它。 清晰的主题句、逻辑性的段落进展、一致的术语——所有这些都是良好的人类写作和人工智能输出所共有的模式。
**公式化部分。**方法部分、程序描述和文献综述遵循学科特定的模板。 每个研究人员都以同样的方式写道“数据是通过半结构化访谈收集的”。 检测器无法区分传统与生成。
低熵词汇。 某些领域(法律、医学、工程)使用同义词选项有限的专业词汇。 当您必须重复使用特定术语时,您的文本对于基于困惑的检测器来说看起来更“可预测”。
非母语英语。 我们不断地讨论这个问题,因为这是最令人不安的发现。 研究人员用第二语言编写的文本具有较低的词汇多样性和更加公式化的结构——这正是检测器与人工智能相关的模式。 这造成了大多数机构尚未解决的歧视性结果。
这对于使用人工智能工具的研究人员意味着什么
如果你使用人工智能作为写作助手——起草、重组、润色——检测环境会产生一个真正的问题。 即使您完全用手写的文本也可能会出现问题。 人工智能辅助文本几乎肯定会被标记,除非你采取措施使其人性化。
我们基于此测试的建议:
不要相信任何单个检测器的结论。 我们看到在一种工具上得分为 5% 的样本,在另一种工具上得分为 68% 的样本。 如果您的机构使用一个检测器,那么这对合规性至关重要 - 但单个分数并不能证明人工智能的使用。
**战略性地人性化。**原始人工智能输出是可检测的。 人性化的文本大多不是。 如果您使用人工智能辅助,请通过[高质量人性化工具](/text- humanizer)运行您的草稿并添加您的个人声音。 我们的测试表明,这种组合将所有五种工具的检测分数降低至 15% 以下。
保留您的草稿。 保存您工作的中间版本。 浏览器历史记录、ChatGPT 对话日志、带注释的 PDF、手写笔记 — 如果您被询问,所有这些都可以提供您的写作过程的证据。
倡导更好的制度政策。 人工智能检测工具不够可靠,无法作为学术不诚实的唯一证据。 如果你的大学将 Turnitin AI 分数视为证据,请用数据来反驳。 分享这样的研究。
有关处理标记文本的实际步骤,请参阅我们的指南研究人员如何在不作弊的情况下绕过人工智能检测。
人工智能检测军备竞赛并未放缓。 探测器将会改进。 但人工智能辅助写作工具也会如此。 长期的解决方案不是更好的检测,而是更好的政策,承认现在写作实际上是如何发生的。
你的工作是真实的。 你的想法是真实的。 有缺陷的算法不应该成为这一点的判断者。
通过跟踪更改校对和润色您的手稿。专为学术写作而打造。
常见问题
问:哪种人工智能探测器最准确?
在我们的测试中,Turnitin 和 Originality.ai 在所有样本类别中并列获得最高的总体准确率,分别为 72% 和 74%。 然而,准确度因文本类型而异。 Turnitin 最擅长捕获原始 AI 输出,但对非母语英语文本的误报较多。 Originality.ai 在人性化文本上更加平衡,但效果较差。 没有任何一个检测器在所有类别中都能达到 80% 以上的准确度,这对于用于做出学术诚信决策的工具来说是一个重大限制。
问:人工智能检测器适用于学术写作吗?
他们在某些类型的学术写作上比其他类型做得更好。 学术风格的原始、未经编辑的人工智能输出通常会被捕获——在我们的测试中,检测率在 70% 到 100% 之间。 但正式的人工撰写的学术文本会引发误报率,令人担忧——在我们的测试中高达 12%。 具有专业词汇的技术领域和非英语母语作家受到的影响尤为严重。 简短的答案是:人工智能检测器适用于学术写作,但不够可靠,无法作为独立证据。
问:人工智能检测器标记人类书写的频率如何?
在我们对 20 个人类编写的样本(10 个为母语,10 个为非母语)的测试中,9 个样本(45%)在至少一个检测器上获得了 20% 以上的 AI 分数。 三篇人工撰写的文本在至少一种工具上得分超过 50%。 每个检测器的误报率在 4% 到 12% 之间。 如果您的母语非英语,并且正在撰写正式的学术散文,则误报的可能性会更高。 这就是为什么我们建议无论您是否使用人工智能工具都保留草稿和流程证据。

Ema is a senior academic editor at ProofreaderPro.ai with a PhD in Computational Linguistics. She specializes in text analysis technology and language models, and is passionate about making AI-powered tools that truly understand academic writing. When she's not refining proofreading algorithms, she's reviewing papers on NLP and discourse analysis.